人工智能(AI)背后人工的力量——数据标注
尽管随着AI的普及,我们在生活中越来越依赖于人工智能,但“人工智障”的相关调侃也从来没有消失过。
相信大家都知道,如果我们想要让AI准确识别出图中的鸟,我们需要在数据集中手动将这些照片标记为鸟,然后让算法和图像之间产生关联性的判断识别。
要是小规模的实验性数据还好,一旦遇到那种规模多达数百万个的标记需求,个中消耗的时间真是难以想象。
所谓“得数据者,得人工智能”,如今人工智能早已在我们的生活中屡见不鲜,像“指纹解锁”、“人脸识别”等等都属于人工智能的范畴,然而人工智能的上游基础产业,数据标注却鲜为人知。什么是数据标注?
在了解数据标注之前,先来了解人工智能。
人工智能(ArtificialIntelligence),英文缩写为AI。它是研究、开发用于模拟、延伸和扩展人的智能的理论、方法、技术及应用系统的一门新的技术科学。它企图了解智能的实质,并生产出一种新的能以人类智能相似的方式做出反应的智能机器,该领域的研究包括机器人、语言识别、图像识别、自然语言处理和专家系统等。人工智能从诞生以来,理论和技术日益成熟,应用领域也不断扩大,可以设想,未来人工智能带来的科技产品,将会是人类智慧的“容器”。
人工智能,其实是部分替代人的认知功能。人工智能算法是数据驱动型算法,也就是说,如果想实现人工智能,首先需要把人类理解和判断事物的能力教给计算机,让计算机学习到这种识别能力。
类比机器学习,我们要教它认识一只猫,直接给它一张猫的图片,它是完全不知道这是什么。
我们得先有猫的图片,上面标注着“猫”这个字,然后机器通过学习了大量的图片中的特征,这时候再给机器任意一张猫的图片,它就能认出来这是猫了。
训练集和测试集都是标注过的数据,以猫为例,假设我们有1000张标注着“猫”的图片,那么我们可以拿800张作为训练集,200张作为测试集。机器从800张猫的图片中学习得到一个模型,然后将剩下的200张机器没有见过的图片去给它识别,然后我们就能够得到这个模型的准确率了。
所以目前人工智能需要标注大量数据,即对原始信息进行数据标注。
数据标注为通过分类、画框、标注、注释等,对图片、语音、文本等数据进行处理,标记对象的特征,以作为机器学习基础素材的过程。
数据标注是大部分人工智能算法得以有效运行的关键环节。数据标注是把需要机器识别和分辨的数据贴上标签,然后让计算机不断地学习这些数据的特征,最终实现计算机能够自主识别。数据标注的应用场景
1.智能安防智能安防是人工智能与信息技术结合的关键领域,对于城市与民生发展有重要的意义。通过生物识别、行为监测等技术手段,广泛地应用于城市道路监控、车辆人流监测、公共安全防范等领域。
人脸标注在智能安防中主要应用于人脸识别与身份识别。
人脸识别也称人像识别、面部识别,是基于人的脸部特征信息进行多年龄段、多角度、多表情、多光线的人脸图像采集,从而完成身份识别的一种生物识别技术。人脸识别涉及的技术主要包括计算机视觉、图像处理等。
人脸识别(视觉识别技术的一种应用)在国内的应用大致经历从公共安全领域扩展到商业领域的过程。最初,机场、高铁站以及酒店等场景使用这项技术对个人身份进行验证,随后商业银行也开始采用人脸识别实现远程开户。再之后,刷脸支付、刷脸门禁也相继出现,人脸识别逐渐从少数有限场景渗透到人们的日常生活之中,目前,人脸识别技术已广泛应用于多个领域,除了智能安防之外,还应用于金融、司法、公安、边检、航天、电力、教育、医疗等众多领域。
此外,物品标注在智能安防应用中,物品标注需要和行为标注结合。
2.智能交通近年来,随着人工智能浪潮的兴起,无人驾驶、智能交通安全系统一度走进我们的生活,国内许多公司纷纷投入到自动驾驶和无人驾驶的研究,例如百度启动的“百度无人驾驶汽车”计划,其自主研发的无人驾驶汽车Apollo还曾亮相2018年央视春晚。
在汽车自动驾驶的过程中,想要让汽车本身的算法做到处理更多、更复杂的场景,背后就需要有海量的真实道路数据做支撑。而这就需要依靠数据标注。
此外还有智慧停车,这些也都要依赖于人工智能数据标注的介入,对于行车视频进行采集,路况进行提取,停车点进行标注,包括D点云障碍物、红绿灯、车道灯及高精地图。为行人识别、车辆识别、红绿灯识别、车道线识别等技术提供精确训练数据,为智能交通保驾护航。
3.智能医疗智能医疗是通过打造健康档案区域医疗信息平台,利用最先进的物联网技术,实现患者与医务人员、医疗机构、医疗设备之间的互动,逐步达到信息化。AI与医疗行业的结合将有望迎来跨越式发展。
医疗影像标注是对医疗影像进行区域标注及分类标注,多应用于辅助临床诊断。人工智能通过学习大量的医疗影像标注数据集,将会很好的辅助医生进行临床诊断以及提出治疗方案。
得数据者,得人工智能人工智能主要算法应用领域集中在计算机视觉、语音识别/语音合成,以及自然语言处理三个方面。
图像方面:一个新研发的计算机视觉算法需要上万张到数十万张不等的标注图片训练,新功能的开发需要近万张图片训练,而定期优化算法也有上千张图片的需求,一个用于智慧城市的算法应用,每年都有数十万张图片的稳定需求。
语音方面:头部公司累计应用的标注数据集已达百万小时以上,每年需求仍以20%-30%的增速上升,要求数据服务商不仅要掌握专业的声学知识、数据标注经验,还要拥有语音合成的算法能力。
自然语言处理方面:随着工业、医疗、教育的AI应用产品进一步爆发,将会有更多交互方式出现,自然语义数据处理的需求将会持续增长,有望成为继图像、语音之后的第三大增量市场。
有多少智能,就有多少人工
这些海量的数据几乎全部依赖数据标注师手工进行标注,数据标注行业的缺口十分可观,并且数据标注已经在各行业产生了极广的应用,行业也开始逐渐升级,走向产业化。
在数据标注行业流行着一句话,“有多少智能,就有多少人工”。
近日,来自普林斯顿大学、康奈尔大学、蒙特利尔大学以及美国国家统计科学研究院共同发表的最新论文指出,这部分手动标记工作大多在美国及其他西方国家之外完成,并对全球各地的工人施以残酷剥削。
以Sama(原Samasource)、MightyAI以及ScaleAI等数据标记公司为例,他们主要使用来自撒哈拉以南非洲以及东南亚地区的劳动力,每天支付给员工的薪酬仅为8美元(折合成人民币为51.6元)。但与此同时,这些企业每年却能赚取数千万美元的巨额收益。
现代人工智能依赖各种算法处理规模达数百万的示例、图像或文本素材。但在此之前,首先需要由工作人员在图片数据集中手动标记出对象,再将标记完成的大量图像交付给算法以学习模式,掌握如何准确识别对象。这类工作量极大、过程极其枯燥且耗时的手动数据标记过程,已经成为AI经济体系中的重要组成部分。
人工智能背后的“人工”:数据标注时薪缩水一半,欠薪高发
文/易柏伶 “我感觉兼职标注会越来越容易被替代掉。”来自广东河源的27岁宝妈西梅(化名)对自己数据标注兼职有一种淡淡的悲观。从2018年兼职数据标注,西梅的收入已经大不如前。生活在贵州百鸟河小镇上的杜珉旭,是数据服务商梦动科技公司的项目组组长,除了每天协同组员完成数据标注项目,他还会抽出时间自学python语言。西梅和杜珉旭都是AI数据标注员,这是一个需求庞大却又曾备受争议的职业。标注行业给算法提供大量的训练数据。据IDC统计,全球每年生产的数据量将从2016年的16.1ZB猛增至2025年的163ZB,其中80%~90%是非结构化数据,这些数据经过清洗与标注变成了结构化数据,才能被人工智能所理解。2020年2月,“人工智能训练师”已正式成为新职业并纳入国家职业分类目录。业内往往说,“有多少智能,背后就有多少人工”。门槛较低,又需要大量重复的工作,这一行业生来就属于劳动密集型产业。为了降低人工成本,它多数存在于一些偏远的地区,因而往往与产业扶贫联系起来。而重复枯燥的劳动,加之过低的工资,又被人称“AI富士康”。机器智能发展到一定阶段后,人工是否会面临淘汰,如果淘汰那相关的劳动力又何处安放?自数据标注行业诞生,担忧与争议就没停过。如今,随着数据标注行业迭代升级,这些不同工作形式的数据标注员,都面临着能力升级的考验。入行门槛低前数据标注销售人员黄明(化名)对第一财经记者表示,作为劳动密集型产业,标注基地的员工实际上与在工厂上班的人毫无区别。在他看来,一天下来坐在电脑前标注,既繁琐重复,又给人体尤其是眼睛造成较大损伤,工资还不高。对于仍然从事数据标注的受访者来说,他们看法和黄明不尽相同。尽管这份工作在很多人眼里看似枯燥乏味,他们还是能找到和自己生活、喜好的结合点。两年前,西梅由于怀孕而不方便正常上班。她不愿跟随丈夫从事养殖业,辞去淘宝客服的工作后,在网络搜索“兼职”时发现了一家名为“爱标客”的网站,也就从那时起,西梅开始接触了数据标注行业。爱标客是科大讯飞旗下、连接标客和任务管理用户的服务型众包平台,为了满足其资源部或其他合作方数据标注、收集等简单工作而对外发放兼职。2018年刚入行时,爱标客一些简单的打框和转写校准项目,时薪在25到40元之间,一个月下来,西梅收入比早前全职做淘宝客服还高。“我比较喜欢打框,这个过程可以边听音乐边操作,方言转写校准实在是太考验人的耐性,我对声音不敏感。”西梅对第一财经记者表示。第一财经记者登录“爱标客”网站,发现了方言转写校准、数学解答题检查、生僻字筛选等任务,需要先申请加入团队才能领取。其中,示例视频显示,转写校准主要是调整语音频谱和语气空格,用于校准机器转写的准确度。西梅称,后来随着做兼职标注的人越来越多,甲方不断地压价,爱标客目前大部分项目时薪最多只有10到15元,有时候可能连10元都不到。由于时薪降低,她开始加入各种QQ群,寻找其他外包工作,目前时薪大约为20元,一个月下来能挣2000元到3000元不等。“养家糊口是不可能的,但是起码能做点事情赚些钱。”西梅表示。相比西梅兼职的标注工作,杜珉旭作为梦动科技公司的项目组的组长,一个月3000到4000不等的月薪,似乎高不了太多。但作为企业的数据标注正式员工,杜珉旭的精神状态显得更自信满满。早在贵州民族大学读历史学专业、临近毕业时,杜珉旭就已经在梦动科技实习。他毕业后选择在梦动科技成为数据标注员,一方面是由于对人工智能的好奇,另一方面则因为应聘的是项目组组长,可以积累管理经验。在梦动科技,杜珉旭的主要工作是项目测试,与客户沟通,同时给组里标注员培训,解决项目上的一些问题。平时工作强度不算高,双休以及偶尔加班,公司不仅提供免费住宿,管理层住宿还提供空调、冰箱、洗衣机,让他在生活方面有所保障。杜珉旭对第一财经表示,在梦动科技从事这项工作的同事,精神状态各有不同。约30%的实习同事对人工智能项目、大数据行业等都颇感兴趣。但作为劳动密集型行业,重复性标注或录制的过程较为枯燥,也使得有些同事未能适应职业而离开,岗位流动率约为10%。杜珉旭称,这部分人在做数据标注中,往往对行业了解比较浅显,有些仅是为了挣钱,对行业动态则较少关注。黄明后来跳槽到了一家做激光雷达的创业公司做销售。在他看来,数据标注行业好处之一,是能对接到许多高端企业,以最低门槛接触到人工智能领域。他们的共识是,对于带孩子的宝妈、农村待业人士,甚至一些残障人士,数据标注员不失为一份可以接受的工作。众包模式下质量与权益问题俱增中国的数据标注行业最早可追溯到2005年,著名计算机视觉专家、人工智能专家朱纯松从美国回到了故乡湖北鄂州,创办了莲花山研究院,筹建据称是当时世界上最早的大数据标注团队。2015年,随着人工智能巨头的崛起,数据标注和采集需求激增,市场真正意义上开始形成。许多数据服务公司作为乙方进入到日益扩大的市场,为百度、阿里等大型互联网公司,以及AI独角兽企业等服务。截至目前,数据标注产业已经遍布全国,以第三方数据服务商、巨头布置基地和众包模式呈现,例如百度山西的AI数据标注基地、贵州百鸟河的梦动科技、河北和安徽的数据堂基地,以及河南的千机数据、睿金科技,河北涞源县东团堡村等。梦动科技数据服务事业部总监曾芸对第一财经记者介绍,梦动属于独立的数据服务商,联动贵州盛华职业学院,对学生以产教融合的方式进行数据标注的教学和培养,从大量的实习生开始,逐渐选拔出能够适应数据标注员工作的正式员工与管理人员。而如同西梅的“兼职工作”,数据标注最开始的蛮荒发展,由“众包”模式而兴起。这些众包平台上一端对接项目需求公司,另一端对接大量有空余时间的志愿者(兼职人员)。这种众包结构的优点是可以组织社会上的大量兼职人员进行标注,节省公司的运营成本。众包存在的弊端也较为明显,分散的兼职人员,专业背景和工作能力参差不齐,沟通成本高昂,数据保密也相对困难。一旦需求公司要调整原有标注需求,兼职人员流动性大,无法灵活服务需求公司。西梅告诉第一财经,今年3月份疫情高峰时,她曾约到一家外包公司,据称当时一天大约数据产值能达200元,算下来一个月五六千左右工资。但真正开始测试时对方就在不停地催产量,后来由于数据验收不及格打回来返工,一个半月的时间返工了两次,最后西梅仅拿到了400多元。据了解,众包模式的资源对接往往通过一些微信群或QQ群。记者在QQ上搜索“数据标注”,发现了兼职群、项目资源对接群,经验交流分享群等大大小小的数据标注群。顺手加入了几个群后记者发现,群内都比较活跃:群友们经常发布项目,寻找兼职,并且每隔一段时间都会有新成员加入。同时,记者时不时地在群里看到一些标注员被项目甲方拖欠标注工资的投诉。众包模式也是大量数据标注员工资普遍较低的原因之一。黄明对第一财经表示,经过多层中介后,每个中介都在赚差价,因而导致的甲方成本较高,实际上真正标注的人挣的钱就比较少。一些做得好的数据标注员则更倾向于筹划组建团队,寻找资源单干。而这些情况越多,一方面使得数据标注行业发展快速,另一方面则造成了行业众包中介层叠越来越严重。对于数据标注员而言,行业的转型升级也意味着自身能力的转型升级。中国信通院报告指出,现阶段AI应用研发,数据标注是根本,10年之内都要依赖于标注数据。至于机器什么时候能够取代人工数据标注,至今仍没有人能说出明确答案。但第一财经记者看到,在数据标注各式各样的QQ群里,依然每天不断出现新的项目需求和个人兼职的信息,依然不断有关注数据标注行业的大量讨论。