数据标注员 隐身于人工智能背后的工兵
图像标注员在屏幕上标出汽车位置。
当人们向智能设备发出一条语音指令、拍张照片供设备识别时,一般不会想到,这背后有大量人枯燥而繁琐的工作。做这类工作的人被称为“数据标注员”。
疫情防控期间,哈尔滨有这样一群人,他们选择了不用到单位打卡,工作时间自由的工作。他们通过平台或群领受任务,然后将任务完成并领取报酬,工作程序和工作效果都是“看不见”的,就像是存在于AI和数字经济背后的“幽灵工作”。可是,当前数据标注行业对人力需求极大,这一新兴行业正蕴藏着巨大的就业和创业机会。
语音标注员:将“牛德华”变成“刘德华”
语音标注员每天要听海量的录音。
蒋齐是一名语音标注员,这是一个随着智能语音交互设备的普及而新出现的职业。他的主要工作就是将智能语音交互设备无法识别的字、词、句子进行标注,然后“翻译”过来,再发送回去以便智能设备进行学习。
这个看起来高大上的工作,蒋齐说其实很简单,“比如一个有口音的人对智能音箱或交互设备说‘播放一首牛德华的歌’,智能设备需要分析出用户真正的意思是想要听一首刘德华的歌。”蒋齐的工作就是将设备收集到的语音“牛德华”标注成刘德华,再发回给智能设备研发单位,供智能设备进行学习,使智能设备下次听到“牛德华”时,能准确地转化为“刘德华”。
蒋齐每天在群里领取包含各种词、句的数据包,然后进行标注。他每次在群里领取一个包含150条语音的数据包,完成对数据包内语音的标注后再领取下一个数据包。
为了能够完成更多的任务,蒋齐平时很少参加娱乐活动。“我最后一次和别人在外面吃饭还是去年秋天几个同乡约我在楼下的火锅店吃火锅。我平时的时间基本上都用来领数据包做任务。”
蒋齐表示,语音数据标注是一项完全没有技术含量的累活,每标注1个小时的有效时长语音,能得到100元的报酬,一个月可以赚到3000元到3500元。
在BOSS直聘网站上,记者以“数据标注员”为关键词,搜索到近200条相关职位的招聘信息。这些职位大多为兼职岗位,不用到公司上班。一些岗位也不要求应聘者的学历,只要求应聘者能够熟练使用office等办公软件。报酬按有效标注时长给付,多为每小时100元至110元。
记者发现,招聘企业对应聘者只要求能够“对标注结果进行质量评估,并反馈标注结果”“智能语音、图片等相关数据的语义理解及标注”“对已标注数据的清洗、保证标注数据的正确率”。
记者在线向一家招聘企业询问,“什么是数据清洗?”得到的答复是:使用软件对数据进行操作,不是很难。
蒋齐告诉记者,这些招聘单位大多是分包商或数据工厂,他们从AI研发单位拿到数据标注部分的业务,然后,再将这些业务拆解成若干数据包,交给应聘者来完成。除此之外,有些个人可以直接从设备商那里得到这部分业务,然后自己组建团队,建立微信群,由群内的成员来完成。“我现在就是通过微信群领取任务。”
图像标注员:教人工智能认识新世界
工作中的刘佳彤。
今年31岁的刘佳彤,也是一名数据标注员,但她标注的内容不是语音而是图片,偶尔也会标注一些视频影像。她与蒋齐不同的是,她不是通过群来领取任务,而是通过众包平台,“众包平台是开放式的,只要注册并通过在线学习和考核,谁都可以在平台上领取任务。”虽然,刘佳彤和蒋齐标注的数据内容和领取任务的方式不同,但他们都是为那个从未见过的AI在打工。
“图片标注是根据任务要求,在图片上找到需要标注的物品、部位进行框选或标注记号点。比如,一张人脸图片,有的任务只要求将人脸部进行框选,让AI知道被标注的部分是一张人脸。有的任务却要求在人脸图片上标注几十甚至上百个记号点,以此让AI了解哪里是人的眉毛,哪里是眉梢,哪里是眼睛,哪里是内眼角,哪里是外眼角……”刘佳彤说。
虽然刘佳彤从事数据标注的时间还不到一年,但现在她已经是一名成熟的数据标注员,每天都能标注2000到3000张图片。
“在这一行里,每天能标注3000张图片就已经算是高手了。刚入行的人一天也就只能标注一两百张图片。”刘佳彤略带骄傲地说,“每张图片根据任务要求的不同,获取的报酬也不同。只是简单框选人脸这样的任务,标注一张图片需要两三秒钟。如果是标注几十个甚至上百个记号点这样的任务,需要的时间稍微长一些,但报酬也会相应提高,平均每张图片在0.3元至0.4元之间。”
为了获取更高的报酬,数据标注员大多以“工会”“团队”和“群”的形式存在,在一个组织框架内共同完成一项任务。刘佳彤没有加入任何团队或群,因此,她称自己是“独狼”式的数据标注员。
为了完成每天的任务目标,刘佳彤给自己制定了严格的作息时间。每天早上8点钟起床,9点准时坐到电脑前,登录平台领取任务开始工作。每天工作9个小时,吃过午饭后没时间休息。“有时遇到交付时间短的任务,工作时间就要加长,甚至通宵。”刘佳彤说,“如果不严格遵守作息时间,就很难完成任务。”
这项工作可以让刘佳彤平均每个月得到3000元左右的收入。“平台按照数据标注员的标注业绩,每15天通过支付宝或微信给数据标注员结一次账。”
刘佳彤和蒋齐都认为,数据标注是一个没有任何技术含量的工作。“每天要做的只是打开人家的网页,用人家的软件,在上面把人家的数据,按人家的格式给人家处理好,交给人家,作为数据标注员,我接触不到人工智能的任何东西。”
人工智能训练师正式成为新职业
语音和图像标注员……这些躲在AI背后的工人,在国外被称为“幽灵工人”。在任何一个运行的AI项目中,都看不到他们的名字,他们只是AI项目中保障AI运行的“齿轮”。可如今有人却发现,一些“幽灵工作”正在成长为新的创业机会。
随着数字经济的发展,“幽灵工作”越来越多地出现在人们的视野中。不用到公司打卡,工作时间自由,这样的工作越来越受欢迎。然而,“幽灵工作”中的很多缺点也暴露出来,比如,从事“幽灵工作”的人收入不高,没有被认可的专业头衔,没有晋升阶梯,工作随时会被取代,生活缺少稳定与安全感。然而,这种状况正在逐渐被改变。去年2月份,“人工智能训练师”正式成为新职业并纳入国家职业分类目录,其中数据标注员为主要工种之一。这标志着被国外称为“幽灵工作”的数据标注员在中国已经得到了国家层面的认可。
去年7月3日,中国信息通信研究院发布的《中国数字经济发展白皮书(2020年)》(以下简称《白皮书》)中指出,当前数据标注行业需求极大、入场门槛低,整个市场大大小小共上千家企业和作坊,却依然无法满足产业需求。作为新技术需求发展的新业务形态,数据标注岗位对原有就业没有替代效应,而入职门槛相对较低、需求数量众多。
从这份《白皮书》中不难看出,数据清洗、数据标注这些新兴行业中蕴藏着巨大就业和创业机会。“其实,黑龙江并不是数据清洗和数据标注行业的主要集中地。目前这些行业主要集中在山西、河南、河北、内蒙古等地。在当地尤其是一些县城里,数据公司、数据工厂星罗棋布。我认识的绝大部分数据标注员,都在那边的团队里工作。”刘佳彤说,“黑龙江人力资源丰富,人力成本不高,正好符合数据工厂的创业要求。所以我准备在哈市找一个科技企业孵化器,创办一家数据工厂,将数据标注行业中的多个环节整体引入到哈尔滨。”
人工智能背后的“农民工”——数据标注员
这是事实,无需反驳。
然而尽管他们收入微薄,但他们的老板还嫌他们干的太少。
贵州梦动科技有限公司的项目经理胡定祥,觉得自己的生意成本太高,于是又兼任了贵州盛华职业技术学院的老师。这样他就可以把自己的学生贩卖到数据标注工厂里赚他们的血汗钱了。
事实上他们就是这么做的。
500人团队,全职只有十一二个。可以,很强,很互联网。
“上课就是上班,老师就是经理。”胡定祥笑着说。福特都不敢这么说。
那一刻,他的灵魂如福特附体,眼睛里闪烁着人性的光辉。
1914年1月5日,当时任CEO的福特拍板决定,公司几千名员工每天工作9小时可以得到5美元,比之前的2.38美元足足高了一倍多,整个商界都为之震惊。
一个世纪以后,中国的互联网公司选择在欠发达地区的贵州,用低于当地平均工资数倍的薪水,威逼利诱在校学生替资本家做数据标注。可以,很强,很互联网。
利润之下,别无完卵
校企合作存在隐患。企业追求利润无可厚非,学校也追求利润就是伤天害理。
这样的事情不是没有发生。
2013年10月,央视《新闻周刊》曝光了西安工业大学北方信息工程学院的学生,应学校要求前往富士康代工厂实习。虽然实习期间,有两三千元的工资,但他们需要每日连续工作11小时,有的学生甚至被累到流鼻血。而且学生没有反抗的余地,这是由学校与富士康签订的协议,并且是学校开设的“社会实践课”,而且是有着6个学分的必修课。
同年11月,同样是在英国《金融时报》就有报道过。有学生向媒体反映称,超过1000名同学曾在山东烟台的富士康工厂从事基础工作,并表示,该“实习”为学校的必修课。
次年8月25日,一位95后网友“虎诚”在网上发文《富士康实习的生活和工作经验》,提到了自己和大多数实习生一样,为了完成学校的实习任务,被安排到山东烟台富士康实习的生活。
文章最后呼吁称:“在富士康工作靠体力赚钱,适合年轻人干,没有文化没有技能,只有体力可以干。我写的是自己在富士康三个月实习的感受,建议学生不要进去,你们还年轻要多学习知识和专业技能,进去就是浪费青春。”
那一年,富士康16连跳震惊海内外。尽管如此,每天仍然有数千人在深圳龙华富士康门口排队,寻求一份月薪5000加班14个小时的工作。
数据标注员小张说,他感觉自己是流水线工人,这个工厂是富士康。
“人工智能就像是一个孩子,标注好的图片就像是孩子的食物,而我们就是制作食物的人,最苦最累的我们做了,成名的只是那些制造孩子的人。”小张底薪和加班费总共3800块一个月,同在贵安新区的富士康,基本工资+加班费+补助是5000块。
以人工智能之形,行鸿海精密之实
他的判断没有错。
在人工智能灼热与闪亮的背后,数据标注产业,作为做基础的支撑,却显得格外粗粝与拙朴。
在极客公园一篇名为《揭秘人工智能风口下的数据标注生意:一批数字富士康的诞生?》的文章中,某自动驾驶创业公司数据标注负责人经常私底下开玩笑说,这就是个「血汗工厂」。
他还能开的起玩笑?
以更低廉的劳动力成本支撑起聚集在首都的人工智能底层数据需求,是来自河北、河南、山东、山西等周边省份的职业技术学校的学生。
通常在北京,一张图片需要付给标注员一毛。但数据标注公司玛达科技公司CEO任树亮认为这是一个劳动密集型产业,一毛钱太贵了。
“我们还有按厘算的呢。”任树亮用一个改革开放前的常用数量单位,把光鲜的AI产业一下子拉到了土里。
“「负责静态物体检测/场景识别/OCR文字识别,负责人工智能与自动作业探索」这是百度招聘图像识别与人工智能算法工程师的工作职责描述,而「扎实的数学基础,掌握C/C++和Python语言,掌握OpenCV,掌握机器学习基本算法……」是对应聘者的要求。”
但实际上,这是一份只要会用鼠标就能干的工作。
百度经常干这样的事。比如他们的HR会把电话销售包装成“市场顾问”,其实只是个打骚扰电话的。仅此而已。
“方言标注这一块,没上过学的老农可能比清华硕士标的更准。”
用29点法标注的人脸头像
教无人车学会认路,教自己学会失业
“即使是被替代,数据标注师也将是最后一批被替代的人。”标注公司老板杜霖说。
他在说谎。
让杜霖工厂里的廉价劳动力失业的方法有很多种:
1.深度学习技术突破,可以自行数据标注。
2011年,郭台铭郭总裁宣布:三年内,富士康要添置一百万台机器人。2016年富士康深圳员工从40万锐减到10万。
今年2月郭台铭宣布,富士康人工智能业务将在5年内投入21亿。5年前,富士康因为跳楼不断,郭老板忍痛割爱,给员工的基本工资涨了200块。看起来郭老板更喜欢机器人。
数据标注行业会不会像富士康一样用机器替代人工?这要看李彦宏马化腾们想把自己的AI生意做得有多大。做得越大,数据需求量也就越大,人工成本却逐年上升。这意味着一旦人工成本高于替代人工的机器研发成本之后,相信我,商人们是不会要脸的。这是商业理性。
2.数据行业持续竞争,标注模型会走向开源。
“开源是罪恶的。”
某数据公司高层认为,商业竞争才是决定这部分人不会取代的关键因素。
每家公司都有自己的数据标注需求,并且他们暂时不会公开自己的模型,就像在互联网之初大家都不会开源自己的代码一样。
可能到某个节点大家都公开自己的数据、模型后这部分人才会面对失业的担忧。
3.AI泡沫过后,资本追逐新风向
人工智能并不是新鲜事物,早在1956年的达特茅斯会议被公认为是人工智能的起源。而50年后当年的会议者们重聚,看着照片中白发苍苍的人工智能开拓者与奠基者,不禁感慨万千。
算起来人工智能经历了三次热潮,但热潮退去往往一地鸡毛。
总结起来,如图所示
现在人们认为深度学习+大规模计算+大数据=人工智能,并对这个公式深信不疑,如同20年前人们对专家系统深信不疑,如同50年前人们对图灵深信不疑。
后来人们发现,仅仅在语音识别这个领域,依赖语言学家的专家系统失效了,计算机科学家和数学家通过统计建模的方法更容易获得成功。
然而在最近几年,学术界发现人工智能不应该是个数学问题,应该是个生物学问题。
“既然要学人脑的思维方式,为什么不去研究人脑?”霍金斯在《论智能》中说道。
从表中可以看出,如果是基于统计建模的人工智能,那么数据标注这个行业会和整个人工智能产业同生共死,因为数据是AI的石油,人类数据标注师是AI的老师,他教会机器认路,认识猫猫狗狗。
但如果建立在生物学基础上的人工智能理论可以突破并且落地,那么数据标注与否并不重要。比如你不用把你旁边同事摁在桌子上在他脸上画29个点才能记住他。一回生二回熟,这是人脑的思考方式。
这个时候,数据标注师这个称呼,可能只有在历史文献中才能找得到了。
人口红利的本质是低成本剥削。而在中国进入人口红利拐点00后比80后少生了7200万的大背景下,富士康使用机器人或许是无奈之举。但鸿海精密自1974年成立以来,已经在大陆吃了40年人口红利,够本了。
只是作为数据富士康一员的数据标注师们,还是烧烧香保佑人工智能可以再火40年吧。
怕只怕,我们以后想被人压榨都没有这个机会了。
吹牛谁不会,落地看真章
今年年初,李开复说2018年是AI泡沫破裂之年.。
人工智能领域的权威专家、卷积神经网络的发明者、Facebook首席AI科学家YannLeCun在网络上表达了赞同,并补充评论道:
“(人工智能泡沫将破)确实如此。李开复提到的泡沫就是指有些公司许下了过高的承诺,但是今年要不了多久他们的钱就花完了。”
斯坦佛大学人工智慧实验室主任李飞飞说法称,AI虽是个“真货”,但也在许多随意和缺乏严谨性的交流或展示中被强烈地夸大,进而影响政、商、投资者。
人工智能火到什么程度?
完成C轮3.8亿元融资的依图科技创始人有过这样的描述:“AlphaGo之后,我们从3月份开始融资,4月份(估值)可以加一亿美元,5月份可以再加一亿美元,6月份可以再加一亿美元上去。我什么都没干就可以这样。”
什么都不干,手拥概念估值就不断飙升,这把人工智能的火,咋看上去有些虚呀!俗话说,物极必反,人工智能现在如日中天,总有给人一种不真实的感觉。
人工智能虚火的另一种表述,就是人工智能市场泡沫的泛滥。如今的人工智能,就跟20年前创业者们名片前面加个“WWW”,后面加个“.com”,马上就光环笼罩一般。
当投资人和科学家意识到了泡沫的存在,产业界的反应非常剧烈。
新经济100人CEO李志刚演讲中大胆预测:人工智能领域当前存在巨大泡沫,未来两三年,95%以上的人工智能创业公司要倒闭。
李志刚认为人工智能存在泡沫主要有两大原因:
一是前提不足。「没有海量大数据,人工智能就是扯淡。」目前真正的大数据仍然被少量巨头和政府职能部门掌握。同时,作为获取大数据前提的「云计算」刚刚起步。「没有云计算,没有大数据,人工智能无从谈起。」
二是商业化滞后。谈及人工智能商业化滞后问题,李志刚讲述了一种悲剧模式:不少人工智能公司在产品还没上市时就估值5亿美元——招不到专家,只好去美国找谷歌、微软的人——外国人干两三年,带着两三千万人民币的高薪走了——企业垮掉。
自去年以来,已有50多家AI公司倒闭,其中不乏融资数亿的明星公司。
这是个什么概念?
腾讯科技报道,2017年已经有60家P2P公司歇业,近4成亏损。人工智能创业公司的倒闭数量都快赶上P2P了,不能不让人担心。
“担心又有什么用呢?”
做过室内装修的何军,在2017年底投入十万积蓄作为启动成本,在河南周口成立了一个40人团队的数据工作室。他2018年的最大计划,就是“争取接到一手项目”。
“利润其实不高”,何军一边抖着腿,一边掰着手指头细细算账,“你看啊,一个拉框平均4分钱,一个员工一天能做大约4500个,一共180块。过关率90%,再除去审核的成本,再给每个标注员每天发110元左右的工资,平均下来工作室每天也就从每个人身上赚30块吧。”何军第一个月亏了本,第二个月勉强持平。
其实说老实话,无需同情数据标注这个行业,也不必担心人工智能是否有泡沫。你不必讶异更无须欢喜,在AI面前,我们都是始作俑者。
如同正在看这篇文章的你,不知道在微信后台已经被腾讯的AI打了多少个标签,被苹果的“云上贵州”拉了多少个数据标注的红色框框,被数据堂卖了多少条信息了。
别想了,真的,人间不值得。
本文由AI时间(ID:AIReport)原创发布,授权互联网早读课转载。内容仅代表作者独立观点,不代表早读课立场。如需转载,请联系原作者。返回搜狐,查看更多