博舍

人工智能背后的“人工”:数据标注时薪缩水一半,欠薪高发 人工智能数据标注项目可以做吗知乎文章怎么写

人工智能背后的“人工”:数据标注时薪缩水一半,欠薪高发

文/易柏伶 

“我感觉兼职标注会越来越容易被替代掉。”来自广东河源的27岁宝妈西梅(化名)对自己数据标注兼职有一种淡淡的悲观。从2018年兼职数据标注,西梅的收入已经大不如前。

生活在贵州百鸟河小镇上的杜珉旭,是数据服务商梦动科技公司的项目组组长,除了每天协同组员完成数据标注项目,他还会抽出时间自学python语言。

西梅和杜珉旭都是AI数据标注员,这是一个需求庞大却又曾备受争议的职业。

标注行业给算法提供大量的训练数据。据IDC统计,全球每年生产的数据量将从2016年的16.1ZB猛增至2025年的163ZB,其中80%~90%是非结构化数据,这些数据经过清洗与标注变成了结构化数据,才能被人工智能所理解。2020年2月,“人工智能训练师”已正式成为新职业并纳入国家职业分类目录。

业内往往说,“有多少智能,背后就有多少人工”。门槛较低,又需要大量重复的工作,这一行业生来就属于劳动密集型产业。为了降低人工成本,它多数存在于一些偏远的地区,因而往往与产业扶贫联系起来。而重复枯燥的劳动,加之过低的工资,又被人称“AI富士康”。

机器智能发展到一定阶段后,人工是否会面临淘汰,如果淘汰那相关的劳动力又何处安放?自数据标注行业诞生,担忧与争议就没停过。如今,随着数据标注行业迭代升级,这些不同工作形式的数据标注员,都面临着能力升级的考验。

入行门槛低

前数据标注销售人员黄明(化名)对第一财经记者表示,作为劳动密集型产业,标注基地的员工实际上与在工厂上班的人毫无区别。在他看来,一天下来坐在电脑前标注,既繁琐重复,又给人体尤其是眼睛造成较大损伤,工资还不高。

对于仍然从事数据标注的受访者来说,他们看法和黄明不尽相同。尽管这份工作在很多人眼里看似枯燥乏味,他们还是能找到和自己生活、喜好的结合点。

两年前,西梅由于怀孕而不方便正常上班。她不愿跟随丈夫从事养殖业,辞去淘宝客服的工作后,在网络搜索“兼职”时发现了一家名为“爱标客”的网站,也就从那时起,西梅开始接触了数据标注行业。

爱标客是科大讯飞旗下、连接标客和任务管理用户的服务型众包平台,为了满足其资源部或其他合作方数据标注、收集等简单工作而对外发放兼职。

2018年刚入行时,爱标客一些简单的打框和转写校准项目,时薪在25到40元之间,一个月下来,西梅收入比早前全职做淘宝客服还高。“我比较喜欢打框,这个过程可以边听音乐边操作,方言转写校准实在是太考验人的耐性,我对声音不敏感。”西梅对第一财经记者表示。

第一财经记者登录“爱标客”网站,发现了方言转写校准、数学解答题检查、生僻字筛选等任务,需要先申请加入团队才能领取。其中,示例视频显示,转写校准主要是调整语音频谱和语气空格,用于校准机器转写的准确度。

西梅称,后来随着做兼职标注的人越来越多,甲方不断地压价,爱标客目前大部分项目时薪最多只有10到15元,有时候可能连10元都不到。

由于时薪降低,她开始加入各种QQ群,寻找其他外包工作,目前时薪大约为20元,一个月下来能挣2000元到3000元不等。“养家糊口是不可能的,但是起码能做点事情赚些钱。”西梅表示。

相比西梅兼职的标注工作,杜珉旭作为梦动科技公司的项目组的组长,一个月3000到4000不等的月薪,似乎高不了太多。但作为企业的数据标注正式员工,杜珉旭的精神状态显得更自信满满。

早在贵州民族大学读历史学专业、临近毕业时,杜珉旭就已经在梦动科技实习。他毕业后选择在梦动科技成为数据标注员,一方面是由于对人工智能的好奇,另一方面则因为应聘的是项目组组长,可以积累管理经验。

在梦动科技,杜珉旭的主要工作是项目测试,与客户沟通,同时给组里标注员培训,解决项目上的一些问题。平时工作强度不算高,双休以及偶尔加班,公司不仅提供免费住宿,管理层住宿还提供空调、冰箱、洗衣机,让他在生活方面有所保障。

杜珉旭对第一财经表示,在梦动科技从事这项工作的同事,精神状态各有不同。约30%的实习同事对人工智能项目、大数据行业等都颇感兴趣。但作为劳动密集型行业,重复性标注或录制的过程较为枯燥,也使得有些同事未能适应职业而离开,岗位流动率约为10%。

杜珉旭称,这部分人在做数据标注中,往往对行业了解比较浅显,有些仅是为了挣钱,对行业动态则较少关注。

黄明后来跳槽到了一家做激光雷达的创业公司做销售。在他看来,数据标注行业好处之一,是能对接到许多高端企业,以最低门槛接触到人工智能领域。

他们的共识是,对于带孩子的宝妈、农村待业人士,甚至一些残障人士,数据标注员不失为一份可以接受的工作。

众包模式下质量与权益问题俱增

中国的数据标注行业最早可追溯到2005年,著名计算机视觉专家、人工智能专家朱纯松从美国回到了故乡湖北鄂州,创办了莲花山研究院,筹建据称是当时世界上最早的大数据标注团队。

2015年,随着人工智能巨头的崛起,数据标注和采集需求激增,市场真正意义上开始形成。许多数据服务公司作为乙方进入到日益扩大的市场,为百度、阿里等大型互联网公司,以及AI独角兽企业等服务。

截至目前,数据标注产业已经遍布全国,以第三方数据服务商、巨头布置基地和众包模式呈现,例如百度山西的AI数据标注基地、贵州百鸟河的梦动科技、河北和安徽的数据堂基地,以及河南的千机数据、睿金科技,河北涞源县东团堡村等。

梦动科技数据服务事业部总监曾芸对第一财经记者介绍,梦动属于独立的数据服务商,联动贵州盛华职业学院,对学生以产教融合的方式进行数据标注的教学和培养,从大量的实习生开始,逐渐选拔出能够适应数据标注员工作的正式员工与管理人员。

而如同西梅的“兼职工作”,数据标注最开始的蛮荒发展,由“众包”模式而兴起。这些众包平台上一端对接项目需求公司,另一端对接大量有空余时间的志愿者(兼职人员)。这种众包结构的优点是可以组织社会上的大量兼职人员进行标注,节省公司的运营成本。

众包存在的弊端也较为明显,分散的兼职人员,专业背景和工作能力参差不齐,沟通成本高昂,数据保密也相对困难。一旦需求公司要调整原有标注需求,兼职人员流动性大,无法灵活服务需求公司。

西梅告诉第一财经,今年3月份疫情高峰时,她曾约到一家外包公司,据称当时一天大约数据产值能达200元,算下来一个月五六千左右工资。但真正开始测试时对方就在不停地催产量,后来由于数据验收不及格打回来返工,一个半月的时间返工了两次,最后西梅仅拿到了400多元。

据了解,众包模式的资源对接往往通过一些微信群或QQ群。记者在QQ上搜索“数据标注”,发现了兼职群、项目资源对接群,经验交流分享群等大大小小的数据标注群。顺手加入了几个群后记者发现,群内都比较活跃:群友们经常发布项目,寻找兼职,并且每隔一段时间都会有新成员加入。同时,记者时不时地在群里看到一些标注员被项目甲方拖欠标注工资的投诉。

众包模式也是大量数据标注员工资普遍较低的原因之一。黄明对第一财经表示,经过多层中介后,每个中介都在赚差价,因而导致的甲方成本较高,实际上真正标注的人挣的钱就比较少。

一些做得好的数据标注员则更倾向于筹划组建团队,寻找资源单干。而这些情况越多,一方面使得数据标注行业发展快速,另一方面则造成了行业众包中介层叠越来越严重。

对于数据标注员而言,行业的转型升级也意味着自身能力的转型升级。中国信通院报告指出,现阶段AI应用研发,数据标注是根本,10年之内都要依赖于标注数据。

至于机器什么时候能够取代人工数据标注,至今仍没有人能说出明确答案。但第一财经记者看到,在数据标注各式各样的QQ群里,依然每天不断出现新的项目需求和个人兼职的信息,依然不断有关注数据标注行业的大量讨论。

给人工智能打工的“农民工”—数据标注员,拿着1500的月薪干着机器人的活儿

0分享至

马云爸爸之前说了这么一句话

又是特别火:

“30年前你错过广州

20年前你错过杭州现在不要再错过贵州”

我去,贵州到底干了个啥

成未来的发展宝地了呢?

热爱学习(发财)的我

赶紧研究了一下

这才发现

贵州竟然有几十万人

给人工智能打过工!!

这是啥概念呢

据有关媒体报道

全中国搞人工智能的人才

总共也就五六万

贵州难道要弯道超车

成为中国的人工智能之都?

但其实……

并不是这样

冷静一点

事实可能大大出乎你的意料

事实的情况是

像腾讯、华为这样的大企业

数据中心不是在北京、不是在上海

而正是在经济相对不发达的——

贵州

马化腾说背后的理由是

贵州山多水多

空气凉爽

有利于电脑主机冷却

适合放服务器

即省电又省钱

再直白点说

贵州的数据支持很便宜

数据标注更便宜

所以贵州是许多互联网公司的云后端

大数据的来源地

自然的,这里也就成了

人工智能从业者的

“打工圣地”

“贵州”也因此被称为

国务院钦定的大数据中心

提到人工智能从业者

你脑子里冒出来的

可能是穿着条纹汗衫的程序猿

但在贵州

并不是这样——

贵州的人工智能打工者

叫做“数据标注员”

是人工智能领域的最大隐形者

也是人工智能时代的新型农民工

同时代指人工智能前面的“人工”——

(手动滑稽)

即“人工智能的搬砖工”

啥?数据标注员?

根本没听过啊

咋就跟人工智能扯上关系了

??????

这个数据标记员

确实一般人平时接触不到

他们的工作简单来说就是:

给人工智能“打工”

是的,很多人担心

人工智能迟早要奴役人类

但现在,我们离那一天还很远

只是,在贵州的这些AI工厂里

有时候你会有一丝错觉

仿佛人类正在为人工智能服务

这个“数据标记员”

这还得从如今比较火爆

像谷歌、特斯拉、百度都在搞的

无人驾驶技术说起

正如上图所示

安装上无人驾驶技术的车辆

只需要你坐上来

就可以自己动

跟成精了一样

可认路、识灯、辨人

跟大石头一样没有生命的车

是怎么做到的?

这就得归功于

人工智能的帮手

也就是数据标注员了

在距贵阳市

50公里的百鸟河数字小镇

有500名学生

正在从事这份职业

而他们每天的工作内容

就是画框

像框出图片里的十字路口、高架桥

隧道、城市道路等

据传有大神一天能框上千张

啊?画个框就能做人工智能?

虽然乍一听让人摸不着头脑

但它真的很重要!

其实就像让机器识别苹果

或者用美图秀秀识别人脸一样

机器本身并不认识苹果和人脸

我们只有给机器足够多角度

不同类型的人脸或苹果

它们才能在自己的数据库里

提取相似数据

显示出正确答案

即大家看到的

“智能”技术

所以数据标注员的“画框”

正是在给机器提供大量“数据源”

也就是教冷冰冰的机器

认识这个世界

大家可能发现了

这种工作基本没有技术难度

人工智能数据标注员

乍一听很高大上

但实际上

这是一份只要会用鼠标就能干的工作

工作量又大

现在年轻人

谁会愿意去干这个???

据业内人士报道

中国的全职数据标注员

已达到20万人

加上兼职人群

规模已有100多万

这其中有职高学生

有聋哑人

有从工地辗转而来的农民工

并且在方言标注这一块

没上过学的老农

可能比清华硕士标的更准

用29点法标注的人脸头像

所以为了我们更便捷

更放心地使用它们

社会上需要足够多

并且更多样的数据标注员

来为人工智能服务

那既然是个新兴工作

需求量又大

工资会不会相当之高啊!

然而就在贵州梦动科技有限公司

数据标注员的工资仅为4200元

没有五险更没有一金

全国基本都是这个水平

而贵州省的平均工资呢

是5200!

如果是职校招的实习生

2000块就可以打发

然而尽管他们收入微薄

但他们的老板还嫌他们干的太少

这里的项目经理胡定祥

觉得自己的生意成本太高

于是又兼任了

某职业技术学院的老师

这样他就可以把自己的学生

贩卖到数据标注工厂里

赚他们的血汗钱了

500人的团队

全职的可能只有十一二个

“老师就是经理”

“上课就是上班”

可以,很强,很互联网!

中国的互联网公司

选择在欠发达地区的贵州

用低于当地平均工资数倍的薪水

利诱在校学生替他们做数据标注

所以你可能会看到

在这里2000块就能招到的实习生

一面在北京五环上

驱动着光鲜亮丽的无人汽车

被交警开罚单

一面回到家

却连B站的大会员都买不起

但是

这算不算是压榨学生呢?

学生们乐意吗?

这个数据标注员

听起来又苦又累

工资又低

工作内容也不高级

真有人心甘情愿做这个?

而正在这里的学生小志却说

“真的,我很珍惜这个

接近‘白领’的兼职机会”

小志口中的“白领”机会

就是每个月拿1500元的工资

小志还说

这些钱完全足够自己经济独立

甚至省点还能补贴家用

相比餐厅辛苦端盘子

顶着风雨送外卖

数据标注反而相对轻松又体面

自己在进职高之前

连电脑都没碰过

唯一会的操作

就是按电脑开关键

后来玩上电脑

开始沉迷游戏

严重的时候

课都不去上

为此老师找他谈了多次

经过规劝引导

才决定加入数据标注员

现在既能玩电脑又有钱

也算个好事吧

而已经26岁的犇犇

算是数据标注员里的大佬了

因为他的工资

足足有四五千

之前他做过厨师

进过工厂

直到2017年12月初

有人邀请他做数据标注工作室

他才杀进了这个领域

犇犇说这里氛围挺好

他们一边标一边聊天

时间一点都不难熬

就是吧……

容易眼干眼涩

然后每月要还4700块的房贷

一发工资,工资……

Duang!就没了!

当然,与这些人更不一样的

还是聋哑人小袁

他是少有的

全职做数据标注员的人

左一为老师右一位小袁

他是一位换过40份工作的聋哑人

之前在餐厅、奶粉厂打过工

因为交流困难

所以频频被辞退

当然,被辞了40次的小袁

从没有说放弃

直到她遇到了“数据标注员”

才深刻地认识到自己

是个有用的人

因为聋哑人只能靠眼睛生活

对视觉信号更敏

所以他们标注得更快

精准度更高

小袁说很庆幸自己

在人工智能领域

成为了数据标注员

从而找到了生活的意义

还有为这份工作而自豪的小吴

他只有22岁

刚做这份工作的时候

差点没把眼睛看瞎了

而他们与小伙伴之间

也会互称“画框的”

那时一个人一天要画几百个框,以至于后来走在路上看什么东西都想画个框把它框住。

后来接到百度无人车的项目后

他们从来不敢相信

像这种高精尖的东西

还能跟他们这些“画框的”

扯上关系

不过当小吴看到

自己接过项目里的无人驾驶汽车

在美国的硅谷跑

在乌镇的世界互联网大会跑

他才激动地说道:

“看,也许那就是我之前标注过的”

那种感觉

就像一不小心

踩到了时代潮流的浪尖上

连项目经理胡定祥都说

没有我们人工智能背后的人工

这个人工智能它永远都智能不起来

人工智能的起点

在小镇年轻人的指尖

它的背后

是像小志、犇犇

小袁、小吴这样的

几十万“农民工”

据相关从业者爆料

一般数据标注的工作

都会由上游人工智能公司

交给中游的数据加工公司

然后分包给下游小公司

小作坊或者“散兵游勇”

这些外包江湖门派众多

良莠不齐

从业者之间都是这样打招呼:

你是发包方还是外包方

经过这么多的层层转包

更进一步压低利润

最后把锅盖到数据标注员的头上

进一步造成了他们的“便宜”

转包、廉价、无技术

社会下游人群

流水线、又苦又累

这种工作

就好比上世纪80年代的来料加工

大工厂可以

家庭作坊也可以

大家有没有意识到

这挺有科技感的数据标注员

不就跟建筑工人

一模一样嘛???

而做数据标注的人

自己也调侃道

我们就是从父辈的建筑工地

搬迁到了现在的

智能工地上

当然,在这片“智能工地”上

不光有数据标注员

还有语音录播员

图片数据提供者

人工翻译同传人员

当用户问“世界上谁最美”,他就会回答“当然是你最美”。一问一答均由索琳事先写好,再由一家擅长语音识别的人工智能(AI)公司植入。

他们做着那些重复又枯燥的工作

就是为了在你启动“AI”的时候

可以生动有趣地与你对话

让你更快地P图发朋友圈

帮助你理解外文书籍

让你近距离地感受“智能”

以前当我想到

“人工智能从业者”的时候

我脑海里出现的都是

高大上的计算机大牛

疯狂敲键盘码代码的场景

我没有想到

人工智能技术的光鲜亮丽背后

竟然有着这样一群默默付出的人

说实话,不知道为什么

我的心情很复杂

人工智能行业

为我们的农民工兄弟提供了工作

这原本是一件大好事

但你如果换个角度一想——

原本很多核心的计算工作、技术工作

如今可以交给人工智能来完成

反过来,人类却去帮它们做

那些最基础的辅助工作

给它们的进化“打下手”

用如今流行的话来说

是不是多少有些“智力降级”的感觉?

而人工智能的时代如果真的来到

数据标注行业会不会用机器替代人工?

教无人车学会认路

教自己学会失业

深度学习技术突破可以自行数据标注了

也有数据公司高层认为

商业竞争才是决定这部分人

会不会取代的关键因素

每家公司都有自己的数据标注需求

并且他们暂时不会公开自己的模型

就像在互联网之初

大家都不会开源自己的代码一样

可能到某个节点

大家都公开自己的数据模型后

这部分人才会面对失业的担忧

我想起福特汽车的创始人

亨利·福特的话:

“我雇的明明是两只手

怎么却来了一个人?”

其实

无需同情数据标注这个行业

也不必担心人工智能是否有泡沫

你不必讶异更无须欢喜

在AI面前

我们都是始作俑者

如同正在看这篇文章的你

不知道在微信后台

已经被腾讯的AI打了多少个标签

被苹果的“云上贵州”

拉了多少个数据标注的红色框框

被数据堂卖了多少条信息了

别想了,真的,人间不值得。

特别声明:以上内容(如有图片或视频亦包括在内)为自媒体平台“网易号”用户上传并发布,本平台仅提供信息存储服务。

Notice:Thecontentabove(includingthepicturesandvideosifany)isuploadedandpostedbyauserofNetEaseHao,whichisasocialmediaplatformandonlyprovidesinformationstorageservices.

/阅读下一篇/返回网易首页下载网易新闻客户端

版权声明:本文内容由互联网用户自发贡献,该文观点仅代表作者本人。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如发现本站有涉嫌抄袭侵权/违法违规的内容,一经查实,本站将立刻删除。

上一篇

下一篇