2023年了,你还不知道“人工智能数据标注师”
原标题:2022年了,你还不知道“人工智能数据标注师”?近年来,随着人工智能领域的飞速发展,各行业都对高质量的有效数据集有着旺盛需求,而作为数据集生产者的数据标注师规模也随之不断扩大。2020年2月,数据标注师也被正式定义为“人工智能训练师”并纳入国家职业分类目录
是不是“AI富士康”数据标注产业促进了不少城镇和农村就业,在河南、河北、贵州等地,还出现了一些特色的“数据标注村”
据IDC统计,全球每年生产的数据量将从2016年的16.1ZB猛增至2025年的163ZB,其中80%-90%是非结构化数据,这些数据经过清洗与标注才能被唤醒价值。在我国,每年需要进行标注的语音数据超过200万小时,图片则有数亿张,这就产生了源源不断的清洗与标注需求
人工智能是个高速发展的行业,数据服务又与人工智能息息相关,不过,数据标注师看上去是人工智能领域一个“入门”工种:技术门槛低,招工人群范围广泛。他们通过每天数千次的重复动作,和最前沿科技的人工智能产生联系。也因此,外界给这个行业贴上了“人工智能背后的农民工、AI富士康”的标签
艾瑞咨询在一份人工智能相关报告指出,随着算法需求越来越旺盛,依赖人工标注不能满足市场需求,因此增强数据处理平台持续学习能力,由机器持续学习人工标注,提升预标注和自动标注能力对人工的替代率将成趋势。此外,随着AI对数据的要求越来越高,数据标注行业也正逐步进入精细化阶段
展开全文人工智能训练师的特点(1)操作简便,更易上手
与传统的互联网行业相比,数据标注不涉及高端的产业了解及智能操作,只需按要求拉框描点,操作简便,且门槛极低,更易上手
(2)更易就业,更多选择
线上平台的使用打破了用工和就业的地域限制,人工智能的高速发展也意味着数据标注师这一岗位长期存在着缺口,旺盛的需求产生着大量的工作岗位来接纳想要就业的人们
(3)兼顾自我,前景广阔
由于运用了互联网技术进行数据标注,标注师们在工作之中能够增加自身的熟练及提高电脑水平和信息素养,并且多一项生存技能
未来人工智能训练师的前景当前,数据标注师的规模虽处于急速扩张中,但与逐日激增的市场需求相比,缺口依旧很大。大家更多地聚焦在数据加工这件事,但如果再往前看,更多的是数据的优化、还有一些相关的解决方案。数据标注是一个很好的入门,进来之后有机会更深度参与到产业链协作当中,例如后续当数据标注越来越机器化,人工和自动化之间要有机的协同,这也对员工提出了更高的要求
此外,当数据标注越来越机器化,人工智能训练师是一个转换工种的机会,标注员们现在标注数据,未来可能向数据治理、数据解决方案设计和项目管理等方向发展
“得数据者,得人工智能”。未来,随着AI应用场景逐渐多领域化,在数据标注行业内部,从业者也必将随着AI行业而一同进入细分市场追逐阶段,可谓机遇与挑战并行返回搜狐,查看更多
责任编辑:探访人工智能背后的数据标注师:AI也需要“老师”
做了两年数据标注工作后,现在李宇龙的工作重心是“培训师”。对于自己的职业规划,他表示:“我会接触到很多的项目,根据每个项目所对应的特点判断与之匹配的能力。对我个人来讲,已经从一个数据标注师做到了项目管理岗位。“
他笑着说:“现在,工作的一大动力就是我培训更多可以做出高质量数据的人员,这有一种成就感。”
AI人才“蓄水池”
7月2日,百度宣布未来5年将在百度山西数据标注基地培养5万名AI数据标注师,提供更多的AI就业岗位,支持当地科技产业发展。7月9日,李彦宏撰文《用大数据培育新就业形态》称,百度计划3年内孵化专业数据标注企业100余家,吸纳更多人高质量就业。
对此,基地企业代表山西麟诺总经理李应维对环球网科技记者透露,“在百度‘培养5万名AI数据标注师’的计划下,我们计划到2021年年底,在职员工人数想翻一倍。”
资料显示,百度在2011年自建了数据采标团队,支持内部人工智能业务的发展。2018年9月,百度与山西省转型综合改革示范区达成合作,共同打造数据标注基地。
百度山西数据标注基地负责人尉赤介绍称,经过1年多的发展,山西标注基地已经成为中国人员和产值规模第一的单体数据标注基地。AI数据标注师从业人员超过2000人,实现营业收入超亿元,企业入驻35家。百度智能云数据众包拥有遍布全国和全球22个国家渠道代理资源池,超5万名采标人员,2000万众包互联网用户,全面涵盖了包括智能驾驶、手机行业、互联网和AI开发者四大领域的全部头部客户,是国内最大的AI数据服务提供者。
“七八年前,我们是通过线上众包的方式,让AI数据标注师来做一些比较简单的任务,但随着人工智能的发展,应用场景越来越多,任务难度越来越高;加上对数据安全、隐私、质量和效率的要求,百度决定建立一个人工智能基础数据产业基地。”百度山西数据标注基地负责人尉赤对记者表示,基地一方面为百度自身的人工智能发展提供服务,另一方面可以向合作伙伴输出基地的数据服务和整套解决方案。
那么,回到数据标注师的未来,有哪些职业规划和晋升通道?基地企业代表山西麟诺负责人李应维用自家员工的两个案例来说明:“有一个员工入职后,因为表现优异,不久被百度公司聘用。我们还有一个20岁左右的孩子(员工),学历(某职业技术学校毕业)虽不高,但却是个人才,他现在是内容审核的负责人之一,所以,一方面这个职业的未来是可期待的;另一方面,也可以说,数据标注师也在为人工智能培养和发现人才。”
李宇龙则将这项工作形容为“打怪升级”:“虽然看上去枯燥,,其实每天都在接触新事物。人工智能涉及的领域包括教育、安防、金融、交通医疗和电商等,陌生的领域每天都在挑战大家的学习能力;同时,我们也比其他行业的人更早地接触到未来的发展方向(人工智能)和未来的生活工作场景,这样看到了未来的发展需求也就比别人更早找到更多发展机会。”
而对于为何要在未来5年培养5万名AI数据标注师,尉赤告诉记者,“我们可以看到,人工智能是个高速发展的行业,数据服务又与人工智能息息相关。所以,5年培养5万人并不算多,我们的线上众包注册用户有将近2000万人,目前每个月在线上为我们提供服务的人将近5万人。如果按照行业增长速度来看的话,培养5万人还不一定够。”
打好AI大楼的“地基”
毋庸置疑,AI数据标注师是随着人工智能的发展出现的一个新兴就业岗位。据报道,2020年2月,“人工智能训练师”正式成为新职业并纳入国家职业分类目录。数据采集和标注是人工智能训练师的主要任务之一。数据标注师的工作是教会AI认识数据,有了足够多、足够好的数据,AI才能学会像人一样去感知、思考和决策,更好地为人类服务。
走进该基地的一间办公室,记者可以看到每个电脑前都坐着一名AI数据标注师,他们将根据各自分配的任务对文本、图片、语音和视频进行标注。工作人员演示“戴口罩的人脸图像标注”时指出,采集大量的戴口罩的人脸照片后,数据标注师对人脸的眉毛、眼镜、颧骨等人脸关键点进行精准的标注,标注的特征点越多,AI就越能精确地识别戴口罩场景下的人脸,让人们在不摘口罩的情况下也能实现精确的体温测量,或是通过人脸闸机。
要做AI的“老师”,首先要把知识转化成它能消化和吸收的‘语言’,也就是将数据想象成AI的燃料,人类对采集回来的原始数据进行加工,标注的过程就可以提取出一些数据信息。尉赤进一步举例解释称,“比如,在采集大量的人脸数据后,AI数据标注师会对人像进行标注,提取特征,将特征‘喂’给人工智能模型,那么模型算法相当于总结了之前人工标注出的信息,并找出通用规律,那这个人工智能模型就具备了人脑才有的认知和判断能力。”
“如果做一个比喻的话,我觉得数据标注师就是最基础的角色,就像盖大楼,没有基础,这个楼盖不起来,而且也不稳。那么,我们把这一块做好了,人工智能的发展才会又快又稳。”李应维最后对环球网科技记者表示:”我们做的这个事情看起来简单枯燥,但是它的意义非常大,就像一台车没有汽油走不了,数据就是人工智能发展的汽油,是燃料。有了我们的数据,机器(算法)不断的迭代,就能推动人工智能往更好的方向发展。“返回搜狐,查看更多
深度分析AI新职位丨人工智能训练师是什么?做什么的?发展前景如何?
有人说,“人工智能训练师”是AI给人类带来的第一个非技术类“新职位”,这也许能让大家对AI多一些客观认知、甚至是好感;不过这个新职位,AI领域从业者的认知度还不高——
人工智能训练师是怎么产生的?
人工智能训练师是什么
什么样的人适合
职位发展前景如何
等等问题,你是不是还是大脑一片空白,为此我将在正文中为大家一一揭晓。
人工智能训练师的产生背景一般而言,AI公司从客户(用户)那里获取到的原始数据无法直接用于模型训练,在“人工智能训练师”出现以前,是由AI产品经理先用相关工具简单处理,再交给数据标注人员进行标注加工,但因为标注人员对数据的理解和标注质量差异很大,导致整体标注工作的效率和效果都不够理想
同时,AI公司在其细分领域内积累了大量数据,这些数据往往在使用一次后就不再产生更多价值,随之带来了第二个问题:数据无法沉淀和复用
基于这两个问题,“人工智能训练师”应运而生
通常想要得到人工智能识别一个物体的能力达到99%,需要数万的标注数据,才可能训练出来。所以,随着人工智能应用的大量需求,标注数据的需求量也在成倍的增长,理解了数据标注是什么,那么,都有哪些数据需要进行处理呢?
*注:“人工智能训练师”这个职位,据说最早是由BAT某部门在2016年前创造的
人工智能训练师是什么定义
人工智能训练师,是通过分析产品需求和相关数据,完成数据标注规则的制定,最终实现“提高数据标注工作的质量和效率”以及“积累细分领域通用数据”的价值,从工作流和工作难度等角度看,它介于数据标注和AI产品经理之间
工作职责
人工智能训练师的工作职责,主要有以下三点:
提供数据标注规则:通过算法聚类、标注分析等方式,从数据中提取行业特征场景,并结合行业知识,提供表达精准、逻辑清晰的数据标注规则,最终确保数据训练效果能满足产品的需求;
数据验收及管理:参与模型搭建和数据验收,并负责核心指标和数据的日常跟踪维护;
积累领域通用数据:根据细分领域的数据应用要求,从已有数据中挑选符合要求的通用数据(适用于同领域内不同客户/用户),形成数据的沉淀和积累。
*注:在不同公司,人工智能训练师的职责具有一定差异性,比如有的偏重前期的数据挖掘和模型训练,有的偏重后期的产品运营和产品体验。
数据标注的应用场景人工智能训练师的职业规划智能安防
智能安防是人工智能与信息技术结合的关键领域,对于城市与民生发展有重要的意义。通过生物识别、行为监测等技术手段,广泛地应用于城市道路监控、车辆人流监测、公共安全防范等领域。人脸标注在智能安防中主要应用于人脸识别与身份识别。此外,物品标注在智能安防应用中,物品标注需要和行为标注结合。
智能交通
近年来,随着人工智能浪潮的兴起,无人驾驶、智能交通安全系统一度走进我们的生活,国内许多公司纷纷投入到自动驾驶和无人驾驶的研究,例如百度启动的“百度无人驾驶汽车”计划,在汽车自动驾驶的过程中,想要让汽车本身的算法做到处理更多、更复杂的场景,背后就需要有海量的真实道路数据做支撑。而这就需要依靠数据标注。此外还有智慧停车,这些也都要依赖于人工智能数据标注的介入,对于行车视频进行采集,路况进行提取,停车点进行标注,包括D点云障碍物、红绿灯、车道灯及高精地图。
智能医疗
智能医疗是通过打造健康档案区域医疗信息平台,利用最先进的物联网技术,实现患者与医务人员、医疗机构、医疗设备之间的互动,逐步达到信息化在人工智能训练师的共同努力下,新冠肺炎临床AI诊断技术可在20秒内做CT影像的判断,准确率达96%,疫情期间,AI机器人已拨出1100万通疫情防控电话,AI与医疗行业的结合将有望迎来跨越式发展。
这些海量的数据几乎全部依赖数据标注师手工进行标注,数据标注行业的缺口十分可观,并且数据标注已经在各行业产生了极广的应用,行业也开始逐渐升级,走向产业化。在数据标注行业流行着一句话,“得数据者,得人工智能,有多少智能,就有多少人工”,从人工智能训练师转型AI产品经理大约需要6~12个月的时间,出色的工作表现和抓住时机的决心将在转型过程中将起到决定性作用
附:一个真实转型案例
SY同学,从数据标注转型到AI产品经理,花费了6个月,这应该是最快的速度了,因为她的每一步都是能力刚刚ready时,公司就有内部转岗或借调使用的headcount机会。
刚入职,具有超高工作质量与效率,明显高出其他同期入职同事
1个月后,指导其他兼职标注人员
3个月后,公司内其他部门有AI产品助理空缺,正好内部借调(从产品助理工作开始)
6个月后,正式转型AI产品经理