预见2023:一文了解中国数据标注与审核行业发展现状及趋势
0分享至核心关键词:机器学习发展历程数据标注与审核市场规模数据标注与审核竞争格局数据标注与审核产业链全景数据标注与审核发展趋势1、监督学习为主流,数据标注与审核成基石人工智能是研究如何通过机器来模拟人类认知能力的科学,机器学习是现阶段实现人工智能的主要手段。机器学习的处理系统和算法是主要通过找出数据里隐藏的模式进而做出预测的识别模式。机器学习是一个范围宽阔、内容繁多、应用广泛的领域,并不存在(至少现在不存在)一个统一的理论体系涵盖所有内容。根据技术的路线的不同,可以分为监督学习、无监督学习、强化学习三大类。机器学习分类资料来源:智研咨询整理通过比较可以看出,监督学习与其他两类方法主要区别在于模型训练过程中是否需要标注数据。监督学习模式,需要标注数据对学习结果进行反馈,在大量数据训练下,算法错误率能大大降低。自动驾驶、药物医疗、安防等领域主要采用了此种方法,因此监督学习成为机器学习的主流,海量的标注数据也成为机器学习蓬勃发展的基石。三类方法比较资料来源:公开资料整理2、行业产业链及业务流程数据标注就是对文本、图像、语音、视频等待标注数据进行归类、整理、编辑、纠错、标记和批注等操作,为待标注数据增加标签,生成满足机器学习训练要求的机器可读数据编码。数据标注与审核行业产业链涉及到上游人力供给和设备供给,下游则主要应用在智能识别的人工智能领域。上游产业包括标注员劳动力、计算机软硬件设备。上游市场的正向发展有利于数据标注与审核行业在业务的深度和业务能力的快速提升。下游主要以人工智能为主,下游市场的持续扩张有利于数据标注与审核行业新增市场空间的发展,保持数据标注与审核行业未来可观的发展前景。数据标注与审核行业产业链结构资料来源:智研咨询整理数据标注的主要过程,其中包括:需求承接、标注准备、正式标注、验收交付、模型训练、上线运营等。数据标注流程架构资料来源:智研咨询整理3、行业高速增长,数据资源定制服务为主要细分市场十多年时间,国内数据标注与审核大致经历三个发展阶段。近年来运营模式、标注工具及管理工具、数据流存储管理等多方面创新,行业进入了新的发展阶段。作为劳动密集型产业以及数据产业的一个处理环节,正好是当前疫情形势下解决大量就业并促进人工智能发展的大好机会,各地政府大举投入数据标注产业园区建设。我国数据标注与审核行业发展阶段资料来源:智研咨询整理智研咨询发布的《2022-2028年中国数据标注与审核行业投资策略探讨及市场规模预测报告》显示,2015-2021年,我国数据标注与审核行业市场规模保持稳步增长态势,2021年达到44.40亿元。2015年以来,我国AI行业尚处在启动期,预计在之后的几年里,伴随AI战略被更多企业认同,更多资金和资源的投入,以及各项技术的实际应用落地,我国数据标注与审核行业将延续高速增长态势。2015-2022年我国数据标注与审核行业市场规模走势图资料来源:智研咨询整理2021年,我国数据标注与审核行业数据资源定制服务市场规模37.92亿元,同比增长19.02%;数据集产品市场规模5.92亿元,同比增长21.31%;其他数据资源应用服务市场规模0.56亿元,同比增长51.35%。2015-2021年我国数据标注与审核细分产品市场集中度资料来源:智研咨询整理4、行业受到资本市场青睐人工智能的发展和兴起带动了与其相关产业的发展,而数据标注作为其中重要的一环,毫无疑问成为了新兴的代表行业。对于投资方而言,之所以选择数据标注,一方面,AI公司在算力、算法方向投入的增量梯度逐渐下降,未来市场存在巨大的数据需求;另一方面,这类公司的智能标注工具不仅提升了数据的产出效率,同时也在数据、辅助标注模型的迭代中打造出了完善的AI基础设施。AI的未来就是数据到模型的无缝输出。近年来我国数据标注与审核市场部分企业融资情况资料来源:公司公告5、行业外包机构占据主导地位目前我国的数据标注与审核业务的参与者主要包括两类,一是人工智能公司内部的标注部门,二是商务流程外包公司。随着人工智能的持续发展,人工智能企业对数据质量要求逐渐提升,数据标注与审核市场需求持续增长,同时大量中小初创人工智能企业为了降低成本,更愿意选择专业的第三方数据采集服务商,数据标注与审核行业规模持续扩大。数据标注行业参与者类型资料来源:智研咨询整理AI行业的蓬勃发展,对数据的需求呈井喷式增长,数据标注行业是伴随着AI的兴起而产生的一个新兴行业。目前,我国国内市场越来越多的互联网巨头公司开始组建自己的数据标注平台,京东(京东众智)、百度(百度众测)都已经拥有自己的标注平台和工具。头部公司之外,国内近年兴起众多数据标注公司,如龙猫数据、Testin云测、倍赛BasicFinder、数据堂等,这些公司仅次于第一梯队,都具有相当的规模。数据标注与审核行业企业格局资料来源:智研咨询整理6、行业维持高增长,AI+、高精准、定制为行业主要发展趋势目前的人工智能(有监督机器学习)由标注数据驱动,也可以说标注数据是人工智能的血液。随着人工智能成为国家发展战略,其势头锐不可挡,预计2028年我国数据标注与审核行业市场规模将达262.74亿元。2023-2028年数据标注与审核行业市场规模预测资料来源:智研咨询整理随着AI技术的发展,数据标注工具需要从只支持人工标注逐渐转化为人工标注+AI辅助标注的方法。其基本思路为:基于以往的标注,可以通过AI模型对数据进行预处理,然后由标注人员在此基础上做一些校正。因此,数据标注工具的发展趋势是开发以人工标注为主机器标注为辅的半自动化标注工具,同时减少人工标注的比例,并逐步提高机器标注的占比。随着机器标注占比提升,未来数据标注与审核产品/服务价格仍然存在下降空间。数据标注得越精准、对算法模型训练的效果就越好。大部分算法在拥有足够多普通标注数据的情况下,能够将准确率提升到95%,但从95%再提升到99%甚至99.9%,就需要大量高质量的标注数据。可以说,高质量的数据是制约模型和算法突破瓶颈的关键指标。随着人工智能对数据采标的复杂度和精细度要求变高,众包在现有技术条件下,很难实现品控。随着人工智能产品进入落地多元行业和场景,作为基础的数据也向着场景化发展。在算法、算力没有重大突破的前提下,场景化的数据就是核心优势。因此贴合度较高的定制化服务能力就显得尤为重要。以上数据及信息可参考智研咨询发布的《2022-2028年中国数据标注与审核行业投资策略探讨及市场规模预测报告》。智研咨询是中国产业咨询领域的信息与情报综合提供商。公司以“用信息驱动产业发展”为品牌理念,用专业的视角洞见行业趋势,提高用户的行业认知,助力商业决策。主要业务包含产业研究报告、可行性研究报告、定制报告、商业计划书等。特别声明:以上内容(如有图片或视频亦包括在内)为自媒体平台“网易号”用户上传并发布,本平台仅提供信息存储服务。
Notice:Thecontentabove(includingthepicturesandvideosifany)isuploadedandpostedbyauserofNetEaseHao,whichisasocialmediaplatformandonlyprovidesinformationstorageservices.
/阅读下一篇/返回网易首页下载网易新闻客户端人工智能技术服务职业能力评价项目介绍丨艾肯家电网
一、 项目背景
近年来,中国人工智能产业发展迅猛,市场规模增速高于全球增速。预计到2020年,中国人工智能产业规模将超过1500亿元,带动相关产业规模超过1万亿元。全球新兴人工智能项目中,中国占据51%,数量上已经超越美国。但全球人工智能人才储备,中国却只有5%左右,人工智能的人才缺口超过500万。
人工智能产业发展离不开人才的培养、储备、发展。国务院《新一代人工智能发展规划》中提出了要大力加强人工智能人才培训,大幅提升就业人员专业技能,满足我国人工智能发展带来的高技能高质量就业岗位需要,据中国信通院研究表明,中国的人工智能领域正在以复合增长率54.6%的速度增长。
国家职业资格培训鉴定实验基地作为人社部建立的国家新职业研发和推广的机构,设置了人工智能新职业能力评价考试项目,旨在培养人工智能技术服务类和应用开发类人才。其中,以数据标注为代表的技术服务类人才尤为紧缺。
二、 数据标注,人工智能的“老师”
实际上,无论我们听到的人工智能技术有多酷炫,都无法掩盖其认知水平还不如5岁小孩的事实。数据标注的任务就是将收集的数据包括文本、图片、语音等,通过整理和标注后,教会人工智能识人辨物,不断学习和成长,最终达到人工智能。举个例子,聊天软件中,通常会有一个语音转文字的功能,大多数人可能都知道这是由智能算法实现的,但是算法为什么能够识别这些语音。其实智能算法就像人的大脑一样,它需要进行学习,通过学习后它才能够对特定数据进行处理,反馈。正如语音的识别,模型算法最初是无法直接识别语音内容的,而是经过人工对语音内容进行文本转录,将算法无法理解的语音转化成容易识别的文本。那么不同的语速、音色模型算法怎么能够分辨呢。这就是为什么模型算法在学习时需要海量数据的原因,这些数据必须覆盖常用语言场景、语速、音色等,全面的数据才能训练出出色的模型算法。而这些海量的数据就需要大量的人工进行标注,有多少人工决定了有多少智能。
三、 数据标注行业现状
如今,人工智能已实现大规模落地应用,随着5G时代的到来,人工智能在通讯、科技、金融服务、制造业、医疗保健、社交媒体、生活娱乐、运输与交通、零售等领域将实现迅猛发展。人工智能的繁荣催生并壮大了数据标注行业,创造了大量的人才需求。目前人工智能技术服务从业人员过百万。但由于没有规范统一的行业标准和人才评价体系,企业也缺乏选拔人才的科学评价标准,因此人员素质低、水平差已成为制约企业发展的障碍。在企业产业结构调整和升级,从劳动密集型向技术密集型发展的同时,也极其缺乏有技能、有水平、稳定的从业人员。近日,教育部公布2020年高等职业教育专业新增设置情况,此次公布结果显示,2020年,全国共有171所高职院校成功申报人工智能技术服务专业。
四、 项目优势及就业前景
1、 职业化培养
数据标注新职业能力评价项目是按照国家新职业标准要求,汇聚中科院计算技术研究所、京东集团等科研单位和企业的权威专家,共同打造出培训和考核体系,是一个有行业代表性和权威性的新职业培训考试项目。
2、 考试体系健全
采用上机考试,理论+计算机模拟实操的形式,科学、客观的考核出学员的技能水平。
3、优质就业、企业欢迎
东方图灵人工智能就业社区已和京东、中智(国内最大的人力资源服务央企)、倍赛BasicFinder(A轮获得数千万融资的头部数据工厂)、爱数智慧(B轮融资估值2亿元)、千机数据(拥有数千人的头部数据工厂)等众多知名AI数据服务商和人力资源名企,达成人才培养和实习就业等领域的战略合作。同时也在不断邀请优质企业加入进来,为通过考核的持证人才推荐就业,为企业推荐优秀人才。
4、灵活的就业选择
数据标注企业人才需求量大,团队多数布局于中小城市,未来可实现家门口就业。
5、广阔的职业发展前景
有经验的数据标注人才可通过正规培训晋升为数据标注工程师、人工智能审核师,人工智能数据测试工程师等技术管理岗位。也可选择创业,组建自己的数据标注团队。
五、 考试方式
由国家职业资格培训鉴定实验基地组织全国统一上机考试的形式。其中理论知识考试采用上机考试方式,技能部分考核采用计算机仿真模拟操作考试方式。
理论知识考试占比50%,技能考核占比50%,两部分成绩相加成绩达60分及以上者为合格。考试时长为90分钟。
六、 考试时间
学员完成全课时培训及考前辅导后,即可向培训机构申请考试。考试时间为每年3,6,9,12月份。
七、 考试地点
华北地区:北京、天津、太原、石家庄、呼和浩特
华东地区:上海、济南、南京、合肥、杭州、福州、厦门、青岛
华中地区:武汉、郑州、长沙、南昌
华南地区:广州、深圳
西南地区:成都、重庆、贵阳、昆明
西北地区:西安、兰州、乌鲁木齐、银川
东北地区:大连、沈阳、长春、哈尔滨
八、 获得证书
考试合格者,可获得国家职业资格培训鉴定实验基地统一核发的《人工智能技术服务-数据标注与审核》高新技术能力证书,证明考生具备人工智能领域相关专业技能水平。证书全国通用,可作为用人单位对持证人员能力评价的参考依据。
九、 报名提交资料
报名登记表;
电子原版照片
身份证复印件;
学历复印件;
工作证明;
相关专业证书(可选)。
十、 证书样本
人工智能的人工部分—数据标注(上)
编辑导读:人工智能的发展,是通过不断学习已知样本实现的。在监督学习的情况下,人工的数据标注是智能的前提与灵魂。本文作者对此进行了分析,希望对你有帮助。
当今社会人工智能领域蓬勃发展,各领域都在追求智能化,耳熟能详的有智能驾驶、智能家居、智能语音、智能推荐等。人工智能是通过机器学习,大量学习已知样本,有了预测能力之后再预测未知样本,以达到智能化的效果,机器学习可分为监督学习和无监督学习,无监督学习的效果是不可控的,常常被用来做探索性的实验。
在实际应用中,通常是有监督学习,有监督学习就需要做数据标注,所以智能的前提是人工,因为智能结果的输出是多次人工样本的输入,可以说人工的数据标注是智能的前提与灵魂,没有人工就没有智能,有多少人工就有多少智能。
一、数据标注的分类数据标注从难易程度方面可划分为常识性标注与专业性标注。例如,地图识别领域的标注多为常识性标注,标注道路、路牌、地图等数据,语音识别标注也多为常识性标注。做该类型标注工作难点在于需要大量标注训练样本,因为应用场景多样且复杂,对标注员无专业技能要求,主要是认真负责,任务完成效率快、质量高的即为好的标注员。
医疗诊断领域标注多为专业性标注,因为病种、症状的分类与标注需要有医疗专业知识的人才能做,招聘领域标注也属于专业性标注,因为标注员需要熟知招聘业务、各岗位所需的知识技能,还需了解HR招人时的关注点,才能判断简历是否符合职位的招聘要求。该类型的标注工作需要有招聘领域专业知识的标注员,或者称为标注专家,标注工作的难点比较多,例如选拨培养合适的标注员、标注规则的界定、标注质量的控制等多方面。
数据标注从标注目的方面可划分为评估型标注与样本型标注。
评估型标注一般是为了评估模型的准确率,发现一些Badcase样例,然后优化算法模型,该类型标注工作为了节约标注资源可控制标注数量,一般情况下标注千量级的数据,样本具有统计意义即可,标注完成后需要统计正确率,以及错误样例,该类型标注的重点是错误样例的原因总结,分析每个Badcase出现的原因,并将原因归纳为不同的分类,有了原因分析方便算法同学分类型分批次的优化模型。
样本型标注即为模型提供前期的训练样本,作为机器学习的输入,该类型标注工作需要标注大量数据,一般情况下需要标注万量级的数据。为了样本的均衡性,标注样本多是随机抽取的,这样做的优点是可在一定程度上避免样本偏差,但缺点是要标注大量数据。如果是文本型样本,有时可借助算法抽取一些高频、高质量样本进行标注,这样可一定程度上减少标注工作量,但可能存在样本偏差。总之样本型标注是个苦力活,业界有句话这么说的:如果你和一个人有仇,那么劝他去干标注吧。
数据标注从标注对象方面可划分为文本标注、图像标注、语言标注、视频标注,从标注方式方面可划分为分类标注、标框标注、描点标注,这些标注分类基本都属于标注形式的差异,没有较强的专业度,所以不做较多讲述了。
二、数据标注规则的制定常识性标注的规则比较简单,标注一部分样本即可总结出较通用的规则,但专业性标注的规则比较复杂,制定专业的标注规则需要遵循以下三原则:多维分析与综合分析相结合,因子权重影响因素场景化,问题类型标签化、结构化。以下是招聘领域简历与职位匹配度标注规则的指导思想,具体细节规则会在《数据标注(下)》中阐述。该标注规则比较符合标注规则制定的三原则。
第一,多维分析与综合分析相结合。
简历与职位的匹配度影响因素肯定是多维的,不能只参考工作经历或专业要求一个因子,或者某几个因子,要多维分析,最终再给出综合评分结果。当然简历与职位的匹配标注也不可能一上来就能给出综合的评分,不能纯感性的告诉标注员:你觉得是简历与职位非常匹配就给分,不匹配就不给分,这在逻辑上也不合理。所以要先给单一因子打分,然后参考每个因子的评分结果,最终再进行综合分析给出评分结果。
第二,因子权重影响因素场景化。
前面有提到简历与职位匹配度评估需要给每个因子打分,那每个因子打分结束后怎么给出综合评分呢,给每个因为赋予权重吗?然后按权重计算总分?答案是否定的,我们要结合具体场景把所有因子进行归类分析,比如设定一些重要因子,如果重要因子不匹配可能就直接不给分,比如工作经历代表的是一个人的胜任力,如果该候选人不具备该岗位的胜任力,总分肯定是0分。还有一些因子虽然不是很重要,但会影响评分,有些因子时而重要时而不重要,比如年龄,HR想要1-3年经验的行政专员,候选人40岁,该情况肯定会影响最终评分且很有可能总分是0分。所以把所有影响因子结合场景进行归类分析是十分必要的。
第三,问题类型标签化、结构化。
标注结果一般情况下会以分数的形式展示,ABCD,或者0123,然后一组数据没有得到满分是因为什么呢?哪里不匹配呢?所以前期制定标注规则时一定要把原因分析考虑进去,列出所有不匹配的原因,形成结构化的原因标签,有利于最终分析Badcase的分类与占比,然后算法或者策略团队在优化时可以优先解决占比高或影响恶劣的case。
数据标注是一项看似简单实际却十分复杂的工作,涉及标注分类、标注规则制定、标注原因分析、标注系统搭建、标注团队管理等,尤其涉及到专业领域的标注则更困难,本篇主要介绍了标注分类、标注规则制定,细节的标注规则以及标注系统的搭建,标注团队管理会在后续更新,希望大家持续关注,感谢阅读!
本文由@艳杰原创发布于人人都是产品经理,未经作者许可,禁止转载。
题图来自Unsplash,基于CC0协议。