博舍

2023年人工智能数据采集标注行业四大趋势预测 人工智能数据采集标注难不难做

2023年人工智能数据采集标注行业四大趋势预测

原标题:2021年人工智能数据采集标注行业四大趋势预测

人工智能应用三大发展阶段,对应数据需求各有差异。研发、训练和落地是企业应用人工智能算法必须要经历的三个阶段,由于不同发展阶段算法所处的状态不同,所以不同发展阶段对AI数据的要求也有着差异化表现,但每个阶段都需要大量的数据支撑。

云测数据认为,未来,高精度数据将成人工智能训练阶段追逐热点,具备主要需求方稳定的特点,存量市场将稳步增长;而随着人工智能对长尾场景的数据需求进一步扩大,3-5年内,场景化数据将拥有更广阔的增量空间,成为行业加速发展的新引擎;同时,底层技术+服务能力”将愈发重要直至成为核心竞争点,人工智能更需要能提供一体化数据解决方案的服务商。

一、“数据的精准度”将成为行业追逐热点和重要突破项

在算法训练阶段,需要通过更高质量的数据对已有算法的准确率、鲁棒性等能力进行优化。

从产品终端体验来看,在人工智能概念热度和巨大的市场前景背后,国内消费者对AI应用的期待值大幅提升,但AI应用却出现同质化严重等问题。当前,人工智能算法模型经过多年的打磨,基本达到阶段性成熟,一个成功的AI应用与其他应用的差异化对比,更多的来自于精准大量的训练数据。

随着人们对人工智能算法识别准确的要求更上一个台阶,具有更高精准度的数据也将成为训练阶段的主流需求。云测数据在数据采集标注领域的重要优势之一,就是能提供足够精准的训练数据,因此其最高99.99%的精准度可较好的应对人工智能数据精准度提升的情况,行成企业护城河。

对于人工智能数据采集标注服务商来讲,将提高数据标注精准度作为业务追求,才能用存量市场和增量市场“两条腿”稳健前行,而那些低质量的AI数据服务商在未来将面临淘汰或转型其他业务。

二、人工智能向垂直领域落地,场景化数据需求迎来增长

在算法落地阶段,经过研发与训练之后,人工智能应用从理论走向市场,对细分场景化的数据准确度提出更高要求。

从细分结构来看,随着人工智能技术的不断成熟,更多的场景和行业开始嵌入使用人工智能技术,AI行业应用场景逐渐趋于长尾和碎片化,产生了大量新兴垂直领域的数据需求,如疫情期间的口罩识别应用等;同时,从AI应用迭代、用户体验完善的角度来看,AI应用需要更加贴合具体使用场景的数据进行迭代更新。

这些数据采集需求相对复杂、聚焦,难度较大,对AI数据服务商的场景化采集能力提出了很高的要求。随着人工智能对长尾场景的数据需求进一步扩大,未来,场景数据将拥有更广阔的增量空间,具有相关采集工具、资源、能力的数据采集标注服务商将拥有极大的竞争优势。以云测数据为例,为进一步满足场景化数据的需求,首创了“数据场景实验室”进行相应的场景化数据生产。

“底层技术+服务能力”更受数据需求方重视,数据服务商应提前布局。目前,纵观国内外人工智能数据服务厂商,各家企业在模式、技术、服务等方面各有差异,但综合人工智能发展需求和服务厂商的情况来看,“技术+服务”将成为未来3-5年内的重要竞争核心。

三、数据采集标注服务商的“技术能力”将变得更加重要,数据的隐私安全依旧需要完善

技术层面来讲,随着AI训练数据需求多样化,以及复杂程度的提升,客户类型丰富、数据需求多样、并发项目众多等因素对厂商的能力和效率提出更高要求。如云测数据就拥有一套自主研发贯通创建任务、分配任务、数据处理、质检/抽检、和数据安全管理等各环节于一体,并且能对图像、文本、语音、视频以及点云数据做到一站式加工处理的管理和执行一体化平台。这是AI数据服务商技术实力的集中体现,也是快速确立行业地位的关键一步。

其中,由于部分行业领域具有较高的数据敏感性,那些自主研发能力强、技术水平高、可向需求方提供私有化部署服务,或将自身平台与需求方系统兼容,来保证数据的隐私安全等能力,将成为人工智能数据服务商形成差异化竞争的关键。

四、未来3年,人工智能更需要能提供一体化数据解决方案的服务商

“服务能力”属于数据服务商的一项软实力,具体表现为能够积极配合、快速响应需求方的数据要求。通过对数据需求方的调查研究,除了对精细化、质量、安全性、效率等业务层面的核心关注点之外,具备更深刻的行业领域知识、更懂场景、更懂技术、更具行业前瞻性,甚至给出需求方提出采标优化建议等等的服务能力,将成为未来数据需求方选择合作企业的重要参考指标。

尤其在人工智能应用场景落地阶段,常规的数据采集或者数据标注已经不具备竞争优势。可以提供集调研、咨询、设计、采集、标注于一体的人工智能训练数据解决方案的服务商,在扩大人工智能数据服务的业务边界的同时,还将在开拓业务市场、行业地位的确立上具备更多的主动性。

人工智能对数据提出更高需求,展现了在人工智能产业化落地进程中,数据发挥的重要作用。场景化、高精度的数据和专业化、技术化的服务,将成为未来3-5年人工智能全速发展的重要突破口,驱动人工智能深化发展。人工智能的发展加速各领域智能化的到来,而中国庞大的数据量又为人工智能技术在各个场景落地生长提供了肥沃土壤,叠加向好的政策、大力的技术研发投入和积极拥抱新技术的消费者,人工智能产业未来发展强劲,数据采集标注服务将成为主要拉力,并持续处于上升期,行业前景良好。

(责编:杨虞波罗、吕骞)

分享让更多人看到

人工智能背后的“人工”:数据标注时薪缩水一半,欠薪高发

文/易柏伶 

“我感觉兼职标注会越来越容易被替代掉。”来自广东河源的27岁宝妈西梅(化名)对自己数据标注兼职有一种淡淡的悲观。从2018年兼职数据标注,西梅的收入已经大不如前。

生活在贵州百鸟河小镇上的杜珉旭,是数据服务商梦动科技公司的项目组组长,除了每天协同组员完成数据标注项目,他还会抽出时间自学python语言。

西梅和杜珉旭都是AI数据标注员,这是一个需求庞大却又曾备受争议的职业。

标注行业给算法提供大量的训练数据。据IDC统计,全球每年生产的数据量将从2016年的16.1ZB猛增至2025年的163ZB,其中80%~90%是非结构化数据,这些数据经过清洗与标注变成了结构化数据,才能被人工智能所理解。2020年2月,“人工智能训练师”已正式成为新职业并纳入国家职业分类目录。

业内往往说,“有多少智能,背后就有多少人工”。门槛较低,又需要大量重复的工作,这一行业生来就属于劳动密集型产业。为了降低人工成本,它多数存在于一些偏远的地区,因而往往与产业扶贫联系起来。而重复枯燥的劳动,加之过低的工资,又被人称“AI富士康”。

机器智能发展到一定阶段后,人工是否会面临淘汰,如果淘汰那相关的劳动力又何处安放?自数据标注行业诞生,担忧与争议就没停过。如今,随着数据标注行业迭代升级,这些不同工作形式的数据标注员,都面临着能力升级的考验。

入行门槛低

前数据标注销售人员黄明(化名)对第一财经记者表示,作为劳动密集型产业,标注基地的员工实际上与在工厂上班的人毫无区别。在他看来,一天下来坐在电脑前标注,既繁琐重复,又给人体尤其是眼睛造成较大损伤,工资还不高。

对于仍然从事数据标注的受访者来说,他们看法和黄明不尽相同。尽管这份工作在很多人眼里看似枯燥乏味,他们还是能找到和自己生活、喜好的结合点。

两年前,西梅由于怀孕而不方便正常上班。她不愿跟随丈夫从事养殖业,辞去淘宝客服的工作后,在网络搜索“兼职”时发现了一家名为“爱标客”的网站,也就从那时起,西梅开始接触了数据标注行业。

爱标客是科大讯飞旗下、连接标客和任务管理用户的服务型众包平台,为了满足其资源部或其他合作方数据标注、收集等简单工作而对外发放兼职。

2018年刚入行时,爱标客一些简单的打框和转写校准项目,时薪在25到40元之间,一个月下来,西梅收入比早前全职做淘宝客服还高。“我比较喜欢打框,这个过程可以边听音乐边操作,方言转写校准实在是太考验人的耐性,我对声音不敏感。”西梅对第一财经记者表示。

第一财经记者登录“爱标客”网站,发现了方言转写校准、数学解答题检查、生僻字筛选等任务,需要先申请加入团队才能领取。其中,示例视频显示,转写校准主要是调整语音频谱和语气空格,用于校准机器转写的准确度。

西梅称,后来随着做兼职标注的人越来越多,甲方不断地压价,爱标客目前大部分项目时薪最多只有10到15元,有时候可能连10元都不到。

由于时薪降低,她开始加入各种QQ群,寻找其他外包工作,目前时薪大约为20元,一个月下来能挣2000元到3000元不等。“养家糊口是不可能的,但是起码能做点事情赚些钱。”西梅表示。

相比西梅兼职的标注工作,杜珉旭作为梦动科技公司的项目组的组长,一个月3000到4000不等的月薪,似乎高不了太多。但作为企业的数据标注正式员工,杜珉旭的精神状态显得更自信满满。

早在贵州民族大学读历史学专业、临近毕业时,杜珉旭就已经在梦动科技实习。他毕业后选择在梦动科技成为数据标注员,一方面是由于对人工智能的好奇,另一方面则因为应聘的是项目组组长,可以积累管理经验。

在梦动科技,杜珉旭的主要工作是项目测试,与客户沟通,同时给组里标注员培训,解决项目上的一些问题。平时工作强度不算高,双休以及偶尔加班,公司不仅提供免费住宿,管理层住宿还提供空调、冰箱、洗衣机,让他在生活方面有所保障。

杜珉旭对第一财经表示,在梦动科技从事这项工作的同事,精神状态各有不同。约30%的实习同事对人工智能项目、大数据行业等都颇感兴趣。但作为劳动密集型行业,重复性标注或录制的过程较为枯燥,也使得有些同事未能适应职业而离开,岗位流动率约为10%。

杜珉旭称,这部分人在做数据标注中,往往对行业了解比较浅显,有些仅是为了挣钱,对行业动态则较少关注。

黄明后来跳槽到了一家做激光雷达的创业公司做销售。在他看来,数据标注行业好处之一,是能对接到许多高端企业,以最低门槛接触到人工智能领域。

他们的共识是,对于带孩子的宝妈、农村待业人士,甚至一些残障人士,数据标注员不失为一份可以接受的工作。

众包模式下质量与权益问题俱增

中国的数据标注行业最早可追溯到2005年,著名计算机视觉专家、人工智能专家朱纯松从美国回到了故乡湖北鄂州,创办了莲花山研究院,筹建据称是当时世界上最早的大数据标注团队。

2015年,随着人工智能巨头的崛起,数据标注和采集需求激增,市场真正意义上开始形成。许多数据服务公司作为乙方进入到日益扩大的市场,为百度、阿里等大型互联网公司,以及AI独角兽企业等服务。

截至目前,数据标注产业已经遍布全国,以第三方数据服务商、巨头布置基地和众包模式呈现,例如百度山西的AI数据标注基地、贵州百鸟河的梦动科技、河北和安徽的数据堂基地,以及河南的千机数据、睿金科技,河北涞源县东团堡村等。

梦动科技数据服务事业部总监曾芸对第一财经记者介绍,梦动属于独立的数据服务商,联动贵州盛华职业学院,对学生以产教融合的方式进行数据标注的教学和培养,从大量的实习生开始,逐渐选拔出能够适应数据标注员工作的正式员工与管理人员。

而如同西梅的“兼职工作”,数据标注最开始的蛮荒发展,由“众包”模式而兴起。这些众包平台上一端对接项目需求公司,另一端对接大量有空余时间的志愿者(兼职人员)。这种众包结构的优点是可以组织社会上的大量兼职人员进行标注,节省公司的运营成本。

众包存在的弊端也较为明显,分散的兼职人员,专业背景和工作能力参差不齐,沟通成本高昂,数据保密也相对困难。一旦需求公司要调整原有标注需求,兼职人员流动性大,无法灵活服务需求公司。

西梅告诉第一财经,今年3月份疫情高峰时,她曾约到一家外包公司,据称当时一天大约数据产值能达200元,算下来一个月五六千左右工资。但真正开始测试时对方就在不停地催产量,后来由于数据验收不及格打回来返工,一个半月的时间返工了两次,最后西梅仅拿到了400多元。

据了解,众包模式的资源对接往往通过一些微信群或QQ群。记者在QQ上搜索“数据标注”,发现了兼职群、项目资源对接群,经验交流分享群等大大小小的数据标注群。顺手加入了几个群后记者发现,群内都比较活跃:群友们经常发布项目,寻找兼职,并且每隔一段时间都会有新成员加入。同时,记者时不时地在群里看到一些标注员被项目甲方拖欠标注工资的投诉。

众包模式也是大量数据标注员工资普遍较低的原因之一。黄明对第一财经表示,经过多层中介后,每个中介都在赚差价,因而导致的甲方成本较高,实际上真正标注的人挣的钱就比较少。

一些做得好的数据标注员则更倾向于筹划组建团队,寻找资源单干。而这些情况越多,一方面使得数据标注行业发展快速,另一方面则造成了行业众包中介层叠越来越严重。

对于数据标注员而言,行业的转型升级也意味着自身能力的转型升级。中国信通院报告指出,现阶段AI应用研发,数据标注是根本,10年之内都要依赖于标注数据。

至于机器什么时候能够取代人工数据标注,至今仍没有人能说出明确答案。但第一财经记者看到,在数据标注各式各样的QQ群里,依然每天不断出现新的项目需求和个人兼职的信息,依然不断有关注数据标注行业的大量讨论。

版权声明:本文内容由互联网用户自发贡献,该文观点仅代表作者本人。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如发现本站有涉嫌抄袭侵权/违法违规的内容,一经查实,本站将立刻删除。

上一篇

下一篇