博舍

数据标注师:AI背后的“人工” 数据标注与人工智能的关系

数据标注师:AI背后的“人工”

原创袁媛中国网信杂志

在人工智能领域,生成式AI正迎来新一轮爆发。它可以像人类一样与用户聊天交流,甚至能完成撰写邮件、视频脚本、文案以及翻译等任务。在这些令人惊叹的“智能”背后,离不开人的默默支撑——数据标注师。他们为数据贴上标签,让AI更容易识别数据,进而更好地服务人类。

2020年2月,数据标注师被正式纳入国家职业分类目录。“数据标注师其实还有另一个名字——人工智能训练师,教机器学习、感知和认知世界。”在百度智能云数据标注基地业务产品负责人胡驰看来,数据标注是机器感知现实世界的起点。

“这是一份有意义的工作”

作为人工智能算法的“燃料”,数据是人工智能实现应用落地的必备要素,数据标注的精确度往往决定着人工智能的智能程度,大多数原始数据只有经过人工标注、加工,才能激活数据价值。数据标注师工作的意义就在于此。

“我们的工作,其实可以理解成是在做人工智能的‘老师’。”拥有4年多从业经历的韩毓蕾,如今已是一名资深的数据标注师。大专毕业后韩毓蕾在山西的小县城做了两年的瑜伽老师,这份工作虽然轻松,但却无法带来新鲜感和挑战,她开始寻找新的机会。偶然间韩毓蕾在朋友圈看到一则数据标注师的招聘公告,很快便做了决定:“我之前没有了解过数据标注行业,在网上搜索了解了人工智能行业,才知道这是一份好上手、有前景的工作,我就想试试。”

数据标注师在三维图像中进行数据标注(受访者供图)。

入职后,韩毓蕾参与的第一个工作任务是无人驾驶项目,这个项目需要数据标注师对原始数据进行框选、提取、分类等处理,将其转化为机器学习可识别的专业数据。“比如前方道路上有行人,把这个人标注出来输送到程序里,程序就会告诉无人驾驶汽车‘这是行人,我们不能撞上去’。而在火车站、商场这类比较复杂的场景中,有时人和人会发生重叠,这种情况下就要耐心地区分开。”这样的工作内容在韩毓蕾看来十分有趣,也很有意义:“无人驾驶有着关乎生命安全的特殊性质,正是标注出的海量场景数据在支撑着技术容错率几乎为零的无人驾驶感知算法的训练。”

胡驰介绍,除了无人驾驶,数据标注还服务于智能安防、智慧金融、新零售、智慧家居等几乎所有人工智能场景。从这个维度来看,数据标注师对于人工智能行业的发展发挥着必不可少的支撑作用。

数据标注师前景充满可能

近年来,随着人工智能技术的不断应用,催生出庞大的数据标注需求,推动着我国数据标注产业市场的快速增长。数据标注企业不断涌现并相继落地三、四线城市,在助力当地数字产业发展的同时,也为更多普通人提供了转型、就业的新机会。

在四川内江,当地政府携手阿里巴巴合资成立了科技公司,建设包括数据标注在内的数字服务外包产业基地;广州天河区与科大讯飞共同在贵州大方县设立智慧就业车间,为当地易地扶贫搬迁群众提供贵州方言标注等工作岗位。而作为行业内最大的自建标注团队,百度智能云人工智能数据标注产业基地陆续落地山东济南、山西临汾、重庆奉节等十余个地方,其中,百度(山西)人工智能基础数据产业基地已经成为国内产值规模领先的单体数据标注基地,截至2022年5月,常驻专业数据标注师人数近5000人,累计产值超过5亿元。

百度(山西)人工智能基础数据产业基地的数据标注师们在进行标注任务(受访者供图)。

在人工智能领域,有一句话流传甚广,“人工智能行业,有多少人工,就有多少智能。”根据德勤《2022年人工智能基础数据服务白皮书》数据显示,2022年中国人工智能基础数据服务市场规模达到45亿元,预计2027年市场规模将突破130亿元。

未来,数据标注师将伴随着人工智能在更多应用场景的落地和其自主学习能力的持续增强而不断成长,具备理想的职业生命周期和上升空间。

胡驰说:“比如当前被誉为最接近通用智能的大语言模型,依然离不开数据标注。它基于大规模无标注数据进行预训练,再经过精调,在各领域中得到很好的应用。这其中的一个重要环节,就是算法工程师需要使用高质量的、人类反馈的标注数据进行大模型精调,来帮助模型成长。”

谈起职业前景,韩毓蕾充满信心:“希望通过不断学习提升自己的技能水平,后续可以参与到更有挑战性和创造性的项目中去。我相信拥有了与时俱进的能力,总能在行业里找到自己的价值。”

来源:“中国网信杂志”微信公众号

投稿:zhongguowangxin@vip.sina.com

原标题:《数据标注师:AI背后的“人工”》

阅读原文

挖掘AI数据价值,是人工智能高质量发展的的“必修课”

在数字经济持续发展的背景下,人工智能发展迅速并与各种应用场景深度融合,已成为促进经济创新和发展的重要技术。近期,各地出台政策举措力促人工智能发展。《深圳市加快推动人工智能高质量发展水平应用行动方案(2023~2024年)》于近日出炉,该方案明确提出:加大财政资金投入力度,重点支持人工智能创新和应用。除深圳之外,成都市经济和信息化局于6月1日就《成都市进一步促进人工智能产业高质量发展的若干政策措施(征求意见稿)》公开征集社会意见。

人工智能与数据

在人工智能数据层面,作为人工智能场景化发展的基座,对提高AI应用质量的乘数作用不断凸显,成为最具时代特征的生产要素。伴随着整个产业的发展,尤其随着人工智能技术在千行万业中的落地发展,市场对于数据的需求呈指数级增长。如何有效释放数据价值,对于加速人工智能技术发展,提升数字产业化水平有着重要意义。

人工智能基础数据服务指为AI算法训练及优化提供的数据采集、清洗、信息抽取、标注等服务,以采集和标注为主。人工智能概念爆发伊始,算法、算力、数据就是重要的三要素,进入落地阶段,智能交互、人脸识别、无人驾驶等应用成为最大的热门,AI公司开始比拼技术与产业的结合能力,而数据作为AI算法的“燃料”,是实现这一能力的必要条件。因此,为机器学习算法训练、优化提供数据采集、标注等服务的人工智能基础数据服务成为这一人工智能热潮中必不可少的一环。兴业证券表示,AI三大核心要素算力、算法和数据,数据是AI算法(模型)的“饲料”,重要性甚至超过算法和算力。

据IDC《中国人工智能基础数据服务市场追踪报告》分析,积极参与数字化转型的客户群体都有AI数据服务的需求,其中标注质量、标注效率、知识经验、数据安全、整体成本五个维度,构成了用户对AI数据服务商的能力要求。好的人工智能数据服务商,将在释放数据价值中起到有效作用。

云测数据总经理也表示,在人工智能数据市场中,数据服务商想要形成强劲的业务优势,就要摆脱同质化竞争,保持在模式、技术、服务等方面的不断发展。

以云测数据为例,其通过数据产品、数据处理工具与数据服务的“三螺旋”,为智能驾驶、智慧城市、智能IOT、智慧金融等行业提供高效率、高质量、多维度、场景化的数据服务与策略,发挥AI训练数据的价值,提升对AI数据的质量、效率、场景化方面提升的要求,推动数据要素有序发展及高效利用,助力企业在“百家争鸣”的智能化浪潮中迎头而上。

结合我国大数据产业与实体经济深度融合、产业发展不断壮大,数据作为生产要素的属性不断凸显的大背景,在人工智能领域,要实现数据价值转化,专业的AI数据服务商将在释放数据价值中起到越来越重要的作用,有效激发数据要素创新活力,加速数字产业化和产业数字化进程。

免责声明:该文章系我网转载,旨在为读者提供更多新闻资讯。所涉内容不构成投资、消费建议,仅供读者参考。【责任编辑:钟经文】

数据标注员:做人工智能的眼睛

原标题:

数据标注员:做人工智能的眼睛

经济日报记者徐胥

“我们就像人工智能(AI)的眼睛,带它看世界,理解世界,快速成长。”重庆瑞铭安普科技有限公司人工智能训练师吴宏羽这样描述自己的工作。

随着人工智能技术快速发展,越来越多的人工智能应用落地,人工智能训练师这个职业应运而生并不断发展壮大。2020年2月,人工智能训练师作为新职业被纳入国家职业分类目录。2021年,人力资源和社会保障部发布该职业的国家职业技能标准。“职业规范愈加清晰,折射出人工智能行业蓬勃发展的强劲势头,也更加坚定了我从事这份工作的信心。”吴宏羽说。

找到工作价值

2016年,从重庆工商大学人力资源管理专业毕业的吴宏羽进入一家银行工作,不久后辞职去支教。一次偶然的机会,她得知重庆奉节县政府正与百度共同建设人工智能数据标注基地,就选择加入其中,成为一名数据标注员。“此前,我从来都没有听说过数据标注员这个职业。经过了解,我知道这个职业还有一个名字叫人工智能训练师,有很大的发展空间,因此产生了浓厚兴趣。”吴宏羽说。

人工智能训练师是指使用智能训练软件,在人工智能产品使用过程中进行数据库管理、算法参数设置、人机交互设计、性能测试跟踪及其他辅助作业的人员,包括数据标注员和人工智能算法测序员两个工种。

刚接触这个职业时,从操作系统到工作流程,吴宏羽需要一点一滴从头学起。打开电脑,根据人工智能项目提供的各种场景图片,按要求对图片拉框、调整细节、标注不同类型要素,完成初步的数据标注。听上去简单,但因为对数据精细度的要求较高,有时候一张图片需重复操作数次。

在不断学习中,吴宏羽逐渐加深了对这份工作的理解,“人工智能就像刚出生的婴儿,什么都不懂,数据标注员要像老师一样一步步教它们认识、识别物品,把图片、语音、文本、视频等原始数据标注成人工智能可以理解的结构化语言”。通过反复练习,她的标注准确率不断提升,数据质量也就越来越高。

人们生活中常见的智能音箱、语音助手、网络客服、人脸识别等产品的背后,都有人工智能训练师的身影。“看到人工智能产品越来越聪明,人们的生活变得更加便捷和舒适,我找到了工作的价值所在。”吴宏羽说。

提高专业水平

行业的快速发展让吴宏羽感到惊喜。随着人工智能产业加速与各行各业融合,数据标注基础服务需求量持续增长。仅一年的时间,吴宏羽所在的数据标注基地就培育孵化专业数据标注企业10多家,容纳了500多名数据标注师。“我们公司业务量也越来越大,从去年的20多人发展到目前近70人,高学历员工占比越来越高。”吴宏羽说。

让吴宏羽更高兴的是,在通过自己的努力推动智能产品更新迭代的同时,也见证了人工智能技术的快速进步。“我标注的自动驾驶项目最初大多是2D平面图片,适用于一些简单的户外路面识别系统,此后拓展到3D立体图像,更加贴合实际驾驶场景,再演变为2D与3D融合标注,有的还包括手势采集,以便智能系统更好识别理解驾驶员或者数字人的动作。”吴宏羽说,“从人工智能项目数据标注的变化,能感受到我国无人驾驶技术的不断飞跃,我觉得挺酷的。”

由于工作表现突出,吴宏羽如今已成为一名审核质检员,负责审核其他数据标注员的工作。但在她看来,这份工作依然充满挑战,要持之以恒地学习。“数据标注员需要了解不同应用行业的背景知识,根据不同项目特点做出不同标注。同时,由于每次操作的工具平台都由项目方决定,基本不同,因此,数据标注员要熟悉各个标注平台的操作方法,不断学习新的标注规则。”吴宏羽说。

尽管目前行业需求旺盛,但吴宏羽还是产生了强烈的职业危机感。“人工智能培训师职业门槛不高、可替代性强,从业者需要不断提高专业技能水平,增强竞争力。”吴宏羽说。为此,她规划了未来职业发展路线。一方面,了解更多人工智能行业的前沿趋势,掌握语义分割、文本标注等更多技能;另一方面,努力从标注师成长为培训师,为有志从事这个行业的人提供培训、指导服务。

“身边一些朋友了解我的工作后,也选择投身其中,这让我很开心。”吴宏羽说,希望未来会有更多人认可并加入人工智能培训师职业中。

版权声明:本文内容由互联网用户自发贡献,该文观点仅代表作者本人。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如发现本站有涉嫌抄袭侵权/违法违规的内容,一经查实,本站将立刻删除。

上一篇

下一篇