2023了你还不知道数据标注人工智能为什么需要数据标注 如今人工智能早已在我们的生活中屡见不鲜,像“Siri”、“指纹解锁”、“人脸识别”等等都属于人工智能的范畴,然而人工智能
来源:雪球App,作者:AI科技讯,(https://xueqiu.com/2424115730/214981291)
如今人工智能早已在我们的生活中屡见不鲜,像“Siri”、“指纹解锁”、“人脸识别”等等都属于人工智能的范畴,然而人工智能的上游基础产业,数据标注却鲜为人知。数据标注是一个极为庞大的产业,在数标行业内部,从业者也必将随着AI行业而一同进入细分市场追逐阶段,可谓机遇与挑战并行,为创业者创造力大量的机会,为社会造就了大量新兴的就业机会。那么数据标注的应用场景都有哪些,它为什么如此火热呢?
数据标注的应用场景
人脸识别
人脸识别也称人像识别、面部识别,是基于人的脸部特征信息进行多年龄段、多角度、多表情、多光线的人脸图像采集,从而完成身份识别的一种生物识别技术。人脸识别涉及的技术主要包括计算机视觉、图像处理等。
人脸识别(视觉识别技术的一种应用)在国内的应用大致经历从公共安全领域扩展到商业领域的过程。最初,机场、高铁站以及酒店等场景使用这项技术对个人身份进行验证,随后商业银行也开始采用人脸识别实现远程开户。再之后,刷脸支付、刷脸门禁也相继出现,人脸识别逐渐从少数有限场景渗透到人们的日常生活之中,目前,人脸识别技术已广泛应用于多个领域,如金融、司法、公安、边检、航天、电力、教育、医疗等。
随着人脸识别技术的进一步成熟和社会认同度的提高,其将应用在更多领域,给人们的生活带来更多改变。
智能交通
近年来,随着人工智能浪潮的兴起,无人驾驶、智能交通安全系统一度走进我们的生活,国内许多公司纷纷投入到自动驾驶和无人驾驶的研究,例如百度启动的“百度无人驾驶汽车”计划,其自主研发的无人驾驶汽车Apollo还曾亮相2018年央视春晚。
再比如近日上海街头出现的地锁停车黑科技,当你停好车,协管员就会协管员将一张停车提示卡置于门把手上。停车7分钟后,停车位下的指示灯由绿转红,金属地锁升起,卡住车身底盘。取车时,用手机扫了扫地面上的二维码,停车时长、费用信息一目了然。支付停车费后,地面指示灯由红转绿,地锁降下,电子发票也能实时获取。
而这些都要依赖于人工智能数据标注的介入,对于行车视频进行采集,路况进行提取,停车点进行标注,包括D点云障碍物、红绿灯、车道灯及高精地图。为行人识别、车辆识别、红绿灯识别、车道线识别等技术提供精确训练数据,为智能交通保驾护航。
智能语音
智能语音即实现人与机器以语言为纽带的通信。人类大脑皮层每天处理的信息中,声音信息占20%,它是沟通最重要的纽带。人类对机器语音识别的探索始于20世纪50年代,迄今已逾70年。2016年,在深度神经网络的帮助下,机器语音识别准确率第一次达到人类水平,意味着智能语音技术落地期到来。
数据标注主要在语音方面的应用场景主要是语音语言采集,语音内容加工处理,情感判断,语音文字等转化。为语音识别(ASR)、语音合成(TTS)等提高质量语音数据让您的智能设备更懂得用户心声。我们常用到的小爱同学、天猫静音,手机语音输入,甚至包括有时候接到的营销电话都有着智能语音的身影。
图像处理之医学图像
医学图像处理是目前人工智能在医疗领域的典型应用,它的处理对象是由各种不同成像机理,如在临床医学中广泛使用的核磁共振成像、超声成像等生成的医学影像。
传统的医学影像诊断,主要通过观察二维切片图去发现病变体,这往往需要依靠医生的经验来判断。而利用计算机图像处理技术,可以对医学影像进行图像分割、特征提取、定量分析和对比分析等工作,进而完成病灶识别与标注,针对肿瘤放疗环节的影像的靶区自动勾画,以及手术环节的三维影像重建。
该应用可以辅助医生对病变体及其他目标区域进行定性甚至定量分析,从而大大提高医疗诊断的准确性和可靠性。另外,医学图像处理在医疗教学、手术规划、手术仿真、各类医学研究、医学二维影像重建中也起到重要的辅助作用。
得数据者,得人工智能
人工智能主要算法应用领域集中在计算机视觉、语音识别/语音合成,以及自然语言处理三个方面。
图像方面:一个新研发的计算机视觉算法需要上万张到数十万张不等的标注图片训练,新功能的开发需要近万张图片训练,而定期优化算法也有上千张图片的需求,一个用于智慧城市的算法应用,每年都有数十万张图片的稳定需求。
语音方面:头部公司累计应用的标注数据集已达百万小时以上,每年需求仍以20%-30%的增速上升,要求数据服务商不仅要掌握专业的声学知识、数据标注经验,还要拥有语音合成的算法能力。
自然语言处理方面:随着工业、医疗、教育的AI应用产品进一步爆发,将会有更多交互方式出现,自然语义数据处理的需求将会持续增长,有望成为继图像、语音之后的第三大增量市场。
这些海量的数据几乎全部依赖数据标注师手工进行标注,数据标注行业的缺口十分可观,并且数据标注已经在各行业产生了极广的应用,行业也开始逐渐升级,走向产业化。在行业发展的过程中,行业人才的培养必然是最大的内驱力。
“得数据者,得人工智能”。未来,随着AI应用场景逐渐多领域化,在数据标注行业内部,从业者也必将随着AI行业而一同进入细分市场追逐阶段,可谓机遇与挑战并行。
------------------------------------
淘丁集团,专业内容风控、数据标注服务公司,拥有千人专业团队,经验丰富,准确率高,服务类别多,团队体系成熟,能快速响应大量业务需求,专注于互联网内容风控和数据标注业务领域。欢迎互联网公司、人工智能企业对接、洽谈合作。
淘丁内容风控业务自2018年4月开始,服务于互联网平台线上产品安全审核工作,对各类违法、色情、涉政等不良违禁信息实行7*24小时即时审核,对有害信息进行人工甄别,确保产品绝对安全。目前,风控团队人员规模发展近700人。
淘丁数据标注团队现有人员规模近500人,业务分部在西安、宝鸡、临汾、太原等地。淘丁与国内大型企业深入合作,日常处理项目量级均为百万级以上,部分数据量级超过千万,拥有稳定充足的业务来源。各类标注项目经验丰富,可为人员提供标注化、成体系的培训。
为什么说数据是人工智能的基础
什么是数据标注?
大多数数据都没有标注是非结构化数据,而人工智能训练需要的是计算机可以读懂的结构化数据。带标签的数据,意味着标注或注释目标模型的数据,以便可以进行训练、预测。通常,数据标注包括数据标注、注释、审核、分类、转录和处理。标注的数据是为了突出显示某些特征,并根据这些特征对其进行分类,通过模型分析其模式以预测新的目标。
数据在人工智能项目中占用多少时间?
训练机器学习和深度学习模型,需要丰富的数据,以便将其用于部署,训练和调整模型。训练机器学习和深度学习模型需要大量经过仔细标注的数据。标注原始数据并准备将其应用于机器学习模型和其他AI工作流,被称为数据标注。根据相关统计,数据整理在AI项目中消耗了80%以上的时间。通常在一个人工智能项目中,数据的需求也分3次左右,第一次是在项目开始的验证阶段,需求数量量比较小,需要确定可行性及规则;第二次是项目正式启动,需要大量的数据对模型进行训练;第三次是在训练并验证完成后,对一些不满意的地方进行训练集的补充,以达到预期的目标。下图是在人工智能机器学习项目中各个任务的时间占比。
数据标注在人工智能中的成本占比多少?
与数据相关的机器学习成本主要表现在数据集方面,包括数据集的采集、清洗、数据的标注等。DimensionalResearch代表Alegion所做的一项最新研究表明,所有组织中的96%都遇到了与训练数据质量和数量相关的问题。同一项研究表明,大多数项目需要超过100,000个数据样本才能表现良好。
DimensionalResearch研究的图表说明了公司在数据方面面临的最常见的一些问题。
如果还没有数据,可以假设能够在大约一个小时内收集5–10个样本并对它们进行标注。利用亚马逊的MechanicalTurk之类的服务来验证整个项目过程,生成100,000个合格样本数据集的话,花费大约为70,000美元。
如果已经收集了大量数据,则可以使用专业的数据标注服务公司来对其进行标注。在这种情况下,获得100,000个带有标签的数据样本,则可能需要花费8,000到80,000美元的费用,具体的需要取决于标注的复杂程度。
此外,检查和校正数据样本与生成和标注数据样本一样耗时。DimensionalResearch研究报告中提到,66%的公司在其数据集中遇到偏差和错误问题。有些公司选择采用完整的内部方法(自己做所有标注),也有一些公司会选择外包和内部混合使用。第二种常见的情况是将大部分工作外包,然后由公司个别人员负责验证和清理。外包10万个数据样本的初始成本可能会增加大约2500至5,000美元。
除了数据成本外,还有算法人工成本、算力设备成本、项目落地成本。除去附加项成本和一系列功耗所带来的成本,机器学习项目可能会使公司花费51,750美元至136,750美元(不包括难以确定的其他成本)。价格差异主要是由数据的决定的。这是一个非常乐观的估计。如果企业位于美国,并且使用的是优质的数据(自由职业者不会这样做),则与人才相关的费用将激增,使人工智能机器学习项目的费用超过108,500美元。
这样高昂的价格使想要解决新问题或让其流程自动化。决策的个人、小型团队和初创企业无法使承担。
数据处理中最难的是什么?
最艰难的步骤是第一步:获取数据。没有数据,几乎不可能在研究阶段验证机器学习解决方案,从而导致项目进度几乎无法进行。
随着工业、医疗、安防、教育、金融等领域意识到未来人工智能对于行业改变的重要性,都纷纷入局开发自己的人工智能应用,但是随着这些领域越来越重视数据保密性及数据的安全性,这些因素都可能会导致人工智能研究的私有化。人工智能逐渐趋于私有化确是事实,在这个大环境之下,数据标注服务、训练模型平台、算力设备等都已经研究出各自的私有化部署的解决方案。
人工智能(AI)是如何处理数据的
AI处理数据主要是通过数据挖掘和数据分析。
一、数据挖掘(Datamining),又译为资料探勘、数据采矿。它是数据库知识发现(Knowledge-DiscoveryinDatabases,简称KDD)中的一个步骤。数据挖掘一般是指从大量的数据中通过算法搜索隐藏于其中信息的过程。数据挖掘通常与计算机科学有关,并通过统计、在线分析处理、情报检索、机器学习、专家系统(依靠过去的经验法则)和模式识别等诸多方法来实现上述目标。
利用数据挖掘进行数据处理常用的方法主要有分类、回归分析、聚类、关联规则、特征、变化和偏差分析、Web页挖掘等,它们分别从不同的角度对数据进行挖掘。
①分类。分类是找出数据库中一组数据对象的共同特点并按照分类模式将其划分为不同的类,其目的是通过分类模型,将数据库中的数据项映射到某个给定的类别。如一个汽车零售商将客户按照对汽车的喜好划分成不同的类,这样营销人员就可以将新型汽车的广告手册直接邮寄到特定的客户手中,从而大大增加了商业机会。
②回归分析。回归分析方法反映的是数据库中属性值在时间上的特征,产生一个将数据项映射到一个实值预测变量的函数,发现变量或属性间的依赖关系。
③聚类。聚类分析是把一组数据按照相似性和差异性分为几个类别,其目的是使得属于同一类别的数据间的相似性尽可能大,不同类别中的数据间的相似性尽可能小。
④关联规则。关联规则是描述数据库中数据项之间所存在的关系的规则。即根据一个事务中某些项的出现可导出另一些项在同一事务中也出现,即隐藏在数据间的关联或相互关系。
⑤特征。特征分析是从数据库中的一组数据中提取出关于这些数据的特征式,这些特征式表达了该数据集的总体特征。如营销人员通过对客户流失因素的特征提取,可以得到导致客户流失的一系列原因和主要特征,利用这些特征可以有效地预防客户的流失。
⑥变化和偏差分析。偏差包括很大一类潜在有趣的知识,如分类中的反常实例,模式的例外,观察结果对期望的偏差等,其目的是寻找观察结果与参照量之间有意义的差别。在企业危机管理及其预警中,管理者更感兴趣的是那些意外规则。意外规则的挖掘可以应用到各种异常信息的发现、分析、识别、评价和预警等方面。
⑦Web页挖掘。随着Internet的迅速发展及Web的全球普及,使得Web上的信息量无比丰富,通过对Web的挖掘,可以利用Web的海量数据进行分析,收集政治、经济、政策、科技、金融、各种市场、竞争对手、供求信息、客户等有关的信息,集中精力分析和处理那些对企业有重大或潜在重大影响的外部环境信息和内部经营信息,并根据分析结果找出企业管理过程中出现的各种问题和可能引起危机的先兆,对这些信息进行分析和处理,以便识别、分析、评价和管理危机。
二、数据分析是数学与计算机科学相结合的产物,是指用适当的统计分析方法对收集来的大量数据进行分析,提取有用信息和形成结论而对数据加以详细研究和概括总结的过程。在实际生活应用中,数据分析可帮助人们作出判断,以便采取适当行动。
在统计学领域,有些人将数据分析划分为描述性统计分析、探索性数据分析以及验证性数据分析;其中,探索性数据分析侧重于在数据之中发现新的特征,而验证性数据分析则侧重于已有假设的证实或证伪。
①探索性数据分析:是指为了形成值得假设的检验而对数据进行分析的一种方法,是对传统统计学假设检验手段的补充。
②定性数据分析:又称为“定性资料分析”、“定性研究”或者“质性研究资料分析”,是指对诸如词语、照片、观察结果之类的非数值型数据的分析。
大量的数据分析需求都与特定的应用相关,需要相关领域知识的支持。通用的数据挖掘工具在处理特定应用问题时有其局限性,常常需要开发针对特定应用的数据分析系统。因此数据分析系统设计的第一步是对特定应用的业务进行深入地分析与研究,总结归纳分析思路并细分出所需的分析功能。
数据分析主要包含下面几个功能:
数据分析是组织有目的地收集数据、分析数据,使之成为信息的过程。这一过程是质量管理体系的支持过程。在产品的整个寿命周期,包括从市场调研到售后服务和最终处置的各个过程都需要适当运用数据分析过程,以提升有效性。
在实用中,数据可为AI提供基础要素,可帮助AI作出判断,以便AI进行学习。例如,来自马萨诸塞州总医院和哈佛医学院放射科的研究人员使用卷积神经网络来识别CT图像,基于训练数据大小来评估神经网络的准确性。随着训练规模的增大,精度将被提高。
今天的大多数深度学习是监督的或半监督的,意味着用于训练模型的所有或一些数据必须由人标记。无监督的机器学习是AI中当前的“圣杯”,因为可以利用原始未标记的数据来训练模型。广泛采用深度学习可能与大数据集的增长以及无人监督的机器学习的发展有关。然而,我们认为大型差异化数据集(电子健康记录,组学数据,地质数据,天气数据等)可能是未来十年企业利润创造的核心驱动力。
参考IDC报告,全世界创造的信息量预计到2020年将以36%的复合年增长率增长,达到44泽字节(440亿GB)。连接的设备(消费者和工业领域),机器到机器通信和远程传感器的增加和组合可以创建大型数据集,然后可以挖掘洞察和训练自适应算法。
AI之所以拥有人的思维,人的智慧,其核心在于AI可以通过海量的数据进行机器学习和深度学习。拥有的数据越多,神经网络就变得越有效率,意味着随着数据量的增长,机器语言可以解决的问题的数量也在增长。移动手机、物联网、低耗数据存储的成熟和处理技术(通常在云端)已经在数量、大小、可靠数据结构方面创造了大量的成长。例如:
5G的首次展示将最适当地加速数据可被获取和转移的机率。根据IDC的数字领域报告,到2020年,每年数据量将达到44ZB(万亿G),5年内年复合增长率达到141%,暗示我们刚开始看到这些科技可以达到的应用场景。
数据(Data)是指对事实、概念或指令的一种表达形式,可由人工或自动化装置进行处理。数据处理(dataprocessing)是对数据的采集、存储、检索、加工、变换和传输,贯穿于社会生产和社会生活的各个领域。数据经过解释并赋予一定的意义之后,便成为信息。
人工智能出现之前,传统数据的处理主要包括了8个方面:
通过这个8方面,从大量的、可能是杂乱无章的、难以理解的数据中抽取并推导出对于某些特定的人们来说是有价值、有意义的数据。传统意义上的数据处理离不开软件的支持,每次处理数据大概都需要使用至少三次软件,这对人力物力都是一种极大的浪费。
而在AI时代,数据的处理就变得简单多了,就拿最近比较热门的车联网来说。
车联网一个系统通过在车辆仪表台安装车载终端设备,就对车辆所有工作情况和静、动态信息的采集、存储并发送。车联网系统分为三大部分:车载终端、云计算处理平台、数据分析平台,根据不同行业对车辆的不同的功能需求实现对车辆有效监控管理。车辆的运行往往涉及多项开关量、传感器模拟量、CAN信号数据等等,驾驶员在操作车辆运行过程中,产生的车辆数据不断回发到后台数据库,形成海量数据,由云计算平台实现对海量数据的“过滤清洗”,数据分析平台对数据进行报表式处理,供管理人员查看。
作者:造数科技链接:https://www.zhihu.com/question/264417928/answer/282811201来源:知乎著作权归作者所有。商业转载请联系作者获得授权,非商业转载请注明出处。