数据标注研究综述
近年来,作为人工智能(artificialintelligence,简称AI)的核心技术,深度学习在图像、语音、文本处理等领域取得了大量关键性突破.尤其在2016年和2017年,由Google公司开发的AlphaGo围棋机器人,利用深度学习技术完善了围棋算法,分别战胜围棋界的世界冠军李世石和柯洁,震惊了整个科技界[1].
人工智能是机器产生的智能,在计算机领域是指根据对环境的感知,做出合理的行动并获得最大收益的计算机程序[2].也就是说,要想实现人工智能,需要把人类理解和判断事物的能力教给计算机,让计算机拥有类似人类的识别能力[3].人类在认识一个新事物时,首先要形成对该事物的初步印象.例如,要识别出飞机,就需要看到相应的图片或者真实物体.数据标注可视为模仿人类学习过程中的经验学习,相当于人类从书本中获取已有知识的认知行为.具体操作时,数据标注把需要计算机识别和分辨的图片事先打上标签,让计算机不断地识别这些图片的特征,最终实现计算机能够自主识别[4].数据标注为人工智能企业提供了大量带标签的数据,供机器训练和学习,保证了算法模型的有效性.
1数据标注概述1.1数据标注的起源2007年,斯坦福大学教授李飞飞等人开始启动ImageNet项目,该项目主要借助亚马逊的劳务众包平台MechanicalTurk(AMT)来完成图片的分类和标注,以便为机器学习算法提供更好的数据集[5].截至2010年,已有来自167个国家的4万多名工作者提供了14197122张标记过的图片,共分成21841种类别[6].从2010年到2017年,ImageNet项目每年举办一次大规模的计算机视觉识别挑战赛,各参赛团队通过编写算法来正确分类、检测和定位物体及场景.ImageNet项目的成功,改变了人工智能领域中大众的认知,即数据是人工智能研究的核心,数据比算法重要得多[7].从此,数据标注拉开了序幕.目前,学术界尚未对数据标注的概念形成一个统一的认识,比较认可的是由王翀和李飞飞等人提出的定义.他们认为,标注[8]是对未处理的初级数据,包括语音、图片、文本、视频等进行加工处理,并转换为机器可识别信息的过程.原始数据一般通过数据采集获得,随后的数据标注相当于对数据进行加工,然后输送到人工智能算法和模型里完成调用[9].数据标注产业主要是根据用户或企业的需求,对图像、声音、文字等对象进行不同方式的标注[10],从而为人工智能算法提供大量的训练数据以供机器学习使用[11].图1显示了一个图像标注的示例,标注者需要识别和标注图片中的景物如天空、树木、建筑、湖水和草等对象.
图1Fig.1Fig.1Exampleofdataannotation图1数据标注示例1.2数据标注的应用场景数据标注产业的发展,促进了人工智能的蓬勃兴起,其主要的应用行业和不同行业的标注场景总结如下.
(1) 自动驾驶[12]:利用标注数据来训练自动驾驶模型,使其能够感知周围的环境并在很少或没有人为输入的情况下移动.自动驾驶中的数据标注涉及行人识别、车辆识别、红绿灯识别、道路识别等内容,可以为相关企业提供精确的训练数据,为智能交通保驾护航.
(2) 智能安防[13]:数据标注扩大了现有安防系统的感知范围,通过融合各种来源的数据并进行协同分析,提高监控和报警的准确性;其对应的标注场景有面部识别、人脸探测、视觉搜索、人脸关键信息点提取以及车牌识别等.
(3) 智慧医疗:人工智能和大数据分析技术应用于医疗行业,可以深入洞察医学知识和数据,帮助医生和患者解决在医学影像、新药研发、肿瘤与基因、健康管理等领域所面临的影像识别困难、药物研发成本巨大、癌症治疗效果不佳等难题[14].其所涉及的场景有手术工具标识、处方识别、医疗影像标注、语音标注等.
(4) 工业4.0:利用标注数据训练和验证机器人应用程序的计算机视觉模型,从而使模型对工业环境内的各类障碍物、机械设备和机器人有更加精确的感知[15],实现工业智能机器与所处环境中人和物的安全交互.对应的场景有机械手臂导航、仓储码垛、自动分拣或抓取、自动焊接等.
(5) 新零售:将人工智能和机器学习应用于新零售行业,可以通过商品销售数据以及用户的真实反馈促进电子商务的销售,提高用户的个性化体验以及预测客户需求[16],并实现线上货物推荐的精准化.新零售中涉及的标注场景包括超市货架识别、无人超市系统和电子商务智能搜索与推荐等.
(6) 智慧农业:依托精准的数据标注实现对农作物的定位以及对其成熟度和生长状态的识别,实现农作物智能采摘并解决精准农药撒播问题[17],从而减少人力消耗并提高农药利用率.目前,智慧农业中有关数据标注的场景有栽培管理、精准水肥和安全监测等.
1.3数据标注的分类方法本节详细比较了不同数据标注分类方法的概念和优缺点,见表1.
表1(Table1)Table1Classificationofdataannotation表1数据标注分类分类方式分类方法概念优点缺点标注对象图像标注图像标注和视频标注统称为图像标注使人脸识别和自动驾驶等技术得到发展和完善相对复杂,耗时语音标注需要人工将语音内容转录为文本内容,然后通过算法模型识别转录后的文本内容帮助人工智能领域中的语音识别功能更加完善算法无法直接理解语音内容,需要进行文本转录文本标注与音频标注有些相似,都需要通过人工识别转录成文本形式减少了文本识别行业和领域的人工工作量人工识别过程繁杂标注的构成形式结构化标注数据标签必需在规定的标签候选集合内,标注者通过将标注对象与标签候选集合进行匹配,选出最合理的标签值作为标注结果[18]标签候选集将标注类别描述得很清晰,便于标注者选择;标签是结构化的,利于存储和后期的统计查找[19]遇到具有二义性标签时往往会影响最终的标注结果非结构化标注标注者在规定约束内,自由组织关键字对标注对象进行描述[20]给标注者足够的自由,可以清楚地表达自己的观点给数据存储和使用带来困难,不利于统计分析半结构化标注标签值是结构化标注,而标签域是非结构化标注[21]标注灵活性强,便于统计查找对标注者的要求高,工作量高,耗时标注者类型人工标注雇用经过培训的标注员进行标注标注质量高标注成本高,时间长,效率低机器标注标注者通常是智能算法标注速度快,成本相对较低算法对涉及高层语义的对象识别和提取效果不好Table1Classificationofdataannotation表1数据标注分类如表1所示,目前数据标注有3种常用的划分方式:(1)按照标注对象进行分类,包括图像标注、视频标注、语音标注和文本标注[22];(2)根据标注的构成形式,将其分为结构化标注、非结构化标注和半结构化标注[23-26];(3)根据标注者类型,分为人工标注和机器标注[27].
图像标注包括图像标注和视频标注,因为视频也是由连续播放的图像所组成[28].图像标注一般要求标注人员使用不同的颜色来对不同的目标标记物进行轮廓识别,然后给相应的轮廓打上标签,用标签来概述轮廓内的内容,以便让算法模型能够识别图像中的不同标记物[29,30].图像标注常用于人脸识别、自动驾驶车辆识别等应用[31].语音标注是通过算法模型识别转录后的文本内容并与对应的音频进行逻辑关联[32].语音标注的应用场景包括自然语言处理、实时翻译等,语音标注的常用方法是语音转写.文本标注是指根据一定的标准或准则对文字内容进行诸如分词、语义判断、词性标注、文本翻译、主题事件归纳等注释工作,其应用场景有名片自动识别、证照识别等[33].目前,常用的文本标注任务有情感标注、实体标注、词性标注及其他文本类标注.图2以文本标注中的中文文本词性标注为例进行说明,其中,n,v和a分别代表句子中词语的词性,即n表示名词、v表示动词、a表示形容词、wp代表断句.
图2Fig.2Fig.2Exampleoftextannotation图2文本标注示例下面第1.4节中提到的标框标注就是典型的半结构化标注,如在豆瓣影评上对某部电影进行评价或在小组会议上发表自己的观点等都属于非结构化标注,而对电影类型进行标注就属于结构化标注.人工标注和机器标注比较好理解,这里就不再举例.除了表1所列举的分类方法外,元数据标注也受到了一些学者的关注.郭晓明等人使用基于相似度计算的语义标注算法DM-SAAS(databasemetadatasemanticannotationalgorithmbasedonsimilarity)实现了元数据自动语义标注[34],也为数据标注工作研究者提供了思路.
1.4数据标注的任务常见的数据标注任务包括分类标注、标框标注、区域标注、描点标注和其他标注等.下面介绍每一种任务的具体内容[35].
1) 分类标注.分类标注是从给定的标签集中选择合适的标签分配给被标注的对象[36].通常,一张图可以有很多分类/标签,如运动、读书、购物、旅行等.对于文字,又可以标注出主语、谓语、宾语,名词和动词等[37].此项任务适用于文本、图像、语音、视频等不同的标注对象[38].本文以图像的分类标注为例进行说明,如图3所示.图3显示了一张公园的风景图,标注者需要对树木、猴子、围栏等不同对象加以区分和识别.
图3Fig.3Fig.3Classificationannotation图3分类标注2) 标框标注.标框标注就是从图像中选出要检测的对象[39],此方法仅适用于图像标注.标框标注可细分为多边形拉框和四边形拉框两种形式.多边形拉框是将被标注元素的轮廓以多边型的方式勾勒出来,不同的被标注元素有不同的轮廓,除了同样需要添加单级或多级标签以外,多边型标注还有可能会涉及到物体遮挡的逻辑关系,从而实现细线条的种类识别[40].四边形拉框主要是用特定软件对图像中需要处理的元素(比如人、车、动物等)进行一个拉框处理,同时,用1个或多个独立的标签来代表1个或多个需要处理的元素.例如,图4对人物的帽子进行了多边形拉框标注,图5则对天鹅进行了四边形拉框标注.
图4Fig.4Fig.4Polygonalframe图4多边形拉框图5Fig.5Fig.5Quadrilateralframe图5四边形拉框3) 区域标注.与标框标注相比,区域标注的要求更加精确[41],而且边缘可以是柔性的,并仅限于图像标注,其主要的应用场景包括自动驾驶中的道路识别和地图识别等.在图6中,区域标注的任务是在地图上用曲线将城市中不同行政区域的轮廓形式勾勒出来,并用不同的颜色(浅蓝、浅棕、紫色和粉色)加以区分.
图6Fig.6Fig.6Regionannotation图6区域标注4) 描点标注.描点标注是指将需要标注的元素(比如人脸、肢体)按照需求位置进行点位标识,从而实现特定部位关键点的识别[42].例如,图7采用描点标注的方法对图示人物的骨骼关节进行了描点标识.人脸识别、骨骼识别等技术中的标注方法与人物骨骼关节点的标注方法相同[43].
图7Fig.7Fig.7Pointannotation图7描点标注5) 其他标注.数据标注的任务除了上述4种以外,还有很多个性化的标注任务.例如,自动摘要就是从新闻事件或者文章中提取出最关键的信息,然后用更加精炼的语言写成摘要[44].自动摘要与分类标注类似,但两者存在一定差异.常见的分类标注有比较明确的界定,比如在对给定图片中的人物、风景和物体进行分类标注时,标注者一般不会产生歧义;而自动摘要需要先对文章的主要观点进行标注,相对于分类标注来说,在标注的客观性和准确性上都没有那么严格,所以自动摘要不属于分类标注.
2数据标注中的数据集、工具和平台随着人工智能、机器学习等行业对标注数据的海量需求,许多企业和研究机构纷纷推出了带标注的公开数据集.为了提高数据标注效率,一些标注工具和平台也应运而生[45].下面将对常用的标注数据集、部分主流的数据标注工具、平台及其适用场合进行阐述.
2.1常用标注数据集本文将标注数据集划分为图像、视频、文本和语音标注数据集这4大类,表2描述了这些数据集的来源、用途和特性.ImageNet、COCO和PASCALVOC是3个典型的图像标注数据集.它们广泛应用于图像分类、定位和检测的研究中.由于ImageNet数据集拥有专门的维护团队,而且文档详细,它几乎成为了目前检验深度学习图像领域算法性能的“标准”数据集.COCO数据集是在微软公司赞助下生成的数据集,除了图像的类别和位置标注信息外,该数据集还提供图像的语义文本描述.因此,它也成为评价图像语义理解算法性能的“标准”数据集.Youtube-8M是谷歌公司从YouTube上采集到的超大规模的开源视频数据集,这些视频共计800万个,总时长为50万小时,包括4800个类别.Yelp数据集由美国最大的点评网站提供,包括了470万条用户评价,15多万条商户信息,20万张图片和12个城市信息.研究者利用Yelp数据集不仅能进行自然语言处理和情感分析,还可以用于图片分类和图像挖掘.Librispeech数据集是目前最大的免费语音识别数据库之一,由近1000h的多人朗读的清晰音频及其对应的文本组成.它是衡量当前语音识别技术最权威的开源数据集.
表2(Table2)Table2Partialcommonannotationdatasets表2部分常用的标注数据集类别数据集名称用途大小来源/机构开放图像标注数据集ImageNet图像分类、定位、检测~1TBhttp://www.image-net.org/about-stats是COCO图像识别、分割和图像语义~40Ghttp://mscoco.org/是PASCALVOC图像分类、定位、检测~2GBhttp://host.robots.ox.ac.uk/pascal/VOC/voc2012/index.html是OpenImage图像分类、定位、检测~1.5GBhttps://storage.googleapis.com/openimages/web/index.html是Flickr30k图片描述30MBhttp://shannon.cs.illinois.edu/DenotationGraph/data/index.html是视频标注数据集Youtube-8M理解和识别视频内容1PBhttps://research.google.com/youtube8m/受限Kinetics动作理解和识别~1.5TBhttps://deepmind.com/research/open-source/open-source-datasets/kinetics/是AVA人类动作识别-https://research.google.com/ava是UCF101视频分类、动作识别6.5GBhttp://crcv.ucf.edu/papers/UCF101_CRCV-TR-12-01.pdf是文本标注数据集Yelp文本情感分析~2.66GBhttps://www.yelp.com/dataset/challenge是IMDB文本情感分析80.2MBhttp://ai.stanford.edu/~amaas/data/sentiment/是Multi-DomainSentiment文本情感分析52MBhttp://www.cs.jhu.edu/~mdredze/datasets/sentiment/是Sentiment140文本情感分析80MBhttp://help.sentiment140.com/是语音标注数据集LibriSpeech训练声学模型~60GBhttp://www.openslr.org/12/是AudioSet声学事件检测80MBhttps://research.google.com/audioset/是FMA语言识别~1000GBhttps://github.com/mdeff/fma是VoxCeleb语音识别、情绪识别150MBhttp://www.robots.ox.ac.uk/~vgg/data/voxceleb/是Table2Partialcommonannotationdatasets表2部分常用的标注数据集2.2商业的数据标注平台通常,商用的数据标注工具一般是由众包标注平台来提供.数据标注众包模式[46,47]平台最早出现在美国,除了亚马逊的MechanicalTurk[48]平台外,还有Figure-eight、CrowdFlower、MightyAI等初创型标注平台[49].近年来,国内的一些互联网公司、大数据公司和人工智能公司也纷纷推出了自己的数据标注众包平台和商用标注工具,如数据堂、百度众测、阿里众包、京东微工等.这些商业的数据标注平台基本上都能对图片、视频、文本和语音等数据进行标注,但各自的业务方向也有一定侧重,有的以处理图像见长,有的则更擅长做一些视频标注[50].
无论是开源的标注工具还是商用的数据标注平台,它们至少要包含以下内容[51].
1) 进度条:用于指示数据标注的进度.一方面方便标注人员查看进度,另一方面也利于统计.
2) 标注主体(指需要标注的对象):可以根据标注形式进行设计,一般可以分为单个标注(指对某一个对象进行标注)和多个标注(指对多个对象进行标注)的形式[52].
3) 数据导入、导出功能.
4) 收藏功能:针对模棱两可的数据,可以减少工作量并提高工作效率.
5) 质检机制:通过随机分发部分已标注过的数据,检测标注人员的可靠性.
2.3开源的数据标注工具在选择数据标注工具时,需要考虑标注对象(如图像、视频、文本等)、标注需求(如画框、描点、分类等)和不同的数据集格式[53](比如COCO、PASCALVOC、JSON等).常用标注工具见表3.
表3(Table3)Table3Partialopensourcedataannotationtools表3部分开源的数据标注工具名称简介运行平台标注形式导出数据格式LabelImg著名的图像标注工具Windows,Linux,Mac矩形XML格式LabelMe著名的图形界面标注工具,能够标注图像和视频Windows,Linux,Mac多边形、矩形、圆形、多段线、线段、点VOC和COCO格式RectLabel图像标注Mac多边形、矩形、多段线线段、点YOLO、KITTI、COCO1与CSV格式VOTT微软发布的基于Web方式本地部署的标注工具,能够标注图像和视频Windows,Linux,Mac多边形、矩形、点TFRecord、CSV、VoTT格式LabelBox适用于大型项目的标注工具,基于Web、能够标注图像、视频和文本-多边形、矩形、线、点、嵌套分类JSON格式VIAVGG(visualgeometrygroup)的图像标注工具,也支持视频和音频标注-矩形、圆、椭圆、多边形、点和线JSON格式COCOUI用于标注COCO数据集的工具,基于Web方式-矩形、多边形、点和线COCO格式VaticVatic是一个带有目标跟踪的视频标注工具,适合目标检测任务Linux-VOC格式BRAT基于Web的文本标注工具,主要用于对文本的结构化标注Linux-ANN格式DeepDive处理非结构化文本的标注工具Linux-NLP格式Praat语音标注工具Windows,Unix,Linux,Mac-JSON格式精灵标注助手多功能标注工具Windows,Linux,Mac矩形、多边形和曲线XML格式Table3Partialopensourcedataannotationtools表3部分开源的数据标注工具表3中列举了一些开源的数据标注工具及其特点.表3中除了COCOUI和LabelMe工具在使用时需要MIT许可外,其他工具均为开源使用.大部分的开源工具都可以运行在Windows、Linux、MacOS系统上,仅有个别工具是针对特定操作系统开发的(如RectLabel);而且这些开源工具大多只针对特定对象进行标注,只有一少部分工具(如精灵标注助手)能够同时标注图像、视频和文本.除了表3中列举的标注工具外,市场上还有一些特殊功能的标注工具,例如人脸数据标注[54]和3D点云标注工具.不同标注工具的标注结果会有一些差异,但很少有研究关注它们的标注效率和标注结果的质量[55].
3数据标注规范3.1数据标注的角色传统手工数据标注中的用户角色可以分为3类[56].
1) 标注员:负责标注数据,通常由经过一定专业培训的人员来担任.在一些特定场合或者对标注质量要求极高的行业(例如医疗),也可以直接由模型训练人员(程序员)或者领域专家来担任.
2) 审核员:负责审核已标注的数据,完成数据校对和数据统计,适时修改错误并补充遗漏的标注.这个角色往往由经验丰富的标注人员或权威专家来担任.
3) 管理员:负责管理相关人员,发放和回收标注任务.
数据标注过程中的各个角色之间相互制约,各司其职,每个角色都是数据标注工作中不可或缺的一部分.此外,已标注的数据往往用于机器学习和人工智能中的算法,这就需要模型训练人员利用人工标注好的数据训练出算法模型.而产品评估人员则需要反复验证模型的标注效果,并对模型是否满足上线目标进行评估.
3.2数据标注的质量标准本节根据标注对象本身的特征和标注需求来阐述数据标注要遵循的质量标准[57],当然,在实际操作中还需要根据实际情况进一步细化.
1) 图像标注的质量标准
机器学习中图像识别的训练是根据像素点进行的,因此,图像标注的质量好坏取决于像素点的判定准确性.标注像素点越接近标注物的边缘像素,标注质量就越高,标注难度也就越大;反之,则标注质量较差,标注难度较小.按照100%准确率的图像标注要求,标注像素点与标注物的边缘像素点的误差应该在1个像素以内[59].
2) 语音标注的质量标准
在进行语音标注时,标注员需要时刻关注语音数据发音的时间轴与标注区域的音标是否同步.所以,标注与发音时间轴的误差要控制在1个语音帧以内.如果误差超过1个语音帧,则很容易标注到下一个发音,从而产生更多的噪声数据.
3) 文本标注的质量标准
由于文本标注中的任务较多,不同任务的质量标准各有不同.例如,中文分词的质量标准是标注好的分词与词典中的词语一致,不存在歧义.情感标注的质量标准则要求对标注句子的情感分类级别正确.多音字标注的质量标准是借助专业性工具(如字典)来标注一个字的全部读音;而语义标注的质量标准是标注清楚词语或句子的真实语义.
3.3数据标注的流程本节以众包模式下的数据标注为例,提出了一个完整的数据标注流程,如图8所示.数据标注流程首先从标注数据的采集[58]开始,采集的对象包括视频、图片、音频和文本等多种类型和多种格式的数据.由于采集到的数据可能存在缺失值、噪声数据、重复数据等质量问题,故首先需要执行数据清洗任务[59],以便获得高质量的数据,然后对清洗后的数据进行标注,这是数据标注流程中最重要的一个环节.在具体流程中,管理员会根据不同的标注需求,将待标注的数据划分为不同的标注任务.每一个标注任务都有不同的规范和标注点要求,并且一个标注任务将会分配给多个标注员完成.数据标注员完成标注工作后,将相关数据交给模型训练人员,后者利用这些标注好的数据来训练出需要的算法模型.标注数据的质量主要由审核员来检验,审核员进行模型测试并将测试结果反馈给模型训练人员,而模型训练人员通过不断地调整参数,以便获得性能更好的算法模型.如果经过参数调整后不能得到最优的算法模型,则说明已标注的数据不满足需求.这时,审核员就会向标注员反馈数据问题,标注员则需要重新标注数据.最后,审核员将最优模型指标发送给产品评估人员使用,并进行上线前的最后评估.
图8Fig.8Fig.8Basicprocessofdataannotation图8数据标注基本流程4数据标注实例——情感分析4.1情感分析概述随着电子商务、社交网络和移动互联网的蓬勃发展,互联网上出现了大量带有情感色彩的文本数据.针对文本数据的情感分析,能够帮助政府部门及企事业单位更好地理解用户的观点,并及时解决出现的各类问题,以进一步提高服务质量[60].因此,情感分析广泛应用在舆情管控、商业决策、观点搜索、信息预测和情绪管理等场景.
词语、句子和文章是文本情感分析中的3个级别[61].词语级别的情感分析用来确定词语的情感倾向方向和强度,句子级别的情感分析是先对句子进行命名实体识别和句法分析,在采用基于词典和机器学习的研究方法对句子进行情感分析.文章级的情感分析则是分析文章段落的情感倾向方向.情感倾向是主体对某一客体主观存在的内在评价的一种倾向.它由情感倾向方向和情感倾向度来衡量[62].情感倾向方向也称为情感极性.在情绪文本中,情感倾向方向是用户对客体表达其自身观点态度,即支持(正面情感)、反对(负面情感)、中立(中性情感);情感倾向度是指主体对客体表达正面情感或负面情感时的强弱程度,不同的情感程度往往是通过不同的情感词或情感语气等来体现.在情感倾向分析研究中,通过对每个情感词赋予不同的权值来区分两者的程度.
4.2情感分析中的数据标注情绪文本的分析和挖掘涉及到文本数据标注中的多项任务,下面将对这些任务进行阐述.
1)中文分词
中文分词是将一个汉字序列切分为一个个单独的词,中文分词是汉语文本处理的基础.例如,要判断句子A=“今天是国庆节,可是我们还要加班.”的情感,首先要将其切分为一个个单词,如果采用自动分词,其结果为
“今天/是/国庆节/,/可是/我们/还/要/加班/.”
如果采用基于字标注的分词方法,则其结果为
“今/B天/E是/S国/S庆/M节/E/,S/可/S是/E我/B们/E还/S要/S加/S班/E./S”,
其中,B表示词首,M表示词中,E表示词尾,S代表单独成词.它们形成了4个构词位置.
2)词性标注
词性标注是将词划分为对应的语法分类,以表达这个词在上下文中的含义.词的语法分类主要为名词、动词、形容词、量词、代词、副词、连词、助词等.上述句子A的词性标注结果如图9所示.
图9Fig.9Fig.9Examplesofpart-of-speechannotation图9词性标注示例其中,n,v,conj,p和adv分别代表句子中的名词、动词、连词、代词和副词,w表示标点符号,wp代表断句.
3)情感标注
句子A中并没有明确表示情绪的词,不过联系上下文可知,句子表达的情绪是“低落”.为了判断句子A所表达的情绪,我们可以使用一些中文情感极性词典进行分析,比如来源于台湾大学的NTUSD和知网的情感极性字典.但是本例中如果只依靠中文情感极性词典,计算机就很难准确判断句子A所反映的真实情绪.因此,事先要采用人工标注的方法来对一些带情绪的语句进行情感标注.通常,人类的基本情绪可以划分为6种,即快乐、愤怒、悲伤、恐惧、惊讶和嫉妒.为了正确识别情绪,每一类情绪都要有对应的标注数据,然后利用这些带情绪标注的数据集来训练情绪分类模型.情绪分类算法可以采用K最近邻(K-nearestneighbor,简称KNN)、支持向量机(supportvectormachines,简称SVM)、深度置信网络(deepbeliefnetwork,简称DBN)和长短期记忆网络(longshort-termmemory,简称LSTM)等实现.一旦分类模型训练成功,就能准确地识别句子A所表达的情绪.
5数据标注质量评估本文按照数据标注对象,将数据标注结果评估算法分为图像(含视频)、文本和语音这3类标注结果评估算法,下面按照时间顺序对这3类评估算法进行简要概述.
5.1图像标注质量评估算法目前,比较常用的图像标注质量评估算法[63]有多数投票算法(majorityvoting,简称MV)、期望最大化算法(expectationmaximization,简称EM)和RY算法.MV是由约翰逊提出的一种通用性强的质量控制算法.它将绝大多数用户选择的结果视为最终结果[64-68].MV算法的基本思想是:假设有m个图像标注任务(t1,…,tm),每个任务ti对应一个二元分类,任务管理员将这些任务分配给众包平台中的员工,其中,W代表所有员工的集合.为了提高标注质量和标注的可靠性,将需要标注的对象xi提供给N(N={w1,…,wN}≤W,wj∈W)个工人进行标注.每个工人wj对xi做出预测并创建一个标签$y_i^j={w_j}({x_i})in{0,1}$,然后根据标签${y_i^1,...,y_i^N}$推断出xi的最终标签.其公式如下:
${haty_i}=left{{egin{array}{*{20}{l}}{1,}&{frac{1}{N}sum olimits_{j=1}^N{y_i^j}>frac{1}{2}}\{random{ m{}}guess,}&{frac{1}{N}sum olimits_{j=1}^N{y_i^j}=frac{1}{2}}\{0,}&{frac{1}{N}sum olimits_{j=1}^N{y_i^j}