博舍

清华权威报告告诉你:人工智能的情感计算是什么 人工智能 情感识别技术

清华权威报告告诉你:人工智能的情感计算是什么

情感计算是一个高度综合化的研究和技术领域。通过计算科学与心理科学、认知科学的结合,研究人与人交互、人与计算机交互过程中的情感特点,设计具有情感反馈的人与计算机的交互环境,将有可能实现人与计算机的情感交互。情感计算研究将不断加深对人的情感状态和机制的理解,并提高人与计算机界面的和谐性,即提高计算机感知情境,理解人的情感意图,做出适当反应的能力,其主要研究内容如下图所示:

情感计算的研究内容

情感计算是一个多学科交叉的崭新的研究领域,它涵盖了传感器技术、计算机科学、认知科学、心理学、行为学、生理学、哲学、社会学等方面。情感计算的最终目标是赋予计算机类似于人的情感能力。要达到这个目标,许多技术问题有待解决。这些技术问题的突破对各学科的发展都产生巨大的推动作用。以下分别从情感计算的传统研究方法和新兴研究方法对技术发展进行探讨。

1、传统的研究

传统的情感计算方法是按照不同的情感表现形式分类的,分别是:文本情感分析、语音情感分析、视觉情感分析。

1.1文本情感计算

20世纪90年代末,国外的文本情感分析已经开始。早期,Riloff和Shepherd在文本数据的基础上进行了构建语义词典的相关研究。McKeown发现连词对大规模的文本数据集中形容词的语义表达的制约作用,进而对英文的形容词与连词做情感倾向研究。自此之后,越来越多的研究开始考虑特征词与情感词的关联关系。Turney等使用点互信息的方法扩展了正负面情感词典,在分析文本情感时使用了极性语义算法,处理通用的语料数据时准确率达到了74%。在近些年的研究中,Narayanan等结合各种特征及其相关联信息,提出了基于分句、整句、结果句的分类方案,获得了很好的效果。Pang等以积极情感和消极情感为维度,对电影评论进行了情感分类。他分别采用了支持向量机、最大熵、朴素贝叶斯算法进行分类实验,发现支持向量机的精确度达到了80%。随着研究的不断深入,学者在对情感分析算法进行改进的同时,也将其应用到不同的行业中进行了实践。

文本情感计算的过程可以由3部分组成:文本信息采集、情感特征提取和情感信息分类。文本信息采集模块通过文本抓取工具(如网页爬虫工具)获得情感评论文本,并传递到下一个

情感特征提取模块,然后对文本中自然语言文本转化成计算机能够识别和处理的形式,并通过情感信息分类模块得到计算结果。文本情感计算侧重研究情感状态与文本信息之间的对应关系,提供人类情感状态的线索。具体地,需要找到计算机能提取出来的特征,并采用能用于情感分类的模型。因此,关于文本情感计算过程的讨论,主要集中在文本情感特征标注(信息采集)、情感特征提取和情感信息分类这三个方面。

1、文本情感特征标注:情感特征标注是对情感语义特征进行标注,通常是将词或者语义块作为特征项。情感特征标注首先对情感语义特征的属性进行设计,如褒义词、贬义词、加强语气、一般语气、悲伤、高兴等等;然后通过机器自动标注或者人工标注的方法对情感语义特征进行标注,形成情感特征集合。情感词典是典型的情感特征集合,也是情感计算的基础。在大多数研究中,有关情感计算的研究通常是将情感词典直接引入自定义词典中。

运用情感词典计算出文本情感值是一种简单迅速的方法,但准确率有待提高。在实际的情感计算中,会因为具体的语言应用环境而有所不同。例如,“轻薄”一词通常认为是否定词,但是在电脑、手机却被视为肯定词汇。同时,文本中常会出现否定前置、双重否定以及文本口语化和表情使用等,这些都将会对文本情感特征的提取和判断产生较大的影响。因此在进行文本情感提取时,需要对文本及其对应的上下文关系、环境关系等进行分析。

2、情感特征提取:文本包含的情感信息是错综复杂的,在赋予计算机以识别文本情感能力的研究中,从文本信号中抽取特征模式至关重要。在对文本预处理后,初始提取情感语义特征项。特征提取的基本思想是根据得到的文本数据,决定哪些特征能够给出最好的情感辨识。通常算法是对已有的情绪特征词打分,接着以得分高低为序,超过一定阈值的特征组成特征子集。特征词集的质量直接影响最后结果,为了提高计算的准确性,文本的特征提取算法研究将继续受到关注。长远看来,自动生成文本特征技术将进一步提高,特征提取的研究重点也更多地从对词频的特征分析转移到文本结构和情感词上。

3、情感信息分类:文本情感分类技术中,主要采用两种技术路线:基于规则的方法和基于统计的方法。在20世纪80年代,基于规则的方法占据主流位置,通过语言学家的语言经验和知识获取句法规则,以此作为文本分类依据。但是,获取规则的过程复杂且成本巨大,也对系统的性能有负面影响,且很难找到有效的途径来提高开发规则的效率。20世纪90年代之后,人们更倾向于使用统计的方法,通过训练样本进行特征选择和参数训练,根据选择的特征对待分类的输入样本进行形式化,然后输入到分类器进行类别判定,最终得到输入样本的类别。

下表整理了10个文本情感分析API,供读者参考:

1.2语音情感计算

最早的真正意义上的语音情感识别相关研究出现在20世纪80年代中期,它们开创了使用声学统计特征进行情感分类的先河。紧接着,随着1985年Minsky教授“让计算机具有情感能力”观点的提出,以及人工智能领域的研究者们对情感智能重要性认识的日益加深,越来越多的科研机构开始了语音情感识别研究的探索。在20世纪80年代末至90年代初期,麻省理工学院多媒体实验室构造了一个“情感编辑器”对外界各种情感信号进行采集,综合使用人体的生理信号、面部表情信号、语音信号来初步识别各种情感,并让机器对各种情感做出适当的简单反应;1999年,Moriyama提出语音和情感之间的线性关联模型,并据此在电子商务系统中建造出能够识别用户情感的图像采集系统语音界面,实现了语音情感在电子商务中的初步应用。

整体而言,语音情感识别研究在该时期仍旧处于初级阶段,主要侧重于情感的声学特征分析这一方面,作为研究对象的情感语音样本也多表现为规模小、自然度低、语义简单等特点,虽然有相当数量的有价值的研究成果相继发表,但是并没有形成一套被广泛认可的、系统的理论和研究方法。进入21世纪以来,随着计算机多媒体信息处理技术等研究领域的出现以及人工智能领域的快速发展,语音情感识别研究被赋予了更多的迫切要求,发展步伐逐步加快。2000年,在爱尔兰召开的ISCAWorkshoponSpeechandEmotion国际会议首次把致力于情感和语音研究的学者聚集在一起。近10余年来,语音情感识别研究工作在情感描述模型的引入、情感语音库的构建、情感特征分析等领域的各个方面都得到了发展。下面将从语音情感数据库的采集、语音情感标注以及情感声学特征分析方面介绍语音情感计算。

1、语音情感数据库的采集

语音情感识别研究的开展离不开情感语音数据库的支撑。情感语音库的质量高低,直接决定了由它训练得到的情感识别系统的性能好坏。评价一个语音情感数据库好坏的一个重要标准是数据库中语音情感是否具备真实的表露性和自发性。目前,依据语音情感激发类型的不同,语音情感数据库可分为表演型、诱发型和自发型三种。

具体来说,表演型情感数据库通过专业演员的表演,把不同情感表达出来。在语音情感识别研究初期,这一采集标准被认为是研究语音情感识别比较可靠的数据来源,因为专业演员在

表达情感时,可以通过专业表达获得人所共知的情感特征。比如,愤怒情感的语音一般会具有很大的幅值和强度,而悲伤情感的语音则反之。由于这一类型的数据库具有表演的性质,情感的表达会比真实情感夸大一点,因此情感不具有自发的特点。依据该类型数据库来学习的语音情感识别算法,不一定能有效应用于真实生活场景中。第二种称之为诱发型情感数据库。被试者处于某一特定的环境,如实验室中,通过观看电影或进行计算机游戏等方式,诱发被试者的某种情感。目前大部分的情感数据库都是基于诱发的方式建立的。诱发型情感数据库产生的情感方式相较于表演型情感数据库,其情感特征更具有真实性。最后一种类型属于完全自发的语音情感数据库,其语料采集于电话会议、电影或者电话的视频片段,或者广播中的新闻片段等等。由于这种类型的语音情感数据最具有完全的真实性和自发性,应该说最适合用于实用的语音情感识别。但是,由于这些语音数据涉及道德和版权因素,妨碍了它在实际语音情感识别中的应用。

2、语音情感数据库的标注

对于采集好的语音情感库,为了进行语音情感识别算法研究,还需要对情感语料进行标注。标注方法有两种类型:

离散型情感标注法指的是标注为如生气、高兴、悲伤、害怕、惊奇、讨厌和中性等,这种标注的依据是心理学的基本情感理论。基本情感论认为,人复杂的情感是由若干种有限的基本情感构成的,就像我们自古就有“喜、怒、哀、乐,恐、悲、惊”七情的说法。不同的心理学家对基本情感有不同的定义,由此可见,在心理学领域对基本情感类别的定义还没有一个统一的结论,因此不同的语音情感数据库包含的情感类别也不尽相同。这不利于在不同的语音情感数据库上,对同一语音情感识别算法的性能进行评价。此外,众所周知,实际生活中情感的类别远远不止有限几类。基于离散型情感标注法的语音情感识别容易满足多数场合的需要,但无法处理人类情感表达具有连续性和动态变化性的情况。在实际生活中,普遍存在着情感变化的语音,比如前半句包含了某一种情感,而后半句却包含了另外一种情感,甚至可能相反。例如,某人说话时刚开始很高兴,突然受到外界刺激,一下子就生气了。对于这种在情感表达上具有连续和动态变化的语音,采用离散型情感标注法来进行语音情感识别就不合适了。因为此时语音的情感,己不再完全属于某一种具体的情感。

维度情感空间论基于离散型情感标注法的缺陷,心理学家们又提出了维度情感空间论,即对情感的变化用连续的数值进行表示。不同研究者所定义的情感维度空间数目有所不同,如二维、三维甚至四维模型。针对语音情感,最广为接受和得到较多应用的为二维连续情感空间模型,即“激活维-效价维”(Arousal-Valence)的维度模型。“激活维”反映的是说话者生理上的激励程度或者采取某种行动所作的准备,是主动的还是被动的;“效价维”反映的是说话者对某一事物正面的或负面的评价。随着多模态情感识别算法的研究,为了更细致的地描述情感的变化,研究者在“激活维-效价维”(Arousal-Valence)二维连续情感空间模型的基础上,引入“控制维”,即在“激活维-效价维-控制维(Arousal-Valence/Pleasure-Power/Dominance)”三维连续情感空间模型上对语音情感进行标注和情感计算。需要强调的是,离散型和连续型情感标注之间,它们并不是孤立的,而是可以通过一定映射进行相互转换。

3、情感声学特征分析

情感声学特征分析主要包括声学特征提取和声学特征选择、声学特征降维。采用何种有效的语音情感特征参数用于情感识别,是语音情感识别研究最关键的问题之一,因为所用的情感特征参数的优劣直接决定情感最终识别结果的好坏。

声学特征提取。目前经常提取的语音情感声学特征参数主要有三种:韵律特征、音质特征以及谱特征。在早期的语音情感识别研究文献中,针对情感识别所首选的声学特征参数是韵律

特征,如基音频率、振幅、发音持续时间、语速等。这些韵律特征能够体现说话人的部分情感信息,较大程度上能区分不同的情感。因此,韵律特征已成为当前语音情感识别中使用最广泛并且必不可少的一种声学特征参数除了韵律特征,另外一种常用的声学特征参数是与发音方式相关的音质特征参数。三维情感空间模型中的“激发维”上比较接近的情感类型,如生气和高兴,仅使用韵律特征来识别是不够的。

音质特征包括共振峰、频谱能量分布、谐波噪声比等,不仅能够很好地表达三维中的“效价维”信息,而且也能够部分反映三维中的“控制维”信息。因此,为了更好地识别情感,同时提取韵律特征和音质特征两方面的参数用于情感识别,已成为语音情感识别领域声学特征提取的一个主要方向。谱特征参数是一种能够反映语音信号的短时功率谱特性的声学特征参数,Mel频率倒谱系数(Mel-scaleFrequencyCepstralCoefficients,MFCC)是最具代表性的谱特征参数,被广泛应用于语音情感识别。由于谱特征参数及其导数,仅反映语音信号的短时特性,忽略了对情感识别有用的语音信号的全局动态信息。近年来,为了克服谱特征参数的这种不足之处,研究者提出了一些改进的谱特征参数,如类层次的谱特征、调制的谱特征和基于共振峰位置的加权谱特征等。

声学特征选择。为了尽量保留对情感识别有意义的信息,研究者通常都提取了较多的与情感表达相关的不同类型的特征参数,如韵律特征、音质特征、谱特征等。任意类型特征都有各自的侧重点和适用范围,不同的特征之间也具有一定的互补性、相关性。此外,这些大量提取的特征参数直接构成了一个高维空间的特征向量。这种高维性质的特征空间,不仅包含冗余的特征信息,导致用于情感识别的分类器训练和测试需要付出高昂的计算代价,而且情感识别的性能也不尽如人意。因此,非常有必要对声学特征参数进行特征选择或特征降维处理,以便获取最佳的特征子集,降低分类系统的复杂性和提高情感识别的性能。

特征选择是指从一组给定的特征集中,按照某一准则选择出一组具有良好区分特性的特征子集。

特征选择方法主要有两种类型:封装式(Wrapper)和过滤式(Filter)。Wrapper算法是将后续采用的分类算法的结果作为特征子集评价准则的一部分,根据算法生成规则的分类精度选择特征子集。Filter算法是将特征选择作为一个预处理过程,直接利用数据的内在特性对选取的特征子集进行评价,独立于分类算法。

声学特征降维。特征降维是指通过映射或变换方式将高维特征空间映射到低维特征空间,已达到降维的目的。特征降维算法分为线性和非线性两种。最具代表性的两种线性降维算法,如主成分分析PCA(PrincipalComponentAnalysis)和线性判别分析LDA(LinearDiscriminantAnalysis),已经被广泛用于对语音情感特征参数的线性降维处理。也就是,PCA和LDA方法被用来对提取的高维情感声学特征数据进行嵌入到一个低维特征子空间,然后在这降维后的低维子空间实现情感识别,提高情感识别性能。

近年来,新发展起来的基于人类认知机理的流形学习方法比传统的线性PCA和LDA方法更能体现事物的本质,更适合于处理呈非线性流形结构的语音情感特征数据。但这些原始的流形学习方法直接应用于语音情感识别中的特征降维,所取得的性能并不令人满意。主要原因是他们都属于非监督式学习方法,没有考虑对分类有帮助的已经样本数据的类别信息。尽管流形学习方法能够较好地处理非线性流形结构的语音特征数据,但是流形学习方法的性能容易受到其参数如邻域数的影响,而如何确定其最佳的邻域数,至今还缺乏理论指导,一般都是根据样本数据的多次试验结果来粗略地确定。因此,对于流形学习方法的使用,如何确定其最佳参数,还有待深入研究。

下表为常用语音情感数据库,供读者参考:

1.3视觉情感计算

表情作为人类情感表达的主要方式,其中蕴含了大量有关内心情感变化的信息,通过面部表情可以推断内心微妙的情感状态。但是让计算机读懂人类面部表情并非简单的事情。人脸表情识别是人类视觉最杰出的能力之一。而计算机进行自动人脸表情识别所利用的主要也是视觉数据。无论在识别准确性、速度、可靠性还是稳健性方面,人类自身的人脸表情识别能力都远远高于基于计算机的自动人脸表情识别。因此,自动人脸表情识别研究的进展一方面依赖计算机视觉、模式识别、人工智能等学科的发展,另一方面还依赖对人类本身识别系统的认识程度,特别是对人的视觉系统的认识程度。

早在20世纪70年代,关于人脸表情识别的研究就已经展开,但是早期主要集中在心理学和生物学方面。随着计算机技术的发展,人脸表情识别技术逐渐发展起来,至上世纪90年代,该领域的研究已经非常活跃。大量文献显示表情识别与情感分析已从原来的二维图像走向了三维数据研究,从静态图像识别研究专项实时视频跟踪。下面将从视觉情感信号获取、情感信号识别以及情感理解与表达方面介绍视觉情感计算。

视觉情感信号获取:表情参数的获取,多以二维静态或序列图像为对象,对微笑的表情变化难以判断,导致情感表达的表现力难以提高,同时无法体现人的个性化特征,这也是表情识别中的一大难点。以目前的技术,在不同的光照条件和不同头部姿态下,也不能取得满意的参数提取效果。由于三维图像比二维图像包含更多的信息量,可以提供鲁棒性更强,与光照条件和人的头部姿态无关的信息,用于人脸表情识别的特征提取工作更容易进行。因此,目前最新的研究大多利用多元图像数据来进行细微表情参数的捕获。该方法综合利用三维深度图像和二维彩色图像,通过对特征区深度特征和纹理彩色特征的分析和融合,提取细微表情特征,并建立人脸的三维模型,以及细微表情变化的描述机制。

视觉情感信号识别:视觉情感信号的识别和分析主要分为面部表情的识别和手势识别两类:

对于面部表情的识别,要求计算机具有类似于第三方观察者一样的情感识别能力。由于面部表情是最容易控制的一种,所以识别出来的并不一定是真正的情感,但是,也正由于它是可视的,所以它非常重要,并能通过观察它来了解一个人试图表达的东西。到目前为止,面部表情识别模型都是将情感视为离散的,即将面部表情分成为数不多的类别,例如“高兴”、“悲伤”、“愤怒”等。1971年,Ekman和Friesen研究了6种基本表情(高兴、悲伤、惊讶、恐惧、愤怒和厌恶),并系统地建立了上千幅不同的人脸表情图像库。六种基本表情的具体面部表现如下表所示。1978年,他们研究了情感类别之间的内在关系,开发了面部动作编码系统(FACS)。系统描述了基本情感以及对应的产生这种情感的肌肉移动的动作单元。他们根据人脸的解剖学特点,将其划分成大约46个既相互独立又相互联系的运动单元(AU),并分析了这些运动单元的运动特征及其所控制的主要区域以及与之相关的表情,给出了大量的照片说明。面部识别器一般要花五分钟来处理一种面部表情,准确率达到98%。

马里兰大学的YeserYacoob和LarryDavis提出了另一种面部表情识别模型,它也是基于动作能量模版,但是将模版、子模版(例如嘴部区域)和一些规则结合起来表达情感。例如,愤怒的表情在从眼睛区域提取的子模版中,特别是眉毛内敛、下垂,在嘴巴区域子模版中,特别是嘴巴紧闭,两个子模板结合起来,就很好表达了愤怒这一情感。后续的研究总体上结合生物识别方法及计算机视觉进行,依据人脸特定的生物特征,将各种表情同脸部运动细节(几何网格的变化)联系起来,收集样本,提取特征,构建分类器。但是目前公开的用于表情识别研究的人脸图像数据库多是采集志愿者刻意表现出的各种表情的图像,与真实情形有出入。

脸部表情运动特征具体表现

对于手势识别来说,一个完整的手势识别系统包括三个部分和三个过程。三个部分分别是:采集部分、分类部分和识别部分;三个过程分别是:分割过程、跟踪过程和识别过程。采集部分包括了摄像头、采集卡和内存部分。在多目的手势识别中,摄像头以一定的关系分布在用户前方。在单目的情况下,摄像头所在的平面应该和用户的手部运动所在的平面基本水平。分类部分包括了要处理的分类器和结果反馈回来的接收比较器。用来对之前的识别结果进行校正。识别部分包括了语法对应单位和相应的跟踪机制,通过分类得到的手部形状通过这里一一对应确定的语义和控制命令。分割过程包括了对得到的实时视频图像进行逐帧的手部分割,首先得到需要关注的区域,其次在对得到的区域进行细致分割,直到得到所需要的手指和手掌的形状。跟踪过程包括对手部的不断定位和跟踪,并估计下一帧手的位置。识别过程通过对之前的知识确定手势的意义,并做出相应的反应,例如显示出对应的手势或者做出相应的动作,并对不能识别的手势进行处理,或者报警或者记录下特征后在交互情况下得到用户的指导。手势识别的基本框架如下图所示:

手势识别的基本框架

2、新兴的研究

2.1网络海量数据的情感计算

随着时代的发展,网络赋予情感计算新的、更大的数据平台,打开了情感计算的新局面。网络系统由于沟通了人类的现实世界和虚拟世界,可以持续不断地对数量庞大的样本进行情感跟踪,每天这些映射到网络上的情绪不计其数,利用好这些数据反过来就可以验证心理学结论,甚至反哺心理学。由于大数据的分布范围极其广泛,样本数量非常庞大,采用单一的大数据处理方法往往得不到有效的情感要素,统计效果较差。但是,如果将大数据和心理学结合起来,局面就会大不一样:心理学中,不同情感可以采用维度标定,如冷暖或软硬,同时各种心理效应影响人类对事物的情感判断,如连觉效应、视觉显著性、视觉平衡等,在大数据中引入心理学效应和维度,对有效数据进行心理学情感标准划分,使得数据具有情感维度,这样就会让计算机模拟人类情感的准确性大大提升。网络海量数据的情感主要有以下几个社会属性:

情感随群体的变化:在社交网络,如论坛、网络社区等群体聚集的平台上流露出群体的情感,通过这些情感展现可以达到影响其他个人的行为。

情感随图片的变化:在社交媒体出现大量的图片,这些图片的颜色、光度、图片内容等各不相同。图片的特征直接影响到了观看者的情感。

情感随朋友的变化:在社交平台上,朋友发表的微博、微信状态等容易展现个人的情感。朋友间的关系比陌生人间的关系更加深入,所以朋友的情感更容易引起情感变化,在海量数据中,个人情感容易优先受朋友情感的影响。

情感随社会角色的变化:在社交网络中,个人在不同的群体所处的角色也不一样,个人情感流露时也会跟着所处的角色不一样而展现不同的情感。

情感随时间的演变:人的情绪是变化无常的,所处的环境不一样,则表现出来的情感也将不一样。即使是同一件事,不同的情景下展现的情感也会不一样。另外,事件的发展是个动态的过程,随着事件的演变,人的情感也会跟着变化。

2.2多模态计算

虽然人脸、姿态和语音等均能独立地表示一定的情感,但人的相互交流却总是通过信息的综合表现来进行。所以,只有实现多通道的人机界面,才是人与计算机最为自然的交互方式,它集自然语言、语音、手语、人脸、唇读、头势、体势等多种交流通道为一体,并对这些通道信息进行编码、压缩、集成和融合,集中处理图像、音频、视频、文本等多媒体信息。多模态计算是目前情感计算发展的主流方向。每个模块所传达的人类情感的信息量大小和维度不同。在人机交互中,不同的维度还存在缺失和不完善的问题。因此,人机交互中情感分析应尽可能从多个维度入手,将单一不完善的情感通道补上,最后通过多结果拟合来判断情感倾向。

在多模态情感计算研究中,一个很重要的分支就是情感机器人和情感虚拟人的研究。美国麻省理工学院、日本东京科技大学、美国卡内基·梅隆大学均在此领域做出了较好的演示系统。目前中科院自动化所模式识别国家重点实验室已将情感处理融入到了他们已有的语音和人脸的多模态交互平台中,使其结合情感语音合成、人脸建模、视位模型等一系列前沿技术,构筑了栩栩如生的情感虚拟头像,并积极转向嵌入式平台和游戏平台等实际应用。

目前,情感识别和理解的方法上运用了模式识别、人工智能、语音和图像技术的大量研究成果。例如:在情感语音声学分析的基础上,运用线性统计方法和神经网络模型,实现了基于语音的情感识别原型;通过对面部运动区域进行编码,采用HMM等不同模型,建立了面部情感特征的识别方法;通过对人姿态和运动的分析,探索肢体运动的情感类别等等。不过,受到情感信息捕获技术的影响,以及缺乏大规模的情感数据资源,有关多特征融合的情感理解模型研究还有待深入。随着未来的技术进展,还将提出更有效的机器学习机制。

二、人才1、全球学者概况

学者分布地图对于进行学者调查、分析各地区竞争力现况尤为重要,下图为情感计算领域全球顶尖学者分布状况。其中,颜色越趋近于红色,表示学者越集中;颜色越趋近于绿色,表示学者越稀少。从地区角度来看,北美洲、欧洲是情感计算领域学者分布最为集中的地区,亚洲东部地区次之,南美洲和非洲学者极为匮乏。从国家角度来看,情感计算领域的人才在美国最多,中国次之,意大利、法国等洲国家也有较多的学者数量,整体上讲其它国家与美国的差距较大。

情感计算全球专家分布

情感计算专家国家数量分布

情感计算领域学者的h-index分布如下图所示,分布情况整体呈阶梯状,大部分学者的hindex分布在中低区域,其中h-index在

人工智能技术落地:情感分析概述

从自然语言处理技术的角度来看,情感分析的任务是从评论的文本中提取出评论的实体,以及评论者对该实体所表达的情感倾向,自然语言所有的核心技术问题。因此,情感分析被认为是一个自然语言处理的子任务。

情感分析概述

与其他的人工智能技术相比,情感分析(SentimentAnalysis)显得有些特殊,因为其他的领域都是根据客观的数据来进行分析和预测,但情感分析则带有强烈的个人主观因素。情感分析的目标是从文本中分析出人们对于实体及其属性所表达的情感倾向以及观点,这项技术最早的研究始于2003年Nasukawa和Yi两位学者的关于商品评论的论文。

随着推特等社交媒体以及电商平台的发展而产生大量带有观点的内容,给情感分析提供了所需的数据基础。时至今日,情感识别已经在多个领域被广泛的应用。

例如:

在商品零售领域,用户的评价对于零售商和生产商都是非常重要的反馈信息,通过对海量用户的评价进行情感分析,可以量化用户对产品及其竞品的褒贬程度,从而了解用户对于产品的诉求以及自己产品与竞品的对比优劣。在社会舆情领域,通过分析大众对于社会热点事件的点评可以有效的掌握舆论的走向。在企业舆情方面,利用情感分析可以快速了解社会对企业的评价,为企业的战略规划提供决策依据,提升企业在市场中的竞争力。在金融交易领域,分析交易者对于股票及其他金融衍生品的态度,为行情交易提供辅助依据。

目前,绝大多数的人工智能开放平台都具备情感分析的能力,如图所示:是玻森中文语义开放平台的情感分析功能演示,可以看出除了通用领域的情感分析外,还有汽车、厨具、餐饮、新闻和微博几个特定领域的分析。

玻森中文语义开放平台的情感分析示例

那么到底什么是情感分析呢?

从自然语言处理技术的角度来看,情感分析的任务是从评论的文本中提取出评论的实体,以及评论者对该实体所表达的情感倾向,自然语言所有的核心技术问题,例如:词汇语义,指代消解,此役小气,信息抽取,语义分析等都会在情感分析中用到。

因此,情感分析被认为是一个自然语言处理的子任务,我们可以将人们对于某个实体目标的情感统一用一个五元组的格式来表示:(e,a,s,h,t)

e表示情感分析的目标实体,可以是一个具体的实例,也可以是一个类,但必须是唯一的对象。a表示实体e中一个观点具体评价的属性。s表示对实体e的a属性的观点中所包含的情感,通常来讲会分为正向褒义、负向贬义和中性三种分类。也可以通过回归算法转化为1星到5星的评价等级。h是情感观点的持有者,有可能是评价者本人,也有可能是其他人。t是观点发布的时间。

以图为例,e是指某餐厅,a为该餐厅的性价比属性,s是对该餐厅的性价比表示了褒义的评价,h为发表评论者本人,t是19年7月27日。所以这条评论的情感分析可以表示为五元组(某餐厅,性价比,正向褒义,评论者,19年7月27日)。

用户对某餐厅的评价

情感分析根据处理文本颗粒度的不同,大致可以分为三个级别的任务,分别是篇章级、句子级和属性级。

我们分别来看一下:

1.篇章级情感分析

篇章级情感分析的目标是判断整篇文档表达的是褒义还是贬义的情感,例如一篇书评,或者对某一个热点时事新闻发表的评论,只要待分析的文本超过了一句话的范畴,即可视为是篇章级的情感分析。

对于篇章级的情感分析而言有一个前提假设,那就是全篇章所表达的观点仅针对一个单独的实体e,且只包含一个观点持有者h的观点。

这种做法将整个文档视为一个整体,不对篇章中包含的具体实体和实体属性进行研究,使得篇章级的情感分析在实际应用中比较局限,无法对一段文本中的多个实体进行单独分析,对于文本中多个观点持有者的观点也无法辨别。

例如评价的文本是:“我觉得这款手机很棒。”

评价者表达的是对手机整体的褒义评价,但如果是:“我觉得这款手机拍照功能很不错,但信号不是很好”这样的句子,在同一个评论中出现了褒义词又出现了贬义词,篇章级的分析是无法分辨出来的,只能将其作为一个整体进行分析。

不过好在有很多的场景是不需要区分观点评价的实体和观点持有者,例如:在商品评论的情感分析中,可以默认评论的对象是被评论的商品,评论的观点持有者也是评论者本人。

当然,这个也需要看被评论的商品具体是什么东西,如果是亲子旅游这样的旅游服务,那么评论中就很有可能包含一个以上的观点持有者。在实际工作中,篇章级的情感分析无法满足我们对于评价更细致,如果需要对评论进行更精确,更细致的分析,我们需要拆分篇章中的每一句话,这就是句子级的情感分析研究的问题。

2.句子级情感分析

与篇章级的情感分析类似,句子级的情感分析任务是判断一个句子表达的是褒义还是贬义的情感,虽然颗粒度到了句子层级,但是句子级分析与篇章级存在同样的前提假设是,那就是一个句子只表达了一个观点和一种情感,并且只有一个观点持有人。

如果一个句子中包含了两种以上的评价或多个观点持有人的观点,句子级的分析是无法分辨的。好在现实生活中,绝大多数的句子都只表达了一种情感。

既然句子级的情感分析在局限性上与篇章级是一样的,那么进行句子级的情感分析意义何在呢?

关于这个问题,需要先解释一下语言学上主观句与客观句的分别。在我们日常用语当中,根据语句中是否带有说话人的主观情感可以将句子分为主观句和客观句,例如:“我喜欢这款新手机。”就是一个主观句,表达了说话人内心的情感或观点,而:“这个APP昨天更新了新功能。”则是一个客观句,陈述的是一个客观事实性信息,并不包含说话人内心的主观情感。

通过分辨一个句子是否是主观句,可以帮助我们过滤掉一部分不含情感的句子,让数据处理更有效率。

但是在实操过程中,我们会发现这样的分类方法似乎并不是特别准确,因为一个主观句也可能没有表达任何的情感信息,知识表达了期望或者猜测。例如:“我觉得他现在已经在回家的路上了。”这句话是一个主观句,表达了说话人的猜测,但是并没有表达出任何的情感。

而客观句也有可能包含情感信息,表明说话者并不希望这个事实发生,例如:“昨天刚买的新车就被人刮花了。”这句话是一个客观句,但结合常识我们会发现,这句话中其实是包含了说话人的负面情感。

所以,仅仅对句子进行主客观的分类还不足以达到对数据进行过滤的要求,我们需要的是对句子是否含有情感信息进行分类。如果一个句子直接表达或隐含了情感信息,则认为这个句子是含有情感观点的,对于不含情感观点的句子则可以进行过滤。

目前对于句子是否含有情感信息的分类技术大多都是采用有监督的学习算法,这种方法需要大量的人工标注数据,基于句子特征来对句子进行分类。

总之,我们可以将句子级的情感分析分成两步:

第一步是判断待分析的句子是否含有观点信息;第二步则是针对这些含有观点信息的句子进行情感分析,发现其中情感的倾向性,判断是褒义还是贬义。

关于分析情感倾向性的方法与篇章级类似,依然是可以采用监督学习或根据情感词词典的方法来处理,我们会在后续的小节详细讲解。句子级的情感分析相较于篇章级而言,颗粒度更加细分,但同样只能判断整体的情感,忽略了对于被评价实体的属性,同时它也无法判断比较型的情感观点。

例如:“A产品的用户体验比B产品好多了。”对于这样一句话中表达了多个情感的句子,我们不能将其简单的归类为褒义或贬义的情感,而是需要更进一步的细化颗粒度,对评价实体的属性进行抽取,并将属性与相关实体之间进行关联,这就是属性级情感分析。

3.属性级情感分析

上文介绍的篇章级和句子级的情感分析,都无法确切的知道评价者喜欢和不喜欢的具体是什么东西,同时也无法区分对某一个被评价实体的A属性持褒义倾向,对B属性却持贬义倾向的情况。但在实际的语言表达中,一个句子中可能包含了多个不同情感倾向的观点。

例如:“我喜欢这家餐厅的装修风格,但菜的味道却很一般。”类似于这样的句子,很难通过篇章级和句子级的情感分析了解到对象的属性层面。

为了在句子级分析的基础上更加细化,我们需要从文本中发现或抽取评价的对象主体信息,并根据文本的上下文判断评价者针对每一个属性所表达的是褒义还是贬义的情感,这种就称之为属性级的情感分析。

属性级的情感分析关注的是被评价实体及其属性,包括评价者以及评价时间,目标是挖掘与发现评论在实体及其属性上的观点信息,使之能够生成有关目标实体及其属性完整的五元组观点摘要。

具体到技术层面来看,属性级的情感分析可以分为以下6个步骤:

实体抽取和消解:抽取文档中所有涉及到实体的表达语句,并使用聚类方法将同一个实体的表达聚为一类,每一类都对应唯一的一个实体。属性抽取和消解:抽取文档中所有实体的属性,并把这些属性进行聚类,每个属性类别对应对象实体唯一的一个属性。观点持有者抽取和消解:抽取文档中观点的持有者,并将持有者进行聚类,每个观点持有者类别对应唯一的一个观点持有者。时间抽取和标准化:抽取每个观点的发布时间,并把不同时间的格式进行标准化。属性的情感分类和回归:对具体的属性进行情感分析,判断它是褒义、贬义还是中性情感,或者通过回归算法给属性赋予一个数值化的情感得分,例如1至5分。生成观点五元组:使用任务1-6的结果构造文档中所有观点的五元组。

关于文本中的实体抽取和指代消解问题,我们已经在知识图谱的相关章节中做了介绍,这里就不再赘述。针对篇章级、句子级、属性级这三种类型的情感分析任务,人们做了大量的研究并提出了很多分类的方法,这些方法大致可以分为基于词典和基于机器学习两种,下面我们进行详细的讲解。

基于词典的情感分析

做情感分析离不开情感词,情感词是承载情感信息最基本的单元,除了基本的词之外,一些包含了情感含义的短语和成语我们也将其统称为情感词。基于情感词典的情感分析方法,主要是基于一个包含了已标注的情感词和短语的词典,在这个词典中包括了情感词的情感倾向以及情感强度,一般将褒义的情感标注为正数,贬义的情感标注为负数。

具体的步骤如图所示,首先将待分析的文本先进行分词,并对分词后的结果做去除停用词和无用词等文本数据的预处理。然后将分词的结果与情感词典中的词进行匹配,并根据词典标注的情感分对文本进行加法计算,最终的计算结果如果为正则是褒义情感,如果为负则是贬义情感,如果为0或情感倾向不明显的得分则为中性情感或无情感。

基于词典的情感分析流程

情感词典是整个分析流程的核心,情感词标注数据的好坏直接决定了情感分类的结果,在这方面可以直接采用已有的开源情感词典。例如:BosonNLP基于微博、新闻、论坛等数据来源构建的情感词典,知网(Hownet)情感词典,台湾大学简体中文情感极性词典(NTSUSD),snownlp框架的词典等,同时还可以使用哈工大整理的同义词词林拓展词典作为辅助,通过这个词典可以找到情感词的同义词,拓展情感词典的范围。

当然,我们也可以根据业务的需要来自己训练情感词典,目前主流的情感词词典有三种构建方法:人工方法、基于字典的方法和基于语料库的方法。

对于情感词的情感赋值,最简单的方法是将所有的褒义情感词赋值为+1,贬义的情感词赋值为-1,最后进行相加得出情感分析的结果。但是这种赋值方式显然不符合实际的需求,在实际的语言表达中,存在着非常多的表达方式可以改变情感的强度,最典型的就是程度副词。

程度副词分为两种:

一种是可以加强情感词原本的情感,这种称之为情感加强词,例如“很好”相较于“好”的情感程度会更强烈,“非常好”又比“很好”更强。另外一种是情感减弱词,例如“没那么好”虽然也是褒义倾向,但情感强度相较于“好”会弱很多。如果出现了增强词,则需要在原来的赋值基础上增加情感得分,如果出现了减弱词则需要减少相应的情感得分。

另一种需要注意的情况是否定词,否定词的出现一般会改变情感词原本的情感倾向,变为相反的情感,例如“不好”就是在“好”前面加上了否定词“不”,使之变成了贬义词。

早期的研究会将否定词搭配的情感词直接取相反数,即如果“好”的情感倾向是+1,那么“不好”的情感倾向就是-1。但是这种简单粗暴的规则无法对应上真实的表达情感,例如“太好”是一个比“好”褒义倾向更强的词,如果“好”的值为+1,那么“太好”可以赋值为+3,加上否定词的“不太好”变成-3则显然有点过于贬义了,将其赋值为-1或者-0.5可能更合适。

基于这种情况,我们可以对否定词也添加上程度的赋值而不是简单的取相反数,对于表达强烈否定的词例如“不那么”赋值为±4。当遇到与褒义词的组合时褒义词则取负数,与贬义词的组合则取正数,例如贬义词“难听”的赋值是-3,加上否定词变成“不那么难听”的情感得分就会是(-3+4=1)。

第三种需要注意的情况是条件词,如果一个条件词出现在句子中,则这个句子很可能不适合用来做情感分析,例如“如果我明天可以去旅行,那么我一定会非常开心。”,在这句话中有明显的褒义情感词,但是因为存在条件词“如果”,使得这个句子的并没有表达观点持有者的真实情感,而是一种假设。

除了条件句之外,还有一种语言表达也是需要在数据预处理阶段进行排除的,那就是疑问句。

例如“这个餐厅真的有你说的那么好吗?”,虽然句子中出现了很强烈的褒义情感词“那么好”,但依然不能将它分类为褒义句。疑问句通常会有固定的结尾词,例如“……吗?”或者“……么?”,但是也有的疑问句会省略掉结尾词,直接使用标点符号“?”,例如“你今天是不是不开心?”,这个句子中含有否定词和褒义词组成的“不开心”,但不能将其分类为贬义情感。

最后一种需要注意的情况是转折词,典型词是“但是”,出现在转折词之前的情感倾向通常与转折词之后的情感倾向相反,例如:“我上次在这家酒店的住宿体验非常好,但是这次却让我很失望。”在这个转折句中,转折词之前的“非常好”是一个很强的褒义词,但真实的情感表达却是转折词之后的“很失望”,最终应该将其分类为贬义情感。

当然,也存在出现了转折词,但语句本身的情感并没有发生改变的情况,例如“你这次考试比上次有了很大的进步,但是我觉得你可以做得更好”,这里的转折词没有转折含义,而是一种递进含义。

在实际操作中,我们所以需要先判断转折句真实的情感表达到底是哪个,才能进行正确的分析计算。

构建情感词典是一件比较耗费人工的事情,除了上述需要注意的问题外,还存在精准度不高,新词和网络用语难以快速收录进词典等问题,同时基于词典的分析方法也存在很多的局限性。

例如一个句子可能出现了情感词,但并没有表达情感。或者一个句子不含任何情感词,但却蕴含了说话人的情感。以及部分情感词的含义会随着上下文语境的变化而变化的问题,例如“精明”这个词可以作为褒义词夸奖他人,也可以作为贬义词批评他人。

尽管目前存在诸多问题,但基于字典的情感分析方法也有着不可取代的优势,那就是这种分析方法通用性较强,大多数情况下无需特别的领域数据标注就可以分析文本所表达的情感,对于通用领域的情感分析可以将其作为首选的方案。

基于机器学习的情感识别

我们在机器学习算法的章节介绍过很多分类算法,例如逻辑回归、朴素贝叶斯、KNN等,这些算法都可以用于情感识别。

具体的做法与机器学习一样需要分为两个步骤:第一步是根据训练数据构建算法模型;第二步是将测试数据输入到算法模型中输出对应的结果,接下来做具体的讲解。

首先,我们需要准备一些训练用的文本数据,并人工给这些数据做好情感分类的标注。通常的做法下:如果是褒义和贬义的两分类,则褒义标注为1,贬义标注为0,如果是褒义、贬义和中性三分类,则褒义标注为1,中性标注为0,贬义标注为-1。

在这一环节中如果用纯人工方法来进行标注,可能会因为个人主观因素对标注的结果造成一定影响,为了避免人的因素带来的影响,也为了提高标注的效率,有一些其他取巧的方法来对数据进行自动标注。

比如:在电商领域中,商品的评论除了文本数据之外通常还会带有一个5星的等级评分,我们可以根据用户的5星评分作为标注依据,如果是1-2星则标注为贬义,如果是3星标注为中性,4-5星标注为褒义。

又比如:在社区领域中,很多社区会对帖子有赞和踩的功能,这一数据也可以作为情感标注的参考依据。

第二步是将标注好情感倾向的文本进行分词,并进行数据的预处理,前文已经对分词有了很多的介绍,这里就不再过多的赘述。

第三步是从分词的结果中标注出具备情感特征的词,这里特别说一下,如果是对情感进行分类,可以参考情感词典进行标注,也可以采用TF-IDF算法自动抽取出文档的特征词进行标注。如果分析的是某个特定领域的,还需要标注出特定领域的词,例如做商品评价的情感分析,需要标注出商品名称,品类名称,属性名称等。

第四步根据分词统计词频构建词袋模型,形成特征词矩阵,如表所示。在这一步可以根据业务需要给每个特征词赋予权重,并通过词频乘以权重得到特征词分数。

最后一步就是根据分类算法,将特征词矩阵作为输入数据,得到最终的分类模型。

当训练好分类模型之后,就可以对测试集进行分类了,具体的流程与建模流程类似,先对测试的文本数据进行分词并做数据预处理,然后根据特征词矩阵抽取测试文本的特征词构建词袋矩阵,并将词袋矩阵的词频数据作为输入数据代入之前训练好的模型进行分类,得到分类的结果。

采用基于机器学习的方法进行情感分析有以下几个不足之处:

第一是每一个应用领域之间的语言描述差异导致了训练得到的分类模型不能应用与其他的领域,需要单独构建。第二是最终的分类效果取决于训练文本的选择以及正确的情感标注,而人对于情感的理解带有主观性,如果标注出现偏差就会对最终的结果产生影响。

除了基于词典和基于机器学习的方法,也有一些学者将两者结合起来使用,弥补两种方法的缺点,比单独采用一种方法的分类效果要更好。

另外,也有学者尝试使用基于LSTM等深度学习的方法对情感进行分析,相信在未来,情感分析会应用在更多的产品中,帮助我们更好的理解用户需求,提升用户使用智能产品的体验。

情感识别的困难与挑战

随着深度神经网络等算法的应用,情感分析的研究方向已经有了非常大的进展,但依然存在着一些难题是目前尚未解决的,在实操过程中需特别注意以下几种类型数据:

(1)颜文字、emoji和表情包

互联网上的交流不仅仅只是通过单纯的文字来进行,大量的情感表达是通过颜文字或表情包来实现的,例如经典的表示笑脸的颜文字“:D”,这类文本表达无法与上下文形成联系,所以很难判断他们评价的实体对象是什么。

不过好在这类数据本身就代表了非常强烈的情感倾向,在篇章级和句子级的颗粒度对情感进行分析,我们可以将特定的颜文字作为一种特殊的词组构建成情感字典,并人工进行情感分的赋值,对于emoji表情也可以将标准的emoji编码编入情感字典。而对于表情包的识别则是一个计算机视觉的问题,目前还没有学者在这个领域方向展开研究。

(2)讽刺句

讽刺语句是一种比较特殊的情感表达语句,讽刺语句的语言组织形式从字面上来看可能是褒义,但实际的含义却是贬义,或者字面是贬义但实际却是褒义。

例如:“太棒了!这家外卖治好了我多年的便秘!”

讽刺句在情感分析中是非常难以处理的,因为要分辨这类语句的含义,通常来讲需要结合常识或者是相关的背景知识才可以了解,仅仅通过上下文是无法正确解读讽刺句的含义的。在对商品的评价语中,讽刺句并不常见,但在舆论或社会新闻的评价中,讽刺句则比较常见,识别出讽刺句是情感分析分析方向的一个研究难点。

(3)比较句

比较语句也是一种特殊的情感表达句,例如:“我觉得这件衣服很适合我,但我更喜欢那一件。”

这类比较语句中通常存在着两个以上的实体或属性,如果只是在句子级的颗粒度下可以辨别出这句话是含有褒义的情感,但在属性级的颗粒度下,以情感五元组来定义的情感无法将一个实体作为另一个实体的属性来进行判断,很难分辨观点持有者到底是在对哪一个实体或属性表达情感。而这类语句在商品的评论中有非常常见,需要特别注意。

(4)情绪分类

目前对于情感的分析依然处于初级阶段,仅仅只是对情感做了褒义、贬义、中性三种划分,但现实生活中的情绪远远不止这三种类型,例如:在心理学领域中,著名的心理学家罗伯特·普拉切克(RobertPlutchik)提出的情绪轮包含了8种基本情绪,并且每种情绪又划分了不同的情绪强度等级,8种情绪还可以相互结合形成更多的情绪,如图所示。

普拉切克的情绪轮

情绪轮在用户体验设计上被广泛的应用,很多情感化设计都是基于情绪轮进行的。但是在人工智能领域,将情绪进行多分类比情感分析的三分类任务要难得多,目前大多数分类方法的结果准确性都不到50%。

这是因为情绪本身包含了太多的类别,而且不同的类别之间又可能具有相似性,一个情绪词在不同的语境下有可能表达的是不同的情绪类别,算法很难对其进行分类。即使是人工对文本进行情绪类别标注也往往效果不佳,因为情绪是非常主观性的,不同的人对不同的文本可能产生不同的理解,这使得人工标注情绪类比的过程异常困难。

如何让机器可以理解真实的情绪,目前还是一个未能攻克的难题。

 

本文由@黄瀚星原创发布于人人都是产品经理。未经许可,禁止转载

题图来自Unsplash,基于CC0协议

清华权威报告告诉你:人工智能的情感计算是什么

Jwaednc

1.3 视觉情感计算Jwaednc

表情作为人类情感表达的主要方式,其中蕴含了大量有关内心情感变化的信息,通过面部表情可以推断内心微妙的情感状态。但是让计算机读懂人类面部表情并非简单的事情。人脸表情识别是人类视觉最杰出的能力之一。而计算机进行自动人脸表情识别所利用的主要也是视觉数据。无论在识别准确性、速度、可靠性还是稳健性方面,人类自身的人脸表情识别能力都远远高于基于计算机的自动人脸表情识别。因此,自动人脸表情识别研究的进展一方面依赖计算机视觉、模式识别、人工智能等学科的发展,另一方面还依赖对人类本身识别系统的认识程度,特别是对人的视觉系统的认识程度。Jwaednc

早在20世纪70年代,关于人脸表情识别的研究就已经展开,但是早期主要集中在心理学和生物学方面。随着计算机技术的发展,人脸表情识别技术逐渐发展起来,至上世纪90年代,该领域的研究已经非常活跃。大量文献显示表情识别与情感分析已从原来的二维图像走向了三维数据研究,从静态图像识别研究专项实时视频跟踪。下面将从视觉情感信号获取、情感信号识别以及情感理解与表达方面介绍视觉情感计算。Jwaednc

视觉情感信号获取 :表情参数的获取,多以二维静态或序列图像为对象,对微笑的表情变化难以判断,导致情感表达的表现力难以提高,同时无法体现人的个性化特征,这也是表情识别中的一大难点。以目前的技术,在不同的光照条件和不同头部姿态下,也不能取得满意的参数提取效果。由于三维图像比二维图像包含更多的信息量,可以提供鲁棒性更强,与光照条件和人的头部姿态无关的信息,用于人脸表情识别的特征提取工作更容易进行。因此,目前最新的研究大多利用多元图像数据来进行细微表情参数的捕获。该方法综合利用三维深度图像和二维彩色图像,通过对特征区深度特征和纹理彩色特征的分析和融合,提取细微表情特征,并建立人脸的三维模型,以及细微表情变化的描述机制。Jwaednc

视觉情感信号识别:视觉情感信号的识别和分析主要分为面部表情的识别和手势识别两类:Jwaednc

对于面部表情的识别,要求计算机具有类似于第三方观察者一样的情感识别能力。由于面部表情是最容易控制的一种,所以识别出来的并不一定是真正的情感,但是,也正由于它是可视的,所以它非常重要,并能通过观察它来了解一个人试图表达的东西。到目前为止,面部表情识别模型都是将情感视为离散的,即将面部表情分成为数不多的类别,例如“高兴”、“悲伤”、“愤怒”等。1971年,Ekman和Friesen研究了6种基本表情(高兴、悲伤、惊讶、恐惧、愤怒和厌恶),并系统地建立了上千幅不同的人脸表情图像库。六种基本表情的具体面部表现如下表所示。1978年,他们研究了情感类别之间的内在关系,开发了面部动作编码系统(FACS)。系统描述了基本情感以及对应的产生这种情感的肌肉移动的动作单元。他们根据人脸的解剖学特点,将其划分成大约46个既相互独立又相互联系的运动单元(AU),并分析了这些运动单元的运动特征及其所控制的主要区域以及与之相关的表情,给出了大量的照片说明。面部识别器一般要花五分钟来处理一种面部表情,准确率达到98%。Jwaednc

马里兰大学的YeserYacoob和LarryDavis提出了另一种面部表情识别模型,它也是基于动作能量模版,但是将模版、子模版(例如嘴部区域)和一些规则结合起来表达情感。例如,愤怒的表情在从眼睛区域提取的子模版中,特别是眉毛内敛、下垂,在嘴巴区域子模版中,特别是嘴巴紧闭,两个子模板结合起来,就很好表达了愤怒这一情感。后续的研究总体上结合生物识别方法及计算机视觉进行,依据人脸特定的生物特征,将各种表情同脸部运动细节(几何网格的变化)联系起来,收集样本,提取特征,构建分类器。但是目前公开的用于表情识别研究的人脸图像数据库多是采集志愿者刻意表现出的各种表情的图像,与真实情形有出入。Jwaednc

Jwaednc

Jwaednc

脸部表情运动特征具体表现Jwaednc

对于手势识别来说,一个完整的手势识别系统包括三个部分和三个过程。三个部分分别是:采集部分、分类部分和识别部分;三个过程分别是:分割过程、跟踪过程和识别过程。采集部分包括了摄像头、采集卡和内存部分。在多目的手势识别中,摄像头以一定的关系分布在用户前方。在单目的情况下,摄像头所在的平面应该和用户的手部运动所在的平面基本水平。分类部分包括了要处理的分类器和结果反馈回来的接收比较器。用来对之前的识别结果进行校正。识别部分包括了语法对应单位和相应的跟踪机制,通过分类得到的手部形状通过这里一一对应确定的语义和控制命令。分割过程包括了对得到的实时视频图像进行逐帧的手部分割,首先得到需要关注的区域,其次在对得到的区域进行细致分割,直到得到所需要的手指和手掌的形状。跟踪过程包括对手部的不断定位和跟踪,并估计下一帧手的位置。识别过程通过对之前的知识确定手势的意义,并做出相应的反应,例如显示出对应的手势或者做出相应的动作,并对不能识别的手势进行处理,或者报警或者记录下特征后在交互情况下得到用户的指导。手势识别的基本框架如下图所示:Jwaednc

Jwaednc

手势识别的基本框架Jwaednc

2、新兴的研究

2.1 网络海量数据的情感计算Jwaednc

随着时代的发展,网络赋予情感计算新的、更大的数据平台,打开了情感计算的新局面。网络系统由于沟通了人类的现实世界和虚拟世界,可以持续不断地对数量庞大的样本进行情感跟踪,每天这些映射到网络上的情绪不计其数,利用好这些数据反过来就可以验证心理学结论,甚至反哺心理学。由于大数据的分布范围极其广泛,样本数量非常庞大,采用单一的大数据处理方法往往得不到有效的情感要素,统计效果较差。但是,如果将大数据和心理学结合起来,局面就会大不一样:心理学中,不同情感可以采用维度标定,如冷暖或软硬,同时各种心理效应影响人类对事物的情感判断,如连觉效应、视觉显著性、视觉平衡等,在大数据中引入心理学效应和维度,对有效数据进行心理学情感标准划分,使得数据具有情感维度,这样就会让计算机模拟人类情感的准确性大大提升。网络海量数据的情感主要有以下几个社会属性:Jwaednc

情感随群体的变化:在社交网络,如论坛、网络社区等群体聚集的平台上流露出群体的情感,通过这些情感展现可以达到影响其他个人的行为。Jwaednc

情感随图片的变化:在社交媒体出现大量的图片,这些图片的颜色、光度、图片内容等各不相同。图片的特征直接影响到了观看者的情感。Jwaednc

情感随朋友的变化:在社交平台上,朋友发表的微博、微信状态等容易展现个人的情感。朋友间的关系比陌生人间的关系更加深入,所以朋友的情感更容易引起情感变化,在海量数据中,个人情感容易优先受朋友情感的影响。Jwaednc

情感随社会角色的变化:在社交网络中,个人在不同的群体所处的角色也不一样,个人情感流露时也会跟着所处的角色不一样而展现不同的情感。Jwaednc

情感随时间的演变:人的情绪是变化无常的,所处的环境不一样,则表现出来的情感也将不一样。即使是同一件事,不同的情景下展现的情感也会不一样。另外,事件的发展是个动态的过程,随着事件的演变,人的情感也会跟着变化。Jwaednc

阳光保险客服中心在国内率先采用人工智能语音情感识别技术

原标题:阳光保险客服中心在国内率先采用人工智能语音情感识别技术

创景咨询为阳光保险客户服务中心提供的基于人工智能语音情感识别技术的语音情绪分析系统已于近期上线运行,填补了国内这一领域应用的空白。

人工智能语音情感识别技术,利用深度学习算法监测说话人语音的声学特性,从中提取情感特征,并根据这些特征确定被测对象情感状态。该技术虽然已在国外尝试开展实施应用,但因中文发音的特殊性,相关情感算法对中文识别的准确率偏低,尚无法针对中文应用提供有针对性的个性化方案。特别是由于真实业务环境的场景的复杂性、信号高噪性和快速响应要求高等特征,给相应技术的开发和实施带来很大挑战。国内在这一领域研究处于领先地位的清华大学教授组成的科研团队研发出一套中文语音情感识别算法,由该团队提供算法技术,北京创景咨询有限公司具体技术实施,阳光保险提供应用场景、语音数据和业务专家,共同协作训练算法、完善模型、开发应用系统。经过近一年的努力,终于研发出能够投入实际使用的语音情绪分析系统并运营上线。通过人工智能语音情绪分析系统可以有效识别客户带有负面情绪的语句,识别准确率是国际上类似系统识别准确率的6倍。在不增加质检人员工作量的前提下,可以大幅提升质检部门发现客户不满意通话的效率,较传统随机抽检方式相比,效率提升了8-10倍。

目前阳光保险客户服务中心语音情绪分析系统已经替代原人工抽检中凭借语气、语调变化的人为判断,由计算机对每天的全部通话进行全面自动化机器质检,标记座席及客户的负面情绪,协助质检人员对座席的服务质量进行把关。未来阳光保险客服中心还将开展情绪专项质检及实时质检和情绪预警,通过对客户情绪的实时识别,更准确地预判客户满意度评分、提醒座席即刻调整沟通方式及业务话术,从而更科学、更严格地提升服务水平,提高客户满意度;语音情感识别在众多人机交互领域有着广泛的应用,例如对客户情绪、客户满意度进行检测,进一步预测客户的产品购买倾向,为目标客户的精准营销提供支持,提高成功率;还可用于侦测客户交易、服务、理赔过程中的异常情绪或者可疑信息,对复杂、微妙情绪进行识别,提供预警及理赔欺诈侦测。

参与此项目的清华大学科研团队由管理科学领域著名学者徐心及卫强教授为核心组成。徐心教授是教育部长江学者及国家杰出青年科学基金获得者,长期从事信息系统领域基础理论和方法研究,现任清华大学经济管理学院副院长,国际信息系统学会中国分会副主席,中国信息系统协会常务理事,中国信息经济学会常务理事,信息系统学科国际顶级刊物MISQuarterly高级副主编。

卫强教授是教育部新世纪人才奖和教育优秀教材奖获得者,长期从事大数据、商务分析、数据挖掘与智能算法等领域的科研及教学,在MISQuarterly,ACMTransactionsonKDD,INFORMSJournalonComputing等国际顶级学术期刊上发表过多篇论文,目前担任DecisionSupportSystems等多个国际学术期刊的副主编,中国管理科学与工程学会副秘书长,中国模糊数学与模糊系统学会常务理事,中国信息经济学会常务理事。

北京创景咨询有限公司是由清华大学校友及美国硅谷科技专业人士共同创办的国家高新技术企业,多年来为平安银行、广发银行、兴业银行、民生银行、南京银行等国内众多金融企业提供信息技术服务。近年来创景咨询通过与清华大学、中科院等科研机构的密切合作,着力将人工智能、机器学习、区块链等最前沿的创新技术应用于金融企业信息化建设当中,提升其客户服务、营销效果及风险管控水平。返回搜狐,查看更多

责任编辑:

版权声明:本文内容由互联网用户自发贡献,该文观点仅代表作者本人。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如发现本站有涉嫌抄袭侵权/违法违规的内容,一经查实,本站将立刻删除。

上一篇

下一篇