博舍

清华权威报告告诉你:人工智能的情感计算是什么 人工智能情感识别是什么意思啊知乎文章

清华权威报告告诉你:人工智能的情感计算是什么

情感计算是一个高度综合化的研究和技术领域。通过计算科学与心理科学、认知科学的结合,研究人与人交互、人与计算机交互过程中的情感特点,设计具有情感反馈的人与计算机的交互环境,将有可能实现人与计算机的情感交互。情感计算研究将不断加深对人的情感状态和机制的理解,并提高人与计算机界面的和谐性,即提高计算机感知情境,理解人的情感意图,做出适当反应的能力,其主要研究内容如下图所示:

情感计算的研究内容

情感计算是一个多学科交叉的崭新的研究领域,它涵盖了传感器技术、计算机科学、认知科学、心理学、行为学、生理学、哲学、社会学等方面。情感计算的最终目标是赋予计算机类似于人的情感能力。要达到这个目标,许多技术问题有待解决。这些技术问题的突破对各学科的发展都产生巨大的推动作用。以下分别从情感计算的传统研究方法和新兴研究方法对技术发展进行探讨。

1、传统的研究

传统的情感计算方法是按照不同的情感表现形式分类的,分别是:文本情感分析、语音情感分析、视觉情感分析。

1.1文本情感计算

20世纪90年代末,国外的文本情感分析已经开始。早期,Riloff和Shepherd在文本数据的基础上进行了构建语义词典的相关研究。McKeown发现连词对大规模的文本数据集中形容词的语义表达的制约作用,进而对英文的形容词与连词做情感倾向研究。自此之后,越来越多的研究开始考虑特征词与情感词的关联关系。Turney等使用点互信息的方法扩展了正负面情感词典,在分析文本情感时使用了极性语义算法,处理通用的语料数据时准确率达到了74%。在近些年的研究中,Narayanan等结合各种特征及其相关联信息,提出了基于分句、整句、结果句的分类方案,获得了很好的效果。Pang等以积极情感和消极情感为维度,对电影评论进行了情感分类。他分别采用了支持向量机、最大熵、朴素贝叶斯算法进行分类实验,发现支持向量机的精确度达到了80%。随着研究的不断深入,学者在对情感分析算法进行改进的同时,也将其应用到不同的行业中进行了实践。

文本情感计算的过程可以由3部分组成:文本信息采集、情感特征提取和情感信息分类。文本信息采集模块通过文本抓取工具(如网页爬虫工具)获得情感评论文本,并传递到下一个

情感特征提取模块,然后对文本中自然语言文本转化成计算机能够识别和处理的形式,并通过情感信息分类模块得到计算结果。文本情感计算侧重研究情感状态与文本信息之间的对应关系,提供人类情感状态的线索。具体地,需要找到计算机能提取出来的特征,并采用能用于情感分类的模型。因此,关于文本情感计算过程的讨论,主要集中在文本情感特征标注(信息采集)、情感特征提取和情感信息分类这三个方面。

1、文本情感特征标注:情感特征标注是对情感语义特征进行标注,通常是将词或者语义块作为特征项。情感特征标注首先对情感语义特征的属性进行设计,如褒义词、贬义词、加强语气、一般语气、悲伤、高兴等等;然后通过机器自动标注或者人工标注的方法对情感语义特征进行标注,形成情感特征集合。情感词典是典型的情感特征集合,也是情感计算的基础。在大多数研究中,有关情感计算的研究通常是将情感词典直接引入自定义词典中。

运用情感词典计算出文本情感值是一种简单迅速的方法,但准确率有待提高。在实际的情感计算中,会因为具体的语言应用环境而有所不同。例如,“轻薄”一词通常认为是否定词,但是在电脑、手机却被视为肯定词汇。同时,文本中常会出现否定前置、双重否定以及文本口语化和表情使用等,这些都将会对文本情感特征的提取和判断产生较大的影响。因此在进行文本情感提取时,需要对文本及其对应的上下文关系、环境关系等进行分析。

2、情感特征提取:文本包含的情感信息是错综复杂的,在赋予计算机以识别文本情感能力的研究中,从文本信号中抽取特征模式至关重要。在对文本预处理后,初始提取情感语义特征项。特征提取的基本思想是根据得到的文本数据,决定哪些特征能够给出最好的情感辨识。通常算法是对已有的情绪特征词打分,接着以得分高低为序,超过一定阈值的特征组成特征子集。特征词集的质量直接影响最后结果,为了提高计算的准确性,文本的特征提取算法研究将继续受到关注。长远看来,自动生成文本特征技术将进一步提高,特征提取的研究重点也更多地从对词频的特征分析转移到文本结构和情感词上。

3、情感信息分类:文本情感分类技术中,主要采用两种技术路线:基于规则的方法和基于统计的方法。在20世纪80年代,基于规则的方法占据主流位置,通过语言学家的语言经验和知识获取句法规则,以此作为文本分类依据。但是,获取规则的过程复杂且成本巨大,也对系统的性能有负面影响,且很难找到有效的途径来提高开发规则的效率。20世纪90年代之后,人们更倾向于使用统计的方法,通过训练样本进行特征选择和参数训练,根据选择的特征对待分类的输入样本进行形式化,然后输入到分类器进行类别判定,最终得到输入样本的类别。

下表整理了10个文本情感分析API,供读者参考:

1.2语音情感计算

最早的真正意义上的语音情感识别相关研究出现在20世纪80年代中期,它们开创了使用声学统计特征进行情感分类的先河。紧接着,随着1985年Minsky教授“让计算机具有情感能力”观点的提出,以及人工智能领域的研究者们对情感智能重要性认识的日益加深,越来越多的科研机构开始了语音情感识别研究的探索。在20世纪80年代末至90年代初期,麻省理工学院多媒体实验室构造了一个“情感编辑器”对外界各种情感信号进行采集,综合使用人体的生理信号、面部表情信号、语音信号来初步识别各种情感,并让机器对各种情感做出适当的简单反应;1999年,Moriyama提出语音和情感之间的线性关联模型,并据此在电子商务系统中建造出能够识别用户情感的图像采集系统语音界面,实现了语音情感在电子商务中的初步应用。

整体而言,语音情感识别研究在该时期仍旧处于初级阶段,主要侧重于情感的声学特征分析这一方面,作为研究对象的情感语音样本也多表现为规模小、自然度低、语义简单等特点,虽然有相当数量的有价值的研究成果相继发表,但是并没有形成一套被广泛认可的、系统的理论和研究方法。进入21世纪以来,随着计算机多媒体信息处理技术等研究领域的出现以及人工智能领域的快速发展,语音情感识别研究被赋予了更多的迫切要求,发展步伐逐步加快。2000年,在爱尔兰召开的ISCAWorkshoponSpeechandEmotion国际会议首次把致力于情感和语音研究的学者聚集在一起。近10余年来,语音情感识别研究工作在情感描述模型的引入、情感语音库的构建、情感特征分析等领域的各个方面都得到了发展。下面将从语音情感数据库的采集、语音情感标注以及情感声学特征分析方面介绍语音情感计算。

1、语音情感数据库的采集

语音情感识别研究的开展离不开情感语音数据库的支撑。情感语音库的质量高低,直接决定了由它训练得到的情感识别系统的性能好坏。评价一个语音情感数据库好坏的一个重要标准是数据库中语音情感是否具备真实的表露性和自发性。目前,依据语音情感激发类型的不同,语音情感数据库可分为表演型、诱发型和自发型三种。

具体来说,表演型情感数据库通过专业演员的表演,把不同情感表达出来。在语音情感识别研究初期,这一采集标准被认为是研究语音情感识别比较可靠的数据来源,因为专业演员在

表达情感时,可以通过专业表达获得人所共知的情感特征。比如,愤怒情感的语音一般会具有很大的幅值和强度,而悲伤情感的语音则反之。由于这一类型的数据库具有表演的性质,情感的表达会比真实情感夸大一点,因此情感不具有自发的特点。依据该类型数据库来学习的语音情感识别算法,不一定能有效应用于真实生活场景中。第二种称之为诱发型情感数据库。被试者处于某一特定的环境,如实验室中,通过观看电影或进行计算机游戏等方式,诱发被试者的某种情感。目前大部分的情感数据库都是基于诱发的方式建立的。诱发型情感数据库产生的情感方式相较于表演型情感数据库,其情感特征更具有真实性。最后一种类型属于完全自发的语音情感数据库,其语料采集于电话会议、电影或者电话的视频片段,或者广播中的新闻片段等等。由于这种类型的语音情感数据最具有完全的真实性和自发性,应该说最适合用于实用的语音情感识别。但是,由于这些语音数据涉及道德和版权因素,妨碍了它在实际语音情感识别中的应用。

2、语音情感数据库的标注

对于采集好的语音情感库,为了进行语音情感识别算法研究,还需要对情感语料进行标注。标注方法有两种类型:

离散型情感标注法指的是标注为如生气、高兴、悲伤、害怕、惊奇、讨厌和中性等,这种标注的依据是心理学的基本情感理论。基本情感论认为,人复杂的情感是由若干种有限的基本情感构成的,就像我们自古就有“喜、怒、哀、乐,恐、悲、惊”七情的说法。不同的心理学家对基本情感有不同的定义,由此可见,在心理学领域对基本情感类别的定义还没有一个统一的结论,因此不同的语音情感数据库包含的情感类别也不尽相同。这不利于在不同的语音情感数据库上,对同一语音情感识别算法的性能进行评价。此外,众所周知,实际生活中情感的类别远远不止有限几类。基于离散型情感标注法的语音情感识别容易满足多数场合的需要,但无法处理人类情感表达具有连续性和动态变化性的情况。在实际生活中,普遍存在着情感变化的语音,比如前半句包含了某一种情感,而后半句却包含了另外一种情感,甚至可能相反。例如,某人说话时刚开始很高兴,突然受到外界刺激,一下子就生气了。对于这种在情感表达上具有连续和动态变化的语音,采用离散型情感标注法来进行语音情感识别就不合适了。因为此时语音的情感,己不再完全属于某一种具体的情感。

维度情感空间论基于离散型情感标注法的缺陷,心理学家们又提出了维度情感空间论,即对情感的变化用连续的数值进行表示。不同研究者所定义的情感维度空间数目有所不同,如二维、三维甚至四维模型。针对语音情感,最广为接受和得到较多应用的为二维连续情感空间模型,即“激活维-效价维”(Arousal-Valence)的维度模型。“激活维”反映的是说话者生理上的激励程度或者采取某种行动所作的准备,是主动的还是被动的;“效价维”反映的是说话者对某一事物正面的或负面的评价。随着多模态情感识别算法的研究,为了更细致的地描述情感的变化,研究者在“激活维-效价维”(Arousal-Valence)二维连续情感空间模型的基础上,引入“控制维”,即在“激活维-效价维-控制维(Arousal-Valence/Pleasure-Power/Dominance)”三维连续情感空间模型上对语音情感进行标注和情感计算。需要强调的是,离散型和连续型情感标注之间,它们并不是孤立的,而是可以通过一定映射进行相互转换。

3、情感声学特征分析

情感声学特征分析主要包括声学特征提取和声学特征选择、声学特征降维。采用何种有效的语音情感特征参数用于情感识别,是语音情感识别研究最关键的问题之一,因为所用的情感特征参数的优劣直接决定情感最终识别结果的好坏。

声学特征提取。目前经常提取的语音情感声学特征参数主要有三种:韵律特征、音质特征以及谱特征。在早期的语音情感识别研究文献中,针对情感识别所首选的声学特征参数是韵律

特征,如基音频率、振幅、发音持续时间、语速等。这些韵律特征能够体现说话人的部分情感信息,较大程度上能区分不同的情感。因此,韵律特征已成为当前语音情感识别中使用最广泛并且必不可少的一种声学特征参数除了韵律特征,另外一种常用的声学特征参数是与发音方式相关的音质特征参数。三维情感空间模型中的“激发维”上比较接近的情感类型,如生气和高兴,仅使用韵律特征来识别是不够的。

音质特征包括共振峰、频谱能量分布、谐波噪声比等,不仅能够很好地表达三维中的“效价维”信息,而且也能够部分反映三维中的“控制维”信息。因此,为了更好地识别情感,同时提取韵律特征和音质特征两方面的参数用于情感识别,已成为语音情感识别领域声学特征提取的一个主要方向。谱特征参数是一种能够反映语音信号的短时功率谱特性的声学特征参数,Mel频率倒谱系数(Mel-scaleFrequencyCepstralCoefficients,MFCC)是最具代表性的谱特征参数,被广泛应用于语音情感识别。由于谱特征参数及其导数,仅反映语音信号的短时特性,忽略了对情感识别有用的语音信号的全局动态信息。近年来,为了克服谱特征参数的这种不足之处,研究者提出了一些改进的谱特征参数,如类层次的谱特征、调制的谱特征和基于共振峰位置的加权谱特征等。

声学特征选择。为了尽量保留对情感识别有意义的信息,研究者通常都提取了较多的与情感表达相关的不同类型的特征参数,如韵律特征、音质特征、谱特征等。任意类型特征都有各自的侧重点和适用范围,不同的特征之间也具有一定的互补性、相关性。此外,这些大量提取的特征参数直接构成了一个高维空间的特征向量。这种高维性质的特征空间,不仅包含冗余的特征信息,导致用于情感识别的分类器训练和测试需要付出高昂的计算代价,而且情感识别的性能也不尽如人意。因此,非常有必要对声学特征参数进行特征选择或特征降维处理,以便获取最佳的特征子集,降低分类系统的复杂性和提高情感识别的性能。

特征选择是指从一组给定的特征集中,按照某一准则选择出一组具有良好区分特性的特征子集。

特征选择方法主要有两种类型:封装式(Wrapper)和过滤式(Filter)。Wrapper算法是将后续采用的分类算法的结果作为特征子集评价准则的一部分,根据算法生成规则的分类精度选择特征子集。Filter算法是将特征选择作为一个预处理过程,直接利用数据的内在特性对选取的特征子集进行评价,独立于分类算法。

声学特征降维。特征降维是指通过映射或变换方式将高维特征空间映射到低维特征空间,已达到降维的目的。特征降维算法分为线性和非线性两种。最具代表性的两种线性降维算法,如主成分分析PCA(PrincipalComponentAnalysis)和线性判别分析LDA(LinearDiscriminantAnalysis),已经被广泛用于对语音情感特征参数的线性降维处理。也就是,PCA和LDA方法被用来对提取的高维情感声学特征数据进行嵌入到一个低维特征子空间,然后在这降维后的低维子空间实现情感识别,提高情感识别性能。

近年来,新发展起来的基于人类认知机理的流形学习方法比传统的线性PCA和LDA方法更能体现事物的本质,更适合于处理呈非线性流形结构的语音情感特征数据。但这些原始的流形学习方法直接应用于语音情感识别中的特征降维,所取得的性能并不令人满意。主要原因是他们都属于非监督式学习方法,没有考虑对分类有帮助的已经样本数据的类别信息。尽管流形学习方法能够较好地处理非线性流形结构的语音特征数据,但是流形学习方法的性能容易受到其参数如邻域数的影响,而如何确定其最佳的邻域数,至今还缺乏理论指导,一般都是根据样本数据的多次试验结果来粗略地确定。因此,对于流形学习方法的使用,如何确定其最佳参数,还有待深入研究。

下表为常用语音情感数据库,供读者参考:

1.3视觉情感计算

表情作为人类情感表达的主要方式,其中蕴含了大量有关内心情感变化的信息,通过面部表情可以推断内心微妙的情感状态。但是让计算机读懂人类面部表情并非简单的事情。人脸表情识别是人类视觉最杰出的能力之一。而计算机进行自动人脸表情识别所利用的主要也是视觉数据。无论在识别准确性、速度、可靠性还是稳健性方面,人类自身的人脸表情识别能力都远远高于基于计算机的自动人脸表情识别。因此,自动人脸表情识别研究的进展一方面依赖计算机视觉、模式识别、人工智能等学科的发展,另一方面还依赖对人类本身识别系统的认识程度,特别是对人的视觉系统的认识程度。

早在20世纪70年代,关于人脸表情识别的研究就已经展开,但是早期主要集中在心理学和生物学方面。随着计算机技术的发展,人脸表情识别技术逐渐发展起来,至上世纪90年代,该领域的研究已经非常活跃。大量文献显示表情识别与情感分析已从原来的二维图像走向了三维数据研究,从静态图像识别研究专项实时视频跟踪。下面将从视觉情感信号获取、情感信号识别以及情感理解与表达方面介绍视觉情感计算。

视觉情感信号获取:表情参数的获取,多以二维静态或序列图像为对象,对微笑的表情变化难以判断,导致情感表达的表现力难以提高,同时无法体现人的个性化特征,这也是表情识别中的一大难点。以目前的技术,在不同的光照条件和不同头部姿态下,也不能取得满意的参数提取效果。由于三维图像比二维图像包含更多的信息量,可以提供鲁棒性更强,与光照条件和人的头部姿态无关的信息,用于人脸表情识别的特征提取工作更容易进行。因此,目前最新的研究大多利用多元图像数据来进行细微表情参数的捕获。该方法综合利用三维深度图像和二维彩色图像,通过对特征区深度特征和纹理彩色特征的分析和融合,提取细微表情特征,并建立人脸的三维模型,以及细微表情变化的描述机制。

视觉情感信号识别:视觉情感信号的识别和分析主要分为面部表情的识别和手势识别两类:

对于面部表情的识别,要求计算机具有类似于第三方观察者一样的情感识别能力。由于面部表情是最容易控制的一种,所以识别出来的并不一定是真正的情感,但是,也正由于它是可视的,所以它非常重要,并能通过观察它来了解一个人试图表达的东西。到目前为止,面部表情识别模型都是将情感视为离散的,即将面部表情分成为数不多的类别,例如“高兴”、“悲伤”、“愤怒”等。1971年,Ekman和Friesen研究了6种基本表情(高兴、悲伤、惊讶、恐惧、愤怒和厌恶),并系统地建立了上千幅不同的人脸表情图像库。六种基本表情的具体面部表现如下表所示。1978年,他们研究了情感类别之间的内在关系,开发了面部动作编码系统(FACS)。系统描述了基本情感以及对应的产生这种情感的肌肉移动的动作单元。他们根据人脸的解剖学特点,将其划分成大约46个既相互独立又相互联系的运动单元(AU),并分析了这些运动单元的运动特征及其所控制的主要区域以及与之相关的表情,给出了大量的照片说明。面部识别器一般要花五分钟来处理一种面部表情,准确率达到98%。

马里兰大学的YeserYacoob和LarryDavis提出了另一种面部表情识别模型,它也是基于动作能量模版,但是将模版、子模版(例如嘴部区域)和一些规则结合起来表达情感。例如,愤怒的表情在从眼睛区域提取的子模版中,特别是眉毛内敛、下垂,在嘴巴区域子模版中,特别是嘴巴紧闭,两个子模板结合起来,就很好表达了愤怒这一情感。后续的研究总体上结合生物识别方法及计算机视觉进行,依据人脸特定的生物特征,将各种表情同脸部运动细节(几何网格的变化)联系起来,收集样本,提取特征,构建分类器。但是目前公开的用于表情识别研究的人脸图像数据库多是采集志愿者刻意表现出的各种表情的图像,与真实情形有出入。

脸部表情运动特征具体表现

对于手势识别来说,一个完整的手势识别系统包括三个部分和三个过程。三个部分分别是:采集部分、分类部分和识别部分;三个过程分别是:分割过程、跟踪过程和识别过程。采集部分包括了摄像头、采集卡和内存部分。在多目的手势识别中,摄像头以一定的关系分布在用户前方。在单目的情况下,摄像头所在的平面应该和用户的手部运动所在的平面基本水平。分类部分包括了要处理的分类器和结果反馈回来的接收比较器。用来对之前的识别结果进行校正。识别部分包括了语法对应单位和相应的跟踪机制,通过分类得到的手部形状通过这里一一对应确定的语义和控制命令。分割过程包括了对得到的实时视频图像进行逐帧的手部分割,首先得到需要关注的区域,其次在对得到的区域进行细致分割,直到得到所需要的手指和手掌的形状。跟踪过程包括对手部的不断定位和跟踪,并估计下一帧手的位置。识别过程通过对之前的知识确定手势的意义,并做出相应的反应,例如显示出对应的手势或者做出相应的动作,并对不能识别的手势进行处理,或者报警或者记录下特征后在交互情况下得到用户的指导。手势识别的基本框架如下图所示:

手势识别的基本框架

2、新兴的研究

2.1网络海量数据的情感计算

随着时代的发展,网络赋予情感计算新的、更大的数据平台,打开了情感计算的新局面。网络系统由于沟通了人类的现实世界和虚拟世界,可以持续不断地对数量庞大的样本进行情感跟踪,每天这些映射到网络上的情绪不计其数,利用好这些数据反过来就可以验证心理学结论,甚至反哺心理学。由于大数据的分布范围极其广泛,样本数量非常庞大,采用单一的大数据处理方法往往得不到有效的情感要素,统计效果较差。但是,如果将大数据和心理学结合起来,局面就会大不一样:心理学中,不同情感可以采用维度标定,如冷暖或软硬,同时各种心理效应影响人类对事物的情感判断,如连觉效应、视觉显著性、视觉平衡等,在大数据中引入心理学效应和维度,对有效数据进行心理学情感标准划分,使得数据具有情感维度,这样就会让计算机模拟人类情感的准确性大大提升。网络海量数据的情感主要有以下几个社会属性:

情感随群体的变化:在社交网络,如论坛、网络社区等群体聚集的平台上流露出群体的情感,通过这些情感展现可以达到影响其他个人的行为。

情感随图片的变化:在社交媒体出现大量的图片,这些图片的颜色、光度、图片内容等各不相同。图片的特征直接影响到了观看者的情感。

情感随朋友的变化:在社交平台上,朋友发表的微博、微信状态等容易展现个人的情感。朋友间的关系比陌生人间的关系更加深入,所以朋友的情感更容易引起情感变化,在海量数据中,个人情感容易优先受朋友情感的影响。

情感随社会角色的变化:在社交网络中,个人在不同的群体所处的角色也不一样,个人情感流露时也会跟着所处的角色不一样而展现不同的情感。

情感随时间的演变:人的情绪是变化无常的,所处的环境不一样,则表现出来的情感也将不一样。即使是同一件事,不同的情景下展现的情感也会不一样。另外,事件的发展是个动态的过程,随着事件的演变,人的情感也会跟着变化。

2.2多模态计算

虽然人脸、姿态和语音等均能独立地表示一定的情感,但人的相互交流却总是通过信息的综合表现来进行。所以,只有实现多通道的人机界面,才是人与计算机最为自然的交互方式,它集自然语言、语音、手语、人脸、唇读、头势、体势等多种交流通道为一体,并对这些通道信息进行编码、压缩、集成和融合,集中处理图像、音频、视频、文本等多媒体信息。多模态计算是目前情感计算发展的主流方向。每个模块所传达的人类情感的信息量大小和维度不同。在人机交互中,不同的维度还存在缺失和不完善的问题。因此,人机交互中情感分析应尽可能从多个维度入手,将单一不完善的情感通道补上,最后通过多结果拟合来判断情感倾向。

在多模态情感计算研究中,一个很重要的分支就是情感机器人和情感虚拟人的研究。美国麻省理工学院、日本东京科技大学、美国卡内基·梅隆大学均在此领域做出了较好的演示系统。目前中科院自动化所模式识别国家重点实验室已将情感处理融入到了他们已有的语音和人脸的多模态交互平台中,使其结合情感语音合成、人脸建模、视位模型等一系列前沿技术,构筑了栩栩如生的情感虚拟头像,并积极转向嵌入式平台和游戏平台等实际应用。

目前,情感识别和理解的方法上运用了模式识别、人工智能、语音和图像技术的大量研究成果。例如:在情感语音声学分析的基础上,运用线性统计方法和神经网络模型,实现了基于语音的情感识别原型;通过对面部运动区域进行编码,采用HMM等不同模型,建立了面部情感特征的识别方法;通过对人姿态和运动的分析,探索肢体运动的情感类别等等。不过,受到情感信息捕获技术的影响,以及缺乏大规模的情感数据资源,有关多特征融合的情感理解模型研究还有待深入。随着未来的技术进展,还将提出更有效的机器学习机制。

二、人才1、全球学者概况

学者分布地图对于进行学者调查、分析各地区竞争力现况尤为重要,下图为情感计算领域全球顶尖学者分布状况。其中,颜色越趋近于红色,表示学者越集中;颜色越趋近于绿色,表示学者越稀少。从地区角度来看,北美洲、欧洲是情感计算领域学者分布最为集中的地区,亚洲东部地区次之,南美洲和非洲学者极为匮乏。从国家角度来看,情感计算领域的人才在美国最多,中国次之,意大利、法国等洲国家也有较多的学者数量,整体上讲其它国家与美国的差距较大。

情感计算全球专家分布

情感计算专家国家数量分布

情感计算领域学者的h-index分布如下图所示,分布情况整体呈阶梯状,大部分学者的hindex分布在中低区域,其中h-index在

人工智能,可以拥有感情吗

文|陈根

很长时间以来,是否具备情感,是区分人与机器的重要标准之一。换言之,机器是否具有情感是机器人性化程度高低的关键因素之一。试图让人工智能理解人类情感也并不是新近的研究。

早在1997年,麻省理工学院媒体实验室Picard教授就提出了情感计算的概念。Picard教授指出,情感计算与情感相关,源于情感或能够对情感施加影响的计算。简单来说,情感计算旨在通过赋予计算机识别、理解和表达人的情感的能力,使得计算机具有更高的智能。

自此,情感计算这一新兴科学领域,开始进入众多信息科学和心理学研究者的视野,从而在世界范围内拉开了人工智能走向人工情感的序幕。

情感计算作为一门综合性技术,是人工智能情感化的关键一步,包括情感的“识别”、“表达”和“决策”。“识别”是让机器准确识人类的情感,并消除不确定性和歧义性;“表达”则是人工智能把情感以合适的信息载体表示出来,如语言、声音、姿态和表情等;“决策”则主要研究如何利用情感机制来进行更好地决策。

识别和表达是情感计算中关键的两个技术环节。情感识别通过对情感信号的特征提取,得到能最大限度地表征人类情感的情感特征数据。据此进行建模,找出情感的外在表象数据与内在情感状态的映射关系,从而将人类当前的内在情感类型识别出来,包括语音情感识别、人脸表情识别和生理信号情感识别等。

情感识别是目前最有可能的应用。比如,商业公司利用情感识别算法观察消费者在观看广告时的表情,这可以帮助商家预测产品销量的上升、下降或者是保持原状,从而为下一步产品的开发做好准备。

机器除了识别、理解人的情感之外,还需要进行情感的反馈,即机器的情感合成与表达。与人类的情感表达方式类似,机器的情感表达可以通过语音、面部表情和手势等多模态信息进行传递,因此机器的情感合成可分为情感语音合成、面部表情合成和肢体语言合成。

其中,语音是表达情感的主要方式之一。人类总是能够通过他人的语音轻易地判断他人的情感状态。语音的情感主包括语音中所包含的语言内容,声音本身所具有的特征。显然,机器带有情感的语音将使消费者在使用的时候感觉更人性化、更温暖。

从情感计算的决策来看,大量的研究表明,人类在解决某些问题的时候,纯理性的决策过程往往并非最优解。在决策的过程中,情感的加入反而有可能帮助人们找到更优解。因此,在人工智能决策过程中,输入情感变量,或将帮助机器做出更人性化的决策。

此外,情感智能可以让机器更加智能,具有情感的机器不仅更通用、更强大、更有效,而且将更趋近于人类的价值观。在人类科学家长期的努力下,横亘在人脑与电脑之间的“情感”鸿沟正在被跨越。

如今,随着大量统计技术模型的涌现和数据资源的累积,情感计算在应用领域的落地日臻成熟。可以预见,情感计算在未来将改变传统的人机交互模式,实现人与机器的情感交互。从感知智能到认知智能的范式转变,从数据科学到知识科学的范式转变,人工智能也将在未来交出一个更好的回答。

当人工智能有了情感,人类未来该如何自处

《情感经济:人工智能、颠覆性变革与人类未来》,[美]罗兰·T.拉斯特、黄明蕙著,彭相珍译,中译出版社2022年1月版。

文学作品和电影,往往将奇点视为威胁和恐怖事件。例如,在斯坦利·库布里克的电影《2001:太空漫游》中,计算机HAL(IBM公司缩略名称字母前移一位,即H-I、A-B、L-M),不仅具有机械智能和思维智能,它还具有足够的情感智能来愚弄和操纵宇航员(并杀死了大部分宇航员)。最终,HAL基于自己的利益,损害了它本应服务的人类的利益。

电影《2001:太空漫游》(1968)剧照。

但在斯蒂芬·斯皮尔伯格的优秀电影《人工智能》中,人工智能表现为更积极的形象,库布里克也是该片的主要合作者(直到他英年早逝)。在这部电影中,大部分主角都是拥有发达情感智能的机器人。在电影的最后,人工智能外星人已经占据了主导地位,但他们对老一代的机器人,表现出了相当程度的关心、关注和同情。电影《她》也从一种有利于人类的角度描绘了人工智能。人工智能“操作系统”(斯嘉丽·约翰逊配音),对她的人类主人表现出极大的同情心。经典科幻电影《银翼杀手》也从正面描写了人工智能机器人,并描绘了具备深刻情感智慧的最先进的机器人。

因此,我们也看到,人类对人工智能的情感能力的观感是矛盾的。在最坏的情况下,人工智能将利用其情感智能来操纵人类,以达到自己的目的。在最好的情况下,人工智能将利用其情感智能,与人类产生共鸣并帮助人类。我们将在下文中探讨这两种可能性。

电影《人工智能》(2001)剧照。

收入和财富不平等会进一步恶化吗?

一旦人工智能发展到了高度的情感智能,它将全方位压倒人类智能。这将自然而然地导致一个后果,即人类的劳动变得不够理想,因为人工智能几乎在所有方面都表现得比人类智能更好。这就意味着人类的劳动将丧失价值,且所有的工作将由人工智能接管。如果经济中的所有价值,几乎都来自人工智能,那么价值将几乎来自资本,而不是劳动。其结果是,经济将由相对少数的资本家掌控。这反过来又会进一步加剧收入和财富的严重不平等。在这种情况下,大多数人类将如何谋生,尚无答案。

人类真的能控制人工智能吗?

许多思想家声称人工智能永远也不能自主完成任务,因为它必须由人类编程。因此,人类将永远控制着人工智能。但事实真的如此吗?我们不妨简单地回想一下当前最常见的人工智能形式,即深度学习神经网络。这种人工智能已经被视为一个“黑盒子”,因为人类很难对其如何产出结果进行解释,即为什么它们能给出特定的解决方案。为此,计算机科学当前的一个重要研究领域就是,如何让深度学习对其客户(人类)而言,变得“可解释”。但一个显然的趋势是,随着人工智能变得越来越复杂,也越来越难被人类理解,导致人类感觉其逐渐失控。

最终,这个问题将变得越来越严重,而不是随着发展逐渐淡化。当人工智能变得足够聪明时,它就有可能做到自我编程。毕竟,计算机的自我编程作用已经存在,并将随着时间的推移而变得越来越普遍。换句话说,人类对人工智能的控制力正在迅速减弱,而随着控制力的丧失,人类如何确保人工智能继续按照既定的要求,致力于实现人类设定的目标,而非它自己的目标,也将成为一个问题。

牛津大学哲学家尼克·博斯特罗姆和麻省理工学院物理学家马克斯·泰格马克,都提醒人类应该注意这种人类失去对机器的控制的问题。他们都指出,人工智能可能会演变成一种智能或多种智能,无论哪种结果,都可能威胁到人类的控制力,甚至威胁到人类的生存能力。正如作家凯文·凯利(KevinKelly)所指出的那样,人工智能设备的联网可能造就异常强大的超级人工智能。

人类享受悠闲生活的设想

关于奇点,人们设想的最幸福场景是,人工智能负责完成社会的所有工作,而人类则可以自由地过着悠闲的生活,追求艺术、玩电子游戏、看3D电视,或沉浸在虚拟现实中。人类也会拥有几乎无限的社交时间(无论是面对面交流还是线上互动),或许未来全人类的生活都会变得类似现代的沙特阿拉伯王国公民的生活。在那里,几乎所有的工作,都由外国人完成,而沙特公民(至少是男性)则享有相当高程度的财富和自由。

电影《人工智能》(2001)剧照。

然而,如果我们从现实的角度来研究这种人类享受闲暇的情景,就会看出这种可能性将很难被实现。因为控制资本的相对少数人,将控制社会的大部分财富,而与对社会没有价值贡献的其他人分享财富,显然不符合前者自身的利益。或许会有少数杰出的人类技术专家能够赚取大量的金钱,但即使是这样的可能性也不太现实,因为人工智能将在三个智能层面碾压人类,并能够比最优秀的人类更好地完成各项工作。

有人可能会辩驳,最终剩下的少数占据主导地位的资本家,或许会是利他主义者,并愿意把自己的财富分配给其他没有赚钱能力的人类,但我们在现实世界中,并没有看到很多证明此类举动可能存在的证据。事实上,在收入最不平等的国家(如印度)中,出现此类善举的概率比世界上最平等的国家(如丹麦)要少得多。

人类的増强和改造

库兹维尔认为,既然相较于超级人工智能而言,人类在经济上不会有竞争力,那么唯一有吸引力的发展道路,就是人类利用人工智能来增强自己,甚至是彻底改变自己。人类利用人工智能实现增强自己,已经存在很长时间了。

首先,是身体的增强。例如,有人可能会使用一条人工腿,来替代被截肢的腿。听力不好的人可以戴助听器,视力不好的人可以戴眼镜。

接下来,是思维增强。人工智能可以通过很多方式来增强人类的思维智能。在很多方面,人工智能已经比人类更聪明了,这些能力可能会被用于人类能做的事情。例如,人类可能会给自己增加一个记忆芯片或计算模块,现在已经有各种各样的方法,能够连接人脑和计算机。最近,科学家已经成功地将人脑与互联网连接起来,可以让人类直接与一个巨大的信息网络连接。

最终,我们还将看到情感的增强。黄明蕙教授曾开玩笑说,她有时候希望拉斯特有一个“同理心芯片”,可以在和她交流的时候运用。而拉斯特则希望黄明蕙教授在开这个玩笑的时候,就能使用这个同理心芯片,然后她就会知道,这样的玩笑听起来不公平且伤人。我们离制作出这样的同理心芯片还相当遥远,但必定会越来越努力地利用人工智能,让人类变得更好。

电影《银翼杀手:2022黑暗浩劫》(2017)剧照。

另一种可能性是,人类有可能完全脱离身体的躯壳。如果整个人类的大脑,都能够被映射和理解(目前,我们只能在体型微小的动物身上运用这种技术),那么理论上一个人的所有知识和记忆,都可以被上传到电脑,甚至转移到机器人的躯体里。这样的技术,被称为“数字季生”气因此,仅在理论上而言,只要计算机能够运行,这样的人类就可以永生。

作为一种已经存在的技术,人类增强几乎必然会随着时间的推移,而变得更加广泛和复杂,从只能够增强机械智能,发展到思维智能和情感智能的增强。

但我们也有理由相信,人类的增强和改造将无法在奇点中存活,且我们的理由非常合乎逻辑。假设我们现在有一个增强型的人类,表现为人类智能+人工智能。毫无疑问,增强的人类将优于未增强的人类,因为其人工智能部分可增加价值。现在,我们再从人工智能的角度来看,人类智能+人工智能可能同样优于单纯的人工智能,只要人类智能部分能贡献一些人工智能不具备的东西。

但问题在于,在奇点概念中,人工智能将在各个方面优于人类智能,换句话说,人工智能可以利用人工智能,生产出一个“更好”的人工智能版本(我们将其称为HI)。那么,人工智能生产的人类智能+人工智能,将比人类增强版的人类智能+人工智能更好。也就是说,人工智能将失去与人类合作的动力。结论是,在人类可以控制人工智能的范围内,人类智能+人工智能(HI+AI)的版本是可行的,但基于优胜劣汰的自然进化理论,更有效的人工智能更有可能存活下来,最后将导致不与人类智能合作成为对人工智能最有效的策略。

末日场景

博斯特罗姆认为,如果出现了人工智能“超级智能”,末日情景是最有可能出现的结果。他指出,在超级智能的人工智能实体中,未必存在仁爱等人类品质。这表明人类作为物种的存在将有处于巨大危险。例如,假设人工智能与人类之间的智力差异,大致类似于人类与蚊子之间的智力差异。如果人类认为彻底消灭蚊子不是什么大事儿,那么人工智能在将人类视为蟆蚁,并彻底灭绝人类的时候,能不能做到三思而后行?

物种进化的下一阶段?

当然,我们也拥有一个合理地应对高级人工智能的出现的积极方式,就是将其视为人类进化的下一个阶段。就像人类从“低等的”、不那么聪明的猿类进化而来那样,一个高级的人工智能,将以人类为基础进化出来。前面讨论的电影《人工智能》就预示了这种可能性。在那部电影中,人类已经灭绝,地球完全由人工智能管理。我们能否接受这种情况可能取决于我们与人工智能的联系,以及我们是否认为新兴的超级人工智能比人类“更好”。但是,要人类接受这样的想法可能存在相当大的阻力,这也意味着,人类接受超级人工智能,可能会变得越来越困难。

电影《人工智能:灭绝危机》(2018)剧照。

当人工智能变得足够聪明的时候,它可以在机械、思维和情感这三个领域,都优于人类的智能。这就是广为人知的奇点场景。我们的观点是,这种情况的发生,可能还需要几十年的时间,但它最终将是不可避免的。市面上已经有不少流行的电影,让我们初步领略了奇点到来之后的可能场景。

和所有大规模的技术变革一样,奇点导致的后果存在无数的可能性,从乌托邦式的(人工智能负责工作,人类负责享受),到灾难性的(人工智能彻底淘汰人类)。但在这两个极端场景的中间,存在一个相辅相成的领域,即人类有可能利用人工智能来增强自己的能力,就像今天我们经常使用机械辅助工具那样。不幸的是,我们得出的结论是,帮助人类可能不符合人工智能自身的利益。相比之下,奇点将使目前的社会由思维经济向情感经济的过渡,变得平淡无奇、无足轻重。

本文选自《情感经济:人工智能、颠覆性变革与人类未来》,较原文有删节修改。已获得出版社授权刊发。

作者丨[美]罗兰·T.拉斯特、黄明蕙

摘编丨安也

编辑丨张进

导语校对丨赵琳

对话情感识别与生成

原文地址

文章目录1.介绍2.对话情感识别2.1任务介绍2.2数据集介绍2.3相关工作介绍3.对话情感生成3.1任务介绍3.2数据集介绍3.3相关工作介绍4.总结5.参考资料1.介绍

近年来,随着自然语言处理技术的快速发展,人机对话系统受到了很多关注,并逐渐成为了学术界和工业界的研究热点。人机对话系统不断发展进步,应用范围不断扩大,人们对它也有了更高的要求,希望机器在关注回复内容的基础上,可以与人进行更深入的交流。

近期的一些工作表明[10,13,15,16,18-21,23],在人机对话系统中,除了回复内容之外,机器与人的情感交流也是一个重要问题。人类可以通过语言进行情感上的交流,获得情感上的慰藉,对话系统想要和人类进行有效的情感沟通,就必须具备一定的情感能力。具体来说,机器一方面需要对用户情感进行识别和判断,另一方面也需要在其回复中融入合适的情感。因此,如何在对话中赋予机器理解情感和表达情感的能力,是人机对话和情感分析领域面临的新的机遇和挑战。

本文主要介绍对话情感中的两个关键任务:对话情感识别、对话情感生成,梳理了这两个任务常用的数据集和相关方法。本文在接下来的部分首先阐述对话情感识别任务的相关内容;接着围绕对话情感生成任务展开介绍;最后是全文总结和对未来的展望。

2.对话情感识别2.1任务介绍

对话情感识别是一个分类任务,旨在对一段对话中的(所有)话语进行情感分类。任务的输入是一段连续的对话,输出是这段对话中所有话语的情绪,图1给出了一个简单的示例。由于对话本身具有很多要素,话语的情绪识别并不简单等同于单个句子的情绪识别,而是需要综合考虑对话中的背景、上下文、说话人等信息,这些都是对话情感识别任务中独特的挑战。

对话情感识别可广泛应用于各种对话场景中,如社交媒体中评论的情感分析、人工客服中客户的情绪分析等。此外,对话情感识别还可应用于聊天机器人中,实时分析用户的情绪状态,实现基于用户情感驱动的回复生成。

2.2数据集介绍

IEMOCAP[2]。南加州大学的SAIL实验室收集,由人扮演的双人对话,12小时的多模态视听数据。10个专业演员(5男5女),一共分为5个Session,每个Session分配1男1女。对话分为两部分,一部分是固定的剧本,另一部分是给定主题情景下的自由发挥。151段对话,共7433句。标注了6类情绪:Neutral,Happiness,Sadness,Anger,Frustrated,Excited,非中性情绪占比77%。IEMOCAP是对话情感识别中最常用的数据集,质量较高,优点是有多模态信息,缺点是数据规模较小。数据集链接

SEMAINE[3]。SEMAINE数据库收集的多模态对话数据,由四个固定形象的机器人与人进行对话,曾用于AVEC2012挑战赛。AVEC2012使用的数据有95段对话,共5798句。标注了4个情感维度:Valence(愉悦度),Arousal(激活度),Expectancy(预期),Power(力量)。Valence表示情感积极的程度,Arousal表示兴奋的程度,Expectancy表示与预期相符的程度,Power表示情感影响力。其中Valence、Arousa和Expectancy为[-1,1]范围内的连续值,Power为大于等于0的连续值。SEMAINE是对话情感识别中常用的数据集之一,缺点是数据规模较小。数据集链接

DailyDialog[4]。高质量多轮对话数据集,纯文本,噪声小,对话反映不同主题的日常生活,无固定说话人。数据集除了7类情绪标注,还有10类主题标注以及4类对话行为标注。12218段对话,共103607句。标注了7类情绪:Neutral,Happiness,Surprise,Sadness,Anger,Disgust,Fear,非中性情绪占比16.8%。DailyDialog在对话情绪识别中应用较少,优点是数据规模较大,缺点是中性情绪占比过高。数据集链接

EmotionLines[5]。来源于老友记(多人对话)和私人Facebook聊天记录(双人对话),纯文本,有固定说话人。曾用于SocialNLP2018EmotionXChallenge。内容上两部分独立,各1000段对话,共29245句。标注了7类情绪:Neutral,Happiness,Surprise,Sadness,Anger,Disgust,Fear,非中性情绪占比44.5%。EmotionLines在对话情感识别中应用较少,通常使用多模态的MELD数据集。数据集链接

EmoContext[6]。纯文本双人对话,每段对话三句,仅最后一句有情感标签。用于SemEval-2019Task3。38421段对话,共115263句。标注了4类情绪:Happiness,Sadness,Anger,Other,非中性情绪占比42.8%。EmoContext在对话情感识别中应用较少,优点是数据规模较大,缺点是对话长度过短和仅标注最后一句。数据集链接

MELD[7]。来源于老友记,多人对话形式,是EmotionLines老友记部分的多模态扩充(文本+视频)。1433段对话,共13708句。标注了7类情绪:Neutral,Happiness,Surprise,Sadness,Anger,Disgust,Fear和3类情感:Positive,Negative,Neutral,非中性情绪占比53%。MELD是对话情感识别中常用的数据集之一,优点是数据集质量较高并且有多模态信息,缺点是数据集中的对话涉及到的剧情背景太多,情感识别难度很大。数据集链接

2.3相关工作介绍第一类:上下文建模

区别于传统的单句情感分析,对话中的话语进行情感分类时,周围的话语可以提供重要的上下文信息。C-LSTM[8]是基于LSTM的能够捕捉上下文信息的模型,其模型如下图所示。每个话语(utterance)的输入特征经过LSTM单元以及一个全连接层得到话语的输出特征,用于话语情感分类。双向的LSTM可捕捉话语的上下文关系,优于单向LSTM。

第二类:说话人建模

对话中除了话语的上下文信息外,还需要考虑说话人的状态与相互影响。

CMN[9]对于当前要识别的话语,通过GRU分别建模每个说话人的历史话语,作为记忆单元。然后通过注意力机制将每个说话人的记忆与当前话语的表示进行融合,得到的结果用于话语分类,从而模拟说话人个人的状态以及不同说话人的状态对当前话语的影响,其模型如下图所示。

CMN对于不同的说话人采用了独立的记忆单元,在此基础之上,ICON[10]使用交互式的记忆单元,其模型如下图所示。

对于当前要识别的话语,ICON通过SIM(Self-InfluenceModule)模块分别对每个说话人的历史话语进行建模,接着通过DGIM(DynamicGlobalInfluenceModule)模块对说话人之间的影响进行建模得到全局的状态,存入记忆单元,然后使用Attention机制得到记忆单元与当前话语表示的融合结果,用于话语情感分类。

第三类:区分说话人的建模

CMN、ICON等模型虽然对不同的说话人信息进行了建模,但是对于最终要识别的话语,并未区分该话语属于哪个说话人。DialogueRNN[11]解决了这个问题,同时认为对话中的话语情感取决于三个因素:说话人信息,先前话语的语境和情感信息,并分别使用说话人状态(PartyGRU)、全局状态(GlobalGRU)和情感状态(EmotionGRU)进行捕捉,其模型如下图所示。

对于当前时刻的话语,全局状态由前一时刻的全局状态、当前话语的表示、当前话语说话人前一时刻的状态进行更新,说话人状态由当前话语说话人前一时刻的状态、当前话语的表示、之前时刻的全局状态进行更新,情感状态由说话人当前时刻的状态以及上一时刻的情感状态更新,之后用当前时刻的情感状态进行当前话语的分类。

3.对话情感生成3.1任务介绍

对话情感生成是一个生成任务,旨在对话中生成蕴含情感、有针对性的回复。对于待生成回复的情感,一般有两种观点:一种认为待生成回复的情感需要明确指出,这类做法的输入是对话上文和目标情感,输出是蕴含该情感的回复,其优点是生成情感灵活可控,缺点是需要大规模情感标注的对话语料;另一种则认为待生成回复的情感已经隐含在对话上文之中,不需要明确指出,因此这类做法只需要提供对话上文,其优点是可利用已有的大规模对话语料,缺点是生成的情感不易控制。下图给出了对话情感生成的一个简单示例。

对话情感生成主要应用在聊天机器人之中,可以让聊天机器人在显式或隐式理解用户情感的基础上,生成情感合理的回复,解决聊天机器人的情感表达问题。

3.2数据集介绍

STC[12]。新浪微博数据,无情感标注,中文,由问题和回复组成,可视为单轮对话(问答),共440万对,问题与回复的句子平均长度分别为20、15。ECM[13]中使用Bi-LSTM情感分类器自动标注了六类情感:Angry,Disgust,Happy,Like,Sad,Other。STC是对话情感生成中常用的数据集之一,优点是数据规模大,缺点是无人工情感标注,需要借助情感分类器自动标注,因此数据质量一般。数据集链接

CornellMovieDialogs[14]。康奈尔大学收集的电影对话语料,无情感标注,22万段对话,30万个句子,涉及617部电影中的9035个角色,无标注,噪声相对较小。ANRG[15]和EMOTICONS[16]中用于seq2seq模型训练。CornellMovieDialogs是对话情感生成中常用的数据集之一,优点是数据质量较高,缺点是无人工情感标注。数据集链接

OpenSubtitles[17]。多语言的电影字幕数据库,数据量大,无情感标注,噪声相对较大。ADGEE[18]使用OpenSubtitles2016,过滤后有1130万句子,训练了Bi-LSTM情感分类器进行自动情感标注。EMOTICONS[16]使用OpenSubtitles2018,过滤后的数据有至少四轮对话,250万句子。OpenSubtitles是对话情感生成中常用的数据集之一,优点是数据规模巨大,缺点是噪声大且无人工情感标注。数据集链接

Twitter[19]。Twitter上获取的带emoji表情的对话,由问题和回复组成,可视为单轮对话,共66万对。使用句子带的emoji表情作为句子标注,共64种标签。Mojitalk[19]使用该语料训练模型,进行情感回复生成。Mojitalk[19]构造了该数据集,并使用该数据集训练模型进行情感回复生成。数据集链接

DailyDialog[4]。高质量多轮对话数据集,10万句,详见对话情感识别数据集介绍。AR-S2S[20]使用该数据集作为测试集,评估模型在不同领域对话的泛化性能。数据集链接

SEMAINE[3]。情感识别用的数据集,有情感属性,无情感类别标注。AAAI2018的Emo-HERD[21]使用工具为其标注情感。约0.5万句,详见对话情绪识别数据集介绍。数据集链接

3.3相关工作介绍第一类:情感语言模型

给定起始片段和情感信息,可生成具有指定情感的句子。

Affect-LM[22]是基于LSTM的语言模型,在单词的概率预测阶段融入了情感标签以及情感强度,从而期望模型可以生成一定强度的某种情感类别的回复。语言模型采用困惑度进行评价。其模型如下图所示。

第二类:指定回复情感的对话生成模型

给定上文和情感信息,可生成带有指定情感的回复。

ECM[13]是第一个在大规模对话生成中考虑情感因素的工作,其模型如图8所示。为了生成对话中指定情感的回复,在传统的Encoder-Decoder中引入了三个机制:情感类别嵌入,内部记忆和外部记忆。情感类别嵌入是将每个情感类别用向量代替,用于解码器的状态更新。内部记忆用于捕捉情感的动态变化,在解码过程中不断衰减。外部记忆显式地从通用词典和情感词典中选择输出词汇,以增强回复的情感性。最终评估采用了困惑度,回复的情感准确率,以及人工评价。

EmoDS[23]提出情感表达可以是使用强烈的情感词进行显式直接的表达,也可以是没有情感词的隐式含蓄的表达,因此在Encoder-Decoder中加入了两个模块:基于词典的Attention机制寻找期望的情感词进行显式表达,情感分类器通过增加情感表达的强度以一种隐式的方式为情感回复生成提供全局指导,其模型见下图。最终评估有嵌入得分、BLEU、Distinct、情感客观指标以及人工评价。方法总结:此类型方法是情感回复生成的主流方法,在传统的Encoder-Decoder的基础上,增加一些机制,如情感向量、情感记忆、情感词典等,使生成的回复具备情感因素。同样方法的文章还有EMOTICONS[16],ADGEE[18],AR-S2S[20],Mojitalk[19],Emo-HERD[21]等。

第三类:不指定回复情感的对话生成模型

不需要指定情感信息,认为上文已经内在地决定了下文的情感。ANRG[15]是基于LSTM的Encoder-decoder模型,其模型如下图所示。为了加入情感因素,使用了三种方式:通过情感词典中词的情感信息改造词向量;使用带情感目标的损失函数;在解码时使用情感多样性的搜索算法。评价方法是在句法规范性、自然度、情感符合程度上做人工评价。

4.总结

本文主要梳理了对话情感中的两个任务:对话情感识别、对话情感生成,总结了这两个任务相关的数据集和一些近期工作,这些工作解决了各自任务的很多关键挑战。未来,两个任务的关联融合可能会带来一些新的挑战,这可能也是一个潜在的研究方向。

5.参考资料

[1]S.Poria,N.Majumder,R.Mihalcea,andE.Hovy.EmotionRecognitioninConversation:ResearchChallenges,Datasets,andRecentAdvances.IEEEAccess.2019.[2]C.Bussoetal.IEMOCAP:interactiveemotionaldyadicmotioncapturedatabase.LangResources&Evaluation.2008.[3]G.McKeown,M.Valstar,R.Cowie,M.Pantic,andM.Schroder.TheSEMAINEDatabase:AnnotatedMultimodalRecordsofEmotionallyColoredConversationsbetweenaPersonandaLimitedAgent.IEEETransactionsonAffectiveComputing.2012.[4]Y.Li,H.Su,X.Shen,W.Li,Z.Cao,andS.Niu.DailyDialog:AManuallyLabelledMulti-turnDialogueDataset.IJCNLP.2017.[5]S.-Y.Chen,C.-C.Hsu,C.-C.Kuo,Ting-Hao,Huang,andL.-W.Ku.EmotionLines:AnEmotionCorpusofMulti-PartyConversations.arXiv.2018.[6]A.Chatterjee,U.Gupta,M.K.Chinnakotla,R.Srikanth,M.Galley,andP.Agrawal.EmoContext:UnderstandingEmotionsinTextUsingDeepLearningandBigData.ComputersinHumanBehavior.2019.[7]S.Poria,D.Hazarika,N.Majumder,G.Naik,E.Cambria,andR.Mihalcea.MELD:AMultimodalMulti-PartyDatasetforEmotionRecognitioninConversations.ACL.2019.[8]S.Poria,E.Cambria,D.Hazarika,N.Majumder,A.Zadeh,andL.-P.Morency.Context-DependentSentimentAnalysisinUser-GeneratedVideos.ACL.2017.[9]D.Hazarika,S.Poria,A.Zadeh,E.Cambria,L.-P.Morency,andR.Zimmermann.ConversationalMemoryNetworkforEmotionRecognitioninDyadicDialogueVideos.NAACL.2018.[10]D.Hazarika,S.Poria,R.Mihalcea,E.Cambria,andR.Zimmermann.ICON:InteractiveConversationalMemoryNetworkforMultimodalEmotionDetection.EMNLP.2018.[11]N.Majumder,S.Poria,D.Hazarika,R.Mihalcea,A.Gelbukh,andE.Cambria.DialogueRNN:AnAttentiveRNNforEmotionDetectioninConversations.arXiv.2019.[12]L.Shang,Z.Lu,andH.Li.NeuralRespondingMachineforShort-TextConversation.ACL.2015.[13]H.Zhou,M.Huang,T.Zhang,X.Zhu,andB.Liu.EmotionalChattingMachine:EmotionalConversationGenerationwithInternalandExternalMemory.AAAI.2018.[14]C.Danescu-Niculescu-MizilandL.Lee.ChameleonsinImaginedConversations:ANewApproachtoUnderstandingCoordinationofLinguisticStyleinDialogs.CMCL.2011.[15]N.Asghar,P.Poupart,J.Hoey,X.Jiang,andL.Mou.AffectiveNeuralResponseGeneration.inAdvancesinInformationRetrieval.2018.[16]P.Colombo,W.Witon,A.Modi,J.Kennedy,andM.Kapadia.Affect-DrivenDialogGeneration.NAACL.2019.[17]J.Tiedemann.NewsfromOPUS :ACollectionofMultilingualParallelCorporawithToolsandInterfaces.2009.[18]C.Huang,O.Zaïane,A.Trabelsi,andN.Dziri.AutomaticDialogueGenerationwithExpressedEmotions.NAACL.2018.[19]X.ZhouandW.Y.Wang.MojiTalk:GeneratingEmotionalResponsesatScale.ACL.2018.[20]P.Zhong,D.Wang,andC.Miao.AnAffect-RichNeuralConversationalModelwithBiasedAttentionandWeightedCross-EntropyLoss.AAAI.2019.[21]N.Lubis,S.Sakti,K.Yoshino,andS.Nakamura.ElicitingPositiveEmotionthroughAffect-SensitiveDialogueResponseGeneration:ANeuralNetworkApproach.AAAI.2018.[22]S.Ghosh,M.Chollet,E.Laksana,L.-P.Morency,andS.Scherer.Affect-LM:ANeuralLanguageModelforCustomizableAffectiveTextGeneration.ACL.2017.[23]Z.Song,X.Zheng,L.Liu,M.Xu,andX.Huang.GeneratingResponseswithaSpecificEmotioninDialog.ACL.2019.

版权声明:本文内容由互联网用户自发贡献,该文观点仅代表作者本人。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如发现本站有涉嫌抄袭侵权/违法违规的内容,一经查实,本站将立刻删除。

上一篇

下一篇