语音情感识别
描述:
语音情感识别通常指机器从语音中自动识别人类情感和情感相关状态的过程。
这一过程最主要的两大步骤是特征提取与构建分类器。在特征提取步骤中,最常用的有能量(energy),音高(pitch),梅尔频率倒谱系数(MFCC)等语音特征。语音情感识别发展至今,特征提取依然尚未成熟,目前最为普及的特征集有INTERSPEECH2009EmotionChallenge和INTERSPEECH2013ParalinguisticsChallenge中主办方选取的特征集以及语音信号处理工具openSMILE中的特征集等。
构建分类器步骤则是机器学习的环节。过去常用的分类器有高斯混合模型(GMM),隐马尔可夫模型(HMM),支持向量机(SVM)等经典的机器学习方法。得益于神经网络的发展,长短时记忆模型(LSTM),注意力机制等方法取代了经典方法成为了主流。近年,端到端(end-to-end)的方法开始被应用,简化甚至省略了特征提取的步骤。
基本的语音情感识别流程如下图所示:
语音信号首先通过语音处理系统被转化为可读的多种物理特征(音高,能量等),每一段语音信号都有其独特的特征。这些特征中会有一部分经过人为选择,被系统提取,输入到预先训练好的分类器中进行判别,输出情感状态的结果。
以下的
情感计算综述
来源:人机与认知实验室
自然的齐一性指未检验过的物体将在某些相关的方面与我们已经检验过的同类物体相似。
情感是人类智能的重要组成部分,是穿越理性的一把利器,然而,情感计算这一方向能否可行?如同形式化常识一样能否实现?这些问题都值得深思和探索。
摘要
情感计算作为一个全世界范围内的学术热点,研究方向遍及心理学、生理学、神经科学、语言学、医学、社会学等学科。情感计算的研究使形式化的机器更加形象化,是实现自然人机交互的前提。本文结合近几年情感计算的国内外研究,基于新的层面对主要研究以及最新应用进行了归纳总结,并就情感计算进行深度探究,使更多研究人员了解情感计算最新研究方向。
关键字 情感计算,情感识别,人机交互,情感复杂性
一.引言
大约半个世纪前,美国心理学家“认知心理学之父”奈瑟尔(NeisserUlrich)描述了人类思维的三个基本和相互联系的特征,这些特征在计算机程序中也明显存在着:“1.人类的思维总是随着成长和发展过程积累,并且能对该过程产生积极作用;2.人的思想开始于情绪和情感的永远不会完全消失的密切关系中;3.几乎所有的人类活动,包括思维,在同一时间的动机具有多样性而不是单一的”。HerbertA.Simon在表达了相似的观点。尽管情绪和情感是人类日常生活中的基本组成部分,但缺乏情感交互的技术是另人沮丧的,它在技术层面实现自然的人机交互仍是一个亟需解决的问题。目前,情感计算越来越受到研究者的重视。类似研究,有人工情感(artificialemotion,AE)、感性工学(kanseiengineering,KE)、情感神经学(affectiveneuroscience)等。明斯基在他的著作和论文中强调了情感方面,大量关于数据手册涉及情感神经科学、情感心理学等方面。IEEETransactiononAffectiveComputing(TAC)跨学科、国际化期刊、AffectiveComputingandIntelligentInteraction(ACII)学术会议等学术支持鼓励研究者们对识别、诠释、模拟人类情绪和相关情感方面的研究的突破和创新。
二.情感及情感计算
2.1 情感相关概念的界定情感(emotion)一词源于希腊文“pathos”,最早用来表达人们对悲剧的感伤之情。达尔文(Darwin)认为,情感源于自然,存活于身体中,它是热烈的、非理性的冲动和直觉,遵循生物学的法则。理智则源于文明,存活于心理。《心理学大辞典》中定义“情感是人对客观事物是否满足自己的需要而产生的态度体验”。马文明斯基认为情感是思维的一部分。史蒂芬平克也持有这样的观点,即“情感是被当作非适应的包袱而被过早的注销的另一部分心智”。Damasio在他的神经生物学的研究结果的基础上将情感至少分为两类,即原发性情感和继发性情感。原发性情感这类情感被认为是与生俱来的,被理解为一岁儿童情感这种典型的情感类型,继发性情感被假设为从更高的认知过程中产生。而Russell则从两个方面构造情感:核心情感和心理建构,前者表示神经系统的状态,如昏昏欲睡;后者表行动,如面部表情、音调,以及行动之间的关联。由于情感的复杂性,研究情感的相关学者对情感的定义至今也未达成一致,记载的相关理论就有150多种。
而“emotion”一词由前缀“e”和动词“move”结合而来,直观含义是从一个地方移动到另一个地方,后来逐渐被引申为扰动、活动,直到近代心理学确立之后,才最终被詹姆斯(WilliamJames)用来表述个人精神状态所发生的一系列变动过程。Picard曾在其书中专门对情感和情绪方面术语进行了区分,她认为相对情感而言,情绪表示一个比较长的情感状态。情感影响我们的态度、情绪和其他感觉、认知功能、行为以及心理。同时情感容易在多次情绪体验的基础上实现,当人们多次觉得完成一项任务很高兴,就会爱上这个任务。相比情绪而言情感更具有深刻性和稳定性。在自然语言处理中,MyriamD等人结合韦氏字典以及他们的相关研究得到的结论是,在语言中情感是无意识的,并且很难将其定义,从文本中可以检测到的是有意识的情感,是情绪表征。而情绪这一复杂心理学现象几乎不能从文本中全部检测出,能检测到的是情绪的构成因素。许多关于情感计算的研究并没有完全区分情绪和情感(包括本文引用的大部分论文),为与情感计算研究领域保持一致,本文除在此处对情感和情绪进行区别说明外,尽可能的统一使用情感一词。
2.2 情感计算情感计算最早起源于美国MIT媒体实验室皮卡德(Picard)了解RichardCytowic的一本关于联觉的书《TheManWhoTastedShapes》。Cytowic在书中提出感知一定程度上由大脑边缘系统处理,这个部分处理注意、记忆和情感。1995年情感计算的概念由Picard提出,并于1997年正式出版《AffectiveComputing(情感计算)》。在书中,她指出“情感计算就是针对人类的外在表现,能够进行测量和分析并能对情感施加影响的计算”,开辟了计算机科学的新领域,其思想是使计算机拥有情感,能够像人一样识别和表达情感,从而使人机交互更自然。
当然,和众多的科学研究领域一样,并不是所有的研究者都同意Picard的想法。这些支持者Sengers、Gaver、Dourish和KristinaHook借鉴现象学并且把情感看作人与人、人与机互动中的成分。情感互动方法认为应从一个对情感建设性的、人文决定性视角展开,而非从认知和生物学这一更传统的角度出发,这种方法将重点放在使人们获得可以反映情感的体验并以某种方式来修改他们的反应。
三.情感计算的探究
3.1 情感复杂性的探究(1). 外在复杂性的探讨。
相比其他情感表征(手势、步伐、声音等)面部表情是最容易控制的。面部表情是人脸上不同情绪的反应,实际上表达情绪时是脸部、眼睛或皮肤肌肉位置的变化。对情感最容易理解的是坦率的面部表情,然而不同国家的人面部表情各不相同。相对于其他国家,亚洲人民的面部表情强度比较低。因为在亚洲文化中,脸上表现出一些特殊情绪是不礼貌的。展现出消极情绪会影响社会的和谐。这也印证了早期埃克曼证明了文化的最大不同在于,如何在公共场合表达情绪。他偷偷拍摄了美国留学生和日本学生观看一次原始成年人礼的可怕画面的表情。如果穿白大褂的实验人员对他们进行集体访谈,日本学生会在看到令美国学生吓得往后退缩的场景时仍礼貌的面带微笑。当被试们单独呆在房间里时,日本留学生与美国学生面部表情都是同样恐惧的。对于外在复杂性,研究者采用的方法多为多模态结合,额外信息叠加、以及结合与时代同步的科技产品方法等来提高识别率。
Beaudry,Olivia等人的设计实验澄清六种基本情感识别中眼睛(眉毛)和嘴巴区域的作用,并得出的结论是对于所有的情绪,面部表情识别过程不能被简化为简单的特征或整体处理。新加坡国立大学电气工程系的GuW等人利用人类视觉皮层(HVC)和径向编码来提高性能,并提出混合面部表情识别框架。此面部表情的识别框架也可以应用到体态识别,并且还可以从图像提取出一些额外的信息如:用户的年龄、性别。
但是人与人之间的情感交互是复杂的,单一的感官得到的数据是模糊的、不确定的、不完备的。因此研究人员们应用多种方式识别情感状态,20世纪90年代最初的方式是融合视觉(面部表情)和音频(音频信号)的数据,多种方式整合提高识别精度,使情感计算相关研究更可靠、更有效。陈等人尝试身体姿势和面部表情识别混合模型,基于澳大利亚悉尼科技大学的人脸和身体姿势(FABO)双模数据库,实验中选择了284个视频,这些视频包含了基本表达(嫌恶、害怕、高兴、惊讶、悲伤、生气)和非基本的表达(焦虑、无聊、困惑、不确定)。实验框架主要分为五部分:面部特征提取和表示,身体姿态特征提取和表示,表达时间分割,时间归一化,表达分类。
身体姿势交流同面部表情都属于非语言交流的方式。越来越多不同学科的研究已经表明,在传达情感方面,身体的表达像面部表情一样强大。40个用户通过三个不同的界面(接口)观看智能电视,远程控制器、姿势识别、语音识别系统和表情识别系统。情感计算提取人体手势的特征来识别用户的情绪。同时,虚拟现实(VirtualReality,VR)技术的发展,人机交互中肢体的参与度也逐渐增大,身体姿势不仅控制我们和游戏之间的互动,还会影响我们自己的情绪。蓝眼睛(BLUEEYES)技术,“蓝”代表实现可靠的无线通信的蓝牙,“眼睛”是由于眼睛运动是我们获得更多有趣和重要的信息。蓝眼睛技术主要用于:视觉注意监测;生理状态监测(脉搏率,血氧);操作者的位置检测(站立,卧,坐)。在这项技术中,检测到人的表情,捕获图像,并且提取显示眼睛的部分。
(2)内在复杂性的探讨
文本句子中每一个形容词、动词、或者仅仅是一个字都可以表达情感状态。笔记分析技术不仅可以通过书写者的情感输出分析笔记特征如:基线、倾斜、笔压、大小、边缘区。它还可以揭示书写者的健康问题、道德问题、过去的经历、精神问题以及隐藏的才能。SofianitaMutalib等人发现笔记分析在某种程度上帮助我们理解书写者本人的行为、动机、欲望、恐惧、情感投入等多方面。史伟等通过构建情感模糊本体,计算文本影响力等,对微博公众情感进行一系列分析,发现公众对于突发事件的情感表达与政府对于事件处理方式和手段有密切关系。使用任何文字表达情感是受文化影响的,文化在情感文本表达中的作用这一问题需要自然语言研究者们创造更强大的检测算法。
戴维森(RJDavidson)在2002年领导的团队,情感体验并不是简单地发生在我们的头脑中,我们的整个身体都在感知着它们。例如,我们的血液中激素变化,传达到肌肉的神经信号紧张或放松,血液流到身体的不同部位,改变了身体的姿势、动作和面部表情。我们身体的反应也会反馈到我们的大脑中,创造了可以反过来调节我们思维的经验,这也反馈到我们的身体上。随着科技的发展,许多数据可以从互联网和智能手机获得。一个典型的智能手机包含多个传感器等内部运动(加速度计)、环境光、陀螺、手势、磁强计、温度和湿度和气压计。常见于智能手机的通信接口,Wi-Fi、GPS、近场通信(NFC)、蓝牙和红外(IR)的LED。许多额外的传感器可用于生理测量。JorgeAlvarez-Lozano等研究人员通过捕获包括输入和输出呼叫频率、持续时间和联系人的详细信息等智能手机的活动,分析患者的行为变化。测量上网活动包括:搜索查询、浏览网页、网站类型、广告选择和电子商务史等。用户创建的数据,如电子邮件,短信(短信),社会媒体,或博客的内容可以分析[。此外,元数据(信息的信息)是由一个智能手机或互联网,其中包括帐户号码,登录用户名,密码,浏览器类型,网络地址,网页访问,日期,时间,电子邮件发送者和接收者,饼干,设备的指纹。KavehBakhtiyari等人认为在处理面部表情、人的声音或人的姿势时,有些权衡识别精度和实时性能的方法,像自然语言处理(NLP)和脑电图信号(EEG)这些方法在实际应用中缺乏效率和可用性。因此提出了使用方便和低成本的输入设备,包括键盘、鼠标(触摸板、单触摸)和触屏显示器[45]。该系统通过人工神经网络(ANN)和支持向量机(SVM)技术开发和训练监督模式。结果表明,与现有方法相比,该方法通过svm增长6%的准确度(93.20%)。对于情感识别、用户建模和情感智能都起到了突出贡献。
3.2 情感计算的最新应用探究近几年研究者们尝试了各种各样的方法和技术来识别用户的情感,一些主要的方法和技术有:面部表情识别、姿态识别、自然语言处理、人体生理信号识别、多模情感识别、语音识别。人机情感交互则包括人脸表情交互、语音情感交互、肢体行为情感交互、文本信息情感交互、情感仿生代理、多模情感交互。情感仿生代理使计算机增强表现力和亲和力,情感智能系统可以根据人的情感进行回馈,并且使人和计算机的交互更加自然。
全世界学多实验室都在积极的对情感计算相关技术进行研究,本部分总结近三年国内外情感计算主要的应用研究。2014年MIT实验室的AutoEmotivethe通过安置在机器比如汽车上的硬件设备(如相机等)结合基于程序语言的语音识别应用、可穿戴设备(对当前情绪进行实时调节),尤其是面部识别算法,获取一系列情绪指标,弥补获取生理信号类的传感器的不足,探索情感感知与机器连接的潜力。Affectiva公司的Affectiva使用计算机视觉和深度学习技术分析面部(微)表情或网络上视觉内容中非语言的线索,基于积累的庞大数据存储库,学习识别更复杂的系统,将情感人工智能引入到新的科技领域,尤其是机器人、医疗、教育和娱乐,并展望将此系统用于通过检测癫痫病患者的情感信号来做好发病前的预测以进行防护准备等。2015年阅面科技推出了情感认知引擎:ReadFace。由云(利用数学模型和大数据来理解情感)和端(SDK)共同组成,嵌入任何具有摄像头的设备来感知并识别表情,输出人类基本的表情运动单元,情感颗粒和人的认知状态,广泛应用于互动游戏智能机器人(或智能硬件)、视频广告效果分析、智能汽车、人工情感陪伴等。国内大学中哈尔滨工业大学机器人技术与系统国家重点实验室实现语音情感交互系统,提出了智能情感机器人进行情感交互的框架,设计实现了智能服务机器人的情感交互系统。北京航空航天大学基于特征参数的语音情感识别并能有效识别语音情感。中国科学技术大学基于特权信息的情感识别,提出了融合用户脑电信号和视频内容的情感视频标注方法,以某一模态特征为特权信息的情感识别和视频情感标注方法。清华信息科学与技术国家实验室,中国科学院心理研究所行为科学院重点实验室基于生理大数据的情绪识别研究进展,针对使用DEAP数据库(用音乐视频诱发情绪并采集脑电及外周生理信号的公开数据库)进行情绪识别的16篇文章做了梳理;对特征提取、数据标准化、降维、情绪分类、交叉检验等方法做了详细的解释和比较。
四.情感计算的深度探究
现在已实现的情感计算大部分原型情感的识别来源单一。数据库本身存在短板[54],如训练分类的样本数少,体态识别大多依赖于一组有限的肢体表达(跳舞、手势、步态等),只关注内部效度而缺少外部效度的认可效。因此识别方面,未来研究应在情感分类方面继续努力,创建新的数据库,等特别是婴幼儿及儿童数据库的建立。
神经科学方面,人类大脑情感过程的神经解剖学基础极其复杂并且远未被理解,因此该领域还不能为开发情感计算模型提供充足的理论基础。
人机交互或人与人交互过程中,人的情感变化是变速的。虽然皮卡德(Picard)在《情感计算》一书中分别用两个比喻将情感复合分成两类:微波炉加热食物时开关间断循环与冷热水混合。两者通过不同方式的复合使物体达到“温”的状态,前者类似于“爱恨交加”情感对的情感状态,后者类似于Russell等人的环形情感模型中的愉快与低强度结合为轻松这种新状态。但基于不同情境下的情感复合远不止这两类。以动态的数字平台将这种做成模型很难实现和验证,因为情感的输入、输出应该在不同的情境下产生和测试。
目前国外已经有一部分研究者开始关注深度情感计算方面的研究,如AyushSharma等人利用语言数据联盟(LinguisticDataConsortium,LDC)中的情绪韵律的语音和文本,基于交叉验证和引导的韵律特征提取与分类的深层情感识别。随着后续情感方面的深度研究,多模型认知和生理指标相结合、动态完备数据库的建立以及高科技智能产品的加入等成为情感计算相关研究的一个趋势,从而更好地实现对用户行为进行预测、反馈和调制,从而实现更自然的人机交互。
参考文献:
[1]Neisser,U,“Theimitationofmanbymachine–Theviewthatmachineswillthinkasmandoesrevealsmisunderstandingofthenatureofhumanthought,”AnnalsofOtologyRhinologyandLaryngology,vol.139(3551),pp.193–197,1963.
[2] Simon,H.A,“Motivationalandemotionalcontrolsofcognition,”.PsychologicalRe-view,vol.74(1),pp.29–39,(1967).
[3]Minsky,M,“TheEmotionMachine:CommonsenseThinking,ArtificialIntelligence,andtheFutureoftheHumanMind,”EncyclopediaoftheNeurologicalSciences,vol.11,2006.
[4]Barrett,LisaFeldman,M.Lewis,andJ.M.Havilandjones,HandbookofEmotions,FourthEdition,2016.
[5]梁庚辰,“台湾地区华人情绪刺激常模资料专辑序言”,中华心理学刊,55期,2013:I-XV.
[6]EEETransactiononAffectiveComputing(TAC).[Online].Available:http://ieeexplore.ieee.org/xpl/RecentIssue.jsp?reload=true&punumber=5165369
[7]达尔文,人类和动物的表情,北京大学出版社,2009.
[8] 马文明斯基,情感机器-人类思维与人工智能的未来.浙江人民出版社,2016,01.
[9]Damasio,A.Descartes’error,emotionreasonandthehumanbrain.Grosset/Putnam,1994
[10] Damasio,A,LookingforSpinoza:Joy,sorrow,andthefeelingbrain.Harcourt,2003.
[11]JamesA.Russell,“Emotion,coreaffect,andpsychologicalconstruction,”CognitionandEmotion,vol.23(7),pp.1259-1283,2009.
[12]StrongmanKT.Thepsychologyofemotion:fromeverydaylifetotheory[M],J.Wiley,2003.
[13]KnuuttilaS,SihvolaJ,SourceBookfortheHistoryofthePhilosophyofMind[M], Dordrecht:SpringerScience+BusinessMedia,2014,pp.463.
[14]魏屹东,周振华.基于情感的思维何以可能[J].科学技术哲学研究,2015(3):5-10.
[15]Gross,J.J,“Thefuture’ssobright,Igottawearshades,”EmotionReview,vol.2(3),pp.212–216,2010.
[16]刘光远,温万惠,陈通,赖祥伟,涂序彦.人体的生理信号的情感计算方法.科学出版社,2014,10.
[17] MunezeroM,MonteroCS,SutinenE,etal,“AreTheyDifferent?Affect,Feeling,Emotion,Sentiment,andOpinionDetectioninText[J],”AnnualReviewofPublicHealth,vol.5(5),pp.101-111,2014.
[18] NixonG.RichardE.Cytowic,TheManWhoTastedShapes[J], JournalofConsciousnessStudies,1999.
[19]皮卡德,情感计算,北京理工大学出版社,2005.Picard,RosalindW,Affectivecomputing,MITPress,1997.
[20] KristinaHook,AffectiveComputing[Online]Available:https://www.interaction-design.org/literature/book/the-encyclopedia-of-human-computer-interaction-2nd-ed/affective-computing.
[21] SRamarajV,RavindranA,ThirumuruganA,“EmotionRecognitionfromHumanEyeExpression,”Ijrcct,vol.2(4),pp.158-164.
[22] LewisM,Haviland-JonesJM,BarrettLF,TheCulturalPsychologyoftheEmotions-AncientandRenewed,inRichardA.ShwederJH,RandallHorton,CraigJoseph(ed),HandbookofEmotions3rdedn.TheGuilfordPress,p.19.
[23] Beaudry,Olivia,A.Roy-Charland,andM.Perron,“Featuralprocessinginrecognitionofemotionalfacialexpressions,”CognitionandEmotion,vol.28(3),pp.416-432,2014..
[24] GuW,XiangC,VenkateshY,HuangD,LinH,“FacialexpressionrecognitionusingradialencodingoflocalGaborfeaturesandclassifiersynthesis,”PatternRecognition,vol.45(1),pp.80-91,2012.
[25] H.GunesandM.Piccardi,“Abimodalfaceandbodygesturedatabaseforautomaticanalysisofhumannonverbalaffectivebehavior”,InternationalConferenecePatternRecognition,2006.
[26]ChenaS,TianaY,LiubQ,MetaxascDN,“Recognizingexpressionsfromfaceandbodygesturebytemporalnormalizedmotionandappearancefeatures,”ImageandVisionComputing,vol.31(2),pp.175-185,2013.doi:10.1016/j.imavis.2012.06.014
[27] Argyle,Michael,BodilyCommunication2ndedition,1988.
[28]BullP.Postureandgesture,PergamonPress,1987.
[29]P.EkmanandW.Friesen,“DetectingDeceptionfromtheBodyorFace,”J.PersonalityandSocialPsychology,vol.29,no.3,pp.288-298,1974.
[30] L.McClenneyandR.Neiss,“Post-HypnoticSuggestion:AMethodfortheStudyofNonverbalCommunication,”J.NonverbalBehavior,vol.13,pp.37-45,1989.
[31]H.Meeren,C.vanHeijnsbergen,andB.deGelder,“RapidPerceptualIntegrationofFacialExpressionandEmotionalBodyLanguage,”Proc.Nat’lAcademyofSciencesUSA,vol.102,no.45,pp.16518-16523,2005.
[32]J.VandenStock,R.Righart,andB.deGelder,“BodyExpressionsInfluenceRecognitionofEmotionsintheFaceandVoice,”Emotion,vol.7,no.3,pp.487-494,2007.
[33]Lee,JongSik,andD.H.Shin,“AStudyontheInteractionbetweenHumanandSmartDevicesBasedonEmotionRecognition,”HCIInternational2013-Posters’ExtendedAbstracts,pp.352-356,2013.
[34] P.M.Niedenthal,L.W.Barsalou,P.Winkielman,S.Krauth-Gruber,andF.Ric,“EmbodimentinAttitudes,SocialPerception,andEmotion,”PersonalityandSocialPsychologyRev.,vol.9,pp.184-211,2005.
[35]DeekshaRajvansh,OverviewofBlueEyesTechnology,SSRG-IJEEE.vol.2,Issue.8,2015.
[36]KedarSV,BormaneDS,DhadwalA,etal,“AutomaticEmotionRecognitionthroughHandwritingAnalysis:AReview,”InternationalConferenceonComputingCommunicationControlandAutomation,IEEE,2015.
[37] AbdulRahiman,DianaVarghese,ManojKumarG,“HABIT:HandwrittenAnalysisBasedIndividualisticTraitsPrediction,”InternationalJournalofImageProcessing(IJIP),vol.7,issue.2,2013.
[38]HandwritingAnalysis-AnAdventureintoSubconscious.[Online].Available:http://handwritingfoundation.orgS.Mutalib,R.Ramli,S.A.Rahman,etal,“Towardsemotionalcontrolrecognitionthroughhandwritingusingfuzzyinference,”InternationalSymposiumonInformationTechnology,2008,pp.1-5.
[39] 史伟,王洪伟,何绍义.基于微博平台的公众情感分析[J].情报学报,2012,31(11):1171-1178.
[40] LoweSA,ÓlaighinG,“Monitoringhumanhealthbehaviourinone’slivingenvironment:atechnologicalreview,”MedEngPhys,vol.36,pp.147–68,2014.
[41] Alvarez-LozanoJ,FrostM,OsmaniV,etal,“TellmeyourappsandIwilltellyouyourmood:correlationofappsusagewithbipolardisorderstate,”ACMproceedingsof7thinternationalconferenceonpervasivetechnologiesrelatedtoassistiveenvironments,2014.
[42] KatikalapudiR,ChellappanS,MontgomeryF,etal,“AssociatingInternetUsagewithDepressiveBehaviorAmongCollegeStudents[J],”IEEETechnologyandSocietyMagazine,vol.31(4),pp.73-80,2012.
[43] DeChoudhuryM,CountsS,HorvitzE,etal.Predictingdepressionviasocialmedia,MicrosoftResearch,.2013[Online]Available:http://research.microsoft.com/apps/pubs/default.aspx?id=192721.Accessed9Jul2014.Exampleofanalyzingsocialmediatopredictmood.
[44] Guardian,Aguardianguidetoyourmetadata.2013,[Online]Available:http://www.theguardian.com/technology/interactive/2013/jun/12/what-ismetadata-nsa-surveillance%23meta=0000000.Accessed9Jul2014.
[45] BakhtiyariK,TaghaviM,HusainH,“Hybridaffectivecomputing—keyboard,mouseandtouchscreen:fromreviewtoexperiment[J],”NeuralComputingandApplications,vol.26(6),pp.1277-1296,2015.
[46] LeonE,ClarkeG,CallaghanV,SepulvedaF(2007),“Auser-independentreal-timeemotionrecognitionsystemforsoftwareagentsindomesticenvironments,”EngineeringApplicationsofArtificialIntelligence,vol.20(3),pp.337-345,doi:10.1016/j.engappai.June.2006.
[47] HernandezJ,McduffD,BenavidesX,etal,“AutoEmotive:bringingempathytothedrivingexperiencetomanagestress,”CompanionPublicationonDesigningInteractiveSystems.,ACM,pp.53-56,2014
[48] McduffD,KalioubyRE,SenechalT,etal,“Affectiva-MITFacialExpressionDataset(AM-FED):NaturalisticandSpontaneousFacialExpressionsCollectedIn-the-Wild,”ComputerVisionandPatternRecognitionWorkshops(CVPRW),2013IEEEConferenceon.IEEE,pp.881-888,2013
[49] ReadFacewebpageon36Kr,[Online]available:http://36kr.com/p/5038637.html
[50] 李翔,李昕,胡晨,卢夏衍,面向智能机器人的Teager语音情感交互系统设计与实现,仪器仪表学报,2013年08期
[51] 谭云龙,王亚慧,许岷,基于特征参数的语音情感识别,兰州文理学院学报(自然科学版),2014年05期
[52] 朱亚忱,“基于特权信息的情感识别”,博士学位论文,2015
[53] 赵国朕,宋金晶,葛燕,刘永进,姚林,文涛,基于生理大数据的情绪识别研究进展,计算机研究与发展,2016年01期
[54] Sharma,Ayush,andD.V.Anderson,"Deepemotionrecognitionusingprosodicandspectralfeatureextractionandclassificationbasedoncrossvalidationandbootstrap,”SignalProcessingandSignalProcessingEducationWorkshop,IEEE,2015.
未来智能实验室是人工智能学家与科学院相关机构联合成立的人工智能,互联网和脑科学交叉研究机构。
未来智能实验室的主要工作包括:建立AI智能系统智商评测体系,开展世界人工智能智商评测;开展互联网(城市)云脑研究计划,构建互联网(城市)云脑技术和企业图谱,为提升企业,行业与城市的智能水平服务。
如果您对实验室的研究感兴趣,欢迎加入未来智能实验室线上平台。扫描以下二维码或点击本文左下角“阅读原文”
情感识别的国内外研究现状之调研
0分享至人的情感状态(如紧张、激动、恐慌、愉快、愤怒等)往往伴随着人体的多个生理或行为特征的变化,某些生理或行为特征的变化也可能起因于多种情感状态。由于情感特征很复杂,难以准确描述一个人的情感状态。目前,学术界关于情感的表示并没有一个十分统一的认识,也没有一个定性和定量的测量评价标准,其主要的表示方法可以分为离散情感模型和维度情感模型两大类。离散情感模型将情感按照多种分类方法进行分类,可以将情感类别分为开心、悲伤、惊讶等;同时,可以由任何一个情感类别或多个情感类别的组合来描述。维度情感模型将不同的情感维度的组合对应不同的维度情感空间,每个情感维度应具有取值范围,情感维度数值可位于该取值范围内的任意位置。任何情感都可以通过一组数值进行表示,这组数值代表了这个情感在维度情感空间中的位置。情感识别的研究重点就是通过各类传感器获取由人类情感引起的生理指标或者行为特征发出的信号(例如语音、面部表情、手势、姿态、脑电波、脉搏等),以建立可计算的情感模型。在具体的研究中,多模态(主要是音频和视频)情感识别往往备受青睐,但如何抽取有效的特征参数并运用恰当的模型来表达这些特征参数和情感之间的关联性,是亟待解决的一个关键问题。关于情感语音的声学特征分析主要围绕韵律、频谱和音质特征。研究者已经发现很多声学特征与情感状态有关,如持续时间、语速、基音频率、共振峰、强度、Mel频率倒谱系数(MFCC)等。研究人员将它们表示为固定维数的特征向量,其中的各个分量为各声学参数的统计值,包括平均值、方差、最大或最小值、变化范围等。尽管韵律、音质、频谱这三类特征均对情感识别起到不同程度的贡献,但是他们在不同语料下的作用不尽相同。通常频谱类特征在自然情感识别下较为鲁棒,而韵律和音质类特征在表演语料条件下较为鲁棒,对情感识别结果贡献较大。近年来,神经网络提取优良特征参数的能力越来越受到关注。深度语音情感特征是基于语音信号或者频谱图,并通过语音情感识别相关任务学习到的深度特征。但是由于情感数据集的匮乏,目前应用比较广泛的是通过语音事件检测或者语音情感识别等任务,采用在大规模的训练数据学习到的深度语音特征作为语音情感特征,比如VGGish和wav2vec。在视频情感识别中,局部二值模式(LocalBinaryPattern,LBP)、局部相位量化特征(LocalPhaseQuantization,LPQ)、Gabor特征被广泛应用于静态图像的情感识别工作中;时序信息为情感识别提供了关键信息,许多基于上述特征的时空特征,如LBP-TOP(LBPfromThreeOrthogonalPlanes)、LPQ-TOP在基于视频的情感识别中广泛应用。计算机视觉中常用的方向梯度直方图(HistogramofOrientedGradient,HOG)描述子、尺度不变特征变换(Scale-InvariantFeatureTransform,SIFT)描述子、词袋模型(BagofWords,BoW)和Gist描述子均在情感识别工作中有所涉及。另一类是基于深度神经网络的深度情感特征。深度情感特征避免了繁琐的图片预处理以及特征提取,相较于传统方法在情感识别相关任务上的表现更好,对光照、姿态、遮挡物等情感识别鲁棒性更高。深度情感特征主要从人脸情感识别数据集上训练的模型中进行抽取,比如目前应用广泛的深度特征是从人脸情感识别数据集(比如FER+)上训练的VGGNet、DenseNet等神经网络模型中抽取,并在主流的情感竞赛中取得了不错的结果。多模态信息的分析方法有很多,从信息融合层次来看,多模态信息融合的方法主要有决策层融合和特征层融合,也有一些学者将这两个融合方式混合使用。决策层融合方式操作方便灵活,允许各个模态采用最适合的机器学习算法进行单独建模。特征层融合的通常做法是将各个通道的特征相串联,组合成一个长的特征向量,然后再将该特征向量放入机器学习算法进行分类或是回归输出。最新的认知神经科学表明,大脑在整合多感官信息时存在多阶段融合的现象,受此启发,研究者提出了多阶段多模态情感融合方法。首先训练一个单模态模型,然后将其隐含状态与另一个模态特征拼接再训练双模态模型,以此类推得到多模态模型。这种建模方法在每个阶段只关注多模态信息的一个子集,然后综合考虑所有模态信息得到预测结果。多模态情感融合的关键在于实现了跨模态之间的有效整合以获得多模态信息的互补,从而比单模态情感识别具有更大的优势。
情感是一个时序变化的行为,其演变都会经历一定的时间,因此需要考虑情感信息的前后依赖性。传统的动态模型如隐马尔科夫模型和条件随机场,由于其可以对时序上下文信息建模的内在属性,取得了比静态模型更好的识别性能。然而这些模型考虑的前后时序信息较短,因此取得的效果有限。基于深度学习的情感识别系统具有更强的非线性建模能力,在情感识别领域取得了广泛应用;但是经典的基于卷积神经网络(ConvolutionalNeuralNetworks,CNN)和长短期记忆网络(LongShort-TermMemory,LSTM)的模型在建模过程中对于每一帧预测情感的贡献度是相同的,这种假设存在着不合理性;针对这种问题引入注意力机制,通过全局上下文信息自动学习不同帧对于情感识别的重要性得到相匹配的权重系数,可以实现更有针对性的情感建模,显著提高情感识别的性能。近年来,情感计算技术与美学的结合得到了广泛的关注,目前广受欢迎的智能体如微软小冰、贤二机器僧等,能够针对客户进行适度的情感分析,并根据分析结果进行对话。这种情感分析的基础就是“情感计算”。麻省理工学院(MIT)计算机专家罗莎琳·皮卡德(RosalindPicard)提出,人们可以利用计算机强大的储存、搜索和运算能力,来计算和分析与情感相关的外在表现,如面部表情、心跳速率、皮肤温度等生理特征。除此之外,情感计算还可以分析艺术家在作品中留下的能体现情感的相关痕迹,如色彩、形状、线条、文本等。在分析过程中,需要借助美学家、艺术理论家对艺术品和艺术家的情感分析,这就是美学参与到人工智能研究的实例之一。同样,情感计算也给美学家提供了一种思路,即艺术家在创作时的情感也许可以量化研究和分析。情感识别计算在诸多领域得到了应用。在人机交互场景中(如微软小冰),自动感知用户的情感状态并做出相应的反应以提高对话质量;在智能客服领域,客户的情感状态变化可以反映出客服人员的服务质量,当检测到客户出现生气等负向情绪时,可以切换到更有经验的客服人员,节省了大量的人力和物力;在智能教育领域,通过分析教师的情绪以及学生的上课状态,能更加智能地提高教师的教学质量和学生的上课效率;在医疗领域,通过分析病人的情感和心理压力的变化来检测可能出现的一些心理和精神的异常点,可以为医生做诊断提供辅助。
特别声明:以上内容(如有图片或视频亦包括在内)为自媒体平台“网易号”用户上传并发布,本平台仅提供信息存储服务。
Notice:Thecontentabove(includingthepicturesandvideosifany)isuploadedandpostedbyauserofNetEaseHao,whichisasocialmediaplatformandonlyprovidesinformationstorageservices.
/阅读下一篇/返回网易首页下载网易新闻客户端