清华权威报告告诉你:人工智能的情感计算是什么
Jwaednc整体而言,语音情感识别研究在该时期仍旧处于初级阶段,主要侧重于情感的声学特征分析这一方面,作为研究对象的情感语音样本也多表现为规模小、自然度低、语义简单等特点,虽然有相当数量的有价值的研究成果相继发表,但是并没有形成一套被广泛认可的、系统的理论和研究方法。进入21世纪以来,随着计算机多媒体信息处理技术等研究领域的出现以及人工智能领域的快速发展,语音情感识别研究被赋予了更多的迫切要求,发展步伐逐步加快。2000年,在爱尔兰召开的ISCAWorkshoponSpeechandEmotion国际会议首次把致力于情感和语音研究的学者聚集在一起。近10余年来,语音情感识别研究工作在情感描述模型的引入、情感语音库的构建、情感特征分析等领域的各个方面都得到了发展。下面将从语音情感数据库的采集、语音情感标注以及情感声学特征分析方面介绍语音情感计算。Jwaednc
1、语音情感数据库的采集 Jwaednc
语音情感识别研究的开展离不开情感语音数据库的支撑。情感语音库的质量高低,直接决定了由它训练得到的情感识别系统的性能好坏。评价一个语音情感数据库好坏的一个重要标准是数据库中语音情感是否具备真实的表露性和自发性。目前,依据语音情感激发类型的不同,语音情感数据库可分为表演型、诱发型和自发型三种。Jwaednc
具体来说,表演型情感数据库通过专业演员的表演,把不同情感表达出来。在语音情感识别研究初期,这一采集标准被认为是研究语音情感识别比较可靠的数据来源,因为专业演员在Jwaednc表达情感时,可以通过专业表达获得人所共知的情感特征。比如,愤怒情感的语音一般会具有很大的幅值和强度,而悲伤情感的语音则反之。由于这一类型的数据库具有表演的性质,情感的表达会比真实情感夸大一点,因此情感不具有自发的特点。依据该类型数据库来学习的语音情感识别算法,不一定能有效应用于真实生活场景中。第二种称之为诱发型情感数据库。被试者处于某一特定的环境,如实验室中,通过观看电影或进行计算机游戏等方式,诱发被试者的某种情感。目前大部分的情感数据库都是基于诱发的方式建立的。诱发型情感数据库产生的情感方式相较于表演型情感数据库,其情感特征更具有真实性。最后一种类型属于完全自发的语音情感数据库,其语料采集于电话会议、电影或者电话的视频片段,或者广播中的新闻片段等等。由于这种类型的语音情感数据最具有完全的真实性和自发性,应该说最适合用于实用的语音情感识别。但是,由于这些语音数据涉及道德和版权因素,妨碍了它在实际语音情感识别中的应用。Jwaednc
2、语音情感数据库的标注 Jwaednc
对于采集好的语音情感库,为了进行语音情感识别算法研究,还需要对情感语料进行标注。标注方法有两种类型:Jwaednc
离散型情感标注法指的是标注为如生气、高兴、悲伤、害怕、惊奇、讨厌和中性等,这种标注的依据是心理学的基本情感理论。基本情感论认为,人复杂的情感是由若干种有限的基本情感构成的,就像我们自古就有“喜、怒、哀、乐,恐、悲、惊”七情的说法。不同的心理学家对基本情感有不同的定义,由此可见,在心理学领域对基本情感类别的定义还没有一个统一的结论,因此不同的语音情感数据库包含的情感类别也不尽相同。这不利于在不同的语音情感数据库上,对同一语音情感识别算法的性能进行评价。此外,众所周知,实际生活中情感的类别远远不止有限几类。基于离散型情感标注法的语音情感识别容易满足多数场合的需要,但无法处理人类情感表达具有连续性和动态变化性的情况。在实际生活中,普遍存在着情感变化的语音,比如前半句包含了某一种情感,而后半句却包含了另外一种情感,甚至可能相反。例如,某人说话时刚开始很高兴,突然受到外界刺激,一下子就生气了。对于这种在情感表达上具有连续和动态变化的语音,采用离散型情感标注法来进行语音情感识别就不合适了。因为此时语音的情感,己不再完全属于某一种具体的情感。Jwaednc
维度情感空间论基于离散型情感标注法的缺陷,心理学家们又提出了维度情感空间论,即对情感的变化用连续的数值进行表示。不同研究者所定义的情感维度空间数目有所不同,如二维、三维甚至四维模型。针对语音情感,最广为接受和得到较多应用的为二维连续情感空间模型,即“激活维-效价维”(Arousal-Valence)的维度模型。“激活维”反映的是说话者生理上的激励程度或者采取某种行动所作的准备,是主动的还是被动的;“效价维”反映的是说话者对某一事物正面的或负面的评价。随着多模态情感识别算法的研究,为了更细致的地描述情感的变化,研究者在“激活维-效价维”(Arousal-Valence)二维连续情感空间模型的基础上,引入“控制维”,即在“激活维-效价维-控制维(Arousal-Valence/Pleasure-Power/Dominance)”三维连续情感空间模型上对语音情感进行标注和情感计算。需要强调的是,离散型和连续型情感标注之间,它们并不是孤立的,而是可以通过一定映射进行相互转换。Jwaednc
3、情感声学特征分析Jwaednc
情感声学特征分析主要包括声学特征提取和声学特征选择、声学特征降维。采用何种有效的语音情感特征参数用于情感识别,是语音情感识别研究最关键的问题之一,因为所用的情感特征参数的优劣直接决定情感最终识别结果的好坏。Jwaednc
声学特征提取。目前经常提取的语音情感声学特征参数主要有三种:韵律特征、音质特征以及谱特征。在早期的语音情感识别研究文献中,针对情感识别所首选的声学特征参数是韵律Jwaednc特征,如基音频率、振幅、发音持续时间、语速等。这些韵律特征能够体现说话人的部分情感信息,较大程度上能区分不同的情感。因此,韵律特征已成为当前语音情感识别中使用最广泛并且必不可少的一种声学特征参数除了韵律特征,另外一种常用的声学特征参数是与发音方式相关的音质特征参数。三维情感空间模型中的“激发维”上比较接近的情感类型,如生气和高兴,仅使用韵律特征来识别是不够的。Jwaednc
音质特征包括共振峰、频谱能量分布、谐波噪声比等,不仅能够很好地表达三维中的“效价维”信息,而且也能够部分反映三维中的“控制维”信息。因此,为了更好地识别情感,同时提取韵律特征和音质特征两方面的参数用于情感识别,已成为语音情感识别领域声学特征提取的一个主要方向。谱特征参数是一种能够反映语音信号的短时功率谱特性的声学特征参数,Mel频率倒谱系数(Mel-scaleFrequencyCepstralCoefficients,MFCC)是最具代表性的谱特征参数,被广泛应用于语音情感识别。由于谱特征参数及其导数,仅反映语音信号的短时特性,忽略了对情感识别有用的语音信号的全局动态信息。近年来,为了克服谱特征参数的这种不足之处,研究者提出了一些改进的谱特征参数,如类层次的谱特征、调制的谱特征和基于共振峰位置的加权谱特征等。Jwaednc
声学特征选择。为了尽量保留对情感识别有意义的信息,研究者通常都提取了较多的与情感表达相关的不同类型的特征参数,如韵律特征、音质特征、谱特征等。任意类型特征都有各自的侧重点和适用范围,不同的特征之间也具有一定的互补性、相关性。此外,这些大量提取的特征参数直接构成了一个高维空间的特征向量。这种高维性质的特征空间,不仅包含冗余的特征信息,导致用于情感识别的分类器训练和测试需要付出高昂的计算代价,而且情感识别的性能也不尽如人意。因此,非常有必要对声学特征参数进行特征选择或特征降维处理,以便获取最佳的特征子集,降低分类系统的复杂性和提高情感识别的性能。Jwaednc
特征选择是指从一组给定的特征集中,按照某一准则选择出一组具有良好区分特性的特征子集。Jwaednc
特征选择方法主要有两种类型:封装式(Wrapper)和过滤式(Filter)。Wrapper算法是将后续采用的分类算法的结果作为特征子集评价准则的一部分,根据算法生成规则的分类精度选择特征子集。Filter算法是将特征选择作为一个预处理过程,直接利用数据的内在特性对选取的特征子集进行评价,独立于分类算法。Jwaednc
声学特征降维。特征降维是指通过映射或变换方式将高维特征空间映射到低维特征空间,已达到降维的目的。特征降维算法分为线性和非线性两种。最具代表性的两种线性降维算法,如主成分分析PCA(PrincipalComponentAnalysis)和线性判别分析LDA(LinearDiscriminantAnalysis),已经被广泛用于对语音情感特征参数的线性降维处理。也就是,PCA和LDA方法被用来对提取的高维情感声学特征数据进行嵌入到一个低维特征子空间,然后在这降维后的低维子空间实现情感识别,提高情感识别性能。Jwaednc
近年来,新发展起来的基于人类认知机理的流形学习方法比传统的线性PCA和LDA方法更能体现事物的本质,更适合于处理呈非线性流形结构的语音情感特征数据。但这些原始的流形学习方法直接应用于语音情感识别中的特征降维,所取得的性能并不令人满意。主要原因是他们都属于非监督式学习方法,没有考虑对分类有帮助的已经样本数据的类别信息。尽管流形学习方法能够较好地处理非线性流形结构的语音特征数据,但是流形学习方法的性能容易受到其参数如邻域数的影响,而如何确定其最佳的邻域数,至今还缺乏理论指导,一般都是根据样本数据的多次试验结果来粗略地确定。因此,对于流形学习方法的使用,如何确定其最佳参数,还有待深入研究。Jwaednc
下表为常用语音情感数据库,供读者参考:Jwaednc
Jwaednc
Jwaednc
当人工智能有了“情感脉动”
拥有“情商”的机器人更聪明
“我不会让汽车长了腿替我跳舞,更不会让人工智能替我谈恋爱。”人工智能情感的反对者坚持认为:让人工智能拥有“情感”就是无稽之谈。“人工智能永远不懂什么是‘爱’,计算机永远算不出人类的七情六欲。”
支持者也不甘示弱。他们认为,对机器人而言,“情商”与“智商”同样重要。情感交互是人类的基本诉求,并非机器人需要情感,而是人类离不开情感交互。
两种观点针锋相对,却透露出同一个事实:人工智能情感不是机器人无中生有变出来的,而是由人类精心设计制造出来的。同样是机器人,比起《流浪地球》里只露出摄像头的MOSS,谁不喜欢活力四射的机器人少女阿丽塔呢?人们在讨厌冷冰冰的机器人的同时,更愿意为它蒙上一层“温情的面纱”。
研究者认为,拥有“情商”的机器人不仅能满足人类的情感需求,还将更加聪明。现代社会,人机交互越来越频繁,无人超市、无人售票、无人物流……与机器打交道在所难免。未来,人类不用再去“迁就”机器人,机器人会主动适应人类需求。就像一个网络段子所说:word,你已经是一个“成熟”的软件了,该学会自己码字。这也是人类对机器的期望——别老等着我下命令,赶紧自己把活儿干漂亮了!
如何实现对人工智能的有效管控
在互动电影《底特律:变人》里,导演大卫·凯奇描绘了一幅未来世界的图景。2038年,拥有情感智能的机器仿生人在社会的方方面面为人类服务。有一天,当机器仿生人的自我意识觉醒,被“奴役”的它们最终揭起了反抗的大旗,高声呼喊:“我是活着的。”大卫·凯奇强调:“请注意,这不只是一个故事,这可能是我们的未来。”
19世纪的蒸汽机,20世纪的电力,解放了人类的双手;21世纪的人工智能,即将解放人类的大脑。焦虑随之而生:如果人工智能样样都比人类强,那么人类该何去何从?我们已经给人工智能拴上了重重锁链,还有没有必要把名为“情感”的钥匙递到它们手上?
“钢铁侠”的原型,美国企业家埃隆·马斯克就曾多次发表人工智能威胁论。马斯克呼吁政府主动监管人工智能,他认为,人工智能缺少监管就如同人类社会没有法律约束。而FacebookCEO扎克伯格则多次在公开场合反驳马斯克的看法,扎克伯格说:“每当听到人工智能威胁论,我就会想,科技是无罪的,造成的后果取决于使用它的人。”
拦在人工智能情感道路上的,不只是技术上的难关,更有道德上的困境。具有丰富情感的人工智能的大规模应用,无疑会给社会秩序、道德伦理带来冲击。但不论支持还是反对,人工智能时代的帷幕已然拉开。人类唯有始终成为人机关系的主导者,实现对人工智能的有效控制,才能使其真正为人类的和平发展服务。
迎接人工智能时代,需要加强人工智能相关法律、伦理、社会问题研究,建立健全保障人工智能发展的制度体系,进而保障人工智能产业发展,促进社会和谐稳定。站在科技的前沿,人类面临的问题还有很多:机器人是否具备法律主体资格?人工智能的设计者、生产者、使用者是否应当承担特殊义务?应当如何加强人工智能行业监管?这些都需要人类去思考。返回搜狐,查看更多