博舍

语音情感识别研究进展综述 语音识别技术研究现状与展望论文

语音情感识别研究进展综述

人类之所以能够通过聆听语音捕捉对方情感状态的变化,是因为人脑具备了感知和理解语音信号中的能够反映说话人情感状态的信息(如特殊的语气词、语调的变化等)的能力.自动语音情感识别则是计算机对人类上述情感感知和理解过程的模拟,它的任务就是从采集到的语音信号中提取表达情感的声学特征,并找出这些声学特征与人类情感的映射关系.计算机的语音情感识别能力是计算机情感智能的重要组成部分,是实现自然人机交互界面的关键前提,具有很大的研究价值和应用价值.

语音情感识别研究的开展距今已有30余年的历史,在此期间,它得到了世界范围内相关研究者们的广泛关注,也取得了一些令人瞩目的成绩,但同时也面临着诸多问题的考验与挑战.本文将立足于语音情感识别研究领域的已有成果,对领域内的研究进展进行总结,并对未来的技术发展趋势加以展望.

一般说来,语音情感识别系统主要由3部分组成:语音信号采集、情感特征提取和情感识别,系统框图如图1所示.语音信号采集模块通过语音传感器(例如,麦克风等语音录制设备)获得语音信号,并传递到下一个情感特征提取模块对语音信号中与话者情感关联紧密的声学参数进行提取,最后送入情感识别模块完成情感的判断.需要特别指出的是,一个完整的语音情感识别系统除了要完善上述3部分以外,还离不开两项前期工作的支持:(1)情感空间的描述;(2)情感语料库的建立.情感空间的描述有多重标准,例如离散情感标签、激励-评价-控制空间和情感轮等,不同的标准决定了不同的情感识别方式,会对情感语料的收集标注、识别算法的选择都产生影响.情感语料库更是语音情感识别研究的基础,负责向识别系统提供训练和测试用语料数据.国内外相关研究根据研究者的出发点不同会各有侧重,但归根结底都可以涵盖到上述5个关键模块之中.

图1(Figure1)Fig.1Frameworkofastandardspeechemotionrecognitionsystem图1语音情感识别系统框图

因此,本文将首先对语音情感识别接近40年的发展历程进行简要的回顾,然后从情感描述模型、情感语音数据库、语音情感相关声学特征提取、语音情感识别算法、语音情感识别技术应用这5个角度对当前的语音情感识别技术主流方法和前沿进展进行系统的总结和分析,最后给出技术挑战与展望.

1语音情感识别历史回顾

最早的真正意义上的语音情感识别相关研究出现在20世纪80年代中期,它们开创了使用声学统计特征进行情感分类的先河[1,2].紧接着,随着1985年Minsky教授“让计算机具有情感能力”观点的提出,以及人工智能领域的研究者们对情感智能重要性认识的日益加深,越来越多的科研机构开始了语音情感识别研究的探索.

在20世纪80年代末至90年代初期,麻省理工学院多媒体实验室构造了一个“情感编辑器”对外界各种情感信号进行采集,综合使用人体的生理信号、面部表情信号、语音信号来初步识别各种情感,并让机器对各种情感做出适当的简单反应[3];1999年,Moriyama提出语音和情感之间的线性关联模型,并据此在电子商务系统中建造出能够识别用户情感的图像采集系统语音界面,实现了语音情感在电子商务中的初步应用[4].整体而言,语音情感识别研究在该时期仍旧处于初级阶段,语音情感识别的研究主要侧重于情感的声学特征分析这一方面,作为研究对象的情感语音样本也多表现为规模小、自然度低、语义简单等特点,虽然有相当数量的有价值的研究成果相继发表,但是并没有形成一套被广泛认可的、系统的理论和研究方法.

进入21世纪以来,随着计算机多媒体信息处理技术等研究领域的出现以及人工智能领域的快速发展,语音情感识别研究被赋予了更多的迫切要求,发展步伐逐步加快.2000年,在爱尔兰召开的ISCAWorkshoponSpeechandEmotion国际会议第1次把致力于情感和语音研究的学者聚集在一起.近年来,先后又有若干以包括语音情感计算在内的情感计算为主题的会议和期刊被创立,并得到了世界范围内的注目,其中较为著名的有:始于2005年的AffectiveComputingandIntelligentInteraction双年会,始于2009年的INTERSPEECHEmotionChallenge年度竞赛,创刊于2010年的《IEEETransactionsonAffectiveComputing》期刊以及始于2011年的InternationalAudio/VisualEmotionChallengeandWorkshop(AVEC)年度竞赛等.同时,越来越多国家的大学或科研机构涉足到语音情感识别研究的工作中来,著名的有:贝尔法斯特女王大学Cowie和Douglas-Cowie领导的情感语音小组;麻省理工大学Picard领导的媒体研究实验室;慕尼黑工业大学Schuller负责的人机语音交互小组;南加州大学Narayanan负责的语音情感组;日内瓦大学Soberer领导的情绪研究实验室;布鲁塞尔自由大学Canamero领导的情绪机器人研究小组等.国内对语音情感识别研究的关注起始于21世纪初,经过近10年的发展,目前已有越来越多的科研单位加入该领域的研究,著名的有东南大学无线电工程系、清华大学人机交互与媒体集成研究所、模式识别国家重点实验室、浙江大学人工智能研究所和中国科学院语言研究所等.

近10余年来,语音情感识别研究工作在情感描述模型的引入、情感语音库的构建、情感特征分析等领域的各个方面都得到了发展.Cowie等人[5]开发的FEELTRACE情感标注系统为语音情感数据的标注提供了标准化工具.Grimm等人[6,7]将三维情感描述模型(activation-evaluation-powerspace)引入到自发语音情感识别的研究中,并将维度情感识别问题建模为标准的回归预测问题.Grimm的工作为维度语音情感识别研究的发展争取到更多的关注,激发了维度语音情感识别的热潮[7,8,9,10,11].慕尼黑工业大学的Eyben等人[12]开发了面向语音情感特征提取的开放式工具包openSMILE,实现了包括能量、基频、时长、Mel倒谱系数等在内的常用语音情感特征的批量自动提取,并逐渐得到广泛认可[13,14].McKeown等人[15]以科研项目为依托,创建了一个以科学研究为目的的大型多媒体情感数据库SEMAINE,并提供了情感数据的维度标注结果,为语音情感识别的研究和发展提供了公开的、丰富的、高质量的自然情感语料.正是这些研究成果的不断涌现,为构建语音情感识别标准化平台做出了里程碑式的贡献.

2两类主流情感描述模型

情感描述方式大致可分为离散和维度两种形式.

前者将情感描述为离散的、形容词标签的形式,如高兴、愤怒等,在人们的日常交流过程中被广泛使用,同时还被普遍运用于早期的情感相关研究中.丰富的语言标签描述了大量的情感状态,那么,其中哪些情感状态的研究价值更具有普遍性呢?这个问题可以归结为对基本情感类别的确定.一般认为,那些能够跨越不同人类文化,甚至能够为人类和具有社会性的哺乳动物所共有的情感类别为基本情感.表1[16]列举了不同学者对基本情感的定义和划分,其中,美国心理学家Ekman提出的6大基本情感(又称为bigsix)在当今情感相关研究领域的使用较为广泛[17].

表1(Table1)Table1Variousdefinitionsofemotionfromdifferentresearchers[16]表1不同学者对基本情感的定义[16]学者基本情感ArnoldAnger,aversion,courage,dejection,desire,despair,dear,hate,hope,love,sadnessEkman,Friesen,EllsworthAnger,disgust,fear,joy,sadness,surpriseFridjaDesire,happiness,interest,surprise,wonder,sorrowGrayDesire,happiness,interest,surprise,wonder,sorrowIzardAnger,contempt,disgust,distress,fear,guilt,interest,joy,shame,surpriseJamesFear,grief,love,rageMcDougallFear,disgust,elation,fear,subjection,tender-emotion,wonderMowerPain,pleasureOatley,Johnson-LairdAnger,disgust,anxiety,happiness,sadnessPankseppAnger,disgust,anxiety,happiness,sadnessPlutchikAcceptance,anger,anticipation,disgust,joy,fear,sadness,surpriseTomkinsAnger,interest,contempt,disgust,distress,fear,joy,shame,surpriseWatsonFear,loverageWeiner,GrahamHappiness,sadnessTable1Variousdefinitionsofemotionfromdifferentresearchers[16]表1不同学者对基本情感的定义[16]

后者则将情感状态描述为多维情感空间中的点.这里的情感空间实际上是一个笛卡尔空间,空间的每一维对应着情感的一个心理学属性(例如,表示情感激烈程度的激活度属性以及表明情感正负面程度的效价属性).理论上,该空间的情感描述能力能够涵盖所有的情感状态.换句话说,任意的、现实中存在的情感状态都可以在情感空间中找到相应的映射点,并且各维坐标值的数值大小反映了情感状态在相应维度上所表现出来的强弱程度.由于维度情感模型使用连续的实数值来刻画情感,因此在有些文献中又被称作连续情感描述模型[18].一些既简单又能被广泛使用的维度情感描述模型有二维的激活度-效价空间理论(arousal-valencespace)、三维的激励-评估-控制空间理论(valence-activation-dominancespace)[19]和情感轮理论(emotionwheel)[18]等.其中,激活度-效价空间理论如图2所示[18]:垂直轴是激活度维,是对情感激烈程度的描述;水平轴是效价维,是对情感正负面程度的评价.情感状态的日常语音标签和该坐标空间可以进行相互转化,通过对情感状态语言描述的理解和估计,就可以找到它在情感空间中的映射位置.

图2(Figure2)Fig.2Arousal-Valenceemotionalspace图2激活度-效价情感空间

两种表达模型各有千秋:从模型复杂度而言,离散描述模型较为简洁、易懂,有利于相关研究工作的着手和开展,而维度模型却要面对定性情感状态到定量空间坐标之间如何相互转换的问题;从情感描述能力的角度而言,离散情感模型的情感描述能力则显示出较大的局限性,多数情况下,它只能刻画单一的、有限种类的情感类型,然而人们在日常生活中所体验的情感却是微妙而多变的,甚至是复杂而模糊的(例如,人们在受到惊吓时所表现出来的情感不仅有吃惊,往往还包含害怕甚至恐惧的成分;又比如,人们对愉悦的表达可以呈现出若干的程度,可以从喜上眉梢,到眉飞色舞,再到手舞足蹈),可以说,离散描述方式和自发情感的描述之间还存在着较大的障碍,然而维度情感模型从多侧面、连续的角度进行情感的描述,很好地化解了自发情感的描述问题,并且以精确的数值很大程度上回避了离散情感标签的模糊性问题.最后,我们以表格的形式对两个情感描述模型之间的区别进行了直观的总结和展示,见表2.

表2(Table2)Table2Comparisonoftwoemotionalrepresentationmodels表2两种情感描述模型的区别考察点离散情感描述模型离散情感描述模型情感描述方式形容词标签笛卡尔空间中的坐标点情感描述能力有限的几个情感类别任意情感类别被应用到语音情感识别领域的时期1980s2000s优点简洁、易懂、容易着手无限的情感描述能力缺点单一、有限的情感描述能力无法满足对自发情感的描述将主观情感量化为客观实数值的过程是一个繁重且难以保证质量的过程Table2Comparisonoftwoemotionalrepresentationmodels表2两种情感描述模型的区别3具有代表性的情感语音数据库

语音情感识别研究的开展离不开情感语音数据库的支撑.情感语音库的质量高低,直接决定了由它训练得到的情感识别系统的性能好坏.目前,领域内存在的情感语音库类型多样,并没有统一的建立标准,按照激发情感的类型可分为表演型、引导型、自然型这3个类别;按照应用目标可分为识别型和合成型两个类别;按照语种不同可分为英语、德语、汉语等.不同于一般文献中的分类方法,本文将依据情感描述模型的不同,将数据语料资源划分为离散情感数据库和维度情感数据库两个分支,二者的区别在于情感标注形式的不同,前者以离散的语言标签(如高兴、悲伤等)作为情感标注,而后者则以连续的实数坐标值表示情感.

由此,我们称以语言标签进行标注的情感语料库为离散情感语料库,而以情感空间坐标值进行标注的语料库为维度情感语料库.目前,就国内外整个研究领域而言,以离散情感语料库居多,而维度情感语料库还有待丰富.本文将依照上述两个分支对当前国内外颇具代表性的情感语音库进行简要综述.它们虽然没有涵盖领域内大部分的语音资源,但都是经过精挑细选的、语料质量较高、影响较为广泛的情感语音库.若需了解更多的情感语料库情况,可以参考文献[20,21,22]中的相关内容.

3.1离散情感数据库

一个离散情感数据库一般包括有限的几类基本情感类型,并且希望每类情感的演绎都能达到单一、浓重、易辨识的标准,然而这恰恰是生活化的自然语音难以满足的.因此,目前的离散情感数据库多属于表演型或者引导型,或者二者的融合.例如,下面列举的代表性数据库中只有FAUAIBO属于自然型.

3.1.1Belfast英语情感数据库

Belfast情感数据库[5,23]由Queen大学的Cowie和Cowie录制,由40位录音人(18岁~69岁,20男20女)对5个段落进行演绎得到.每个段落包含7~8个句子,且具有某种特定的情感倾向,分别为生气/anger、悲伤/sadness、高兴/happiness、恐惧/fear、中性/neutral.

3.1.2柏林EMO-DB德语情感语音库

DMO-DB[24]是由柏林工业大学录制的德语情感语音库,由10位演员(5男5女)对10个语句(5长5短)进行7种情感(中性/nertral、生气/anger、害怕/fear、高兴/joy、悲伤/sadness、厌恶/disgust、无聊/boredom)的模拟得到,共包含800句语料,采样率48kHz(后压缩到16kHz),16bit量化.语料文本的选取遵从语义中性、无情感倾向的原则,且为日常口语化风格,无过多的书面语修饰.语音的录制在专业录音室中完成,要求演员在演绎某个特定情感前通过回忆自身真实经历或体验进行情绪的酝酿,来增强情绪的真实感.经过20个参与者(10男10女)的听辨实验,得到84.3%的听辨识别率.

3.1.3FAUAIBO儿童德语情感语音库

FAUAIBO[25]录制了51名儿童(10岁~13岁,21男30女)在与索尼公司生产的电子宠物AIBO游戏过程中的自然语音,并且只保留了情感信息明显的语料,总时长为9.2小时(不包括停顿),包括48401个单词.语音通过一个高质量的无线耳麦进行收集,并由DAT-recorder录制,48kHz采样(而后压缩到16kHz),16bit量化.为了记录真实情感的语音,工作人员让孩子们相信AIBO能够对他们的口头命令加以反应和执行,而实际上,AIBO则是由工作人员暗中人为操控的.标注工作由5名语言学专业的大学生共同完成,并通过投票方式决定最终标注结果,标注共涵盖包括joyful,irritated,angry,neutral等在内的11个情感标签.该数据库中的18216个单词被选定为INTERSPEECH2009年情感识别竞赛用数据库[26].

3.1.4CASIA汉语情感语料库

该数据库(http://www.chineseldc.org/resource_info.php?rid=76)由中国科学院自动化研究所录制,由4位录音人(2男2女)在纯净录音环境下(信噪比约为35db)分别在5类不同情感下(高兴、悲哀、生气、惊吓、中性)对500句文本进行的演绎得到,16kHz采样,16bit量化.经过听辨筛选,最终保留其中9600句.

3.1.5ACCorpus系列汉语情感数据库

该系列情感数据库(http://hcsi.cs.tsinghua.edu.cn/accenter/fruit/database.html)由清华大学和中国科学院心理研究所合作录制,包含5个相关子库:1)ACCorpus_MM多模态、多通道的情感数据库;2)ACCorpus_SR情感语音识别数据库;3)ACCorpus_SA汉语普通话情感分析数据库;4)ACCorpus_FV人脸表情视频数据库;5)ACCorpus_FI人脸表情图像数据库.其中,ACCorpus_SR子库共由50位录音人(25男25女)对5类情感(中性、高兴、生气、恐惧和悲伤)演绎得到,16kHz采样,16bit量化.每个发音者的数据均包含语音情感段落和语音情感命令两种类型.

3.2维度情感数据库

对维度情感语音数据库的建立而言,由于维度情感描述模型的使用,使得数据的采集不再受情感类别的制约,理论上,蕴含任意情感信息的自然语音都可以被收纳到数据库中.然而,接下来的维度情感标注工作却显得并不轻松.目前而言,维度情感的标注工作一般都是基于打分制进行的(例如著名的情感标注工具FEELTRACE[5]),即要求标注者在各个情感维度上对语音中的情感程度进行听辨,并赋以合适的分值.然而看似简单的打分工作,实际上却伴随了标注者们“将主观情感直接量化为客观实数值”的思考过程,尤其是当数据量变得庞大时,相应的标注工作也会变得枯燥、劳累、令人难以忍受.近些年来,随着研究者们对维度情感识别领域的关注,尤其是维度情感识别竞赛(例如,2012年ContinuousAVEC2012[14])的开展,一些公开的维度情感数据库逐渐被发布出来.

3.2.1VAM数据库

VAM数据库[27]是一个以科学研究为目的的无偿数据库,通过对一个德语电视谈话节目“VeraamMittag”的现场录制得到,语音和视频被同时保存,因此,数据库包含语料库、视频库、表情库这3个部分.谈话内容均为无脚本限制、无情绪引导的纯自然交流.以VAM-audio库为例,该子库包含来自47位节目嘉宾的录音数据947句,wav格式,16kHz采样,16bit量化.所有数据以句子为单位进行保存(1018句),标注在Valence,Activation和Dominance这3个情感维度上进行,标注值处于-1~1之间.标注工作由多个标注者共同完成,最终的情感值是相关标注者的平均值.VAM-audio是一个应用较为广泛的情感语料库,在本文的后续研究中也会加以使用.

3.2.2Semaine数据库

Semaine[15]数据库是一个面向自然人机交互和人工智能研究的数据库,可供科研人员无偿使用(http://semaine-db.eu/).数据录制在人机交互的场景下进行,20个用户(22岁~60岁,8男12女)被要求与性格迥异的4个机器角色进行交谈(实际上,机器角色由工作人员扮演).这4个角色分别是:1)温和而智慧的Prudence;2)快乐而外向的Poppy;3)怒气冲冲的Spike和4)悲伤而抑郁的Obadiah.录音过程在专业配置录音室内进行,同时有5个高分辨率、高帧频摄像机和4个麦克风进行数据的收集,其中,音频属性为48kHz采样,24bit量化,数据时长在7小时左右.标注工作由多个参与者借助标注工具FEELTRACE[5]在Valence,Activation,Power,Expectation和Intensity这5个情感维度上进行.该数据库中的部分数据被用于AVEC2012的竞赛数据库[14].

3.3语音情感特征提取

当前,用于语音情感识别的声学特征大致可归纳为韵律学特征、基于谱的相关特征和音质特征这3种类型.这些特征常常以帧为单位进行提取,却以全局特征统计值的形式参与情感的识别.全局统计的单位一般是听觉上独立的语句或者单词,常用的统计指标有极值、极值范围、方差等.

3.3.1韵律学特征

韵律是指语音中凌驾于语义符号之上的音高、音长、快慢和轻重等方面的变化,是对语音流表达方式的一种结构性安排.它的存在与否并不影响我们对字、词、句的听辨,却决定着一句话是否听起来自然顺耳、抑扬顿挫.韵律学特征又被称为“超音段特征”或“超语言学特征”,它的情感区分能力已得到语音情感识别领域研究者们的广泛认可,使用非常普遍[28,29,30,31],其中最为常用的韵律特征有时长(duration)、基频(pitch)、能量(energy)等.

Luengo等人[31]在一个Basque情感语音数据的基础上进行了一系列的韵律特征分析研究,他们首先为每个情感语句提取能量和基频曲线和对数曲线,然后继续为各条曲线计算相应的一阶差分和二阶差分曲线,最后统计出每条曲线的最大值、最小值、均值、方差、变化范围、偏斜度(skewness)、峰度(kurtosis),从而获得了84个特征组成的韵律特征集.经过特征选择与分析,最后共有基频均值、能量均值、基频方差、基频对数的斜交、基频对数的动态范围和能量对数的动态范围这6维特征被认为具有最佳的情感区分能力.Origlia等人[32]使用基频和能量相关的最大值、最小值、均值、标准差组成了一个31维的韵律特征集,在一个包含有意大利语、法语、英语、德语在内的多语种情感语料库上取得接近60%的识别率.Seppänen等人[33]使用基频、能量、时长相关的43维全局韵律特征进行芬兰语的情感识别,在说话人不相关的情形下取得了60%的识别率.Iliou等人[30]和Wang等人[34]则分别将基频、能量、时长的韵律特征用于德语的说话人不相关的情感识别和汉语普通话情感的说话人相关的情感识别,分别得到了51%和88%的识别率.

除此之外,学者们还针对韵律特征与特定情感类型之间的关联上展开了研究[3,19,35,36,37,38],这些研究工作进一步验证了韵律特征区分情感的性能,但也出现了一些不甚一致的结论.例如,Murray等人认为,较快的语速与愤怒的情感相关;而Oster等人却在文献[35]中给出了相反的结论.再者,学者们还发现:韵律特征区的情感区分能力是十分有限的.例如,愤怒、害怕、高兴和惊奇的基频特征具有相似的表现[3,36].

3.3.2基于谱的相关特征

基于谱的相关特征被认为是声道(vocaltract)形状变化和发声运动(articulatormovement)之间相关性的体现[39],已在包括语音识别、话者识别等在内的语音信号处理领域有着成功的运用[40,41,42].Nwe等人[43]通过对情感语音的相关谱特征进行研究发现,语音中的情感内容对频谱能量在各个频谱区间的分布有着明显的影响.例如,表达高兴情感的语音在高频段表现出高能量,而表达悲伤的语音在同样的频段却表现出差别明显的低能量.近年来,有越来越多的研究者们将谱相关特征运用到语音情感的识别中来[43,44,45,46,47],并起到了改善系统识别性能的作用,相关谱特征的情感区分能力是不可忽视的.在语音情感识别任务中使用的线性谱特征(linear-basedspectralfeature)一般有:LPC(linearpredictorcoefficient)[36],OSALPC(one-sidedautocorrelationlinearpredictorcoefficient)[48],LFPC(log-frequencypowercoefficient)[43]等;倒谱特征(cepstral-basedspectralfeature)一般有:LPCC(linearpredictorcepstralcoefficient),OSALPCC(cepstral-basedOSALPC)[44],MFCC(mel-frequencycepstralcoefficient)等.

目前,对线性谱特征和倒谱特征情感区分能力高低的判定似乎并无定论.Bou-Ghazale[44]对倒谱特征和线性谱特征在压力语音检测(detectingspeechunderstress)任务中的性能表现进行了研究,研究发现,倒谱特征OSALPCC,LPCC和MFCC的区分能力明显优于线性谱特征LPC和OSALPC.然而,Nwe等人[43]却得出了相反的结论.具体地,HMM被用作分类器对包括生气、厌恶、恐惧、愉悦、悲伤和惊奇在内的6类情感进行话者相关的识别,结果表明,LFPC取得了77.1%的识别率,而LPCC和MFCC的识别率分别为56.1%和59.0%.

3.3.3声音质量特征

声音质量是人们赋予语音的一种主观评价指标,用于衡量语音是否纯净、清晰、容易辨识等[49].对声音质量产生影响的声学表现有喘息、颤音、哽咽等,并且常常出现在说话者情绪激动、难以抑制的情形之下[19].语音情感的听辨实验中,声音质量的变化被听辨者们一致认定为与语音情感的表达有着密切的关系[49].在语音情感识别研究中,用于衡量声音质量的声学特征一般有:共振峰频率及其带宽(formatfrequencyandbandwidth)、频率微扰和振幅微扰(jitterandshimmer)[50]、声门参数(glottalparameter)等.

Lugger等人[51,52,53]在一系列工作中提取第1和第4共振峰频率和相应的带宽作为声音质量特征,连同基频等韵律特征一起用于话者不相关的语音情感识别.Li等人[54]提取了频率微扰和振幅微扰作为声音质量参数对SUSAS数据库中的语料数据进行了说话人不相关的情感识别,HMM(hiddenMarkovmodel)被作为识别器.与仅使用MFCC的基线性能65.5%相比,MFCC和频率微扰的特征组合可以得到68.1%的识别率,MFCC和振幅微扰的特征组合可以得到68.5%的识别率,最佳性能69.1%由MFCC、频率微扰和振幅微扰的共同组合获得.相对前两类特征而言,声门参数的应用相应较少.一般地,人类的发声机制被建模为气流冲过声门,再通过声道进行滤波,继而输出的过程.从信号处理的角度来看,语音信号可视为声门激励信号和声道冲激响应的卷积.因此,提取声门参数的关键任务就是要去除语音中声道滤波的影响,从而获得声门激励相关的信号.然而,不论是激励信号还是声道滤波器的各项参数,我们都无从得知,仍需进一步估算,声门参数的提取可参见文献[49].

另外,Sun等人在文献[55]中对声门参数和基频、能量等韵律特征在情感识别中发挥的作用进行了比较和探讨.

3.3.4融合特征

上述3种特征分别从不同侧面对语音情感信息进行表达,自然会想到使用它们的融合用于语音情感的识别,从而达到提高系统识别性能的目的.目前,使用融合特征进行语音情感识别研究是本领域的主流方法[56,57,58,59,60].例如:Sanchez等人[56]将基频、能量、共振峰、谱倾斜(spectraltilt)的90维全局统计特征用于WCGS数据库中沮丧情绪的检测;Schuller等人[57]将过零率、能量、基频、声音质量、谐波噪声比、0~15阶MFCC等特征的

5967维相关统计量用于eNTERFACE[61]、柏林情感语料库EMO-DB[23]以及合成语料库的交叉数据库情感识别研究;Malandrakis等人[59]使用基频、强度、对数能量、过零率、频谱重心(spectralcentroid)、频谱通量(spectralflux)、MFCC、PLPC(perceptuallinearpredictioncoefficient)等特征的统计值用于电影维度情感的跟踪等.

3.3.5基于i-vector的特征

i-vecotr在近些年来的说话人识别领域有着广泛的应用,是一项将高维高斯混合模型(Gaussianmixturemodels,简称GMM)超向量空间映射到低维总变异空间的技术,然而在语音情感识别领域的应用还较为新颖.文献[62]提出使用串联结构的情感i-vector特征用于语音情感的识别,他们首先使用openSMILE提取1584维的声学特征,并使用这些特征为自然情感状态的语音训练得到一个通用模型(universalbackgroundmodel),然后在该通用模型的基础上为每类情感状态生成各自的GMM,继而得到每类情感状态的GMM超向量用于i-vector的生成.最后,对应于各个情感状态的i-vector被串连在一起作为支持向量机的输入,用于angry,happy,neutral,sad这4类语音情感的识别,取得了优于原始1584维声学特征的识别性能.

3.4语音情感识别算法研究进展

寻找合适的识别算法,是本领域研究者们一直以来为之不懈努力的一个目标.整体而言,依据情感描述模型的不同,当今语音情感识别系统所采用的识别算法可以分为如下两类.

3.4.1离散语音情感分类器

本文将基于离散情感描述模型的语音情感识别研究称作离散语音情感识别,它们一般被建模为标准的模式分类问题,即使用标准的模式分类器进行情感的识别[7].常用于语音情感识别领域的分类器,线性的有:NaïveBayesClassifier,LinearANN(artificialneuralnetwork),LinearSVM(supportvectormachine)等;非线性的有:DecisionTrees,k-NN(k-nearestneighboralgorithm),Non-linearANN,Non-linearSVM,GMM(Gaussianmixturemodel),HMM(hiddenMarkovmodel)以及稀疏表示分类器等.

如上所示,已有不少模式分类器被语音情感识别研究者们所尝试.其中,使用最为广泛的有HMM[43,63,64],GMM[65,66,67],ANN[68,69,70]和SVM[69,71].

Nwe等人[43]使用基于HMM的识别器用于6类情感的识别.具体地,LFPC,MFCC和LPCC被用作情感特征,为每个话者的每类情感构建一个四状态、全连接的HMM,一个缅甸语语料库和一个汉语普通话语料库被分别用于HMM的训练和测试,系统最优性能分别可达到78.5%和75.5%.Lee等人[64]分别以情感类别和音素类别为单位建立HMM模型,并在说话人不相关的情形下对模型性能进行测试.实验结果表明,基于音素类别的HMM模型具有更优的表现.

GMM是一种用于密度估计的概率模型[72],可以被看作是只包含一个状态的连续HMM模型[73].文献[65]中,GMM分类器被用于对面向婴儿的(infant-directed)KISMET数据库进行情感分类,并使用一种基于峰态模型的选择策略[74]对Gaussian成分的数量进行优化,由基频和能量的相关特征训练得到GMM模型最优性能可达到78.77%.Tang等人[66]针对语音情感识别构造了一种使用Boosting算法进行类条件分布估计的GMM模型,并称其为Boosted-GMM,与传统的使用EM(expectationmaximization)方法进行分布估计的EM-GMM相比,Boosted-GMM表现出更优的性能.

MLP(multi-layerperceptron)是语音情感识别中应用最为广泛的一种人工神经网络模型,这与MLP完善的工具包支撑和成熟的学习算法有着很大的关系.Nichoson等人[68]基于MLP建立了一个OCON(oneclassinoneneuralnetwork)网络模型,对包括joy,teasing,fear,sadness,disgust,anger,surprise和neutral在内的8种情感进行识别.该OCON模型由8个4层MLP网络和一个决策逻辑控制构成:每个子网络对应于一种情感类型的识别,并在输出层唯一的神经元处输出某测试语句属于某种情感的概率预测值,模型最终会将待识别语句的情感分配为具有最大输出值的子网络所对应的情感.文中使用的数据库是自行录制的,有100位话者参与录制.实验过程中,挑选其中30位话者的语料用于模型的训练,剩余70位话者的语料用于性能测试.实验结果表明,该模型的最优识别率为52.87%.Petrushin等人[69]对普通MLP和Bagging-MLP在语音情感识别中的性能进行了比较.Bagging是一种用于为一个分类器生成多个版本,从而合并为一个性能更为强大的聚合分类器的策略.实验结果表明,Bagging-MLP的性能与普通MLP网络相比提高了5.0%.

SVM分类器的关键在于核函数的运用,它负责将原始特征以非线性的方式映射到高维空间中,从而提高数据的可分性.SVM在语音情感识别领域有着广泛的应用,这里以文献[75]为例进行说明.文中共有3种策略被用来构建基于二分类SVM的多分类模型:前两种策略中都首先为每类情感构建一个二分类的SVM,不同的是,第1种策略将待识别语句分配给距离其余情感距离最远的情感类型,而第2种策略则将各个二分类SVM的输出作为一个3层MLP网络的输入,通过进一步的计算做出最终的分配决定;第3种策略被称为多层次的分类模型(hierarchicalclassificationmodel),各个SVM子分类器按照树形结构进行排列,从根节点开始由粗略到细致地实现情感的逐步划分,在叶节点处给出最终识别结果.实验结果表明:在FERMUSIII数据库[75]之上,3种策略的识别率分别为76.12%,75.45%和81.29%,第3种策略表现最优.

而稀疏表示分类器则是近年来随着压缩感知技术的兴起发展而来的一项分类技术.在文献[76]中,该分类器首先采用稀疏分解的方法,用训练样本对测试样本进行最稀疏表示,即把训练样本看作是一组基,通过求解1-范数最小化的方法得到测试样本的最稀疏表示系数,最后用测试样本与稀疏表示后的残差来进行分类.在柏林EMO-DB德语情感语音库上进行7类情感状态的识别时,取得了相比线性判别分类器、k-NN、ANN、SVM更好的识别性能.

3.4.2维度语音情感预测器

本文将基于维度情感描述模型的语音情感识别研究称为维度语音情感识别,它的出现与传统的离散语音情感识别相比较为新兴,但也已得到领域内研究者们越来越多的关注[7,8,9,10,11,77].该研究一般被建模为标准的回归预测问题,即使用回归预测算法对情感属性值进行估计,在当前的维度语音情感识别领域使用较多的预测算法有:LinearRegression,k-NN,ANN,SVR(supportvectorregression)等.其中,SVR因为性能稳定、训练时间短等优点应用得最为广泛.例如,Grimm等人[7]在VAM数据库[27]上对基于规则的逻辑分类器(rule-basedfuzzylogicclassifier)、k-NN和SVR在包括Valence,Activation和Dominance在内的三维情感属性上的预测能力进行比较,结果表明,SVR的预测能力更胜一筹.我们可以看出:相比离散情感分类器的繁荣发展,维度情感预测算法的研究较为薄弱,更多针对情感识别任务的高性能算法仍有待进一步加以开发.

3.5语音情感识别技术应用

语音情感识别在众多具有自然人机交互需求的领域内有着广泛的应用,例如:可以用于对电话服务中心(callcenter)用户紧急程度的分拣,从而提高服务质量[29].具体地,可通过及时发现负面情绪较为激烈的用户,并将他们的电话及时转接给人工客服,达到优化用户体验的目的;用于对汽车驾驶者的精神状态进行监控,从而在驾驶员疲劳的时候加以提醒[78,79],从而避免交通事故的发生;用于对远程网络课堂(E-learning)用户在学习过程中的情感状态进行监控,从而及时调整授课重点或者进度[80,81];用于对抑郁症患者的情感变化进行跟踪,从而作为疾病诊断和治疗的依据[82];用于辅助、指导自闭症儿童对情感理解和表达能力的学习[83]等.这些技术应用从算法实现要求上可分为实时类和性能类:实时类包括电话服务中心用户紧急程度分拣、驾驶员疲劳检测、E-learning学员情感监控等,这类应用的特点为对识别速度要求很高,但相对而言对识别准确性具有一定程度的容忍性;而性能类则对算法的识别效果有着较高的要求,例如抑郁症患者情绪跟踪等,因为此时的识别结果关系到医生对患者病情的判断以及治疗方案的定制,那么为了获得较高的识别性能,此时的技术实现可在一定程度上做出识别速度的妥协.

3.6结束语

本文在充分调研和深入分析的基础上对当今的语音情感识别领域研究进展进行了综述,其中重点介绍了语音情感识别研究中的几个关键问题,包括情感描述模型选取、情感语音数据库建立、语音情感相关声学特征提取、语音情感识别算法建模、语音情感识别技术应用等.可以说,自从该领域在20世纪末期被创立以来,在世界范围内的研究者们数十年的不懈努力下,语音情感识别研究取得了令人欢欣鼓舞的进步与发展.然而,鉴于“语音情感”其本身自有的复杂性,该领域仍旧面临着若干值得深入探索的问题.这里,我们基于大量的调研和近几年来的研究经验提出一些值得进一步挖掘的研究点,希望对本领域的其他研究者有所启发.

3.6.1情感语料问题

一个丰富、优质的情感语音数据库是开展语音情感计算研究的必要基础,可以为研究工作提供可靠的训练和测试用数据.然而,由于情感本身的复杂性,使得情感语音数据的采集和整理工作非常困难,进而导致了高质量的情感语料难以获取.尤其是相比于语音识别领域的大规模自然语音数据库以及音乐计算领域的海量歌曲数据库,现已公布的情感语料数据堪称稀少.对离散情感语音数据库而言,如何同时满足语料的自然度和情感的纯净度是其面临的最大挑战.虽然经历了数十年的发展和积累,也不断有数据库被录制和发布,但是,为研究者们所认可的高质量数据库却为数不多.对维度情感语音数据库的建立而言,困难不在于语料的获取,而在于语料的整理和情感的标注.为了将语料中的情感量化为精确的实数值,标注者担负了繁重的听辨和打分工作,并且标注结果的好坏、正误也难以评判.当前,已有的维度情感语音数据库资源仍较为稀少.面对语料资源的上述现状,应该如何对现有资源进行补充和丰富?能否通过技术手段对训练语料的选择进行系统的指引和帮助?都是研究者们亟待解决的实际问题.

3.6.2情感与声学特征之间的关联问题

语音情感识别的最终目标是人脑的识别水平.从情感语音信号的形成开始,计算机与人脑的情感识别机制的最初差异就是情感相关声学特征的提取以及情感与声学特征之间的关联方式的确定.因此,如果计算机不能准确地或者以尽可能接近人类的方式对情感语音进行声学特征提取并加以正确的关联和映射,就会使得计算机语音情感识别系统被建立于一个偏离实际的基础之上,从而导致其后的识别机制与人脑处理机制间的差距越来越大,无法达到期望的效果.然而,目前并没有一个相当于语音识别领域中的Mel倒谱系数同样地位的情感声学特征被提出.一般情况下,研究者们使用包括韵律学、声音质量、频谱在内的多种相关声学特征的合集作为语音情感特征的代表.因此,如何从现有的声学特征中选择区分能力最优的特征子集、如何探究与情感表达关联更加密切的新特征都是当前领域内十分重要的研究课题.并且一般认为,基于语句时长的全局特征与情感状态之间的关联最为紧密,因为它可以在一定程度上削弱文本差异对声学特征的干扰.然而,这种所谓的干扰削弱,却是以减弱部分表征情感状态的声学特征的细节效用为代价的.从该角度来看,如何界定情感声学特征的最优提取时长,抑或是对不同时长的声学特征进行融合,也都是不容忽略的研究课题.

3.6.3语音情感识别的建模问题

构建合理、高效的语音情感识别模型是语音情感识别研究的重中之重,它负责对大量的训练语料进行学习,从中挖掘由各种声学特征通往对应情感状态的映射通路,从而实现对测试语料情感状态的正确判断与识别.理想的语音情感识别模型应该是对人脑语音情感处理机制的模拟和重建,然而,由于人脑情感处理机制的复杂性以及目前的认知科学水平,当前领域内构建的识别模型仍停留在功能模拟的水平,与机制模拟的目标还存在一定的差距.例如,离散情感识别任务一般被建模为普通的模式分类器,而维度情感识别任务一般被建模为标准的回归预测问题.那么,如何在现有的认知科学水平之上,以尽可能贴近人脑情感处理机制的方式来构建语音情感识别模型,是一项艰巨却有着重大意义的任务.

3.6.4语音情感识别技术的推广问题

伴随着人机语音交互技术的不断发展,越来越多的语音交互技术从实验室环境进入了商业应用,并对人们的生活方式产生着影响.例如,midomi哼唱检索网络使用的分布式旋律比对技术(http://www.midomi.com)、苹果公司的Siri语音搜索软件使用的分布式语音识别及合成技术等.然而,鉴于语音情感识别的新兴性,目前并没有成熟的相关应用问世.利用互联网平台推广语音情感识别技术的应用,对于加快人机交互的情感智能化进程有着非常重要的实际意义,应当给予足够的重视.

语音识别领域近30年经典论文合集

Opencv之python下车牌识别

sy_syx:请问解决了吗我也是这个问题

Opencv之python下车牌识别

baiduren7997:img,contours,hierarchy=cv2.findContours(close_car,cv2.RETR_EXTERNAL,cv2.CHAIN_APPROX_NONE)ValueError:notenoughvaluestounpack(expected3,got2)怎么办呀博主

opencv4nodejs安装

qq_45718853:解决了么?我现在也遇到了这个问题

关于对象不能直接访问私有成员的超级大误区~

九河_:太感谢了,一下就懂了!

Opencv之cv2.minAreaRect

weixin_53423534:请问大佬这个点集的类型可以是浮点型吗,我用小数就会报错

深度学习在图像识别中的研究进展与展望

深度学习在图像识别中的研究进展与展望

深度学习是近十年来人工智能领域取得的最重要的突破之一。它在语音识别、自然语言处理、计算机视觉、图像与视频分析、多媒体等诸多领域都取得了巨大成功。本文将重点介绍深度学习在物体识别、物体检测、视频分析的最新研究进展,并探讨其发展趋势。

 

1、深度学习发展历史的回顾

现在的深度学习模型属于神经网络。神经网络的历史可以追溯到上世纪四十年代,曾经在八九十年代流行。神经网络试图通过大脑认知的机理,解决各种机器学习的问题。1986年Rumelhart、Hinton和Williams在《自然》发表了著名的反向传播算法用于训练神经网络[1],直到今天仍然被广泛使用。

但是后来由于种种原因,大多数学者在相当长的一段时间内放弃了神经网络。神经网络有大量的参数,经常发生过拟合问题,即往往在训练集上准确率很高,而在测试集上效果差。这部分归因于当时的训练数据集规模都较小。而且计算资源有限,即便是训练一个较小的网络也需要很长的时间。总体而言,神经网络与其它模型相比并未在识别的准确率上体现出明显的优势,而且难于训练。

因此更多的学者开始采用诸如支持向量机、Boosting、最近邻等分类器。这些分类器可以用具有一个或两个隐含层的神经网络模拟,因此被称作浅层机器学习模型。它们不再模拟大脑的认知机理;相反,针对不同的任务设计不同的系统,并采用不同的手工设计的特征。例如语音识别采用高斯混合模型和隐马尔可夫模型,物体识别采用SIFT特征,人脸识别采用LBP特征,行人检测采用HOG特征。

2006年,GeoffreyHinton提出了深度学习,之后深度学习在诸多领域取得了巨大成功,受到广泛关注。神经网络能够重新焕发青春的原因有几个方面。首先是大数据的出现在很大程度上缓解了训练过拟合的问题。例如ImageNet[2]训练集拥有上百万有标注的图像。计算机硬件的飞速发展提供了强大的计算能力,使得训练大规模神经网络成为可能。一片GPU可以集成上千个核。此外神经网络的模型设计和训练方法都取得了长足的进步。例如,为了改进神经网络的训练,学者提出了非监督和逐层的预训练。它使得在利用反向传播对网络进行全局优化之前,网络参数能达到一个好的起始点,从而训练完成时能达到一个较好的局部极小点。

深度学习在计算机视觉领域最具影响力的突破发生在2012年,Hinton的研究小组采用深度学习赢得了ImageNet[2]图像分类的比赛[3]。ImageNet是当今计算机视觉领域最具影响力的比赛之一。它的训练和测试样本都来自于互联网图片。训练样本超过百万,任务是将测试样本分成1000类。自2009年,包括工业界在内的很多计算机视觉小组都参加了每年一度的比赛,各个小组的方法逐渐趋同。在2012年的比赛中,排名2到4位的小组都采用的是传统的计算机视觉方法,手工设计的特征,他们准确率的差别不超过1%。Hinton的研究小组是首次参加比赛,深度学习比第二名超出了10%以上。这个结果在计算机视觉领域产生了极大的震动,掀起了深度学习的热潮。

计算机视觉领域另一个重要的挑战是人脸识别。LabeledFacesintheWild(LFW)[4]是当今最著名的人脸识别测试集,创建于2007年。在此之前,人脸识别测试集大多采集于实验室可控的条件下。LFW从互联网收集了五千多个名人的人脸照片,用于评估人脸识别算法在非可控条件下的性能。这些照片往往具有复杂的光线、表情、姿态、年龄和遮挡等方面的变化。

LFW的测试集包含了6000对人脸图像。其中3000对是正样本,每对的两张图像属于同一个人;剩下3000对是负样本,每对的两张图像属于不同的人。随机猜的准确率是50%,有研究表明[5],如果只把不包括头发在内的人脸的中心区域给人看,人眼在LFW测试集上的识别率是97.53%。如果把整张图像,包括背景和头发给人看,人眼的识别率是99.15%。经典的人脸识别算法Eigenface[6]在这个测试集上只有60%的识别率。在非深度学习的算法中,最好的识别率是96.33%[7]。目前深度学习可以到达99.47%的识别率[8]。

在学术界收到广泛关注的同时,深度学习也在工业界产生了巨大的影响。在Hinton的科研小组赢得ImageNet比赛之后6个月,谷歌和百度都发布了新的基于图像内容的搜索引擎。他们沿用了Hinton在ImageNet竞赛中用的深度学习模型,应用在各自的数据上,发现图像搜索的准确率得到了大幅度的提高。百度在2012年就成立了深度学习研究院,于2014年五月又在美国硅谷成立了新的深度学习实验室,聘请斯坦福著名教授吴恩达担任首席科学家。Facebook于2013年12月在纽约成立了新的人工智能实验室,聘请深度学习领域的著名学者,卷积网络的发明者YannLeCun作为首席科学家。2014年1月,谷歌四亿美金收购了一家深度学习的创业公司,DeepMind。鉴于深度学习在学术和工业界的巨大影响力,2013年MITTechnologyReview将其列为世界十大技术突破之首。

 

2、深度学习有何与众不同?

许多人会问,深度学习和其它机器学习方法相比有哪些关键的不同点,它成功的秘密在哪里?我们下面将对这些从几个方面作简要的阐述。

2.1、特征学习

深度学习与传统模式识别方式的最大不同在于它是从大数据中自动学习特征,而非采用手工设计的特征。好的特征可以极大提高模式识别系统的性能。在过去几十年模式识别的应用中,手工设计的特征处于同统治地位。它主要依靠设计者的先验知识,很难利用大数据的优势。由于依赖手工调参数,特征的设计中只允许出现少量的参数。深度学习可以从大数据中自动学习特征的表示,其中可以包含成千上万的参数。手工设计出有效的特征是一个相当漫长的过程。回顾计算机视觉发展的历史,往往需要五到十年才能出现一个受到广泛认可的好的特征。而深度学习可以针对新的应用从训练数据中很快学习得到新的有效的特征表示。

一个模式识别系统包含特征和分类器两个主要的组成部分,二者关系密切,而在传统的方法中它们的优化是分开的。在神经网络的框架下,特征表示和分类器是联合优化的,可以最大程度发挥二者联合协作的性能。以2012年Hinton参加ImageNet比赛所采用的卷积网络模型[9]为例,这是他们首次参加ImageNet图像分类比赛,因此没有太多的先验知识。模型的特征表示包含了6千万个参数,从上百万样本中学习得到。令人惊讶的是,从ImageNet上学习得到的特征表示具有非常强的泛化能力,可以成功地应用到其它的数据集和任务,例如物体检测、跟踪和检索等等。在计算机视觉领域另外一个著名的竞赛是PSACALVOC。但是它的训练集规模较小,不适合训练深度学习模型。有学者将ImageNet上学习得到的特征表示用于PSACALVOC上的物体检测,将检测率提高了20%[10]。

既然特征学习如此重要,什么是好的特征呢?一副图像中,各种复杂的因素往往以非线性的方式结合在一起。例如人脸图像中就包含了身份、姿态、年龄、表情和光线等各种信息。深度学习的关键就是通过多层非线性映射将这些因素成功的分开,例如在深度学习模型的最后一个隐含层,不同的神经元代表了不同的因素。如果将这个隐含层当作特征表示,人脸识别、姿态估计、表情识别、年龄估计就会变得非常简单,因为各个因素之间变成了简单的线性关系,不再彼此干扰。

 

2.2、深层结构的优势

深度学习模型意味着神经网络的结构深,由很多层组成。而支持向量机和Boosting等其它常用的机器学习模型都是浅层结构。有理论证明,三层神经网络模型(包括输入层、输出层和一个隐含层)可以近似任何分类函数。既然如此,为什么需要深层模型呢?

理论研究表明,针对特定的任务,如果模型的深度不够,其所需要的计算单元会呈指数增加。这意味着虽然浅层模型可以表达相同的分类函数,其需要的参数和训练样本要多得多。浅层模型提供的是局部表达。它将高维图像空间分成若干个局部区域,每个局部区域存储至少一个从训练数据中获得的模板。浅层模型将一个测试样本和这些模板逐一匹配,根据匹配的结果预测其类别。例如在支持向量机模型中,这些模板就是支持向量;在最近邻分类器中,这些模板是所有的训练样本。随着分类问题复杂度的增加,图像空间需要被划分成越来越多的局部区域,因而需要越来越多的参数和训练样本。

深度模型能够减少参数的关键在于重复利用中间层的计算单元。例如,它可以学习针对人脸图像的分层特征表达。最底层可以从原始像素学习滤波器,刻画局部的边缘和纹理特征;通过对各种边缘滤波器进行组合,中间滤波器可以描述不同类型的人脸器官;最高层描述的是整个人脸的全局特征。深度学习提供的是分布式的特征表示。在最高的隐含层,每个神经元代表了一个属性分类器,例如男人种和头发颜色等等。每个神经元将图像空间一分为二,N个神经元的组合就可以表达2N个局部区域,而用浅层模型表达这些区域的划分至少需要2N个模板。由此我们可以看出深度模型的表达能力更强,更具效率。

 

2.5、提取全局特征和上下文信息的能力

深度模型具有强大的学习能力,高效的特征表达能力,从像素级原始数据到抽象的语义概念逐层提取信息。这使得它在提取图像的全局特征和上下文信息方面具有突出的优势。这为解决一些传统的计算机视觉问题,如图像分割和关键点检测,带来了新的思路。以人脸的图像分割为例,为了预测每个像素属于哪个脸部器官(眼睛、鼻子、嘴、头发),通常的作法是在该像素周围取一个小的区域,提取纹理特征(例如局部二值模式),再基于该特征利用支持向量机等浅层模型分类。因为局部区域包含信息量有限,往往产生分类错误,因此要对分割后的图像加入平滑和形状先验等约束。事实上即使存在局部遮挡的情况下,人眼也可以根据脸部其它区域的信息估计被遮挡处的标注。这意味着全局和上下文的信息对于局部的判断是非常重要的,而这些信息在基于局部特征的方法中从最开始阶段就丢失了。

理想的情况下,模型应该将整幅图像作为输入,直接预测整幅分割图。图像分割可以被当作一个高维数据转换的问题来解决。这样不但利用到了上下文信息,模型在高维数据转换过程中也隐式地加入了形状先验。但是由于整幅图像内容过于复杂,浅层模型很难有效地捕捉全局特征。深度学习的出现使这一思路成为可能,在人脸分割[11]、人体分割[12]、人脸图像配准[13]和人体姿态估计等各个方面都取得了成功[14]。

 

2.4、联合深度学习

一些计算机视觉将深度学习模型视为黑盒子,这种看法是不全面的。事实上我们可以发现传统计算机视觉系统和深度学习模型存在着密切的联系,而且可以利用这种联系提出新的深度模型和新的训练方法。这方面一个成功的例子是用于行人检测的联合深度学习[15]。一个计算机视觉系统包含了若干关键的组成模块。例如一个行人检测器就包含了特征提取、部件检测器、部件几何形变建模、部件遮挡推理、分类器等等。在联合深度学习中[15],深度模型的各个层和视觉系统的各个模块可以建立起对应关系。如果视觉系统中一些有效的关键模块在现有深度学习的模型中没有与之对应的层,它们可以启发我们提出新的深度模型。例如大量物体检测的研究工作证明对物体部件的几何形变建模可以有效地提高检测率,但是在常用的深度模型中没有与之相对应的层。于是联合深度学习[15]及其后续的工作[16]都提出了新的形变层和形变池化层实现这一功能。

从训练方式上看,计算机视觉系统的各个模块是逐一训练或手工设计的;在深度模型的预训练阶段,各个层也是逐一训练的。如果我们能够建立起计算机视觉系统和深度模型之间的对应关系,在视觉研究中积累的经验可以对深度模型的预训练提供指导。这样预训练后得到的模型至少可以到达与传统计算机视觉系统可比的结果。在此基础上,深度学习还会利用反向传播对所有的层进行联合优化,使它们之间的相互协作达到最优,从而使整个网络的性能得到重大提升。

 

3、深度学习在物体识别中的应用

 

3.1、ImageNet图像分类

深度学习在物体识别中最重要的进展体现在ImageNetILSVRC挑战中的图像分类任务。传统计算机视觉方法在这个测试集上最低的top5错误率是26.172%。2012年Hinton的研究小组利用卷积网络在这个测试集上把错误率大幅度降到15.315%。这个网络的结构被称作AlexNet[3]。与传统的卷积网络相比,它有三点比较重要的不同。首先是采用了dropout的训练策略,在训练过程中将一些输入层和中间层的神经元随机置零。这模拟了由于噪音和对输入数据的各种干扰,从而使一些神经元对一些视觉模式产生漏检的情况。Dropout使训练过程收敛更慢,但得到的网络模型更加鲁棒。其次,它采用整流线型单元作为非线性的激发函数。这不仅大大降低了计算的复杂度,而且使神经元的输出具有稀疏的性质。稀疏的特征表示对各种干扰更加鲁棒。第三,它通过对训练样本镜像映射,和加入随机平移扰动产生了更多的训练样本,以减少过拟合。

ImageNetILSVRC2013比赛中,排名前20的小组使用的都是深度学习,其影响力可见一斑。获胜者是来自纽约大学RobFergus的研究小组,所采用的深度模型还是卷积网络,对网络结构作了进一步优化。Top5错误率降到11.197%,其模型称作Clarifai[17]。

2014年深度学习又取得了重要进展,在ILSVRC2014比赛中,获胜者GooLeNet[18]将top5错误率降到6.656%。它突出的特点是大大增加了卷积网络的深度,超过20层,这在之前是不可想象的。很深的网络结构给预测误差的反向传播带了困难。因为预测误差是从最顶层传到底层的,传到底层的误差很小,难以驱动底层参数的更新。GooLeNet采取的策略是将监督信号直接加到多个中间层,这意味着中间和低层的特征表示也需要能够准确对训练数据分类。如何有效地训练很深的网络模型仍是未来研究的一个重要课题。虽然深度学习在ImageNet上取得了巨大成功,但是一个现实的问题是,很多应用的训练集是较小的,如何在这种情况下应用深度学习呢?有三种方法可供读者参考。(1)可以将ImageNet上训练得到的模型作为起点,利用目标训练集和反向传播对其进行继续训练,将模型适应到特定的应用[10]。ImageNet起到预训练的作用。(2)如果目标训练集不够大,也可以将低层的网络参数固定,沿用ImageNet上的训练集结果,只对上层进行更新。这是因为底层的网络参数是最难更新的,而从ImageNet学习得到的底层滤波器往往描述了各种不同的局部边缘和纹理信息,而这些滤波器对一般的图像有较好的普适性。(3)直接采用ImageNet上训练得到的模型,把最高的隐含层的输出作为特征表示,代替常用的手工设计的特征[19][20]。

 

3.2、人脸识别

深度学习在物体识别上的另一个重要突破就是人脸识别。人脸识别最大的挑战在于如何区分由于光线、姿态和表情等因素引起的类内变化和由于身份不同产生的类间变化。这两种变化分布是非线性的且极为复杂,传统的线性模型无法将它们有效区分开。深度学习的目的是通过多层的非线性变换得到新的特征表示。该特征须要尽可能多地去掉类内变化,而保留类间变化。

人脸识别有两种任务,人脸确认和人脸辨识。人脸确认的任务是判断两张人脸照片是否属于同一个人,属于二分类问题,随机猜的正确率是50%。人脸辨识的任务是将一张人脸图像分为N个类别之一,类别是由人脸的身份定义的。这是个多分类问题,更具挑战性,其难度随着类别数的增多而增大,随机猜的正确率是1/N。两个任务都可以用来通过深度模型学习人脸的特征表达。

2013年,[21]采用人脸确认任务作为监督信号,利用卷积网络学习人脸特征,在LFW上取得了92.52%的识别率。这个结果虽然与后续的深度学习方法相比较低,但也超过了大多数非深度学习的算法。由于人脸确认是一个二分类的问题;用它学习人脸特征效率比较低。这个问题可以从几个方面理解。深度学习面临的一个主要问题是过拟合。作为一个二分类问题,人脸确认任务相对简单,容易在训练集上发生过拟合。与之不同,人脸辨识是一个极具挑战性的多分类问题,不容易发生过拟合,更适合通过深度模型学习人脸特征。另一方面,在人脸确认中,每一对训练样本被人工标定成两类之一,所含信息量较少。而在人脸辨识中,每个训练样本都被人工标注成N类之一,信息量要大的多。

2014年CVPR,DeepID[22]和DeepFace[23]都采用人脸辨识作为监督信号,在LFW上取得了97.45%和97.35%的识别率。他们利用卷积网络预测N维标注向量,将最高的隐含层作为人脸特征。这一层在训练过程中要区分大量的人脸类别(例如在DeepID中要区分1000类人脸),因此包含了丰富类间变化的信息,而且有很强的泛化能力。虽然训练中采用的是人脸辨识任务,得到特征可以应用到人脸确认任务,以及识别训练集中没有新人。例如LFW上用于测试的任务是人脸确认任务,不同于训练中采用的人脸辨识任务;DeepID[22]和DeepFace[23]的训练集与LFW测试集的人物身份是不重合的。

通过人脸辨识任务学习得到的人脸特征包含了较多的类内变化。DeepID2[24]联合使用人脸确认和人脸辨识作为监督信号,得到的人脸特征在保持类间变化的同时最小类内变化,从而将LFW上的人脸识别率提高到99.15%。利用TitanGPU,DeepID2提取一副人脸图像的特征只需要35毫秒,而且可以离线进行。经过PCA压缩最终得到80维的特征向量,可以用于快速人脸在线比对。在后续的工作中,DeepID2+[25]对DeepID2通过加大网络结构,增加训练数据,以及在每一层都加入监督信息进行了进一步改进,在LFW达到了99.47%的识别率。

一些人任务深度学习的成功在于用具有大量参数的复杂模型去拟合数据集。这个看法也是不全面的。事实上,进一步的研究[25]表明DeepID2+的特征有很多重要有趣的性质。例如,它最上层的神经元响应是中度稀疏的,对人脸身份和各种人脸属性具有很强的选择性,对局部遮挡有很强的鲁棒性。以往的研究中,为了得到这些属性,我们往往需要对模型加入各种显示的约束。而DeepID2+通过大规模学习自动拥有了这些引人注目的属性,其背后的理论分析值得未来进一步研究。

 

4、深度学习在物体检测中的应用

深度学习也对图像中的物体检测带来了巨大提升。物体检测是比物体识别更难的任务。一副图像中可能包含属于不同类别的多个物体,物体检测需要确定每个物体的位置和类别。深度学习在物体检测中的进展也体现在ImageNetILSVRC挑战中。2013年比赛的组织者增加了物体检测的任务,需要在四万张互联网图片中检测200类物体。当年的比赛中赢得物体检测任务的方法使用的依然是手动设计的特征,平均物体检测率,即meanAveragedPrecision(mAP),只有22.581%。在ILSVRC2014中,深度学习将mAP大幅度提高到43.933%。较有影响力的工作包括RCNN[10]、Overfeat[26]、GoogLeNet[18]、DeepID-Net[27]、networkinnetwork[28]、VGG[29]和spatialpyramidpoolingindeepCNN[30]。被广泛采用的基于深度学习的物体检测流程是在RCNN[10]中提出的。首先采用非深度学习的方法(例如selectivesearch[31])提出候选区域,利用深度卷积网络从候选区域提取特征,然后利用支持向量机等线性分类器基于特征将区域分为物体和背景。DeepID-Net[27]将这一流程进行了进一步的完善使得检测率有了大幅提升,并且对每一个环节的贡献做了详细的实验分析。此外深度卷积网络结构的设计也至关重要。如果一个网络结构能够提高图像分类任务的准确性,通常也能使物体检测器的性能显著提升。

深度学习的成功现在行人检测上。在最大的行人检测测试集(Caltech[32])上,被广泛采用的HOG特征和可变部件模型[33]平均误检率是68%。目前基于深度学习最好的结果是20.86%[34]。在最新的研究进展中,很多在物体检测中已经被证明行之有效的思路都有其在深度学习中的实现。例如,联合深度学习[15]提出了形变层,对物体部件间的几何变形进行建模;多阶段深度学习[35]可以模拟在物体检测中常用的级联分类器;可切换深度网络[36]可以表达物体各个部件的混合模型;[37]通过迁移学习将一个深度模型行人检测器自适应到一个目标场景。

 

 

5、深度学习用于视频分析

深度学习在视频分类上的应用总体而言还处于起步阶段,未来还有许多工作要做。描述视频的静态图像特征,可以采用从ImageNet上学习得到的深度模型;难点是如何描述动态特征。以往的视觉方法中,对动态特征的描述往往依赖于光流估计,对关键点的跟踪,和动态纹理。如何将这些信息体现在深度模型中是个难点。最直接的做法是将视频视为三维图像,直接应用卷积网络[38],在每一层学习三维滤波器。但是这一思路显然没有考虑到时间维和空间维的差异性。另外一种简单但更加有效的思路是通过预处理计算光流场,作为卷积网络的一个输入通道[39]。也有研究工作利用深度编码器(deepautoencoder)以非线性的方式提取动态纹理[40],而传统的方法大多采用线性动态系统建模。在一些最新的研究工作中[41],长短记忆网络[LSTM]正在受到广泛关注,它可以捕捉长期依赖性,对视频中复杂的动态建模。

 

6、未来发展的展望

深度学习在图像识别中的发展方兴未艾,未来有着巨大的空间。本节对几个可能的方向进行探讨。在物体识别和物体检测中正趋向于使用更大更深的网络结构。ILSVRC2012中AlexNet只包括了5个卷积层和两个全连接层。而ILSVRC2014中GooLeNet和VGG使用的网络结构都超过了20层。更深的网络结构使得方向传播更加困难。与此同时训练数据的规模也在迅速增加。这迫切需要研究新的算法和开发新的并行计算系统更加有效的利用大数据训练更大更深的模型。

与图像识别相比,深度学习在视频分类中的应用还远未成熟。从ImageNet训练得到的图像特征可以直接有效地应用到各种与图像相关的识别任务(例如图像分类、图像检索、物体检测和图像分割等等),和其它不同的图像测试集,具有良好的泛化性能。但是深度学习至今还没有类似的可用于视频分析的特征。要达到这个目的,不但要建立大规模的训练数据集([42]最新建立了包含一百万YouTube视频的数据库),还需要研究适用于视频分析的新的深度模型。此外训练用于视频分析的深度模型的计算量也会大大增加。

在与图像和视频相关的应用中,深度模型的输出预测(例如分割图或物体检测框)往往具有空间和时间上的相关性。因此研究具有结构性输出的深度模型也是一个重点。虽然神经网络的目的在于解决一般意义的机器学习问题,领域知识对于深度模型的设计也起着重要的作用。在与图像和视频相关的应用中,最成功的是深度卷积网络,它正是利用了与图像的特殊结构。其中最重要的两个操作,卷积和池化(pooling)都来自于与图像相关的领域知识。如何通过研究领域知识,在深度模型中引入新的有效的操作和层,对于提高图像识别的性能有着重要意义。例如池化层带来了局部的平移不变性,[27]中提出的形变池化层在此基础上更好的描述了物体各个部分的几何形变。在未来的研究中,可以将其进一步扩展,从而取得旋转不变性、尺度不变性、和对遮挡的鲁棒性。

通过研究深度模型和传统计算机视觉系统之间的关系,不但可以帮助我们理解深度学习成功的原因,还可以启发新的模型和训练方法。联合深度学习[15]和多阶段深度学习[35]是两个例子,未来这方面还可以有更多的工作。最然深度学习在实践中取得了巨大成功,通过大数据训练得到的深度模型体现出的特性(例如稀疏性、选择性、和对遮挡的鲁棒性[22])引人注目,其背后的理论分析还有许多工作需要在未来完成。例如,何时收敛,如何取得较好的局部极小点,每一层变换取得了那些对识别有益的不变性,又损失了那些信息等等。最近Mallat利用小波对深层网络结构进行了量化分析[43],是在这一个方向上的重要探索。

深度学习在图像识别上的巨大成功,必将对于多媒体相关的各种应用产生重大影响。我们期待着更多的学者在不久的将来研究如何利用深度学习得到的图像特征,推动各种应用的快速进步。

 

7、结束语

2012年以来,深度学习极大的推动了图像识别的研究进展,突出体现在ImageNetILSVRC和人脸识别,而且正在快速推广到与图像识别相关的各个问题。深度学习的本质是通过多层非线性变换,从大数据中自动学习特征,从而替代手工设计的特征。深层的结构使其具有极强的表达能力和学习能力,尤其擅长提取复杂的全局特征和上下文信息,而这是浅层模型难以做到的。一副图像中,各种隐含的因素往往以复杂的非线性的方式关联在一起,而深度学习可以使这些因素分级开,在其最高隐含层不同神经元代表了不同的因素,从而使分类变得简单。

深度模型并非黑盒子,它与传统的计算机视觉系统有着密切的联系,但是它使得这个系统的各个模块(即神经网络的各个层)可以联合学习,整体优化,从而性能得到大幅度提升。与图像识别相关的各种应用也在推动深度学习在网络结构、层的设计和训练方法各个方面的快速发展。我们可以预见在未来的数年内,深度学习将会在理论、算法、和应用各方面进入高速发展的时期,期待着愈来愈多精彩的工作对学术和工业界产生深远的影响。

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

国内外语音识别技术发展现状探讨

语音识别的意思是将人说话的内容和意思转换为计算机可读的输入,例如按键、二进制编码或者字符序列等。与说话人的识别不同,后者主要是识别和确认发出语音的人而非其中所包含的内容。语音识别的目的就是让机器听懂人类口述的语言,包括了两方面的含义:第一是逐字逐句听懂而不是转化成书面的语言文字;第二是对口述语言中所包含的命令或请求加以领会,做出正确回应,而不仅仅只是拘泥于所有词汇的正确转换。

自从1952年,AT&TBell实验室的Davis等人研制了第一个可十个英文数字的特定人语音增强系统一Audry系统1956年,美国普林斯顿大学RCA实验室的Olson和Belar等人研制出能10个单音节词的系统,该系统采用带通滤波器组获得的频谱参数作为语音增强特征。1959年,Fry和Denes等人尝试构建音素器来4个元音和9个辅音,并采用频谱分析和模式匹配进行决策。这就大大提高了语音识别的效率和准确度。从此计算机语音识别的受到了各国科研人员的重视并开始进入语音识别的研究。60年代,苏联的Matin等提出了语音结束点的端点检测,使语音识别水平明显上升;Vintsyuk提出了动态编程,这一提法在以后的识别中不可或缺。60年代末、70年代初的重要成果是提出了信号线性预测编码(LPC)技术和动态时间规整(DTW)技术,有效地解决了语音信号的特征提取和不等长语音匹配问题;同时提出了矢量量化(VQ)和隐马尔可夫模型(HMM)理论。语音识别技术与语音合成技术结合使人们能够摆脱键盘的束缚,取而代之的是以语音输入这样便于使用的、自然的、人性化的输入方式,它正逐步成为信息技术中人机接口的关键技术。

一:语音识别技术发展现状-语音识别系统的分类

语音识别系统可以根据对输入语音的限制加以分类。如果从说话者与识别系统的相关性考虑,可以将识别系统分为三类:

(1)特定人语音识别系统。仅考虑对于专人的话音进行识别。

(2)非特定人语音系统。识别的语音与人无关,通常要用大量不同人的语音数据库对识别系统进行学习。

(3)多人的识别系统。通常能识别一组人的语音,或者成为特定组语音识别系统,该系统仅要求对要识别的那组人的语音进行训练。

如果从说话的方式考虑,也可以将识别系统分为三类:

(1)孤立词语音识别系统。孤立词识别系统要求输入每个词后要停顿。

(2)连接词语音识别系统。连接词输入系统要求对每个词都清楚发音,一些连音现象开始出现。

(3)连续语音识别系统。连续语音输入是自然流利的连续语音输入,大量连音和变音会出现。

如果从识别系统的词汇量大小考虑,也可以将识别系统分为三类:

(1)小词汇量语音识别系统。通常包括几十个词的语音识别系统。

(2)中等词汇量的语音识别系统。通常包括几百个词到上千个词的识别系统。

(3)大词汇量语音识别系统。通常包括几千到几万个词的语音识别系统。随着计算机与数字信号处理器运算能力以及识别系统精度的提高,识别系统根据词汇量大小进行分类也不断进行变化。目前是中等词汇量的识别系统,将来可能就是小词汇量的语音识别系统。这些不同的限制也确定了语音识别系统的困难度。

二:语音识别技术发展现状-语音识别的方法汇总分析

目前具有代表性的语音识别方法主要有动态时间规整技术(DTW)、隐马尔可夫模型(HMM)、矢量量化(VQ)、人工神经网络(ANN)、支持向量机(SVM)等方法。

动态时间规整算法(DynamicTimeWarping,DTW)是在非特定人语音识别中一种简单有效的方法,该算法基于动态规划的思想,解决了发音长短不一的模板匹配问题,是语音识别技术中出现较早、较常用的一种算法。在应用DTW算法进行语音识别时,就是将已经预处理和分帧过的语音测试信号和参考语音模板进行比较以获取他们之间的相似度,按照某种距离测度得出两模板间的相似程度并选择最佳路径。

隐马尔可夫模型(HMM)是语音信号处理中的一种统计模型,是由Markov链演变来的,所以它是基于参数模型的统计识别方法。由于其模式库是通过反复训练形成的与训练输出信号吻合概率最大的最佳模型参数而不是预先储存好的模式样本,且其识别过程中运用待识别语音序列与HMM参数之间的似然概率达到最大值所对应的最佳状态序列作为识别输出,因此是较理想的语音识别模型。

矢量量化(VectorQuantization)是一种重要的信号压缩方法。与HMM相比,矢量量化主要适用于小词汇量、孤立词的语音识别中。其过程是将若干个语音信号波形或特征参数的标量数据组成一个矢量在多维空间进行整体量化。把矢量空间分成若干个小区域,每个小区域寻找一个代表矢量,量化时落入小区域的矢量就用这个代表矢量代替。矢量量化器的设计就是从大量信号样本中训练出好的码书,从实际效果出发寻找到好的失真测度定义公式,设计出最佳的矢量量化系统,用最少的搜索和计算失真的运算量实现最大可能的平均信噪比。

在实际的应用过程中,人们还研究了多种降低复杂度的方法,包括无记忆的矢量量化、有记忆的矢量量化和模糊矢量量化方法。

人工神经网络(ANN)是20世纪80年代末期提出的一种新的语音识别方法。其本质上是一个自适应非线性动力学系统,模拟了人类神经活动的原理,具有自适应性、并行性、鲁棒性、容错性和学习特性,其强大的分类能力和输入—输出映射能力在语音识别中都很有吸引力。其方法是模拟人脑思维机制的工程模型,它与HMM正好相反,其分类决策能力和对不确定信息的描述能力得到举世公认,但它对动态时间信号的描述能力尚不尽如人意,通常MLP分类器只能解决静态模式分类问题,并不涉及时间序列的处理。尽管学者们提出了许多含反馈的结构,但它们仍不足以刻画诸如语音信号这种时间序列的动态特性。由于ANN不能很好地描述语音信号的时间动态特性,所以常把ANN与传统识别方法结合,分别利用各自优点来进行语音识别而克服HMM和ANN各自的缺点。近年来结合神经网络和隐含马尔可夫模型的识别算法研究取得了显著进展,其识别率已经接近隐含马尔可夫模型的识别系统,进一步提高了语音识别的鲁棒性和准确率。

支持向量机(Supportvectormachine)是应用统计学理论的一种新的学习机模型,采用结构风险最小化原理(StructuralRiskMinimization,SRM),有效克服了传统经验风险最小化方法的缺点。兼顾训练误差和泛化能力,在解决小样本、非线性及高维模式识别方面有许多优越的性能,已经被广泛地应用到模式识别领域。

三:语音识别技术发展现状-国外研究

语音识别的研究工作可以追溯到20世纪50年代AT&T贝尔实验室的Audry系统,它是第一个可以识别十个英文数字的语音识别系统。

但真正取得实质性进展,并将其作为一个重要的课题开展研究则是在60年代末70年代初。这首先是因为计算机技术的发展为语音识别的实现提供了硬件和软件的可能,更重要的是语音信号线性预测编码(LPC)技术和动态时间规整(DTW)技术的提出,有效的解决了语音信号的特征提取和不等长匹配问题。这一时期的语音识别主要基于模板匹配原理,研究的领域局限在特定人,小词汇表的孤立词识别,实现了基于线性预测倒谱和DTW技术的特定人孤立词语音识别系统;同时提出了矢量量化(VQ)和隐马尔可夫模型(HMM)理论。

随着应用领域的扩大,小词汇表、特定人、孤立词等这些对语音识别的约束条件需要放宽,与此同时也带来了许多新的问题:第一,词汇表的扩大使得模板的选取和建立发生困难;第二,连续语音中,各个音素、音节以及词之间没有明显的边界,各个发音单位存在受上下文强烈影响的协同发音(Co-articulation)现象;第三,非特定人识别时,不同的人说相同的话相应的声学特征有很大的差异,即使相同的人在不同的时间、生理、心理状态下,说同样内容的话也会有很大的差异;第四,识别的语音中有背景噪声或其他干扰。因此原有的模板匹配方法已不再适用。

实验室语音识别研究的巨大突破产生于20世纪80年代末:人们终于在实验室突破了大词汇量、连续语音和非特定人这三大障碍,第一次把这三个特性都集成在一个系统中,比较典型的是卡耐基梅隆大学(CarnegieMellonUniversity)的Sphinx系统,它是第一个高性能的非特定人、大词汇量连续语音识别系统。

这一时期,语音识别研究进一步走向深入,其显著特征是HMM模型和人工神经元网络(ANN)在语音识别中的成功应用。HMM模型的广泛应用应归功于AT&TBell实验室Rabiner等科学家的努力,他们把原本艰涩的HMM纯数学模型工程化,从而为更多研究者了解和认识,从而使统计方法成为了语音识别技术的主流。

统计方法将研究者的视线从微观转向宏观,不再刻意追求语音特征的细化,而是更多地从整体平均(统计)的角度来建立最佳的语音识别系统。在声学模型方面,以Markov链为基础的语音序列建模方法HMM(隐式Markov链)比较有效地解决了语音信号短时稳定、长时时变的特性,并且能根据一些基本建模单元构造成连续语音的句子模型,达到了比较高的建模精度和建模灵活性。在语言层面上,通过统计真实大规模语料的词之间同现概率即N元统计模型来区分识别带来的模糊音和同音词。另外,人工神经网络方法、基于文法规则的语言处理机制等也在语音识别中得到了应用。

20世纪90年代前期,许多著名的大公司如IBM、苹果、AT&T和NTT都对语音识别系统的实用化研究投以巨资。语音识别技术有一个很好的评估机制,那就是识别的准确率,而这项指标在20世纪90年代中后期实验室研究中得到了不断的提高。比较有代表性的系统有:IBM公司推出的ViaVoice和DragonSystem公司的NaturallySpeaking,Nuance公司的NuanceVoicePlatform语音平台,Microsoft的Whisper,Sun的VoiceTone等。

其中IBM公司于1997年开发出汉语ViaVoice语音识别系统,次年又开发出可以识别上海话、广东话和四川话等地方口音的语音识别系统ViaVoice‘98。它带有一个32,000词的基本词汇表,可以扩展到65,000词,还包括办公常用词条,具有“纠错机制”,其平均识别率可以达到95%。该系统对新闻语音识别具有较高的精度,是目前具有代表性的汉语连续语音识别系统。

四:语音识别技术发展现状-国内研究

我国语音识别研究工作起步于五十年代,但近年来发展很快。研究水平也从实验室逐步走向实用。从1987年开始执行国家863计划后,国家863智能计算机专家组为语音识别技术研究专门立项,每两年滚动一次。我国语音识别技术的研究水平已经基本上与国外同步,在汉语语音识别技术上还有自己的特点与优势,并达到国际先进水平。中科院自动化所、声学所、清华大学、北京大学、哈尔滨工业大学、上海交通大学、中国科技大学、北京邮电大学、华中科技大学等科研机构都有实验室进行过语音识别方面的研究,其中具有代表性的研究单位为清华大学电子工程系与中科院自动化研究所模式识别国家重点实验室。

清华大学电子工程系语音技术与专用芯片设计课题组,研发的非特定人汉语数码串连续语音识别系统的识别精度,达到94.8%(不定长数字串)和96.8%(定长数字串)。在有5%的拒识率情况下,系统识别率可以达到96.9%(不定长数字串)和98.7%(定长数字串),这是目前国际最好的识别结果之一,其性能已经接近实用水平。研发的5000词邮包校核非特定人连续语音识别系统的识别率达到98.73%,前三选识别率达99.96%;并且可以识别普通话与四川话两种语言,达到实用要求。

中科院自动化所及其所属模式科技(Pattek)公司2002年发布了他们共同推出的面向不同计算平台和应用的“天语”中文语音系列产品——PattekASR,结束了中文语音识别产品自1998年以来一直由国外公司垄断的历史。

五:语音识别技术发展现状-当前亟待解决的问题

语音识别系统的性能受到许多因素的影响,包括不同说话人的发音方式、说话方式、环境噪音、传输信道衰落等等。

具体要解决的问题有四点:

①增强系统的鲁棒性,也就是说如果条件状况变得与训练时很不相同,系统的性能下降不能是突变的。

②增加系统的适应能力,系统要能稳定连续的适应条件的变化,因为说话人存在着年龄、性别、口音、语速、语音强度、发音习惯等方面的差异。所以,系统应该有能力排除掉这些差异。达到对语音的稳定识别。

③寻求更好的语言模型,系统应该在语言模型中得到尽可能多的约束,从而解决由于词汇量增长所带来的影响。

④进行动力学建模,语音识别系统提前假定片段和单词是相互独立的,但实际上词汇和音素的线索要求对反映了发声器官运动模型特点的整合。所以,应该进行动力学建模,从而将这些信息整合到语音识别系统中去。

六:语音识别技术发展现状-语音识别系统的最新发展

语音识别技术发展到今天,特别是中小词汇量非特定人语音识别系统识别精度已经大于98%,对特定人语音识别系统的识别精度就更高。这些技术已经能够满足通常应用的要求。由于大规模集成电路技术的发展,这些复杂的语音识别系统已经完全可以制成专用芯片,大量生产。在西方经济发达国家,大量的语音识别产品已经进入市场和服务领域。一些用户交换机、电话机、手机已经包含了语音识别拨号功能、语音记事本、语音智能玩具等产品,同时也包括语音识别与语音合成功能。人们可以通过电话网络用语音识别口语对话系统查询有关的机票、旅游、银行信息。调查统计表明,多达85%以上的人对语音识别的信息查询服务系统的性能表示满意。可以预测,在近5年内,语音识别系统的应用将更加广泛,各种各样的语音识别系统产品将不断出现在市场上。语音识别技术在人工邮件分拣中的作用也日益显现,发展前景诱人。一些发达国家的邮政部门已经使用了这一系统,语音识别技术逐渐成为邮件分拣的新技术。它可以克服手工分拣单纯依靠分拣员记忆力的不足,解决人员成本过高的问题,提高邮件处理的效率和效益。就教育领域来讲,语音识别技术的最直接的应用就是帮助用户更好地练习语言技巧。

语音识别技术的另一个发展分支就是电话语音识别技术的发展,贝尔实验室是这方面的先驱,电话语音识别技术将能够实现电话查询、自动接线以及一些专门业务如旅游信息等的操作。银行应用了语音理解技术的声讯查询系统后,可不分昼夜地为客户提供二十四小时的电话银行理财服务。而证券业方面,若是采用电话语音识别声讯系统的话,用户想查询行情便可以直接讲出股票名称或代码,而系统确认用户的要求后,会自动读出最新的股票价,这将大大方便用户。目前在114查号台还有大量的人工服务,如果采用语音技术,就可让计算机自动接听用户的需要,然后回放查询的电话号码,从而节约了人力资源。

版权声明:本文内容由互联网用户自发贡献,该文观点仅代表作者本人。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如发现本站有涉嫌抄袭侵权/违法违规的内容,一经查实,本站将立刻删除。

上一篇

下一篇