智能语音信息处理团队15篇论文被语音技术顶会Interspeech 2023接收
近日,Interspeech2022会议发出了审稿结果通知,语音及语言信息处理国家工程研究中心智能语音信息处理团队共15篇论文被会议接收,论文方向涵盖语音识别、语音合成、话者识别、语音增强、情感识别、声音事件检测等,各接收论文简介见后文。
Interspeech是由国际语音通信协会(ISCA)组织的语音研究领域的顶级会议之一,是全球最大的综合性语音信号处理领域的科技盛会。本届会议以“HumanandHumanizingSpeechTechnology”为主题,内容涵盖语音识别、语音合成、语音增强、自然语言处理等多个领域。
语音及语言信息处理国家工程实验室于2011年由国家发改委正式批准成立,由中国科学技术大学和科大讯飞股份有限公司联合共建,是我国语音产业界唯一的国家级研究开发平台。2021年底,实验室通过国家发改委的优化整合评估,成功纳入新序列,并转建为语音及语言信息处理国家工程中心。
1. PronunciationDictionary-FreeMultilingualSpeechSynthesisbyCombiningUnsupervisedandSupervisedPhoneticRepresentations
论文作者:刘畅,凌震华,陈凌辉
论文单位:中国科学技术大学,科大讯飞
论文简介:
本文提出了一种结合无监督发音表征(unsupervisedphoneticrepresentations,UPR)和有监督发音表征(supervisedphoneticrepresentations,SPR)的多语种语音合成方法,以避免对目标语种的发音词典的依赖。在该方法中,我们采用预训练的wav2vec2.0模型提取UPR,并构建了一个使用CTC(connectionisttemporalclassification)损失的语种无关的自动语音识别(language-independentautomaticspeechrecognition,LI-ASR)模型从目标语种的音频数据中提取段级别的SPR。然后,我们设计了一个声学模型,首先分别从文本中预测UPR和SPR,然后结合预测的UPR和SPR生成梅尔谱。在六个语种上的实验结果表明,所提出的方法优于直接从字符或音素序列预测梅尔谱的方法以及仅使用UPR或SPR的消融模型。
论文资源:论文预印版下载地址https://arxiv.org/abs/2206.00951
2. IntegratingDiscreteWord-LevelStyleVariationsintoNon-AutoregressiveAcousticModelsforSpeechSynthesis
论文作者:刘朝辞,吴宁谦,张雅洁,凌震华
论文单位:中国科学技术大学
论文简介:
本文提出了一种将词级风格变化(WSV)整合到非自回归的TTS声学模型中的方法。WSV是从单词的声学特征中提取的离散的潜在表征,我们在以前的工作中提出这种表征,提高了Tacotron2模型的自然度。在本文中,我们将WSV整合到一个非自回归声学模型FastSpeech2。在WSV提取器中,引入了Gumbel-Sigmoid激活函数,并通过实验与原来的Gumbel-Softmax激活进行了比较。WSV预测器利用了BERT提供的词嵌入,具有非自回归结构,以便与FastSpeech2兼容。实验结果表明,与FastSpeech2基线和使用Gumbel-Softmax激活的方法相比,我们提出的带有Gumbel-Sigmoid激活的方法在F0预测上取得了更好的客观性能。我们提出的模型的主观表现也明显优于FastSpeech2的基线。
论文资源:Demo语音网页https://ttsbylzc.github.io/demo(或扫描下方二维码)
3. DecoupledPronunciationandProsodyModelinginMeta-Learning-BasedMultilingualSpeechSynthesis
论文作者:彭宇坤,凌震华
论文单位:中国科学技术大学
论文简介:
本文提出了一种解耦发音和韵律建模的方法,以提高基于元学习的多语言语音合成的性能。基线元学习合成方法采用单个文本编码器和一个以语言嵌入为条件的参数生成器和一个解码器来预测所有语言的梅尔谱图。相比之下,我们提出的方法设计了一个双流模型结构,其中包含两个编码器和两个解码器,分别用于发音和韵律建模,充分考虑到发音知识和韵律知识应该以不同的方式在语言之间共享。在我们的实验中,与基线元学习合成方法相比,我们提出的方法有效地提高了多语言语音合成的可懂度和自然度。
论文资源:Demo语音网页https://pengyuk.github.io/dppmttsdemo
4. DifferentialTime-frequencyLog-melSpectrogramFeaturesforVisionTransformerBasedInfantCryRecognition
论文作者:徐海涛,张结,戴礼荣
论文单位:中国科学技术大学,中国科学院声学研究所声场声信息国家重点实验室
论文简介:
哭泣是婴儿与外界交流的主要方式。分析哭声不仅可以识别婴儿想要表达的需求和想法,还可以预测潜在的疾病。通常,从婴儿哭声中识别特殊需求和情绪比成人语音要困难得多,因为婴儿哭声不包含任何语言信息,情感表达不如成人丰富。在这项工作中,我们专注于婴儿哭声信号的时频特性,并提出了一种基于VisionTransformer(ViT)的时频差分对数梅尔频谱特征婴儿哭声识别方法。我们首先计算婴儿哭声的对数梅尔频谱并分别计算该对数梅尔频谱在时间维度和频率维度上的差分,然后将对数梅尔频谱和差分后的特征组合为三维特征并将其输入ViT模型以进行哭声分类。在CRIED数据集上的实验结果表明,所提出的系统优于之前的SOTA。此外,提出的方法也在自有数据集上得到了进一步验证。
5. ExternalTextBasedDataAugmentationforLow-ResourceSpeechRecognitionintheConstrainedConditionofOpenASR21Challenge
论文作者:钟国龙,宋鸿宇,王若愚,孙磊,刘迪源,潘嘉,方昕,杜俊,张结,戴礼荣
论文单位:中国科学技术大学,科大讯飞
论文简介:
本文介绍了提交到OpenASR21挑战赛的受限赛道的USTC-NELSLIP系统。受限赛道只允许10小时的语音数据集进行训练,而额外的文本数据是不受限的。为了提高低资源下的语音识别性能,我们收集了外部文本数据进行语言建模,并训练一个文本到语音(TTS)模型来生成语音-文本配对数据。我们的系统建立在传统的混合DNN-HMM框架上。我们训练了不同结构的模型,还探索了不同的数据增强方式。最终的系统是各种子系统的组合,通过系统融合得到最终结果。在OpenASR21挑战赛上的实验表明,我们提出的系统在所有测试语言中都达到了最佳性能。
6. AComplementaryJointTrainingApproachUsingUnpairedSpeechandTextforLow-ResourceAutomaticSpeechRecognition
论文作者:杜叶倩,张结,朱秋实,戴礼荣,吴明辉,方昕,杨周旺
论文单位:中国科学技术大学,科大讯飞
论文简介:
非成对数据已被证明有利于低资源自动语音识别(ASR),它可以被用于多任务训练的混合模型设计或依赖语言模型的预训练。在本工作中,我们利用非成对数据来训练一个通用的序列到序列模型。非成对的语音和文本以数据对的形式使用,在模型训练之前生成相应的缺失部分。受到语音-伪标签对和合成音频-文本对在声学特征和语言特征方面的互补性的启发,我们提出了一种互补的联合训练(CJT)方法,用两种数据对交替训练模型。此外,我们还提出了对伪标签的标签掩码和对合成音频的梯度限制两种策略,以进一步应对与真实数据的偏差,这一方法称为CJT++。实验结果表明,与纯语音训练相比所提出的CJT在两种测试集上都取得了明显的性能提升,而CJT++的再训能进一步提升性能。在同等情况下,我们提出的方法优于wav2vec2.0模型,尤其是在极端低资源的场景下。
论文资源:论文预印版下载地址https://arxiv.org/abs/2204.02023(或扫描下方二维码)
7. Audio-VisualSpeechRecognitioninMISP2021Challenge:DatasetReleaseandDeepAnalysis
论文作者:陈航,杜俊,代宇盛,李锦辉,SabatoMarcoSiniscalchi,ShinjiWatanabe,OdetteScharenborg,陈景东,殷保才,潘嘉
论文单位:中国科学技术大学,佐治亚理工学院,卡内基梅隆大学,恩纳大学,代尔夫特理工大学,西北工业大学,科大讯飞
论文简介:
我们向音视频语音研究社区发布了更新后的MISP2021挑战赛的视听语音识别(AVSR)语料库,这是一个由远/中/近麦克风和远/中摄像头在34个真实家庭电视房中收集的141小时音频和视频数据组成的大型视听中文会话语料库。据我们所知,我们的语料库是第一个远程多麦克风会话汉语视听语料库,也是第一个在家居电视场景下的大词汇量连续汉语唇读数据集。此外,我们对语料库进行了深入分析,并对纯音频/纯视频/视听系统中的所有音频和视频数据进行了全面的消融研究。错误分析表明,视频模态补充了被噪声退化的声学信息,以减少删除错误,并在重叠语音中提供判别信息,以减少替换错误。最后,我们还尝试了新颖的前端、数据增强和端到端模型,为未来工作提供了方向。
论文资源:数据库下载地址:https://challenge.xfyun.cn/misp_dataset(或扫描下方二维码)
代码开源地址:https://github.com/mispchallenge/MISP2021-AVSR(或扫描下方二维码)
8. End-to-EndAudio-VisualNeuralSpeakerDiarization
论文作者:何茂奎,杜俊,李锦辉
论文单位:中国科学技术大学,佐治亚理工学院
论文简介:
本文提出了一种基于端到端神经网络的音视频说话人日志方法。该音视频模型采用音频特征(例如FBANK)、多说话人唇型(ROI)和多说话人i-vector向量作为多模态输入。同时输出多个说话者的帧级语音/非语音后验概率。通过精心设计的端到端结构,所提出的方法可以很好处理重叠语音问题,并通过多模态信息准确地区分语音和非语音。i-vector是解决由视觉模态错误(例如唇部遮挡或检测不可靠)引起的音视频同步问题的关键点。该音视频模型对视觉模态缺失同样具有鲁棒性。我们在MISP数据集上进行了评估,所提出的方法在的开发/测试集上实现了10.1%/9.5%的分类错误率(DER),而纯音频和纯视频系统的DER分别为27.9%/29.0%和14.6%/13.1%。
9. DeepSegmentModelforAcousticSceneClassification
论文作者:王雅健,杜俊,陈航,王青,李锦辉
论文单位:中国科学技术大学,佐治亚理工学院
论文简介:
在大多数最先进的声场景分类技术中,卷积神经网络因其在学习局部深层特征方面具有独特的优越性能而被采用。然而,基于CNN的方法无法有效学习音频中声音事件的结构信息,一些音频片段是区分具有相似特征的声学场景的关键元素,而基于声学片段模型(AcousticSegmentModel,ASM)的方法在这方面显示出其优越性。为了充分利用这两种方法,我们提出了一种新的深层分段模型(DeepSegmentModel,DSM)。深层分段模型采用完全卷积神经网络(FullyConvolutionalNeuralNetwork,FCNN)作为深度特征抽取器,然后引导ASM更好地捕获声音事件之间的语义信息。特别地,我们采用基于FCNN的编码器通过对三个粗粒度声学场景和十个细粒度声学场景进行分类的多任务训练,以提取多层次的声学特征。此外,还设计了一种基于熵的决策融合策略,以进一步利用基于FCNN和DSM系统的互补性。最终系统在DCASE2021Task1b音频数据集中的精度达到80.4%,与基于FCNN的系统相比,相对错误率降低约15%。
10. OnlineSpeakerDiarizationwithCoreSamplesSelection
论文作者:岳颜颜,杜俊,何茂奎,杨宇庭,王仁宇
论文单位:中国科学技术大学,华为诺亚实验室
论文简介:
在本文中,我们提出了一个在线说话人日志系统,可以高效地处理长时间音频。为了充分利用在离线说话人日志任务中表现较好的VBx算法,我们以分块处理方式执行在线聚类。特别地,我们设计了一种基于时间惩罚项的核心样本选择策略,该策略可以以较低的存储成本保留重要的历史信息。通过类似分层抽样的方式从核心样本中选择聚类样本,在保留了充分的说话人身份信息的同时,增强了样本之间的差异性,有助于VBx在少量数据上分类性能的提高。另外,我们通过全局约束聚类算法解决了标签模糊问题。在DIHARD和AMI数据集上的实验验证了所提方法的有效性。
11. Audio-VisualWakeWordSpottinginMISP2021Challenge:DatasetReleaseandDeepAnalysis
论文作者:周恒顺,杜俊,邹恭振,念朝旭,李锦辉,SabatoMarcoSiniscalchi,ShinjiWatanabe,OdetteScharenborg,陈景东,熊世富,高建清
论文单位:中国科学技术大学,佐治亚理工学院,卡内基梅隆大学,恩纳大学,代尔夫特理工大学,西北工业大学,科大讯飞
论文简介:
在本文中,我们描述并公开发布在MISP2021挑战中更新后的音视频唤醒数据库。该数据库涵盖了一系列场景下由近场、中场、远场麦克风阵列和摄像机收集的超过120个小时的视听中文语料数据,以创建一个公开、共享的音视频唤醒数据库。该数据库和代码已经开源,将对真实复杂环境下使用多模态信息促进唤醒研究是一个非常有价值的补充。此外,我们还研究了基于端到端网络的单模态唤醒任务上不同的数据增强方法,并进行了一系列音视频融合实验和分析,以观察不同音频和视频场景配置下视觉信息对声学信息的辅助作用。
论文资源:数据库下载地址:https://challenge.xfyun.cn/misp_dataset(或扫描下方二维码)
代码开源地址:https://github.com/mispchallenge/MISP2021-AVWWS(或扫描下方二维码)
12. AcousticFeatureShufflingNetworkforText-IndependentSpeakerVerification
论文作者:李晋,方昕,褚繁,高天,宋彦,戴礼荣
论文单位:中国科学技术大学,科大讯飞
论文简介:
深度嵌入学习(DeepEmbeddingLearning)是目前文本无关的说话人确认(Text-IndependentSpeakerVerification)研究领域中的主流技术方法。与传统的i-vector方法相比,现有方法主要专注于帧级特征提取方法、特征池化和聚合方法,以及目标损失函数的设计,从而学习有效的说话人表征向量。在局部帧级特征提取中,如果打乱输入音频的语序,生成的说话人表征向量将会有所不同。相反,传统的i-vector方法是音频语序不敏感的。在本文中,我们提出了一种声学特征随机扰乱的网络结构,通过联合学习的方式,获得对语序不敏感的说话人表征向量。具体来说,首先用多种时长尺度对音频特征进行分段,然后针对每个时长尺度下的音频特征片段进行随机扰乱,再拼接成和原始音频特征时长一致的音频特征;其次,将原始的音频特征和拼接的音频特征分别送入相似的两个神经网络中;最后,在原有目标损失函数的基础上,增加一个KL(Kullback-Leibler)散度损失函数,共同驱动模型训练。基准Voxceleb语料库上的实验结果表明,本文提出的声学特征随机扰乱网络结构的有效性。
13. Class-AwareDistributionAlignmentbasedUnsupervisedDomainAdaptationforSpeakerVerification
论文作者:胡航瑞,宋彦,戴礼荣,IanMcLoughliln,柳林
论文单位:中国科学技术大学,新加坡理工大学,科大讯飞
论文简介:
现有的说话人识别系统在应用到与训练环境不一致的目标域时,通常会出现严重的性能下降。给定无标记的目标域数据集,现有的无监督域自适应方法往往通过减少不同域数据的分布差异来改善此问题,然而这类全局分布对齐策略忽视了目标域的潜在标签信息从而难以保证其判别性有所提升。对此,本文提出了WBDA(类内和类间分布对齐)策略,以更充分的将源域良好的度量性质传递到目标域。首先受近期的自监督对比学习工作启发,分别在各自域内进行正负例对构造,然后通过源域分类损失以及类别层面的跨域分布差异损失进行联合训练。所提方法在NISTSRE16和SRE18上取得了43.7%和26.2%的相对基线提升,显著优于目前主流的全局分布对齐方法。
14. DeepSpeakerEmbeddingwithFrame-ConstrainedTrainingStrategyforSpeakerVerification
论文作者:古斌
论文单位:中国科学技术大学
论文简介:
语音信号中除了声纹信息之外,还包含大量的附加信息(例如文本内容、重音等),这些语音的变异性对说话人特征建模带来了巨大的挑战。 为了缓解这一问题,本文提出了一种新的帧约束训练(FCT)策略,该策略在语音帧级别进一步增强说话人信息,以便更好地在语音段级别提取说话人特征。具体来说,该方法根据每批训练样本之间的帧级特征计算相似度矩阵,通过相似度矩阵得到FCT损失, 然后结合FCT损失和说话人分类损失对说话人嵌入网络进行训练。 实验在VoxCeleb1和VOiCES数据库上进行,结果表明,所提出的训练策略可以提高系统的性能。
15. AnImprovedDeliberationNetworkwithTextPre-trainingforCode-SwitchingAutomaticSpeechRecognition
论文作者:沈之杰,郭武
论文单位:中国科学技术大学
论文简介:
本文提出了一种改进的推敲网络(DN),用于端到端语码转换(CS)自动语音识别(ASR)。在传统的DN中,声学编码和首次识别结果编码是分开使用的,只是通过求和的方式组合在一起,不能充分利用它们潜在的互补性。因此,所提出的改进的DN模型通过两阶段的过程利用了两种编码之间的关系。首先,通过共享编码器将两种编码整合到统一的语义空间中;其次,在最终解码过程之前,通过注意力机制从声学编码中捕获相关信息。此外,成对训练数据的缺乏限制了模型在CSASR中的泛化能力。为了解决这个问题,提出基于去噪序列到序列目标使用未成对的文本数据对DN进行预训练。在汉英CS数据集上的实验证明了该方法的有效性。与传统的DN相比,观察到相对错误率降低了13.5%。
语音识别研究综述
语言是人类最原始直接的一种交流方式,通俗易懂、便于理解.随着科技的发展,语言交流不再只存在于人与人之间,如何让机器“听懂”人类的语言并做出反应成为人工智能的重要课题,语音智能交互技术应运而生.作为其中重要一环的语音识别技术近年来不断发展,走出了实验室,随着人工智能进入人们的日常生活中.当今市场上语音识别技术相关的软件、商品涉及人类生活的方方面面,语音识别的实用性已经得到充分的印证.如今语音识别技术已经成为人类社会智能化的关键一步,能够极大提高人们生活的便捷度.
1语音识别技术的发展历程语音识别技术始于20世纪50年代,贝尔实验室研发了10个孤立数字的语音识别系统,此后,语音识别相关研究大致经历了3个发展阶段.第1阶段,从20世纪50年代到90年代,语音识别仍处于探索阶段.这一阶段主要通过模板匹配—即将待识别的语音特征与训练中的模板进行匹配—进行语音识别.典型的方法包括动态时间规整(dynamictimewarping,DTW)技术和矢量量化(vectorquantification,VQ).DTW依靠动态规划(dynamicprogramming,DP)技术解决了语音输入输出不定长的问题;VQ则是对词库中的字、词等单元形成矢量量化的码本作为模板,再用输入的语音特征矢量与模板进行匹配.总体而言,这一阶段主要实现了小词汇量、孤立词的语音识别.20世纪80年代至21世纪初为第2阶段,这一阶段的语音识别主要以隐马尔科夫模型(hiddenMarkovmodel,HMM)为基础的概率统计模型为主,识别的准确率和稳定性都得到极大提升.该阶段的经典成果包括1990年李开复等研发的SPHINX系统[1],该系统以GMM-HMM(Gaussianmixturemodel-hiddenMarkovmodel)为核心框架,是有史以来第一个高性能的非特定人、大词汇量、连续语音识别系统.GMM-HMM结构在相当长时间内一直占据语音识别系统的主流地位,并且至今仍然是学习、理解语音识别技术的基石.此外,剑桥推出了以HMM为基础的语音识别工具包HTK(hiddenMarkovmodeltoolkit)[2].21世纪至今是语音识别的第3阶段.这一阶段的语音识别建立在深度学习基础上,得益于神经网络对非线性模型和大数据的处理能力,取得了大量成果.2009年Mohamed等[3]提出深度置信网络(deepbeliefnetwork,DBN)与HMM相结合的声学模型在小词汇量连续语音识别中取得成功.2012年深度神经网络与HMM相结合的声学模型DNN-HMM在大词汇量连续语音识别(largevocabularycontinuousspeechrecognition,LVCSR)中取得成功[4],掀起利用深度学习进行语音识别的浪潮.此后,以卷积神经网络(convolutionalneuralnetwork,CNN)、循环神经网络(recurrentneuralnetwork,RNN)等常见网络为基础的混合识别系统和端到端识别系统都获得了不错的识别结果和系统稳定性.迄今为止,以神经网络为基础的语音识别系统仍旧是国内外学者的研究热点.
我国的语音识别则起步于国家的“863计划”和“973计划”,中科院声学所等研究所以及顶尖高校尝试实现长时语音的汉语识别工作,如今中文语音识别技术已经达到了国际水准.2015年清华大学建立了第一个开源的中文语音数据库THCHS-30[5].2016年上海交通大学提出的非常深卷积网络(verydeepconvolutionalneuralnetworks,VDCNN)[6]提高了噪声语音识别的性能,并在此基础上进一步提出了非常深卷积残差网络(verydeepconvolutionalresidualnetwork,VDCRN)[7].百度于2014年、2016年依次推出了DeepSpeech[8]及其改进版本[9],并在2017年提出ColdFusion[10]以便于更好地利用语言学信息进行语音识别,该系统以LSTM-CTC(longshort-termmemory-connectionisttemporalclassification)的端到端模型为基础,在不同的噪声环境下实现了英语和普通话的语音识别.2018年科大讯飞提出的深度全序列卷积神经网络(deepfull-sequenceconvolutionneuralnetworks,DFCNN)[11]直接对语音信号进行建模,该模型采用的大量叠加卷积层能够储存更多历史信息,获得了良好的识别效果.同年,阿里巴巴提出低帧率深度前馈记忆网络(lowerframerate-deepfeedforwardsequentialmemorynetworks,LFR-DFSMN)[12],将低帧率算法和DFSMN算法相结合,使错误率降低了20%,解码速度却提升了近3倍.
总体而言,当前主流语音识别技术主要在大词汇量连续语音数据集上,基于深度神经网络进行模型构建和训练,面向不同应用场景需求和数据特点对现有的神经网络不断改进,相比于传统的统计方法取得了极大的性能提升.
2语音识别基础2.1语音识别概念语音识别是利用机器对语音信号进行识别和理解并将其转换成相应文本和命令的技术,涉及到心理学、信号处理、统计学、数学和计算机等多门学科.其本质是一种模式识别,通过对未知语音和已知语音的比较,匹配出最优的识别结果.
根据面向的应用场景不同,语音识别存在许多不同的类型:从对说话人的要求考虑可分为特定人和非特定人系统;从识别内容考虑可分为孤立词识别和连续语音识别、命令及小词汇量识别和大词汇量识别、规范语言识别和口语识别;从识别的速度考虑还可分为听写和自然语速的识别等[13].
2.2传统语音识别基本原理通常,语音识别过程大致分为两步:第1步,首先对语音信号提取特定的声学特征,然后对声学特征进行“学习”或者说是“训练”,即建立识别基本单元的声学模型和进行语言文法分析的语言模型;第2步是“识别”,根据识别系统的类型选择能够满足要求的识别方法,采用语音分析方法分析出这种识别方法所要求的语音特征参数,按照一定的准则和测度与系统模型进行比较,通过判决得出识别结果.
设一段语音信号经过特征提取得到特征向量序列为X=[x1,x2,…,xN],其中xi是一帧的特征向量,i=1,2,…,N,N为特征向量的数目.该段语音对应的文本序列设为W=[w1,w2,…,wM],其中wi为基本组成单元,如音素、单词、字符,i=1,2,…,M,M为文本序列的维度.从贝叶斯角度,语音识别的目标就是从所有可能产生特征向量X的文本序列中找到概率最大的W*,可以用公式表示为式(1)优化问题:
$egin{split}{W^*}=&argmathop{max}limits_WPleft({Wleft|X ight.} ight)=argmathop{max}limits_Wfrac{{Pleft({Xleft|W ight.} ight)Pleft(W ight)}}{{Pleft(X ight)}}\&proptoargmathop{max}limits_WPleft({Xleft|W ight.} ight)Pleft(W ight)end{split}$(1)由式(1)可知,要找到最可能的文本序列必须使两个概率P(X|W)和P(W)的乘积最大,其中P(X|W)为条件概率,由声学模型决定;P(W)为先验概率,由语言模型决定.声学模型和语言模型对语音信号的表示越精准,得到的语音系统效果越准确.
从语音识别系统的构成来讲,一套完整的语音识别系统包括预处理、特征提取、声学模型、语言模型以及搜索算法等模块,其结构示意图如图1所示.其中较为重要的特征提取、声学模型和语言模型将在第2.2节中详细阐述.
图1Fig.1图1语音识别系统结构图预处理包括预滤波、采样、模/数转换、预加重、分帧加窗、端点检测等操作.其中,信号分帧是将信号数字化后的语音信号分成短时信号作为识别的基本单位.这主要是因为语音信号是非平稳信号,且具有时变特性,不易分析;但其通常在短时间范围(一般为10–30ms)内其特性基本不变,具有短时平稳性,可以用来分析其特征参数.
搜索模块是指在训练好声学模型和语言模型后,根据字典搜索最优路径,即最可能的输出词序列.传统的语音识别解码建立在加权有限状态转换器(weightedfinitestatetransducer,WFST)所构成的动态网络上,将HMM状态、词典和语法等结合起来.目前端到端模型中主流的搜索算法为BeamSearch等.
2.2.1特征提取通常,在进行语音识别之前,需要根据语音信号波形提取有效的声学特征.特征提取的性能对后续语音识别系统的准确性极其关键,因此需要具有一定的鲁棒性和区分性.目前语音识别系统常用的声学特征有梅尔频率倒谱系数(Mel-frequencycepstrumcoefficient,MFCC)、感知线性预测系数(perceptuallinearpredictivecepstrumcoefficient,PLP)、线性预测倒谱系数(linearpredictioncepstralcoefficient,LPCC)、梅尔滤波器组系数(Melfilterbank,Fbank)等.
MFCC是最为经典的语音特征,其提取过程如图2所示.MFCC的提取模仿了人耳的听觉系统,计算简单,低频部分也有良好的频率分辨能力,在噪声环境下具有一定的鲁棒性.因此,现阶段语音识别系统大多仍采用MFCC作为特征参数,并取得了不错的识别效果.
图2Fig.2图2MFCC的特征提取过程2.2.2声学模型声学模型是对等式(1)中的P(X|W)进行建模,在语音特征与音素之间建立映射关系,即给定模型后产生语音波形的概率,其输入是语音信号经过特征提取后得到的特征向量序列.声学模型整个语音识别系统中最重要的部分,只有学好了发音,才能顺利和发音词典、语言模型相结合得到较好的识别性能.
GMM-HMM是最为常见的一种声学模型,该模型利用HMM对时间序列的建模能力,描述语音如何从一个短时平稳段过渡到下一个短时平稳段;此外,HMM的隐藏状态和观测状态的数目互不相干,可以解决语音识别中输入输出不等长的问题.该声学模型中的每个HMM都涉及到3个参数:初始状态概率、状态转移概率和观测概率,其中观测概率依赖于特征向量的概率分布,采用高斯混合模型GMM进行建模.
GMM-HMM声学模型在语音识别领域有很重要的地位,其结构简单且区分度训练成熟,训练速度也相对较快.然而该模型中的GMM忽略时序信息,每帧之间相对孤立,对上下文信息利用并不充分.且随着数据量的上升,GMM需要优化的参数急剧增加,这给声学模型带来了很大的计算负担,浅层模型也难以学习非线性的特征变换.
深度学习的兴起为声学建模提供了新途径,学者们用深度神经网络(deepneuralnetwork,DNN)代替GMM估计HMM的观测概率,得到了DNN-HMM语音识别系统,其结构如图3所示.DNN-HMM采用DNN的每个输出节点来估计给定声学特征的条件下HMM某个状态的后验概率.DNN模型的训练阶段大致分为两个步骤:第1步是预训练,利用无监督学习的算法训练受限波尔兹曼机(restrictedBoltzmannmachine,RBM),RBM算法通过逐层训练并堆叠成深层置信网络(deepbeliefnetworks,DBN);第2步是区分性调整,在DBN的最后一层上面增加一层Softmax层,将其用于初始化DNN的模型参数,然后使用带标注的数据,利用传统神经网络的学习算法(如BP算法)学习DNN的模型参数.相比于GMM-HMM,DNN-HMM具有更好的泛化能力,擅长举一反三,帧与帧之间可以进行拼接输入,特征参数也更加多样化,且对所有状态只需训练一个神经网络.文献[4]证实了神经网络在大词汇量语音识别领域的出色表现.
图3Fig.3图3基于DNN-HMM的语音识别系统框架通过将DNN取代GMM对HMM观测概率进行声学建模,DNN-HMM相比GMM-HMM在语音识别性能方面有很大提升;然而,DNN对于时序信息的上下文建模能力以及灵活性等方面仍有欠缺.针对这一问题,对上下文信息利用能力更强的循环神经网络RNN[14]和卷积神经网络CNN[15]被引入声学建模中.在RNN的网络结构中,当前时刻的输出依赖记忆与当前时刻的输入,这对于语音信号的上下文相关性建模非常有优势.然而,RNN存在因梯度消失和梯度爆炸而难以训练的问题,于是研究人员引入门控机制,得到梯度传播更加稳定的长短时记忆(longshort-termmemory,LSTM)网络.LSTM-RNN对语音的上下文信息的利用率更高,识别的准确率与鲁棒性也均有提升,这些在文献[16]中能得到证实.CNN的优势在于卷积的不变性和池化技术,对上下文信息有建模能力,对噪声具有鲁棒性,并且可以减少计算量.时延神经网络(timedelayneuralnetwork,TDNN)是CNN对大词汇量连续语音识别的成功应用[17].CLDNN(CNN-LSTM-DNN)综合了三者的优点,实验结果也证明了三者的结合得到了正向的收益[18].
总体而言,近年来语音识别中对声学模型的研究仍集中在神经网络,针对不同的应用场景和需求对上述经典网络结构进行综合和改进[19-21],以期训练更复杂、更强大的声学模型.
2.2.3语言模型语言模型是用来预测字符(词)序列产生的概率,判断一个语言序列是否为正常语句,也就是解决如何计算等式(1)中的P(W).传统的语言模型n-gram[22]是一种具有强马尔科夫独立性假设的模型,它认为任意一个词出现的概率仅与前面有限的n–1个字出现的概率有关,其公式表达如下:
$egin{split}Pleft(W ight)=&prodlimits_{i=1}^m{P({w_i}|{w_1},{w_2},cdots,{w_{i-1}})}\&proptoprodlimits_{i=1}^m{P({w_i}|{w_{i-n+1}},cdots,{w_{i-1}})}end{split}$(2)$egin{split}&Pleft({{w_i}|{w_{i-n+1}},{w_{i-n+2}},cdots,{w_{i-1}}} ight)=hfill\&frac{{countleft({{w_{i-n+1}},{w_{i-n+2}},cdots,{w_{i-1}},{w_i}} ight)}}{{countleft({{w_{i-n+1}},{w_{i-n+2}},cdots,{w_{i-1}}} ight)}}hfillend{split}$(3)然而,由于训练语料数据不足或者词组使用频率过低等常见因素,测试集中可能会出现训练集中未出现过的词或某个子序列未在训练集中出现,这将导致n-gram语言模型计算出的概率为零,这种情况被称为未登录词(out-of-vocabulary,OOV)问题.为缓解这个问题,通常采用一些平滑技术,常见的平滑处理有Discounting、Interpolation和Backing-off等.n-gram模型的优势在于其参数易训练,可解释性极强,且完全包含了前n–1个词的全部信息,能够节省解码时间;但难以避免维数灾难的问题,此外n-gram模型泛化能力弱,容易出现OOV问题,缺乏长期依赖.
随着深度学习的发展,语言模型的研究也开始引入深度神经网络.从n-gram模型可以看出当前的词组出现依赖于前方的信息,因此很适合用循环神经网络进行建模.Bengio等将神经网络用于语言模型建模[23],提出用词向量的概念,用连续变量代替离散变量,利用神经网络去建模当前词出现的概率与其前n–1个词之间的约束关系.这种模型能够降低模型参数的数量,具有一定的泛化能力,能够较好地解决数据稀疏带来的问题,但其对取得长距离信息仍束手无策.为进一步解决问题,RNN被用于语言模型建模[24].RNNLM中隐含层的循环能够获得更多上下文信息,通过在整个训练集上优化交叉熵来训练模型,使得网络能够尽可能建模出自然语言序列与后续词之间的内在联系.其优势在于相同的网络结构和超参数可以处理任意长度的历史信息,能够利用神经网络的表征学习能力,极大程度避免了未登录问题;但无法任意修改神经网络中的参数,不利于新词的添加和修改,且实时性不高.
语言模型的性能通常采用困惑度(perplexity,PPL)进行评价.PPL定义为序列的概率几何平均数的倒数,其公式定义如下:
$egin{split}&Pleft({{w_i}|{w_{i-n+1}},{w_{i-n+2}},cdots,{w_{i-1}}} ight)hfill\&=frac{{countleft({{w_{i-n+1}},{w_{i-n+2}},cdots,{w_{i-1}},{w_i}} ight)}}{{countleft({{w_{i-n+1}},{w_{i-n+2}},cdots,{w_{i-1}}} ight)}}hfillend{split}$(4)PPL越小表示在给定历史上出现下一个预测词的概率越高,该模型的效果越好.
2.3端到端语音识别传统的语音识别由多个模块组成,彼此独立训练,但各个子模块的训练目标不一致,容易产生误差累积,使得子模块的最优解并不一定是全局最优解.针对这个问题,学者们提出了端到端的语音识别系统,直接对等式(1)中的概率P(W|X)进行建模,将输入的语音波形(或特征矢量序列)直接转换成单词、字符序列.端到端的语音识别将声学模型、语言模型、发音词典等模块被容纳至一个系统,通过训练直接优化最终目标,如词错误率(worderrorrate,WER)、字错误率(charactererrorrate,CER),极大地简化了整个建模过程.目前端到端的语音识别方法主要有基于连接时序分类(connectionisttemporalclassification,CTC)[25]和基于注意力机制(attentionmodel)[26]两类方法及其改进方法.
CTC引入空白符号(blank)解决输入输出序列不等长的问题,主要思想是最大化所有可能对应的序列概率之和,无需考虑语音帧和字符的对齐关系,只需要输入和输出就可以训练.CTC实质是一种损失函数,常与LSTM联合使用.基于CTC的模型结构简单,可读性较强,但对发音词典和语言模型的依赖性较强,且需要做独立性假设.RNN-Transducer模型[27]是对CTC的一种改进,加入一个语言模型预测网络,并和CTC网络通过一层全连接层得到新的输出,这样解决了CTC输出需做条件独立性假设的问题,能够对历史输出和历史语音特征进行信息累积,更好地利用语言学信息提高识别准确率.
基于注意力机制的端到端模型最开始被用于机器翻译,能够自动实现两种语言的不同长度单词序列之间的转换.该模型主要由编码网络、解码网络和注意力子网络组成.编码网络将语音特征序列经过深层神经网络映射成高维特征序列,注意力网络分配权重系数,解码网络负责输出预测的概率分布.该模型不需要先验对齐信息,也不用音素序列间的独立性假设,不需要发音词典等人工知识,可以真正实现端到端的建模.2016年谷歌提出了一个Listen-Attend-Spell(LAS)模型[28],其结构框图如图4所示.LAS模型真正实现了端到端,所有组件联合训练,也无独立性假设要求.但LAS模型需要对整个输入序列之后进行识别,因此实时性较差,之后也有许多学者对该模型不断改进[29-31].
图4Fig.4图4LAS模型框架图目前端到端的语音识别系统仍是语音识别领域的研究热点,基于CTC[32-34]、attention机制[35]以及两者结合的系统[36,37]都取得了非常不错的成果.其中Transformer-Transducer模型[38]将RNN-T模型中的RNN替换为Transformer提升了计算效率,还控制attention模块上下文时间片的宽度,满足流式语音识别的需求.2020年谷歌提出的ContextNet模型[39],采用Squeeze-and-Excitation模块获取全局信息,并通过渐进降采样和模型缩放在减小模型参数和保持识别准确率之间取得平衡.在Transformer模型捕捉长距离交互的基础上加入了CNN擅长的局部提取特征得到Conformer模型[40],实现以更少的参数达到更好的精度.实际上端到端的语音识别系统在很多场景的识别效果已经超出传统结构下的识别系统,但距其落地得到广泛商业应用仍有一段路要走.
3语音识别的难点与热点语音识别作为人机交互的关键技术一直是科技应用领域的研究热点.目前,语音识别技术从理论研究到产品的开发都已取得了很多的成果,然而,相关研究及应用落地仍然面临很大挑战,具体可归纳为以下几方面:
鲁棒性语音识别:目前,理想条件下(低噪声加近场)的语音识别准确率已经达到一定程度.然而,在实际一些复杂语音环境下,如声源远场等情景,低信噪比、房间混响、回声干扰以及多声源信号干扰等因素,使得语音识别任务面临很大挑战.因此,针对复杂环境研究鲁棒语音识别是目前语音识别领域的研究难点和热点.当前,针对复杂环境下的语音识别研究大致可以分为4个方向:(1)在语音识别前端,利用信号处理技术提高信号质量:采用麦克风阵列技术采集远场声源信号,然后通过声源定位[41]、回声消除[42]、声源分离或语音增强[43]等提高语音信号质量.例如,文献[44]在基于深度学习的自适应声学回声消除(acousticechocancellation,AEC)中加入了背景关注模块以适应部署环境的变化,以提高语音信号质量;文献[45]以深度聚类为框架提出了结合频谱和空间信息的盲源分离方法;文献[46]利用以基于生成式对抗网络(generativeadversialnetworks,GAN)为基础框架的增强网络进行噪声抑制,从而提高目标语音信号质量;(2)寻找新的鲁棒性特征,尽可能消除非目标语音信号的影响:例如,伽马通滤波器倒谱系数(Gammatonefrequencycepstrumcoefficient,GFCC)[47]等听觉特征参数更适合拟合人耳基底膜的选择性,符合人耳听觉特征;或者,采用自动编码器[48]、迁移学习[49]等多种方式提取更鲁棒的特征;(3)模型的改进与自适应[50]:上海交通大学提出的VDCNN[6]以及VDCRN[7]通过加深卷积层提升算法的鲁棒性,文献[51]利用GAN中生成器与判别器的相互博弈和瓶颈特征构建声学模型,文献[52]采用teacher-studentlearning的方式以干净语音训练的声学模型作为教师模型训练噪声环境下的学生模型;(4)多模态数据融合[53]:当在高噪声环境或多说话人造成语音重叠的情况下,目标语音信号容易被噪声或其他非目标声源(干扰信号)“淹没”,这时仅凭拾音设备捕捉的“语音”信号往往无法获得良好的识别性能;这时,将语音信号和其他信号如声带的振动信号[54]、嘴部的图像信号[55]等进行融合,更好地提升识别系统的鲁棒性.例如,文献[56]以RNN-T为框架,提出多模态注意力机制对音频和视频信息进行融合,以提高识别性能;文献[57]同样基于RNN-T,但利用vision-to-phonememodel(V2P)提取视觉特征,连同音频特征以相同的帧频输入至编码器,取得了良好的识别性能.
低资源语音识别:这是对各种小语种语言识别研究的统称.小语种不同于方言,有独立完整的发音体系,各异性较强但数据资源匮乏,难以适应以汉语、英语为主的语音识别系统,声学建模需要利用不充分的数据资源训练得到尽可能多的声学特征.解决这一问题的基本思路可以概括为从主流语言的丰富资源中提取共性训练出可以公用的模型,在此基础上训练小语种模型.文献[58]为解决共享隐藏层中会学到不必要的特定信息这一问题,提出了一个共享层和特有层平行的模型,它通过对抗性学习确保模型能够学习更多不同语种间的不变特征.然而,小语种种类繁多,为了单独一种建立识别系统耗费过多资源并不划算,因此现在主要研究多语种融合的语音识别系统[59,60].
语音的模糊性:各种语言中都存在相似发音的词语,不同的讲话者存在不同的发音习惯以及口音、方言等问题,母语者和非母语者说同一种语言也存在不同的口音,难以针对单独的口音构建模型.针对多口音建模[61]的问题,现有的方法一般可以分为与口音无关和与口音相关两大类,其中与口音无关的模型普遍表现更好一些.文献[62]尝试通过特定口音模型的集合建立统一的多口音识别模型;文献[63]通过多任务学习将声学模型和口音识别分类器联合;文献[64]则基于GAN构建了预训练网络从声学特征中区分出不变的口音.
低计算资源:精度高效果好的神经网络模型往往需要大量的计算资源且规模巨大,但移动设备(如手机、智能家居等)计算能力和内存有限,难以支撑,因此需要对模型进行压缩及加速.目前针对深度学习模型采用的压缩方法有网络剪枝、参数量化、知识蒸馏等.文献[65]采用网络剪枝的方法构建了动态稀疏神经网络(dynamicsparsityneuralnetworks,DSNN),提供不同稀疏级别的网络模型,通过动态调整以适应不同资源和能量约束的多种硬件类型的能力.文献[66]通过量化网络参数减少内存占用并加快计算速度.知识蒸馏能够将复杂模型的知识迁入小模型,已应用于对语音识别系统的语言模型[67]、声学模型[68]和端到端模型[29,69,70]等进行压缩.文献[71]利用知识蒸馏将视听两模态的识别系统迁移至单听觉模型,缩小了模型规模,加快了训练速度,却并不影响精度.
4总结与展望4.1总结本文主要对语音识别的发展、系统结构研究、热点及难点进行了阐述.目前主流的语音识别方法大多基于深度神经网络.这些方法大体分为两类:一类是采用一定的神经网络取代传统语音识别方法中的个别模块,如特征提取、声学模型或语言模型等;另一类是基于神经网络实现端到端的语音识别.相比于传统的识别方法,基于深度神经网络的语音识别方法在性能上有了显著的提升.在低噪音加近场等理想环境下,当前的语音识别技术研究已经达到了商业需求.然而,在实际应用中存在各种复杂情况,如声源远场、小语种识别、说话人口音、专业语言场景等,这些情况使得复杂场景下的语音识别应用落地仍面临挑战.此外,尽管当前深度学习在语音识别的应用确实提高了识别率等性能,但效果好的模型往往规模复杂且庞大、需要的数据资源较为冗余,不适合用于移动设备(如手机、智能穿戴设备等);此外,小语种、多口音、不同方言等的识别性能仍然差强人意.总之,当前语音识别领域已取得丰富的研究成果,但仍有很长一段路要走.
4.2展望在未来很长一段时间内,基于深度神经网络的语音识别仍是主流;面向不同应用场景,根据语音信号特点对现有神经网络结构进行改进仍是未来研究重点.大体上,未来语音识别领域的研究方向可大致归纳如下.
(1)模型压缩与加速.尽管当前深度学习在语音识别的应用确实提高了识别率等性能,但效果好的模型往往规模复杂且庞大、需要的数据资源较为冗余,不适合用于移动设备(如手机、智能穿戴设备等),因此对基于深度神经网络的语音识别系统进行网络模型压缩和加速,将是未来语音识别的研究方向之一.
(2)数据迁移.在面对小样本数据或复杂问题时,迁移学习是一种有效的方式.在语音识别领域中,采用迁移学习的方式对小语种、方言口音或含噪语音进行识别也是未来的研究方向之一.
(3)多模态数据融合.对于一些复杂的语音场景(高噪声、混响、多源干扰等),可以利用语音信号和其他信号(如图像信号、振动信号等)进行融合,以提高语音识别性能,也是未来研究研究方向之一.
(4)多技术融合,提高认知智能.当前大多数语音识别算法只关注识别文字内容的正确性;然而,许多智能语音交互的应用(如QA问答、多轮对话等)还涉及到语义的理解.因此,将语音识别技术结合其他技术[72-75]如自然语言处理(naturallanguageprocessing,NLP)相结合以提升识别性能也是未来研究方向之一.
语音识别技术的研究进展与展望
【流媒体网】摘要:本文对语音识别技术的发展情况、最近几年的关键突破性技术进行了介绍,并对语音识别技术的发展趋势做了展望。
【摘要】自动语音识别(ASR)技术的目的是让机器能够“听懂”人类的语音,将人类语音信息转化为可读的文字信息,是实现人机交互的关键技术,也是长期以来的研究热点。最近几年,随着深度神经网络的应用,加上海量大数据的使用和云计算的普及,语音识别取得了突飞猛进的进展,在多个行业突破了实用化的门槛,越来越多的语音技术产品进入了人们的日常生活,包括苹果的Siri、亚马逊的Alexa、讯飞语音输入法、叮咚智能音箱等都是其中的典型代表。对语音识别技术的发展情况、最近几年的关键突破性技术进行了介绍,并对语音识别技术的发展趋势做了展望。
【关键词】自动语音识别;深度神经网络;声学模型;语言模型
doi:10.11959/j.issn.1000-0801.2018095
【Abstract】
Thepurposeofautomaticspeechrecognition(ASR)istomakethemachinetobeableto“understand”thehumanspeechandtransformittoreadabletextinformation.ASRisoneofthekeytechnologiesofhumanmachineinteractionandalsoahotresearchdomainforalongtime.Inrecentyears,duetotheapplicationofdeepneuralnetworks,theuseofbigdataandthepopularityofcloudcomputing,ASRhasmadegreatprogressandbreakthroughthethresholdofapplicationinmanyindustries.MoreandmoreproductswithASRhaveenteredpeople’sdailylife,suchasApple’sSiri,Amazon’sAlexa,IFLYTEKspeechinputmethodandDingdongintelligentspeakerandsoon.Thedevelopmentstatusandkeybreakthroughtechnologiesinrecentyearswereintroduced.Also,aforecastofASRtechnologies’trendofdevelopmentwasgiven.
【Keywords】automaticspeechrecognition,deepneuralnetwork,acousticmodel,languagemodel
1引言
语音是人类最自然的交互方式。计算机发明之后,让机器能够“听懂”人类的语言,理解语言中的内在含义,并能做出正确的回答就成为了人们追求的目标。这个过程中主要涉及3种技术,即自动语音识别(automaticspeechrecognition,ASR);自然语言处理(naturallanguageprocessing,NLP),目的是让机器能理解人的意图;语音合成(speechsynthesis,SS),目的是让机器能说话。
语音识别技术的目的是让机器能听懂人类的语音,是一个典型的交叉学科任务,涉及模式识别、信号处理、物理声学、生理学、心理学、计算机科学和语言学等多个学科。
语音识别技术的研究最早开始于20世纪50年代,1952年贝尔实验室研发出了10个孤立数字的识别系统[1]。从20世纪60年代开始,美国卡耐基梅隆大学的Reddy等开展了连续语音识别的研究,但是这段时间发展很缓慢。1969年贝尔实验室的PierceJ甚至在一封公开信中将语音识别比作近几年不可能实现的事情,例如“将水转化为汽油,从海里提取金子,治疗癌症”等。20世纪80年代开始,以隐马尔可夫模型(hiddenMarkovmodel,HMM)方法[2,3]为代表的基于统计模型方法逐渐在语音识别研究中占据了主导地位。HMM模型能够很好地描述语音信号的短时平稳特性,并且将声学、语言学、句法等知识集成到统一框架中。此后,HMM的研究和应用逐渐成为了主流。例如,第一个“非特定人连续语音识别系统”是当时还在卡耐基梅隆大学读书的李开复研发的SPHINX[4]系统,其核心框架就是GMM-HMM框架,其中GMM(Gaussianmixturemodel,高斯混合模型)用来对语音的观察概率进行建模,HMM则对语音的时序进行建模。20世纪80年代后期,深度神经网络(deepneuralnetwork,DNN)的前身——人工神经网络(artificialneuralnetwork,ANN)也成为了语音识别研究的一个方向[5]。但这种浅层神经网络在语音识别任务上的效果一般,表现并不如GMM-HMM模型。20世纪90年代开始,语音识别掀起了第一次研究和产业应用的小高潮,主要得益于基于GMM-HMM声学模型的区分性训练准则和模型自适应方法的提出。这时期剑桥发布的HTK开源工具包[6]大幅度降低了语音识别研究的门槛。此后将近10年的时间里,语音识别的研究进展一直比较有限,基于GMM-HMM框架的语音识别系统整体效果还远远达不到实用化水平,语音识别的研究和应用陷入了瓶颈。
2006年Hinton[7]提出使用受限波尔兹曼机(restrictedBoltzmannmachine,RBM)对神经网络的节点做初始化,即深度置信网络(deepbeliefnetwork,DBN)。DBN解决了深度神经网络训练过程中容易陷入局部最优的问题,自此深度学习的大潮正式拉开。2009年,Hinton和他的学生MohamedD[8]将DBN应用在语音识别声学建模中,并且在TIMIT这样的小词汇量连续语音识别数据库上获得成功。2011年DNN在大词汇量连续语音识别上获得成功[9],语音识别效果取得了近10年来最大的突破。从此,基于深度神经网络的建模方式正式取代GMM-HMM,成为主流的语音识别建模方式。
2语音识别声学模型中深度神经网络的应用
2.1深度学习比浅层模型更适合语音处理
深度学习(deeplearning,DL)是指利用多层的非线性信号和信息处理技术,通过有监督或者无监督的方法,进行信号转换、特征提取以及模式分类等任务的机器学习类方法[10]的总称。因为采用深层结构(deeparchitecture)[11]模型对信号和信息进行处理,所以这里称为“深度”学习。传统的机器学习模型很多属于浅层结构(shallowstructure)模型,例如支持向量机(supportvectormachine,SVM)、GMM、HMM、条件随机场(conditionalrandomfield,CRF)、线性或者非线性动态系统、单隐层的神经网络(neuralnetwork,NN)等。原始的输入信号只经过比较少的层次(通常是一层)的线性或者非线性处理以达到信号与信息处理,是这些结构模型的共同特点。浅层模型的优点在于在数学上有比较完善的算法,并且结构简单、易于学习。但是浅层模型使用的线性或者非线性变换组合比较少,对于信号中复杂的结构信息并不能有效地学习,对于复杂信号的表达能力有局限性。而深层结构的模型则更适合于处理复杂类型的信号,原因在于深层结构具备多层非线性变换[12],具有更强的表达与建模能力。
人类语音信号产生和感知就是这样一个极其复杂的过程,并且在生物学上被证明具有明显的多层次甚至深层次的处理结构[13]。所以,对于语音识别任务,采用浅层结构模型明显有很大的局限性。利用深层次结构中的多层非线性变换进行语音信号中的结构化信息和更高层信息的提取,是更加合理的选择。
2.2DNN在语音识别系统中的应用和局限性
从2011年之后,基于DNN-HMM声学模型[14-18]在多种语言、多种任务的语音识别上取得了比传统GMM-HMM声学模型大幅度且一致性的效果提升。基于DNN-HMM语音识别系统的基本框架如图1所示,采用DNN替换GMM模型来建模语音观察概率,是其和传统的GMM-HMM语音识别系统最大的不同。前馈型深度神经网络(feed-forwarddeepneuralnetwork,FDNN)由于比较简单,是最初主流的深层神经网络。
使用DNN取代GMM主要有以下几个原因:DNN可以将相邻的语音帧拼接起来作为输入特征,使得更长时的结构信息得以描述;DNN的输入特征可以是多种特征的融合,也可以是离散或者连续的特征;不需要对语音数据分布进行假设,也是使用DNN估计HMM状态的后验概率分布的一个特点。
语音识别的特征提取需要首先对波形进行加窗和分帧,然后再提取特征。训练GMM模型的输入是单帧特征,DNN则一般采用多个相邻帧拼接在一起作为输入,这种方法使得语音信号更长的结构信息得以描述,研究表明,特征拼接输入是DNN相比于GMM可以获得大幅度性能提升的关键因素。由于说话时的协同发音的影响,语音是一种各帧之间相关性很强的复杂时变信号,正要说的字的发音和前后好几个字都有影响,并且影响的长度随着说话内容的不同而时变。虽然采用拼接帧的方式可以学到一定程度的上下文信息,但是由于DNN输入的窗长(即拼接的帧数)是事先固定的,因此DNN的结构只能学习到固定的输入到输入的映射关系,导致其对时序信息的更长时相关性的建模灵活性不足。
2.3递归神经网络在声学模型中的应用
语音信号具有明显的协同发音现象,因此必须考虑长时相关性。由于循环神经网络(recurrentneuralnetwork,RNN)具有更强的长时建模能力,使得RNN也逐渐替代DNN成为语音识别主流的建模方案。DNN和RNN的网络结构如图2所示,RNN在隐层上增加了一个反馈连接,是其和DNN最大的不同。这意味着RNN的隐层当前时刻的输入不但包括了来自上一层的输出,还包括前一时刻的隐层输出,这种循环反馈连接使得RNN原则上可以看到前面所有时刻的信息,这相当于RNN具备了历史记忆功能。对于语音这种时序信号来说,使用RNN建模显得更加适合。
但是,传统的RNN在训练过程中存在梯度消失的问题,导致该模型难以训练。为了克服梯度消失问题,有研究人员提出了长短时记忆(long-shorttermmemory,LSTM)RNN[19]。LSTM-RNN使用输入门、输出门和遗忘门来控制信息流,使得梯度能在相对更长的时间跨度内稳定地传播。双向LSTM-RNN(BLSTM-RNN)对当前帧进行处理时,可以利用历史的语音信息和未来的语音信息,从而容易进行更加准确的决策,因此也能取得比单向LSTM更好的性能提升。
尽管双向LSTM-RNN的性能更好,但它并不适合实时系统,由于要利用较长时刻的未来信息,会使得该系统具有很大时延,主要用于一些离线语音识别任务。基于此,研究人员提出了延迟受控BLSTM(latencycontrol-BLSTM)[20]和行卷积BLSTM等模型结构,这些模型试图构建单向LSTM和BLSTM之间的折中:即前向LSTM保持不变,针对用来看未来信息的反向LSTM做了优化。在LC-BLSTM结构中,标准的反向LSTM被带有最多N帧前瞻量的反向LSTM替代,而在行卷积模型中被集成了N帧前瞻量的行卷积替代。
2.4基于FSMN的语音识别系统
目前国际上已经有不少学术或工业机构在进行RNN架构下的研究。目前效果最好的基于BLSTM-RNN的语音识别系统存在时延过大的问题,这对于实时的语音交互系统(如语音输入法),并不合适。尽管可以通过LC-BLSTM和行卷积BLSTM将BLSTM做到实时语音交互系统,由于RNN具有比DNN更加复杂的结构,海量数据下的RNN模型训练需要耗费大量的时间。最后,由于RNN对上下文相关性的拟合较强,相对于DNN更容易陷入过拟合的问题,容易因为训练数据的局部问题而带来额外的异常识别错误。
为了解决以上问题,科大讯飞结合传统的DNN框架和RNN的特点,研发出了一种名为前馈型序列记忆网络(feed-forwardsequentialmemorynetwork,FSMN)的新框架[21],具体如图3所示。FSMN的结构采用非循环的前馈结构,只需要180ms的时延,就达到了和BLSTM-RNN相当的效果。
FSMN的结构示意如图3(a)所示,其主要是基于传统DNN结构的改进,在DNN的隐层旁增加了一个“记忆模块”,这个记忆模块用来存储对判断当前语音帧有用的语音信号的历史信息和未来信息。图3(b)画出了记忆模块左右各记忆N帧语音信息的时序展开结构。需记忆的历史和未来信息长度N可根据实际任务的需要来调整。FSMN记忆块的记忆功能是使用前馈结构实现的,这点有别于传统的基于循环反馈的RNN模型。采用这种前馈结构存储信息有两大好处:首先,传统双向RNN必须等待语音输入结束才能对当前语音帧进行判断,双向FSMN对未来信息进行记忆时只需要等待有限长度的未来语音帧即可,这个优点使得FSMN的时延是可控的。实验证明,使用双向FSMN结构,时延控制在180ms时就能取得和传统双向RNN相当的效果;其次,传统简单的RNN实际并不能记住无穷长的历史信息,而是只能记住有限长的历史信息,原因是其训练过程中存在梯度消失的问题。然而FSMN的记忆网络完全基于前馈展开,在模型训练过程中,梯度则沿着记忆块与隐层的连接权重(如图3所示)往回传给各个时刻,对判断当前语音帧的影响的信息通过这些连接权重来决定,而且这种梯度传播是可训练的,并且在任何时刻都是常数衰减,以上的实现方式使得FSMN也具有了类似LSTM的长时记忆能力,这相当于使用了一种更为简单的方式解决了传统RNN中的梯度消失问题。另外,由于FSMN完全基于前馈神经网络结构,也使得它的并行度更高,GPU计算能力可利用得更加充分,从而获得效率更高的模型训练过程,并且FSMN结构在稳定性方面也表现得更加出色。
2.5基于卷积神经网络的语音识别系统
卷积神经网络(convolutionalneuralnetwork,CNN)的核心是卷积运算(或卷积层),是另一种可以有效利用长时上下文语境信息的模型[22]。继DNN在大词汇量连续语音识别上的成功应用之后,CNN又在DNN-HMM混合模型架构下被重新引入。重新引入CNN最初只是为了解决频率轴的多变性[23-26]来提升模型的稳定性,因为该混合模型中的HMM已经有很强的处理语音识别中可变长度话语问题的能力。早期CNN-HMM模型仅使用了1~2个卷积层,然后和全连接DNN层堆叠在一起。后来,LSTM等其他RNN层也被集成到了该模型中,从而形成了所谓的CNN-LSTM-DNN(CLDNN)[27]架构。
基于CNN-HMM框架的语音识别吸引了大量的研究者,但是始终鲜有重大突破,最基本的原因有两个:首先是他们仍然采用固定长度的语音帧拼接作为输入的传统前馈神经网络的思路,导致模型不能看到足够的上下文信息;其次是他们采用的卷积层数很少,一般只有1~2层,把CNN视作一种特征提取器来使用,这样的卷积网络结构表达能力十分有限。针对这些问题,科大讯飞在2016年提出了一种全新的语音识别框架,称为全序列卷积神经网络(deepfullyconvolutionalneuralnetwork,DFCNN)。实验证明,DFCNN比BLSTM语音识别系统这个学术界和工业界最好的系统识别率提升了15%以上。基于DFCNN语音识别框架示意如图4所示。
如图4所示,DFCNN先对时域的语音信号进行傅里叶变换得到语音的语谱图,DFCNN直接将一句语音转化成一张图像作为输入,输出单元则直接与最终的识别结果(比如音节或者汉字)相对应。DFCNN的结构中把时间和频率作为图像的两个维度,通过较多的卷积层和池化(pooling)层的组合,实现对整句语音的建模。DFCNN的原理是把语谱图看作带有特定模式的图像,而有经验的语音学专家能够从中看出里面说的内容。
为了理解DFCNN的优势所在,下面从输入端、模型结构和输出端3个角度更具体地分析。首先,在输入端,传统语音识别系统的提取特征方式是在傅里叶变换后用各种类型的人工设计的滤波器,比如LogMel-FilterBank,造成在语音信号频域,尤其是高频区域的信息损失比较明显。另外,传统语音特征采用非常大的帧移来降低运算量,导致时域上的信息会有损失,当说话人语速较快的时候,这个问题表现得更为突出。而DFCNN将语谱图作为输入,避免了频域和时域两个维度的信息损失,具有天然的优势。其次,从模型结构上来看,为了增强CNN的表达能力,DFCNN借鉴了在图像识别中表现最好的网络配置,与此同时,为了保证DFCNN可以表达语音的长时相关性,通过卷积池化层的累积,DFCNN能看到足够长的历史和未来信息,有了这两点,和BLSTM的网络结构相比,DFCNN在顽健性上表现更加出色。最后,从输出端来看,DFCNN比较灵活,可以方便地和其他建模方式融合,比如和连接时序分类模型(connectionisttemporalclassification,CTC)方案结合,以实现整个模型的端到端声学模型训练。DFCNN语音识别框架可以方便地和其他多个技术点结合,实验证明,在数万小时的中文语音识别任务上,和目前业界最好的语音识别框架BLSTM-CTC系统相比,DFCNN系统获得了额外15%的性能提升。
2.6大规模语音数据下神经网络声学模型的训练
相比于传统的GMM-HMM系统,基于DNN-HMM语音识别系统取得了巨大的性能提升[28,29]。但是DNN声学模型的训练却非常耗时。举个例子,在一个配置为E5-2697v4的CPU上进行2万小时规模的语音数据的声学模型训练,大概需要116天左右才能训练完。造成这种情况的潜在原因是将随机梯度下降(stochasticgradientdescent,SGD)算法作为神经网络训练中的基本算法,SGD算法收敛相对较慢,而且是一个串行算法,很难进行并行化训练。而目前工业界主流的语音识别系统涉及的训练数据一般为几千小时甚至几万小时级别,因此,提高在大规模语音数据下深度神经网络的训练速度和训练效率,也成为了研究热点和必须解决的问题。
由于深度神经网络的模型参数非常稀疏,利用这个特点,参考文献[30]将深度神经网络模型中超过80%的较小参数都设置为0,几乎没有性能损失,同时模型尺寸大大减少,但是训练时间并没有明显减小,原因是参数稀疏性带来的高度随机内存访问并没有得到太多的优化。进一步地,参考文献[31]提出在深度神经网络中,用两个低秩矩阵的乘积表示权重矩阵,实现了30%~50%的效率提升。
通过使用多个CPU或者GPU并行训练来解决神经网络训练效率是另外一种可行的方法。参考文献[32,33]的方式是:把训练数据分成许多小块后并行地送到不同的机器来进行矩阵运算,从而实现并行训练。参考文献[34]的优化方案是:在模型的每遍迭代中,先将训练数据分成N个完全不相交的子集,然后在每个子集中训练一个sub-MLP,最后把这些sub-MLP进行合并网络结合。为了进一步提升并行效率,参考文献[35]在上千个CPU核的计算集群实现了这种方式,深层网络的训练主要是利用异步梯度下降(asynchronousSGD)算法。参考文献[36]将异步梯度下降算法应用到了多个GPU中。在参考文献[37]中,一种管道式的BP算法被提了出来,该方法利用不同的GPU单元来计算神经网络中不同层,实现并行训练的效果。实验证明,相对使用单个GPU训练,该方法通过使用4个GPU实现了3.1倍左右的效率提升。然而,不同计算单元之间极其频繁的数据传递成为该类方法提升训练效率的主要瓶颈。为此,为了更好地实现神经网络并行训练,一种新的基于状态聚类的多深层神经网络建模方法[38]被提出,该方法先将训练数据在状态层面进行聚类,在状态层面进行不相交的子集划分,使得不同计算单元神经网络之间的数据传递规模大幅度减小,从而实现每个神经网络完全独立的并行训练。使用4块GPU,在聚类数为4类的情况下,在SWB(SwitchBoard)数据集上的实验表明,这种状态聚类的多神经网络方法取得了约4倍的训练效率提升。
3语音识别语言模型中深度神经网络的应用
深度学习理论除了在声学模型建模上获得了广泛的应用外,在语音识别系统另外的重要组件——语言模型上也得到了应用。在深度神经网络普及之前,语音识别系统主要采用传统的统计语言模型N-gram模型[39]进行建模。N-gram模型也具备明显的优点,其结构简单且训练效率很高,但是N-gram的模型参数会随着阶数和词表的增大而指数级增长,导致无法使用更高的阶数,性能容易碰到瓶颈,在训练语料处于相对稀疏的状态时,可以借助降权(discounting)和回溯(backing-off)等成熟的平滑算法解决低频词或不可见词的概率估计问题,以获得比较可靠的模型估计。
在20世纪初,一些浅层前馈神经网络被用于统计语言模型建模[40]。神经网络语言模型是一种连续空间语言模型,平滑的词概率分布函数使得它对于训练语料中的低频词和不可见词的概率估计更为顽健,具有更好的推广性,在语音识别任务上也取得了显著的效果[41]。最近几年,相关研究人员也将深层神经网络用于语言模型建模,并取得了进一步的性能提升[42]。
然而,前馈神经网络语言模型只能够处理固定长度的历史信息,其仍然存在N阶假设,即在预测当前词概率的时候只与之前N-1个词有关,这在一定程度上影响了模型的准确性。实际上,人类能够记忆和处理的历史信息要长久得多,而标准的RNN正好能够通过循环网络结构记忆和处理任意长度的历史信息,因此参考文献[43]将RNN引入语言模型建模中。RNN相比于前馈神经网络取得了更好的性能。然而,由于基于RNN的深层网络的复杂特性,模型的训练训练依旧非常耗时,在大文本(100GB~1TB)语料上几乎不可实现。参考文献[44]提出在GPU上将多个句子拼接为数据组(mini-batch)同时参与训练,大幅度地提升了RNN的训练效率。科大讯飞基于参考文献[45]的方法进一步改进,将RNN的输出层基于词聚类进行了分解,在中文LVCSR任务上获得了50倍以上的训练效率提升。在提高训练效率的基础上,RNN模型相对于传统N-gram模型也获得了5%以上的识别效果提升,这也进一步验证了RNN的有效性。参考文献[46]提出了基于LSTM(longshort-termmemory)的RNN语言模型结构,通过对网络结构的调整,有效解决了RNN语言模型训练中存在梯度消失(gradientvanishing)的问题[47],并获得了一定的性能提升。
4深度学习、大数据和云计算之间的关系
基于深度学习的语音识别技术在21世纪初走向舞台的中央,并不只是由于深度学习类机器学习算法的进步,而是大数据、云计算和深度学习这3个要素相互促进的结果。
不同于之前GMM-HMM语音识别框架表达能力有限、效果对于大规模数据易饱和的情况,深度学习框架所具备的多层非线性变换的深层结构,则具有更强的表达与建模能力,使得语音识别模型对复杂数据的挖掘和学习能力得到了空前的提升,使得更大规模的海量数据的作用得以充分的发挥。大数据就像奶粉一样,“哺育”了深度学习算法,让深度学习算法变得越来越强大。
随着移动互联网、物联网技术和产品的普及,更重要的是采用云计算的方式,使得多种类型的海量数据得以在云端汇集。而对大规模的数据的运算的要求则又显著提升了对于云计算方式的依赖,因此云计算成为了本次深度学习革命的关键推手之一。
深度学习框架在云端的部署,则显著增强了云计算的能力。
正是由于深度学习、大数据和云计算三者的相互促进,才成就了本次语音技术的进步,成就了本次人工智能的浪潮。
5总结和展望
本文对语音识别领域的研究状况和最近几年的关键突破性技术做了比较详细的介绍。首先简要回顾了语音识别技术发展的历史,然后重点介绍了深度神经网络在语音识别声学模型建模中起到的引领作用,也介绍了各种形态(包括LSTM、FSMN、DFCNN等)的关键技术突破。相关研究证明,和传统的GMM-HMM框架相比,深度学习在大词汇量连续语音识别任务方面取得了30%~60%的性能提升。也介绍了深度声学模型训练的优化方法以及RNN在语言模型建模中的应用,在语言模型领域同样能取得比传统N-gram语言模型5%以上的识别效果提升。毫不夸张地说,深度学习技术的确给语音识别的研究和应用带来了革命性的历史突破。
语音识别技术进一步的研究热点方向应该包含以下几个。
首先是端到端的语音识别系统。在目前DNN-HMM的混合框架下,声学模型中DNN、HMM两个部分以及语言模型都是单独训练的。然而语音识别是一个序列识别的任务,如果能够对声学模型的各个部分以及语言模型进行联合优化,并且去除类似于发音词典等所有需要人工来设计的组件,必定能取得更进一步的效果提升。目前在声学模型建模领域已经出现了端到端的模型应用,即将声学模型中的各个组件做联合优化,且优化目标是输出的词或音素序列,而不是使用交叉熵(crossentropy,CE)准则来优化一帧一帧的标注,比如连接时序分类准则(CTC)被引入[48-50],并且在多个任务上取得了一定的效果。另外,受到CTC的启发,一种被称为无词图最大互信息(latticefreemaximummutualinformation,LFMMI)的准则被提出,可以实现从头训练的深度神经网络,不需要使用交叉熵做网络的初始化。但是无论是CTC还是LFMMI,都不能称为真正的端到端语音识别模型,它们仍需要发音词典、语言模型等组件,需要大量的专家知识来辅助设计。受到在翻译领域成功应用的Attention模型的启发[51,52],Encoder-Decoder框架已经不明确区分声学模型和语言模型,并且完全不需要发音词典等人工知识,可以真正地实现端到端的建模。Encoder-Decoder框架的模型训练难度很大并且收敛比较缓慢,目前Google(谷歌)和科大讯飞在新一代端到端框架下已经取得了正面的效果提升,后面应该会吸引更多的研究机构和学者进入该领域进行研究。
其次,直接利用时域波形语音建模来代替人工设计的特征(比如LogMel-FilterBank等)。主要原因是原始的时域波形文件中的信息量是最丰富的,在通过人工设计提取一些特征的同时也会抛弃一些信息,这些信息对于噪声较大等复杂场景识别十分重要。研究人员也在这个领域进行了相关的工作[53,54],但是只取得了与人工设计特征相当的效果。科大讯飞最新的研究成果证明,直接利用时域波形来建模在多个任务上都取得了10%以上的识别效果提升,并且认为该方面仍然会有巨大的提升潜力。
最后,利用多个麦克风信号和深度学习来联合建模,用来提升远场环境下的语音识别效果的研究也是近期和长期的热点,但是如何将深度学习对于离线大数据的学习能力和传统的信号处理对于瞬时信号处理能力结合起来,仍需要很多的研究工作要做。
参考文献
[1]DAVISK.H,BIDDULPHR,BALASHEKS.Automaticrecognitionofspokendigits[J].JournaloftheAcousticalSocietyofAmerica,1952,24(6):637.
[2]FERGUSONJD.ApplicationofhiddenMarkovmodelstotextandspeech[EB].1980.
[3]RABINERLR.AtutorialonhiddenMarkovmodelsandselectedapplicationsinspeechrecognition[J].ReadingsinSpeechRecognition,1990,77(2):267-296.
[4]LEEEKFLM.AnoverviewoftheSPHINXspeechrecognitionsystem[J].IEEETransactionsonAcousticsSpeech&SignalProcessingSpeech,1990,38(1):35-45.
[5]WAIBELA,HANAZAWAT,HINTONG.Phonemerecognitionusingtime-delayneuralnetworks[J].IEEETransactionsonAcoustics,Speech,andSignalProcessing,1990,1(2):393-404.
[6]YOUNGS,EVERMANNG,GALESM,etal.TheHTKbook[EB].2005.
[7]HINTONGE,OSINDEROS,TEHYW.Afastlearningalgorithmfordeepbeliefnets[J].NeuralComputation,2006,18(7):1527-1554.
[8]MOHAMEDAR,DAHLG,HINTONG.Deepbeliefnetworksforphonerecognition[EB].2009.
[9]YUD,DENGL.Deeplearninganditsapplicationstosignalandinformationprocessing[J].IEEESignalProcessingMagazine,2011,28(1):145-154.
[10]DENGL.Anoverviewofdeep-structuredlearningforinformationprocessing[C]//Asian-PacificSignalandInformationProcessing-AnnualSummitandConference(APSIPA-ASC),October18,2011,Xi’an,China.[S.l.:s.n.],2011.
[11]BENGIOY.LearningdeeparchitecturesforAI[J].FoundationsandTrends®inMachineLearning,2009,2(1):1-127.
[12]HINTONGE.Trainingproductsofexpertsbyminimizingcontrastivedivergence[J].NeuralComputation,2002,14(8):1771-1800.
[13]BAKERJ,DENGL,GLASSJ,etal.Developmentsanddirectionsinspeechrecognitionandunderstanding[J].IEEESignalProcessingMagazine,2009,26(3):75-80.
[14]MOHAMEDAR,DAHLG,HINTONG.Deepbeliefnetworksforphonerecognition[EB].2009.
[15]SAINATHTN,KINGSBURYB,RAMABHADRANB,etal.Makingdeepbeliefnetworkseffectiveforlargevocabularycontinuousspeechrecognition[EB].2011.
[16]MOHAMEDA,DAHLGE,HINTONG.Acousticmodelingusingdeepbeliefnetworks[J].IEEETransactionsonAudio,Speech,andLanguageProcessing,2012,20(1):14-22.
[17]DAHLGE,YUD,DENGL,etal.Context-dependentpre-traineddeepneuralnetworksforlargevocabularyspeechrecognition[J].IEEETransactionsonAudio,Speech,andLanguageProcessing,2012,20(1):30-42.
[18]HINTONG,DENGL,YUD,etal.Deepneuralnetworksforacousticmodelinginspeechrecognition:thesharedviewsoffourresearchgroups[J].IEEESignalProcessingMagazine,2012,29(6):82-97.
[19]HOCHREITERS,SCHMIDHUBERJ.Longshort-termmemory[J].NeuralComputation,1997,9(8):1735-1780.
[20]ZHANGY,CHENGG,YUD,etal.Highwaylongshort-termmemoryRNNSfordistantspeechrecognition[C]//2016IEEEInternationalConferenceonAcoustics,SpeechandSignalProcessing,March20-25,2016,Shanghai,China.Piscataway:IEEEPress,2016.
[21]ZHANGSL,LIUC,JIANGH,etal.Feedforwardsequentialmemorynetworks:anewstructuretolearnlong-termdependency[J].arXiv:1512.08301,2015.
[22]LECUNY,BENGIOY.Convolutionalnetworksforimages,speechandtime-series[M].Cambridge:MITPress,1995.
[23]ABDEL-HAMIDO,MOHAMEDAR,JIANGH,etal.ApplyingconvolutionalneuralnetworksconceptstohybridNN-HMMmodelforspeechrecognition[C]//2012IEEEInternationalConferenceonAcoustics,SpeechandSignalProcessing,March20,2012,Kyoto,Japan.Piscataway:IEEEPress,2012:4277-4280.
[24]ABDEL-HAMIDO,MOHAMEDAR,JIANGH,etal.Convolutionalneuralnetworksforspeechrecognition[J].IEEE/ACMTransactionsonAudioSpeech&LanguageProcessing,2014,22(10):1533-1545.
[25]ABDEL-HAMIDO,DENGL,YUD.Exploringconvolutionalneuralnetworkstructuresandoptimizationtechniquesforspeechrecognition[EB].2013.
[26]SAINATHTN,MOHAMEDAR,KINGSBURYB,etal.DeepconvolutionalneuralnetworksforLVCSR[C]//2013IEEEInternationalConferenceonAcoustics,SpeechandSignalProcessing,May26-30,2013,Vancouver,BC,Canada.Piscataway:IEEEPress,2013:8614-8618.
[27]SAINATHTN,VINYALSO,SENIORA,etal.Convolutional,longshort-termmemory,fullyconnecteddeepneuralnetworks[C]//2015IEEEInternationalConferenceonAcoustics,SpeechandSignalProcessing,April19-24,Brisbane,QLD,Australia.Piscataway:IEEEPress,2015:4580-4584.
[28]SEIDEF,LIG,YUD.Conversationalspeechtranscriptionusingcontext-dependentdeepneuralnetworks[C]//InternationalConferenceonMachineLearning,June28-July2,2011,Bellevue,Washington,USA.[S.l.:s.n.],2011:437-440.
[29]DAHLGE,YUD,DENGL,etal.Largevocabularycontinuousspeechrecognitionwithcontext-dependentDBN-HMMs[C]//ICASSP,May22-27,2011,Prague,CzechRepublic.[S.l.:s.n.],2011:4688-4691.
[30]YUD,SEIDEF,LIG,etal.Exploitingsparsenessindeepneuralnetworksforlargevocabularyspeechrecognition[C]//ICASSP,March25-30,2012,Kyoto,Japan.[S.l.:s.n.],2012:4409-4412.
[31]SAINATHTN,KINGSBURYB,SINDHWANIV,etal.Low-rankmatrixfactorizationfordeepneuralnetworktrainingwithhigh-dimensionaloutputtargets[C]//ICASSP,May26-31,2013,Vancouver,BC,Canada.[S.l.:s.n.],2013:6655-6659.
[32]KONTÁRS.Paralleltrainingofneuralnetworksforspeechrecognition[C]//13thInternationalConferenceonText,SpeechandDialogue,September6-10,2010,Brno,CzechRepublic.NewYork:ACMPress,2006:6-10.
[33]VESELÝK,BURGETL,GRÉZLF.Paralleltrainingofneuralnetworksforspeechrecognition[C]//13thInternationalConferenceonText,SpeechandDialogue,September6-10,2010,Brno,CzechRepublic.NewYork:ACMPress,2006:439-446.
[34]PARKJ,DIEHLF,GALESMJF,etal.EfficientgenerationanduseofMLPfeaturesforArabicspeechrecognition[C]//Interspeech,ConferenceoftheInternationalSpeechCommunicationAssociation,September6-10,2009,Brighton,UK.[S.l.:s.n.],2009:236-239.
[35]LEQV,RANZATOMA,MONGAR,etal.Buildinghigh-levelfeaturesusinglargescaleunsupervisedlearning[J].arXivpreprintarXiv:1112.6209,2011.
[36]ZHANGS,ZHANGC,YOUZ,etal.AsynchronousstochasticgradientdescentforDNNtraining[C]//IEEEInternationalConferenceonAcoustics,June27-July2,2013,SantaClaraMarriott,CA,USA.Piscataway:IEEEPress,2013:6660-6663.
[37]CHENX,EVERSOLEA,LIG,etal.Pipelinedback-propagationforcontext-dependentdeepneuralnetworks[C]//13thAnnualConferenceoftheInternationalSpeechCommunicationAssociation,September9-13,2012,Portland,OR,USA.[S.l:s.n.],2012:429-433.
[38]ZHOUP,LIUC,LIUQ,etal.Acluster-basedmultipledeepneuralnetworksmethodforlargevocabularycontinuousspeechrecognition[C]//ICASSP,May26-31,2013,Vancouver,BC,Canada.[S.l.:s.n.],2013:6650-6654.
[39]JELINEKF.Thedevelopmentofanexperimentaldiscretedictationrecognizer[J].ReadingsinSpeechRecognition,1990,73(11):1616-1624.
[40]BENGIOY,DUCHARMER,VINCENTP.Aneuralprobabilisticlanguagemodel[J].JournalofMachineLearningResearch,2003(3):1137-1155.
[41]SCHWENKH,GAUVAINJL.Trainingneuralnetworklanguagemodelsonverylargecorpora[C]//ConferenceonHumanLanguageTechnology&EmpiricalMethodsinNaturalLanguageProcessing,October6-8,2005,Vancouver,BC,Canada.NewYork:ACMPress,2005:201-208.
[42]ARıSOYE,SAINATHTN,KINGSBURYB,etal.Deepneuralnetworklanguagemodels[C]//NAACL-HLT2012Workshop,June8,2012,Montreal,Canada.NewYork:ACMPress,2012:20-28.
[43]MIKOLOVT,KARAFIATM,BURGETL,etal.Recurrentneuralnetworkbasedlanguagemodel[C]//11thAnnualConferenceoftheInternationalSpeechCommunicationAssociation,September26-30,2010,Makuhari,Chiba,Japan.[S.l.:s.n.],2010:1045-1048.
[44]CHENX,WANGY,LIUX,etal.EfficientGPU-basedtrainingofrecurrentneuralnetworklanguagemodelsusingsplicedsentencebunch[EB].2014.
[45]MIKOLOVT,KOMBRINKS,BURGETL,etal.Extensionsofrecurrentneuralnetworklanguagemodel[C]//IEEEInternationalConferenceonAcoustics,May22-27,2011,Prague,CzechRepublic.Piscataway:IEEEPress,2011:5528-5531.
[46]SUNDERMEYERM,SCHLUTERR,NEYH.LSTMneuralnetworksforlanguagemodeling[EB].2012.
[47]BENGIOY,SIMARDP,FRASCONIP.Learninglongtermdependencieswithgradientdescentisdifficult[J].IEEETransactionsonNeuralNetworks,1994,5(2):157.
[48]SAKH,SENIORA,RAOK.Learningacousticframelabelingforspeechrecognitionwithrecurrentneuralnetworks[C]//2015ICASSP,April19-24,2015,Brisbane,QLD,Australia.[S.l.:s.n.],2015:4280-4284.
[49]SAKH,SENIORA,RAOK,etal.Fastandaccuraterecurrentneuralnetworkacousticmodelsforspeechrecognition[J].arXiv:1507.06947,2015.
[50]SENIORA,SAKH,QUITRYFDC,etal.AcousticmodellingwithCD-CTC-SMBRLSTMRNNS[C]//2015IEEEWorkshoponAutomaticSpeechRecognitionandUnderstanding(ASRU),December13-17,2015,Scottsdale,AZ,USA.Piscataway:IEEEPress,2015:604-609.
[51]BAHDANAUD,CHOK,BENGIOY.Neuralmachinetranslationbyjointlylearningtoalignandtranslate[J].arXiv:1409.0473,2014.
[52]MNIHV,HEESSN,GRAVESA,etal.Recurrentmodelsofvisualattention[C]//28thAnnualConferenceonNeuralInformationProcessingSystems,December8-13,2014,Montreal,Canada.[S.l.:s.n.],2014:2204-2212.
[53]TUSKEZ,GOLIKP,SCHLUTERR,etal.AcousticmodelingwithdeepneuralnetworksusingrawtimesignalforLVCSR[EB].2014.
[54]SAINATHTN,WEISSRJ,SENIORAW,etal.Learningthespeechfront-endwithrawwaveform[EB].2015.
责任编辑:路明玉
分享到:版权声明:凡注明来源“流媒体网”的文章,版权均属流媒体网所有,转载需注明出处。非本站出处的文章为转载,观点供业内参考,不代表本站观点。文中图片均来源于网络收集整理,仅供学习交流,版权归原作者所有。如涉及侵权,请及时联系我们删除!