语音识别技术概述语音识别技术是让机器能够听懂人类的语言

发表时间：2023-07-16 15:44:26

语音识别技术概述

语音是人类最自然的交互方式。计算机发明之后，让机器能够“听懂”人类的语言，理解语言中的内在含义，并能做出正确的回答就成为了人们追求的目标。我们都希望像科幻电影中那些智能先进的机器人助手一样，在与人进行语音交流时，让它听明白你在说什么。语音识别技术将人类这一曾经的梦想变成了现实。语音识别就好比“机器的听觉系统”，该技术让机器通过识别和理解，把语音信号转变为相应的文本或命令。

语音识别技术，也被称为自动语音识别AutomaTIcSpeechRecogniTIon，(ASR)，其目标是将人类的语音中的词汇内容转换为计算机可读的输入，例如按键、二进制编码或者字符序列。语音识别就好比“机器的听觉系统”，它让机器通过识别和理解，把语音信号转变为相应的文本或命令。

语音识别是一门涉及面很广的交叉学科，它与声学、语音学、语言学、信息理论、模式识别理论以及神经生物学等学科都有非常密切的关系。语音识别技术正逐步成为计算机信息处理技术中的关键技术。

语音识别技术的发展

语音识别技术的研究最早开始于20世纪50年代，1952年贝尔实验室研发出了10个孤立数字的识别系统。从20世纪60年代开始，美国卡耐基梅隆大学的Reddy等开展了连续语音识别的研究，但是这段时间发展很缓慢。1969年贝尔实验室的PierceJ甚至在一封公开信中将语音识别比作近几年不可能实现的事情。

20世纪80年代开始，以隐马尔可夫模型(hiddenMarkovmodel，HMM)方法为代表的基于统计模型方法逐渐在语音识别研究中占据了主导地位。HMM模型能够很好地描述语音信号的短时平稳特性，并且将声学、语言学、句法等知识集成到统一框架中。此后，HMM的研究和应用逐渐成为了主流。例如，第一个“非特定人连续语音识别系统”是当时还在卡耐基梅隆大学读书的李开复研发的SPHINX系统，其核心框架就是GMM-HMM框架，其中GMM(Gaussianmixturemodel，高斯混合模型)用来对语音的观察概率进行建模，HMM则对语音的时序进行建模。

20世纪80年代后期，深度神经网络(deepneuralnetwork，DNN)的前身——人工神经网络(artificialneuralnetwork，ANN)也成为了语音识别研究的一个方向。但这种浅层神经网络在语音识别任务上的效果一般，表现并不如GMM-HMM模型。

20世纪90年代开始，语音识别掀起了第一次研究和产业应用的小高潮，主要得益于基于GMM-HMM声学模型的区分性训练准则和模型自适应方法的提出。这时期剑桥发布的HTK开源工具包大幅度降低了语音识别研究的门槛。此后将近10年的时间里，语音识别的研究进展一直比较有限，基于GMM-HMM框架的语音识别系统整体效果还远远达不到实用化水平，语音识别的研究和应用陷入了瓶颈。

2006年Hinton]提出使用受限波尔兹曼机(restrictedBoltzmannmachine，RBM)对神经网络的节点做初始化，即深度置信网络(deepbeliefnetwork，DBN)。DBN解决了深度神经网络训练过程中容易陷入局部最优的问题，自此深度学习的大潮正式拉开。

2009年，Hinton和他的学生MohamedD将DBN应用在语音识别声学建模中，并且在TIMIT这样的小词汇量连续语音识别数据库上获得成功。

2011年DNN在大词汇量连续语音识别上获得成功，语音识别效果取得了近10年来最大的突破。从此，基于深度神经网络的建模方式正式取代GMM-HMM，成为主流的语音识别建模方式。

语音识别的基本原理

所谓语音识别，就是将一段语音信号转换成相对应的文本信息，系统主要包含特征提取、声学模型，语言模型以及字典与解码四大部分，其中为了更有效地提取特征往往还需要对所采集到的声音信号进行滤波、分帧等预处理工作，把要分析的信号从原始信号中提取出来;之后，特征提取工作将声音信号从时域转换到频域，为声学模型提供合适的特征向量;声学模型中再根据声学特性计算每一个特征向量在声学特征上的得分;而语言模型则根据语言学相关的理论，计算该声音信号对应可能词组序列的概率;最后根据已有的字典，对词组序列进行解码，得到最后可能的文本表示。

声学信号预处理

作为语音识别的前提与基础，语音信号的预处理过程至关重要。在最终进行模板匹配的时候，是将输入语音信号的特征参数同模板库中的特征参数进行对比，因此，只有在预处理阶段得到能够表征语音信号本质特征的特征参数，才能够将这些特征参数进行匹配进行识别率高的语音识别。

首先需要对声音信号进行滤波与采样，此过程主要是为了排除非人体发声以外频率的信号与50Hz电流频率的干扰，该过程一般是用一个带通滤波器、设定上下戒指频率进行滤波，再将原有离散信号进行量化处理实现的;之后需要平滑信号的高频与低频部分的衔接段，从而可以在同一信噪比条件下对频谱进行求解，使得分析更为方便快捷;分帧加窗操作是为了将原有频域随时间变化的信号具有短时平稳特性，即将连续的信号用不同长度的采集窗口分成一个个独立的频域稳定的部分以便于分析，此过程主要是采用预加重技术;最后还需要进行端点检测工作，也就是对输入语音信号的起止点进行正确判断，这主要是通过短时能量(同一帧内信号变化的幅度)与短时平均过零率(同一帧内采样信号经过零的次数)来进行大致的判定。

声学特征提取

完成信号的预处理之后，随后进行的就是整个过程中极为关键的特征提取的操作。将原始波形进行识别并不能取得很好的识别效果，频域变换后提取的特征参数用于识别，而能用于语音识别的特征参数必须满足以下几点：

1、特征参数能够尽量描述语音的根本特征;

2、尽量降低参数分量之间的耦合，对数据进行压缩;

3、应使计算特征参数的过程更加简便，使算法更加高效。基音周期、共振峰值等参数都可以作为表征语音特性的特征参数。

目前主流研究机构最常用到的特征参数有：线性预测倒谱系数(LPCC)和Mel倒谱系数(MFCC)。两种特征参数在倒谱域上对语音信号进行操作，前者以发声模型作为出发点，利用LPC技术求倒谱系数。后者则模拟听觉模型，把语音经过滤波器组模型的输出做为声学特征，然后利用离散傅里叶变换(DFT)进行变换。

所谓基音周期，是指声带振动频率(基频)的振动周期，因其能够有效表征语音信号特征，因此从最初的语音识别研究开始，基音周期检测就是一个至关重要的研究点;所谓共振峰，是指语音信号中能量集中的区域，因其表征了声道的物理特征，并且是发音音质的主要决定条件，因此同样是十分重要的特征参数。此外，目前也有许多研究者开始将深度学习中一些方法应用在特征提取中，取得了较快的进展。

声学模型

声学模型是语音识别系统中非常重要的一个组件，对不同基本单元的区分能力直接关系到识别结果的好坏。语音识别本质上一个模式识别的过程，而模式识别的核心是分类器和分类决策的问题。

通常，在孤立词、中小词汇量识别中使用动态时间规整(DTW)分类器会有良好的识别效果，并且识别速度快，系统开销小，是语音识别中很成功的匹配算法。但是，在大词汇量、非特定人语音识别的时候，DTW识别效果就会急剧下降，这时候使用隐马尔科夫模型(HMM)进行训练识别效果就会有明显提升，由于在传统语音识别中一般采用连续的高斯混合模型GMM来对状态输出密度函数进行刻画，因此又称为GMM-HMM构架。

同时，随着深度学习的发展，通过深度神经网络来完成声学建模，形成所谓的DNN-HMM构架来取代传统的GMM-HMM构架，在语音识别上也取得了很好的效果。

高斯混合模型

对于一个随机向量x，如果它的联合概率密度函数符合公式2-9，则称它服从高斯分布，并记为x∼N(µ,Σ)。

其中，µ为分布的期望，Σ为分布的协方差矩阵。高斯分布有很强的近似真实世界数据的能力，同时又易于计算，因此被广泛地应用在各个学科之中。但是，仍然有很多类型的数据不好被一个高斯分布所描述。这时候我们可以使用多个高斯分布的混合分布来描述这些数据，由多个分量分别负责不同潜在的数据来源。此时，随机变量符合密度函数。

其中，M为分量的个数，通常由问题规模来确定。

我们称认为数据服从混合高斯分布所使用的模型为高斯混合模型。高斯混合模型被广泛的应用在很多语音识别系统的声学模型中。考虑到在语音识别中向量的维数相对较大，所以我们通常会假设混合高斯分布中的协方差矩阵Σm为对角矩阵。这样既大大减少了参数的数量，同时可以提高计算的效率。

使用高斯混合模型对短时特征向量建模有以下几个好处：首先，高斯混合模型的具有很强的建模能力，只要分量总数足够多，高斯混合模型就可以以任意精度来逼近一个概率分布函数;另外，使用EM算法可以很容易地使模型在训练数据上收敛。对于计算速度和过拟合等问题，人们还研究出了参数绑定的GMM和子空间高斯混合模型(subspaceGMM)来解决。除了使用EM算法作最大似然估计以外，我们还可以使用和词或音素错误率直接相关的区分性的误差函数来训练高斯混合模型，能够极大地提高系统性能。因此，直到在声学模型中使用深度神经网络的技术出现之前，高斯混合模型一直是短时特征向量建模的不二选择。

但是，高斯混合模型同样具有一个严重的缺点：高斯混合模型对于靠近向量空间上一个非线性流形(manifold)上的数据建模能力非常差。例如，假设一些数据分布在一个球面两侧，且距离球面非常近。如果使用一个合适的分类模型，我们可能只需要很少的参数就可以将球面两侧的数据区分开。但是，如果使用高斯混合模型描绘他们的实际分布情况，我们需要非常多的高斯分布分量才能足够精确地刻画。这驱使我们寻找一个能够更有效利用语音信息进行分类的模型。

隐马尔科夫模型

我们现在考虑一个离散的随机序列，若转移概率符合马尔可夫性质，即将来状态和过去状态独立，则称其为一条马尔可夫链(MarkovChain)。若转移概率和时间无关，则称其为齐次(homogeneous)马尔可夫链。马尔可夫链的输出和预先定义好的状态一一对应，对于任意给定的状态，输出是可观测的，没有随机性。如果我们对输出进行扩展，使马尔可夫链的每个状态输出为一个概率分布函数。这样的话马尔可夫链的状态不能被直接观测到，只能通过受状态变化影响的符合概率分布的其他变量来推测。我们称以这种以隐马尔可夫序列假设来建模数据的模型为隐马尔可夫模型。

对应到语音识别系统中，我们使用隐马尔可夫模型来刻画一个音素内部子状态变化，来解决特征序列到多个语音基本单元之间对应关系的问题。

在语音识别任务中使用隐马尔可夫模型需要计算模型在一段语音片段上的可能性。而在训练的时候，我们需要使用Baum-Welch算法[23]学习隐马尔可夫模型参数，进行最大似然估计(MaximumLikelihoodEstimation,MLE)。Baum-Welch算法是EM(Expectation-Maximization)算法的一种特例，利用前后项概率信息迭代地依次进行计算条件期望的E步骤和最大化条件期望的M步骤。

语言模型

语言模型主要是刻画人类语言表达的方式习惯，着重描述了词与词在排列结构上的内在联系。在语音识别解码的过程中，在词内转移参考发声词典、词间转移参考语言模型，好的语言模型不仅能够提高解码效率，还能在一定程度上提高识别率。语言模型分为规则模型和统计模型两类，统计语言模型用概率统计的方法来刻画语言单位内在的统计规律，其设计简单实用而且取得了很好的效果，已经被广泛用于语音识别、机器翻译、情感识别等领域。

最简单又却又最常用的语言模型是N元语言模型(N-gramLanguageModel,N-gramLM)。N元语言模型假设当前在给定上文环境下，当前词的概率只与前N-1个词相关。于是词序列w1,...,wm的概率P(w1,...,wm)可以近似为

为了得到公式中的每一个词在给定上文下的概率，我们需要一定数量的该语言文本来估算。可以直接使用包含上文的词对在全部上文词对中的比例来计算该概率，即

对于在文本中未出现的词对，我们需要使用平滑方法来进行近似，如Good-Turing估计或Kneser-Ney平滑等。

解码与字典

解码器是识别阶段的核心组件，通过训练好的模型对语音进行解码，获得最可能的词序列，或者根据识别中间结果生成识别网格(lattice)以供后续组件处理。解码器部分的核心算法是动态规划算法Viterbi。由于解码空间非常巨大，通常我们在实际应用中会使用限定搜索宽度的令牌传递方法(tokenpassing)。

传统解码器会完全动态生成解码图(decodegraph)，如著名语音识别工具HTK(HMMToolKit)中的HVite和HDecode等。这样的实现内存占用较小，但考虑到各个组件的复杂性，整个系统的流程繁琐，不方便高效地将语言模型和声学模型结合起来，同时更加难以扩展。现在主流的解码器实现会一定程度上使用预生成的有限状态变换器(FiniteStateTransducer,FST)作为预加载的静态解码图。这里我们可以将语言模型(G)，词汇表(L)，上下文相关信息(C)，隐马尔可夫模型(H)四个部分分别构建为标准的有限状态变换器，再通过标准的有限状态变换器操作将他们组合起来，构建一个从上下文相关音素子状态到词的变换器。这样的实现方法额外使用了一些内存空间，但让解码器的指令序列变得更加整齐，使得一个高效的解码器的构建更加容易。同时，我们可以对预先构建的有限状态变换器进行预优化，合并和剪掉不必要的部分，使得搜索空间变得更加合理

语音识别技术的工作原理

首先，我们知道声音实际上是一种波。常见的mp3等格式都是压缩格式，必须转成非压缩的纯波形文件来处理，比如WindowsPCM文件，也就是俗称的wav文件。wav文件里存储的除了一个文件头以外，就是声音波形的一个个点了。下图是一个波形的示例。

图中，每帧的长度为25毫秒，每两帧之间有25-10=15毫秒的交叠。我们称为以帧长25ms、帧移10ms分帧。

分帧后，语音就变成了很多小段。但波形在时域上几乎没有描述能力，因此必须将波形作变换。常见的一种变换方法是提取MFCC特征，根据人耳的生理特性，把每一帧波形变成一个多维向量，可以简单地理解为这个向量包含了这帧语音的内容信息。这个过程叫做声学特征提取。

至此，声音就成了一个12行(假设声学特征是12维)、N列的一个矩阵，称之为观察序列，这里N为总帧数。观察序列如下图所示，图中，每一帧都用一个12维的向量表示，色块的颜色深浅表示向量值的大小。

接下来就要介绍怎样把这个矩阵变成文本了。首先要介绍两个概念：

音素：单词的发音由音素构成。对英语，一种常用的音素集是卡内基梅隆大学的一套由39个音素构成的音素集。汉语一般直接用全部声母和韵母作为音素集，另外汉语识别还分有调无调，不详述。

状态：这里理解成比音素更细致的语音单位就行啦。通常把一个音素划分成3个状态。

语音识别是怎么工作的呢?实际上一点都不神秘，无非是：

第一步，把帧识别成状态。

第二步，把状态组合成音素。

第三步，把音素组合成单词。

如下图所示：

图中，每个小竖条代表一帧，若干帧语音对应一个状态，每三个状态组合成一个音素，若干个音素组合成一个单词。也就是说，只要知道每帧语音对应哪个状态了，语音识别的结果也就出来了。

那每帧音素对应哪个状态呢?有个容易想到的办法，看某帧对应哪个状态的概率最大，那这帧就属于哪个状态。比如下面的示意图，这帧在状态S3上的条件概率最大，因此就猜这帧属于状态S3。

那这些用到的概率从哪里读取呢?有个叫“声学模型”的东西，里面存了一大堆参数，通过这些参数，就可以知道帧和状态对应的概率。获取这一大堆参数的方法叫做“训练”，需要使用巨大数量的语音数据。

但这样做有一个问题：每一帧都会得到一个状态号，最后整个语音就会得到一堆乱七八糟的状态号，相邻两帧间的状态号基本都不相同。假设语音有1000帧，每帧对应1个状态，每3个状态组合成一个音素，那么大概会组合成300个音素，但这段语音其实根本没有这么多音素。如果真这么做，得到的状态号可能根本无法组合成音素。实际上，相邻帧的状态应该大多数都是相同的才合理，因为每帧很短。

解决这个问题的常用方法就是使用隐马尔可夫模型(HiddenMarkovModel，HMM)。这东西听起来好像很高深的样子，实际上用起来很简单：

第一步，构建一个状态网络。

第二步，从状态网络中寻找与声音最匹配的路径。

这样就把结果限制在预先设定的网络中，避免了刚才说到的问题，当然也带来一个局限，比如你设定的网络里只包含了“今天晴天”和“今天下雨”两个句子的状态路径，那么不管说些什么，识别出的结果必然是这两个句子中的一句。

那如果想识别任意文本呢?把这个网络搭得足够大，包含任意文本的路径就可以了。但这个网络越大，想要达到比较好的识别准确率就越难。所以要根据实际任务的需求，合理选择网络大小和结构。

搭建状态网络，是由单词级网络展开成音素网络，再展开成状态网络。语音识别过程其实就是在状态网络中搜索一条最佳路径，语音对应这条路径的概率最大，这称之为“解码”。路径搜索的算法是一种动态规划剪枝的算法，称之为Viterbi算法，用于寻找全局最优路径。

这里所说的累积概率，由三部分构成，分别是：

观察概率：每帧和每个状态对应的概率

转移概率：每个状态转移到自身或转移到下个状态的概率

语言概率：根据语言统计规律得到的概率

其中，前两种概率从声学模型中获取，最后一种概率从语言模型中获取。语言模型是使用大量的文本训练出来的，可以利用某门语言本身的统计规律来帮助提升识别正确率。语言模型很重要，如果不使用语言模型，当状态网络较大时，识别出的结果基本是一团乱麻。

这样基本上语音识别过程就完成了,这就是语音识别技术的工作原理。

语音识别技术的工作流程

一般来说，一套完整的语音识别系统其工作过程分为7步：

1、对语音信号进行分析和处理，除去冗余信息。

2、提取影响语音识别的关键信息和表达语言含义的特征信息。

3、紧扣特征信息，用最小单元识别字词。

4、按照不同语言的各自语法，依照先后次序识别字词。

5、把前后意思当作辅助识别条件，有利于分析和识别。

6、按照语义分析，给关键信息划分段落，取出所识别出的字词并连接起来，同时根据语句意思调整句子构成。

7、结合语义，仔细分析上下文的相互联系，对当前正在处理的语句进行适当修正。

语音识别原理有三点：

1、对语音信号中的语言信息编码是按照幅度谱的时间变化来进行;

2、由于语音是可以阅读的，也就是说声学信号可以在不考虑说话人说话传达的信息内容的前提下用多个具有区别性的、离散的符号来表示;

3、语音的交互是一个认知过程，所以绝对不能与语法、语义和用语规范等方面分裂开来。

预处理，其中就包括对语音信号进行采样、克服混叠滤波、去除部分由个体发音的差异和环境引起的噪声影响，此外还会考虑到语音识别基本单元的选取和端点检测问题。反复训练是在识别之前通过让说话人多次重复语音，从原始语音信号样本中去除冗余信息，保留关键信息，再按照一定规则对数据加以整理，构成模式库。再者是模式匹配，它是整个语音识别系统的核心部分，是根据一定规则以及计算输入特征与库存模式之间的相似度，进而判断出输入语音的意思。

前端处理，先对原始语音信号进行处理，再进行特征提取，消除噪声和不同说话人的发音差异带来的影响，使处理后的信号能够更完整地反映语音的本质特征提取，消除噪声和不同说话人的发音差异带来的影响，使处理后的信号能够更完整地反映语音的本质特征。

语音识别技术的应用及发展

语音识别是以语音为研究对象，通过语音信号处理和模式识别让机器自动识别和理解人类口述的语言。语音识别技术就是让机器通过识别和理解过程把语音信号转变为相应的文本或命令的高技术。语音识别是一门涉及面很广的交叉学科，它与声学、语音学、语言学、信息理论、模式识别理论以及神经生物学等学科都有非常密切的关系。语音识别技术正逐步成为计算机信息处理技术中的关键技术，语音技术的应用已经成为一个具有竞争性的新兴高技术产业。本文引用地址：http://www.eepw.com.cn/article/201710/368484.htm

1、语音识别的基本原理

语音识别系统本质上是一种模式识别系统，包括特征提取、模式匹配、参考模式库等三个基本单元，它的基本结构如下图所示：

未知语音经过话筒变换成电信号后加在识别系统的输入端，首先经过预处理，再根据人的语音特点建立语音模型，对输入的语音信号进行分析，并抽取所需的特征，在此基础上建立语音识别所需的模板。而计算机在识别过程中要根据语音识别的模型，将计算机中存放的语音模板与输入的语音信号的特征进行比较，根据一定的搜索和匹配策略，找出一系列最优的与输入语音匹配的模板。然后根据此模板的定义，通过查表就可以给出计算机的识别结果。显然，这种最优的结果与特征的选择、语音模型的好坏、模板是否准确都有直接的关系。

2、语音识别技术的发展历史及现状

1952年，ATTBell实验室的Davis等人研制了第一个可十个英文数字的特定人语音增强系统一Audry系统1956年，美国普林斯顿大学RCA实验室的Olson和Belar等人研制出能10个单音节词的系统，该系统采用带通滤波器组获得的频谱参数作为语音增强特征。195

语音识别技术的研究进展与展望

【流媒体网】摘要：本文对语音识别技术的发展情况、最近几年的关键突破性技术进行了介绍，并对语音识别技术的发展趋势做了展望。

【摘要】自动语音识别(ASR)技术的目的是让机器能够“听懂”人类的语音，将人类语音信息转化为可读的文字信息，是实现人机交互的关键技术，也是长期以来的研究热点。最近几年，随着深度神经网络的应用，加上海量大数据的使用和云计算的普及，语音识别取得了突飞猛进的进展，在多个行业突破了实用化的门槛，越来越多的语音技术产品进入了人们的日常生活，包括苹果的Siri、亚马逊的Alexa、讯飞语音输入法、叮咚智能音箱等都是其中的典型代表。对语音识别技术的发展情况、最近几年的关键突破性技术进行了介绍，并对语音识别技术的发展趋势做了展望。

【关键词】自动语音识别;深度神经网络;声学模型;语言模型

doi:10.11959/j.issn.1000-0801.2018095

【Abstract】

Thepurposeofautomaticspeechrecognition(ASR)istomakethemachinetobeableto“understand”thehumanspeechandtransformittoreadabletextinformation.ASRisoneofthekeytechnologiesofhumanmachineinteractionandalsoahotresearchdomainforalongtime.Inrecentyears,duetotheapplicationofdeepneuralnetworks,theuseofbigdataandthepopularityofcloudcomputing,ASRhasmadegreatprogressandbreakthroughthethresholdofapplicationinmanyindustries.MoreandmoreproductswithASRhaveenteredpeople’sdailylife,suchasApple’sSiri,Amazon’sAlexa,IFLYTEKspeechinputmethodandDingdongintelligentspeakerandsoon.Thedevelopmentstatusandkeybreakthroughtechnologiesinrecentyearswereintroduced.Also,aforecastofASRtechnologies’trendofdevelopmentwasgiven.

【Keywords】automaticspeechrecognition,deepneuralnetwork,acousticmodel,languagemodel

1引言

语音是人类最自然的交互方式。计算机发明之后，让机器能够“听懂”人类的语言，理解语言中的内在含义，并能做出正确的回答就成为了人们追求的目标。这个过程中主要涉及3种技术，即自动语音识别(automaticspeechrecognition，ASR);自然语言处理(naturallanguageprocessing，NLP)，目的是让机器能理解人的意图;语音合成(speechsynthesis，SS)，目的是让机器能说话。

语音识别技术的目的是让机器能听懂人类的语音，是一个典型的交叉学科任务，涉及模式识别、信号处理、物理声学、生理学、心理学、计算机科学和语言学等多个学科。

语音识别技术的研究最早开始于20世纪50年代，1952年贝尔实验室研发出了10个孤立数字的识别系统[1]。从20世纪60年代开始，美国卡耐基梅隆大学的Reddy等开展了连续语音识别的研究，但是这段时间发展很缓慢。1969年贝尔实验室的PierceJ甚至在一封公开信中将语音识别比作近几年不可能实现的事情，例如“将水转化为汽油，从海里提取金子，治疗癌症”等。20世纪80年代开始，以隐马尔可夫模型(hiddenMarkovmodel，HMM)方法[2,3]为代表的基于统计模型方法逐渐在语音识别研究中占据了主导地位。HMM模型能够很好地描述语音信号的短时平稳特性，并且将声学、语言学、句法等知识集成到统一框架中。此后，HMM的研究和应用逐渐成为了主流。例如，第一个“非特定人连续语音识别系统”是当时还在卡耐基梅隆大学读书的李开复研发的SPHINX[4]系统，其核心框架就是GMM-HMM框架，其中GMM(Gaussianmixturemodel，高斯混合模型)用来对语音的观察概率进行建模，HMM则对语音的时序进行建模。20世纪80年代后期，深度神经网络(deepneuralnetwork，DNN)的前身——人工神经网络(artificialneuralnetwork，ANN)也成为了语音识别研究的一个方向[5]。但这种浅层神经网络在语音识别任务上的效果一般，表现并不如GMM-HMM模型。20世纪90年代开始，语音识别掀起了第一次研究和产业应用的小高潮，主要得益于基于GMM-HMM声学模型的区分性训练准则和模型自适应方法的提出。这时期剑桥发布的HTK开源工具包[6]大幅度降低了语音识别研究的门槛。此后将近10年的时间里，语音识别的研究进展一直比较有限，基于GMM-HMM框架的语音识别系统整体效果还远远达不到实用化水平，语音识别的研究和应用陷入了瓶颈。

2006年Hinton[7]提出使用受限波尔兹曼机(restrictedBoltzmannmachine，RBM)对神经网络的节点做初始化，即深度置信网络(deepbeliefnetwork，DBN)。DBN解决了深度神经网络训练过程中容易陷入局部最优的问题，自此深度学习的大潮正式拉开。2009年，Hinton和他的学生MohamedD[8]将DBN应用在语音识别声学建模中，并且在TIMIT这样的小词汇量连续语音识别数据库上获得成功。2011年DNN在大词汇量连续语音识别上获得成功[9]，语音识别效果取得了近10年来最大的突破。从此，基于深度神经网络的建模方式正式取代GMM-HMM，成为主流的语音识别建模方式。

2语音识别声学模型中深度神经网络的应用

2.1深度学习比浅层模型更适合语音处理

深度学习(deeplearning，DL)是指利用多层的非线性信号和信息处理技术，通过有监督或者无监督的方法，进行信号转换、特征提取以及模式分类等任务的机器学习类方法[10]的总称。因为采用深层结构(deeparchitecture)[11]模型对信号和信息进行处理，所以这里称为“深度”学习。传统的机器学习模型很多属于浅层结构(shallowstructure)模型，例如支持向量机(supportvectormachine，SVM)、GMM、HMM、条件随机场(conditionalrandomfield，CRF)、线性或者非线性动态系统、单隐层的神经网络(neuralnetwork，NN)等。原始的输入信号只经过比较少的层次(通常是一层)的线性或者非线性处理以达到信号与信息处理，是这些结构模型的共同特点。浅层模型的优点在于在数学上有比较完善的算法，并且结构简单、易于学习。但是浅层模型使用的线性或者非线性变换组合比较少，对于信号中复杂的结构信息并不能有效地学习，对于复杂信号的表达能力有局限性。而深层结构的模型则更适合于处理复杂类型的信号，原因在于深层结构具备多层非线性变换[12]，具有更强的表达与建模能力。

人类语音信号产生和感知就是这样一个极其复杂的过程，并且在生物学上被证明具有明显的多层次甚至深层次的处理结构[13]。所以，对于语音识别任务，采用浅层结构模型明显有很大的局限性。利用深层次结构中的多层非线性变换进行语音信号中的结构化信息和更高层信息的提取，是更加合理的选择。

2.2DNN在语音识别系统中的应用和局限性

从2011年之后，基于DNN-HMM声学模型[14-18]在多种语言、多种任务的语音识别上取得了比传统GMM-HMM声学模型大幅度且一致性的效果提升。基于DNN-HMM语音识别系统的基本框架如图1所示，采用DNN替换GMM模型来建模语音观察概率，是其和传统的GMM-HMM语音识别系统最大的不同。前馈型深度神经网络(feed-forwarddeepneuralnetwork，FDNN)由于比较简单，是最初主流的深层神经网络。

使用DNN取代GMM主要有以下几个原因：DNN可以将相邻的语音帧拼接起来作为输入特征，使得更长时的结构信息得以描述;DNN的输入特征可以是多种特征的融合，也可以是离散或者连续的特征;不需要对语音数据分布进行假设，也是使用DNN估计HMM状态的后验概率分布的一个特点。

语音识别的特征提取需要首先对波形进行加窗和分帧，然后再提取特征。训练GMM模型的输入是单帧特征，DNN则一般采用多个相邻帧拼接在一起作为输入，这种方法使得语音信号更长的结构信息得以描述，研究表明，特征拼接输入是DNN相比于GMM可以获得大幅度性能提升的关键因素。由于说话时的协同发音的影响，语音是一种各帧之间相关性很强的复杂时变信号，正要说的字的发音和前后好几个字都有影响，并且影响的长度随着说话内容的不同而时变。虽然采用拼接帧的方式可以学到一定程度的上下文信息，但是由于DNN输入的窗长(即拼接的帧数)是事先固定的，因此DNN的结构只能学习到固定的输入到输入的映射关系，导致其对时序信息的更长时相关性的建模灵活性不足。

2.3递归神经网络在声学模型中的应用

语音信号具有明显的协同发音现象，因此必须考虑长时相关性。由于循环神经网络(recurrentneuralnetwork，RNN)具有更强的长时建模能力，使得RNN也逐渐替代DNN成为语音识别主流的建模方案。DNN和RNN的网络结构如图2所示，RNN在隐层上增加了一个反馈连接，是其和DNN最大的不同。这意味着RNN的隐层当前时刻的输入不但包括了来自上一层的输出，还包括前一时刻的隐层输出，这种循环反馈连接使得RNN原则上可以看到前面所有时刻的信息，这相当于RNN具备了历史记忆功能。对于语音这种时序信号来说，使用RNN建模显得更加适合。

但是，传统的RNN在训练过程中存在梯度消失的问题，导致该模型难以训练。为了克服梯度消失问题，有研究人员提出了长短时记忆(long-shorttermmemory，LSTM)RNN[19]。LSTM-RNN使用输入门、输出门和遗忘门来控制信息流，使得梯度能在相对更长的时间跨度内稳定地传播。双向LSTM-RNN(BLSTM-RNN)对当前帧进行处理时，可以利用历史的语音信息和未来的语音信息，从而容易进行更加准确的决策，因此也能取得比单向LSTM更好的性能提升。

尽管双向LSTM-RNN的性能更好，但它并不适合实时系统，由于要利用较长时刻的未来信息，会使得该系统具有很大时延，主要用于一些离线语音识别任务。基于此，研究人员提出了延迟受控BLSTM(latencycontrol-BLSTM)[20]和行卷积BLSTM等模型结构，这些模型试图构建单向LSTM和BLSTM之间的折中：即前向LSTM保持不变，针对用来看未来信息的反向LSTM做了优化。在LC-BLSTM结构中，标准的反向LSTM被带有最多N帧前瞻量的反向LSTM替代，而在行卷积模型中被集成了N帧前瞻量的行卷积替代。

2.4基于FSMN的语音识别系统

目前国际上已经有不少学术或工业机构在进行RNN架构下的研究。目前效果最好的基于BLSTM-RNN的语音识别系统存在时延过大的问题，这对于实时的语音交互系统(如语音输入法)，并不合适。尽管可以通过LC-BLSTM和行卷积BLSTM将BLSTM做到实时语音交互系统，由于RNN具有比DNN更加复杂的结构，海量数据下的RNN模型训练需要耗费大量的时间。最后，由于RNN对上下文相关性的拟合较强，相对于DNN更容易陷入过拟合的问题，容易因为训练数据的局部问题而带来额外的异常识别错误。

为了解决以上问题，科大讯飞结合传统的DNN框架和RNN的特点，研发出了一种名为前馈型序列记忆网络(feed-forwardsequentialmemorynetwork，FSMN)的新框架[21]，具体如图3所示。FSMN的结构采用非循环的前馈结构，只需要180ms的时延，就达到了和BLSTM-RNN相当的效果。

FSMN的结构示意如图3(a)所示，其主要是基于传统DNN结构的改进，在DNN的隐层旁增加了一个“记忆模块”，这个记忆模块用来存储对判断当前语音帧有用的语音信号的历史信息和未来信息。图3(b)画出了记忆模块左右各记忆N帧语音信息的时序展开结构。需记忆的历史和未来信息长度N可根据实际任务的需要来调整。FSMN记忆块的记忆功能是使用前馈结构实现的，这点有别于传统的基于循环反馈的RNN模型。采用这种前馈结构存储信息有两大好处：首先，传统双向RNN必须等待语音输入结束才能对当前语音帧进行判断，双向FSMN对未来信息进行记忆时只需要等待有限长度的未来语音帧即可，这个优点使得FSMN的时延是可控的。实验证明，使用双向FSMN结构，时延控制在180ms时就能取得和传统双向RNN相当的效果;其次，传统简单的RNN实际并不能记住无穷长的历史信息，而是只能记住有限长的历史信息，原因是其训练过程中存在梯度消失的问题。然而FSMN的记忆网络完全基于前馈展开，在模型训练过程中，梯度则沿着记忆块与隐层的连接权重(如图3所示)往回传给各个时刻，对判断当前语音帧的影响的信息通过这些连接权重来决定，而且这种梯度传播是可训练的，并且在任何时刻都是常数衰减，以上的实现方式使得FSMN也具有了类似LSTM的长时记忆能力，这相当于使用了一种更为简单的方式解决了传统RNN中的梯度消失问题。另外，由于FSMN完全基于前馈神经网络结构，也使得它的并行度更高，GPU计算能力可利用得更加充分，从而获得效率更高的模型训练过程，并且FSMN结构在稳定性方面也表现得更加出色。

2.5基于卷积神经网络的语音识别系统

卷积神经网络(convolutionalneuralnetwork，CNN)的核心是卷积运算(或卷积层)，是另一种可以有效利用长时上下文语境信息的模型[22]。继DNN在大词汇量连续语音识别上的成功应用之后，CNN又在DNN-HMM混合模型架构下被重新引入。重新引入CNN最初只是为了解决频率轴的多变性[23-26]来提升模型的稳定性，因为该混合模型中的HMM已经有很强的处理语音识别中可变长度话语问题的能力。早期CNN-HMM模型仅使用了1~2个卷积层，然后和全连接DNN层堆叠在一起。后来，LSTM等其他RNN层也被集成到了该模型中，从而形成了所谓的CNN-LSTM-DNN(CLDNN)[27]架构。

基于CNN-HMM框架的语音识别吸引了大量的研究者，但是始终鲜有重大突破，最基本的原因有两个：首先是他们仍然采用固定长度的语音帧拼接作为输入的传统前馈神经网络的思路，导致模型不能看到足够的上下文信息;其次是他们采用的卷积层数很少，一般只有1~2层，把CNN视作一种特征提取器来使用，这样的卷积网络结构表达能力十分有限。针对这些问题，科大讯飞在2016年提出了一种全新的语音识别框架，称为全序列卷积神经网络(deepfullyconvolutionalneuralnetwork，DFCNN)。实验证明，DFCNN比BLSTM语音识别系统这个学术界和工业界最好的系统识别率提升了15%以上。基于DFCNN语音识别框架示意如图4所示。

如图4所示，DFCNN先对时域的语音信号进行傅里叶变换得到语音的语谱图，DFCNN直接将一句语音转化成一张图像作为输入，输出单元则直接与最终的识别结果(比如音节或者汉字)相对应。DFCNN的结构中把时间和频率作为图像的两个维度，通过较多的卷积层和池化(pooling)层的组合，实现对整句语音的建模。DFCNN的原理是把语谱图看作带有特定模式的图像，而有经验的语音学专家能够从中看出里面说的内容。

为了理解DFCNN的优势所在，下面从输入端、模型结构和输出端3个角度更具体地分析。首先，在输入端，传统语音识别系统的提取特征方式是在傅里叶变换后用各种类型的人工设计的滤波器，比如LogMel-FilterBank，造成在语音信号频域，尤其是高频区域的信息损失比较明显。另外，传统语音特征采用非常大的帧移来降低运算量，导致时域上的信息会有损失，当说话人语速较快的时候，这个问题表现得更为突出。而DFCNN将语谱图作为输入，避免了频域和时域两个维度的信息损失，具有天然的优势。其次，从模型结构上来看，为了增强CNN的表达能力，DFCNN借鉴了在图像识别中表现最好的网络配置，与此同时，为了保证DFCNN可以表达语音的长时相关性，通过卷积池化层的累积，DFCNN能看到足够长的历史和未来信息，有了这两点，和BLSTM的网络结构相比，DFCNN在顽健性上表现更加出色。最后，从输出端来看，DFCNN比较灵活，可以方便地和其他建模方式融合，比如和连接时序分类模型(connectionisttemporalclassification，CTC)方案结合，以实现整个模型的端到端声学模型训练。DFCNN语音识别框架可以方便地和其他多个技术点结合，实验证明，在数万小时的中文语音识别任务上，和目前业界最好的语音识别框架BLSTM-CTC系统相比，DFCNN系统获得了额外15%的性能提升。

2.6大规模语音数据下神经网络声学模型的训练

相比于传统的GMM-HMM系统，基于DNN-HMM语音识别系统取得了巨大的性能提升[28,29]。但是DNN声学模型的训练却非常耗时。举个例子，在一个配置为E5-2697v4的CPU上进行2万小时规模的语音数据的声学模型训练，大概需要116天左右才能训练完。造成这种情况的潜在原因是将随机梯度下降(stochasticgradientdescent，SGD)算法作为神经网络训练中的基本算法，SGD算法收敛相对较慢，而且是一个串行算法，很难进行并行化训练。而目前工业界主流的语音识别系统涉及的训练数据一般为几千小时甚至几万小时级别，因此，提高在大规模语音数据下深度神经网络的训练速度和训练效率，也成为了研究热点和必须解决的问题。

由于深度神经网络的模型参数非常稀疏，利用这个特点，参考文献[30]将深度神经网络模型中超过80%的较小参数都设置为0，几乎没有性能损失，同时模型尺寸大大减少，但是训练时间并没有明显减小，原因是参数稀疏性带来的高度随机内存访问并没有得到太多的优化。进一步地，参考文献[31]提出在深度神经网络中，用两个低秩矩阵的乘积表示权重矩阵，实现了30%~50%的效率提升。

通过使用多个CPU或者GPU并行训练来解决神经网络训练效率是另外一种可行的方法。参考文献[32,33]的方式是：把训练数据分成许多小块后并行地送到不同的机器来进行矩阵运算，从而实现并行训练。参考文献[34]的优化方案是：在模型的每遍迭代中，先将训练数据分成N个完全不相交的子集，然后在每个子集中训练一个sub-MLP，最后把这些sub-MLP进行合并网络结合。为了进一步提升并行效率，参考文献[35]在上千个CPU核的计算集群实现了这种方式，深层网络的训练主要是利用异步梯度下降(asynchronousSGD)算法。参考文献[36]将异步梯度下降算法应用到了多个GPU中。在参考文献[37]中，一种管道式的BP算法被提了出来，该方法利用不同的GPU单元来计算神经网络中不同层，实现并行训练的效果。实验证明，相对使用单个GPU训练，该方法通过使用4个GPU实现了3.1倍左右的效率提升。然而，不同计算单元之间极其频繁的数据传递成为该类方法提升训练效率的主要瓶颈。为此，为了更好地实现神经网络并行训练，一种新的基于状态聚类的多深层神经网络建模方法[38]被提出，该方法先将训练数据在状态层面进行聚类，在状态层面进行不相交的子集划分，使得不同计算单元神经网络之间的数据传递规模大幅度减小，从而实现每个神经网络完全独立的并行训练。使用4块GPU，在聚类数为4类的情况下，在SWB(SwitchBoard)数据集上的实验表明，这种状态聚类的多神经网络方法取得了约4倍的训练效率提升。

3语音识别语言模型中深度神经网络的应用

深度学习理论除了在声学模型建模上获得了广泛的应用外，在语音识别系统另外的重要组件——语言模型上也得到了应用。在深度神经网络普及之前，语音识别系统主要采用传统的统计语言模型N-gram模型[39]进行建模。N-gram模型也具备明显的优点，其结构简单且训练效率很高，但是N-gram的模型参数会随着阶数和词表的增大而指数级增长，导致无法使用更高的阶数，性能容易碰到瓶颈，在训练语料处于相对稀疏的状态时，可以借助降权(discounting)和回溯(backing-off)等成熟的平滑算法解决低频词或不可见词的概率估计问题，以获得比较可靠的模型估计。

在20世纪初，一些浅层前馈神经网络被用于统计语言模型建模[40]。神经网络语言模型是一种连续空间语言模型，平滑的词概率分布函数使得它对于训练语料中的低频词和不可见词的概率估计更为顽健，具有更好的推广性，在语音识别任务上也取得了显著的效果[41]。最近几年，相关研究人员也将深层神经网络用于语言模型建模，并取得了进一步的性能提升[42]。

然而，前馈神经网络语言模型只能够处理固定长度的历史信息，其仍然存在N阶假设，即在预测当前词概率的时候只与之前N-1个词有关，这在一定程度上影响了模型的准确性。实际上，人类能够记忆和处理的历史信息要长久得多，而标准的RNN正好能够通过循环网络结构记忆和处理任意长度的历史信息，因此参考文献[43]将RNN引入语言模型建模中。RNN相比于前馈神经网络取得了更好的性能。然而，由于基于RNN的深层网络的复杂特性，模型的训练训练依旧非常耗时，在大文本(100GB~1TB)语料上几乎不可实现。参考文献[44]提出在GPU上将多个句子拼接为数据组(mini-batch)同时参与训练，大幅度地提升了RNN的训练效率。科大讯飞基于参考文献[45]的方法进一步改进，将RNN的输出层基于词聚类进行了分解，在中文LVCSR任务上获得了50倍以上的训练效率提升。在提高训练效率的基础上，RNN模型相对于传统N-gram模型也获得了5%以上的识别效果提升，这也进一步验证了RNN的有效性。参考文献[46]提出了基于LSTM(longshort-termmemory)的RNN语言模型结构，通过对网络结构的调整，有效解决了RNN语言模型训练中存在梯度消失(gradientvanishing)的问题[47]，并获得了一定的性能提升。

4深度学习、大数据和云计算之间的关系

基于深度学习的语音识别技术在21世纪初走向舞台的中央，并不只是由于深度学习类机器学习算法的进步，而是大数据、云计算和深度学习这3个要素相互促进的结果。

不同于之前GMM-HMM语音识别框架表达能力有限、效果对于大规模数据易饱和的情况，深度学习框架所具备的多层非线性变换的深层结构，则具有更强的表达与建模能力，使得语音识别模型对复杂数据的挖掘和学习能力得到了空前的提升，使得更大规模的海量数据的作用得以充分的发挥。大数据就像奶粉一样，“哺育”了深度学习算法，让深度学习算法变得越来越强大。

随着移动互联网、物联网技术和产品的普及，更重要的是采用云计算的方式，使得多种类型的海量数据得以在云端汇集。而对大规模的数据的运算的要求则又显著提升了对于云计算方式的依赖，因此云计算成为了本次深度学习革命的关键推手之一。

深度学习框架在云端的部署，则显著增强了云计算的能力。

正是由于深度学习、大数据和云计算三者的相互促进，才成就了本次语音技术的进步，成就了本次人工智能的浪潮。

5总结和展望

本文对语音识别领域的研究状况和最近几年的关键突破性技术做了比较详细的介绍。首先简要回顾了语音识别技术发展的历史，然后重点介绍了深度神经网络在语音识别声学模型建模中起到的引领作用，也介绍了各种形态(包括LSTM、FSMN、DFCNN等)的关键技术突破。相关研究证明，和传统的GMM-HMM框架相比，深度学习在大词汇量连续语音识别任务方面取得了30%~60%的性能提升。也介绍了深度声学模型训练的优化方法以及RNN在语言模型建模中的应用，在语言模型领域同样能取得比传统N-gram语言模型5%以上的识别效果提升。毫不夸张地说，深度学习技术的确给语音识别的研究和应用带来了革命性的历史突破。

语音识别技术进一步的研究热点方向应该包含以下几个。

首先是端到端的语音识别系统。在目前DNN-HMM的混合框架下，声学模型中DNN、HMM两个部分以及语言模型都是单独训练的。然而语音识别是一个序列识别的任务，如果能够对声学模型的各个部分以及语言模型进行联合优化，并且去除类似于发音词典等所有需要人工来设计的组件，必定能取得更进一步的效果提升。目前在声学模型建模领域已经出现了端到端的模型应用，即将声学模型中的各个组件做联合优化，且优化目标是输出的词或音素序列，而不是使用交叉熵(crossentropy，CE)准则来优化一帧一帧的标注，比如连接时序分类准则(CTC)被引入[48-50]，并且在多个任务上取得了一定的效果。另外，受到CTC的启发，一种被称为无词图最大互信息(latticefreemaximummutualinformation，LFMMI)的准则被提出，可以实现从头训练的深度神经网络，不需要使用交叉熵做网络的初始化。但是无论是CTC还是LFMMI，都不能称为真正的端到端语音识别模型，它们仍需要发音词典、语言模型等组件，需要大量的专家知识来辅助设计。受到在翻译领域成功应用的Attention模型的启发[51,52]，Encoder-Decoder框架已经不明确区分声学模型和语言模型，并且完全不需要发音词典等人工知识，可以真正地实现端到端的建模。Encoder-Decoder框架的模型训练难度很大并且收敛比较缓慢，目前Google(谷歌)和科大讯飞在新一代端到端框架下已经取得了正面的效果提升，后面应该会吸引更多的研究机构和学者进入该领域进行研究。

其次，直接利用时域波形语音建模来代替人工设计的特征(比如LogMel-FilterBank等)。主要原因是原始的时域波形文件中的信息量是最丰富的，在通过人工设计提取一些特征的同时也会抛弃一些信息，这些信息对于噪声较大等复杂场景识别十分重要。研究人员也在这个领域进行了相关的工作[53,54]，但是只取得了与人工设计特征相当的效果。科大讯飞最新的研究成果证明，直接利用时域波形来建模在多个任务上都取得了10%以上的识别效果提升，并且认为该方面仍然会有巨大的提升潜力。

最后，利用多个麦克风信号和深度学习来联合建模，用来提升远场环境下的语音识别效果的研究也是近期和长期的热点，但是如何将深度学习对于离线大数据的学习能力和传统的信号处理对于瞬时信号处理能力结合起来，仍需要很多的研究工作要做。

参考文献

[1]DAVISK.H,BIDDULPHR,BALASHEKS.Automaticrecognitionofspokendigits[J].JournaloftheAcousticalSocietyofAmerica,1952,24(6):637.

[2]FERGUSONJD.ApplicationofhiddenMarkovmodelstotextandspeech[EB].1980.

[3]RABINERLR.AtutorialonhiddenMarkovmodelsandselectedapplicationsinspeechrecognition[J].ReadingsinSpeechRecognition,1990,77(2):267-296.

[4]LEEEKFLM.AnoverviewoftheSPHINXspeechrecognitionsystem[J].IEEETransactionsonAcousticsSpeech&SignalProcessingSpeech,1990,38(1):35-45.

[5]WAIBELA,HANAZAWAT,HINTONG.Phonemerecognitionusingtime-delayneuralnetworks[J].IEEETransactionsonAcoustics,Speech,andSignalProcessing,1990,1(2):393-404.

[6]YOUNGS,EVERMANNG,GALESM,etal.TheHTKbook[EB].2005.

[7]HINTONGE,OSINDEROS,TEHYW.Afastlearningalgorithmfordeepbeliefnets[J].NeuralComputation,2006,18(7):1527-1554.

[8]MOHAMEDAR,DAHLG,HINTONG.Deepbeliefnetworksforphonerecognition[EB].2009.

[9]YUD,DENGL.Deeplearninganditsapplicationstosignalandinformationprocessing[J].IEEESignalProcessingMagazine,2011,28(1):145-154.

[10]DENGL.Anoverviewofdeep-structuredlearningforinformationprocessing[C]//Asian-PacificSignalandInformationProcessing-AnnualSummitandConference(APSIPA-ASC),October18,2011,Xi’an,China.[S.l.:s.n.],2011.

[11]BENGIOY.LearningdeeparchitecturesforAI[J].FoundationsandTrends®inMachineLearning,2009,2(1):1-127.

[12]HINTONGE.Trainingproductsofexpertsbyminimizingcontrastivedivergence[J].NeuralComputation,2002,14(8):1771-1800.

[13]BAKERJ,DENGL,GLASSJ,etal.Developmentsanddirectionsinspeechrecognitionandunderstanding[J].IEEESignalProcessingMagazine,2009,26(3):75-80.

[14]MOHAMEDAR,DAHLG,HINTONG.Deepbeliefnetworksforphonerecognition[EB].2009.

[15]SAINATHTN,KINGSBURYB,RAMABHADRANB,etal.Makingdeepbeliefnetworkseffectiveforlargevocabularycontinuousspeechrecognition[EB].2011.

[16]MOHAMEDA,DAHLGE,HINTONG.Acousticmodelingusingdeepbeliefnetworks[J].IEEETransactionsonAudio,Speech,andLanguageProcessing,2012,20(1):14-22.

[17]DAHLGE,YUD,DENGL,etal.Context-dependentpre-traineddeepneuralnetworksforlargevocabularyspeechrecognition[J].IEEETransactionsonAudio,Speech,andLanguageProcessing,2012,20(1):30-42.

[18]HINTONG,DENGL,YUD,etal.Deepneuralnetworksforacousticmodelinginspeechrecognition:thesharedviewsoffourresearchgroups[J].IEEESignalProcessingMagazine,2012,29(6):82-97.

[19]HOCHREITERS,SCHMIDHUBERJ.Longshort-termmemory[J].NeuralComputation,1997,9(8):1735-1780.

[20]ZHANGY,CHENGG,YUD,etal.Highwaylongshort-termmemoryRNNSfordistantspeechrecognition[C]//2016IEEEInternationalConferenceonAcoustics,SpeechandSignalProcessing,March20-25,2016,Shanghai,China.Piscataway:IEEEPress,2016.

[21]ZHANGSL,LIUC,JIANGH,etal.Feedforwardsequentialmemorynetworks:anewstructuretolearnlong-termdependency[J].arXiv:1512.08301,2015.

[22]LECUNY,BENGIOY.Convolutionalnetworksforimages,speechandtime-series[M].Cambridge:MITPress,1995.

[23]ABDEL-HAMIDO,MOHAMEDAR,JIANGH,etal.ApplyingconvolutionalneuralnetworksconceptstohybridNN-HMMmodelforspeechrecognition[C]//2012IEEEInternationalConferenceonAcoustics,SpeechandSignalProcessing,March20,2012,Kyoto,Japan.Piscataway:IEEEPress,2012:4277-4280.

[24]ABDEL-HAMIDO,MOHAMEDAR,JIANGH,etal.Convolutionalneuralnetworksforspeechrecognition[J].IEEE/ACMTransactionsonAudioSpeech&LanguageProcessing,2014,22(10):1533-1545.

[25]ABDEL-HAMIDO,DENGL,YUD.Exploringconvolutionalneuralnetworkstructuresandoptimizationtechniquesforspeechrecognition[EB].2013.

[26]SAINATHTN,MOHAMEDAR,KINGSBURYB,etal.DeepconvolutionalneuralnetworksforLVCSR[C]//2013IEEEInternationalConferenceonAcoustics,SpeechandSignalProcessing,May26-30,2013,Vancouver,BC,Canada.Piscataway:IEEEPress,2013:8614-8618.

[27]SAINATHTN,VINYALSO,SENIORA,etal.Convolutional,longshort-termmemory,fullyconnecteddeepneuralnetworks[C]//2015IEEEInternationalConferenceonAcoustics,SpeechandSignalProcessing,April19-24,Brisbane,QLD,Australia.Piscataway:IEEEPress,2015:4580-4584.

[28]SEIDEF,LIG,YUD.Conversationalspeechtranscriptionusingcontext-dependentdeepneuralnetworks[C]//InternationalConferenceonMachineLearning,June28-July2,2011,Bellevue,Washington,USA.[S.l.:s.n.],2011:437-440.

[29]DAHLGE,YUD,DENGL,etal.Largevocabularycontinuousspeechrecognitionwithcontext-dependentDBN-HMMs[C]//ICASSP,May22-27,2011,Prague,CzechRepublic.[S.l.:s.n.],2011:4688-4691.

[30]YUD,SEIDEF,LIG,etal.Exploitingsparsenessindeepneuralnetworksforlargevocabularyspeechrecognition[C]//ICASSP,March25-30,2012,Kyoto,Japan.[S.l.:s.n.],2012:4409-4412.

[31]SAINATHTN,KINGSBURYB,SINDHWANIV,etal.Low-rankmatrixfactorizationfordeepneuralnetworktrainingwithhigh-dimensionaloutputtargets[C]//ICASSP,May26-31,2013,Vancouver,BC,Canada.[S.l.:s.n.],2013:6655-6659.

[32]KONTÁRS.Paralleltrainingofneuralnetworksforspeechrecognition[C]//13thInternationalConferenceonText,SpeechandDialogue,September6-10,2010,Brno,CzechRepublic.NewYork:ACMPress,2006:6-10.

[33]VESELÝK,BURGETL,GRÉZLF.Paralleltrainingofneuralnetworksforspeechrecognition[C]//13thInternationalConferenceonText,SpeechandDialogue,September6-10,2010,Brno,CzechRepublic.NewYork:ACMPress,2006:439-446.

[34]PARKJ,DIEHLF,GALESMJF,etal.EfficientgenerationanduseofMLPfeaturesforArabicspeechrecognition[C]//Interspeech,ConferenceoftheInternationalSpeechCommunicationAssociation,September6-10,2009,Brighton,UK.[S.l.:s.n.],2009:236-239.

[35]LEQV,RANZATOMA,MONGAR,etal.Buildinghigh-levelfeaturesusinglargescaleunsupervisedlearning[J].arXivpreprintarXiv:1112.6209,2011.

[36]ZHANGS,ZHANGC,YOUZ,etal.AsynchronousstochasticgradientdescentforDNNtraining[C]//IEEEInternationalConferenceonAcoustics,June27-July2,2013,SantaClaraMarriott,CA,USA.Piscataway:IEEEPress,2013:6660-6663.

[37]CHENX,EVERSOLEA,LIG,etal.Pipelinedback-propagationforcontext-dependentdeepneuralnetworks[C]//13thAnnualConferenceoftheInternationalSpeechCommunicationAssociation,September9-13,2012,Portland,OR,USA.[S.l:s.n.],2012:429-433.

[38]ZHOUP,LIUC,LIUQ,etal.Acluster-basedmultipledeepneuralnetworksmethodforlargevocabularycontinuousspeechrecognition[C]//ICASSP,May26-31,2013,Vancouver,BC,Canada.[S.l.:s.n.],2013:6650-6654.

[39]JELINEKF.Thedevelopmentofanexperimentaldiscretedictationrecognizer[J].ReadingsinSpeechRecognition,1990,73(11):1616-1624.

[40]BENGIOY,DUCHARMER,VINCENTP.Aneuralprobabilisticlanguagemodel[J].JournalofMachineLearningResearch,2003(3):1137-1155.

[41]SCHWENKH,GAUVAINJL.Trainingneuralnetworklanguagemodelsonverylargecorpora[C]//ConferenceonHumanLanguageTechnology&EmpiricalMethodsinNaturalLanguageProcessing,October6-8,2005,Vancouver,BC,Canada.NewYork:ACMPress,2005:201-208.

[42]ARıSOYE,SAINATHTN,KINGSBURYB,etal.Deepneuralnetworklanguagemodels[C]//NAACL-HLT2012Workshop,June8,2012,Montreal,Canada.NewYork:ACMPress,2012:20-28.

[43]MIKOLOVT,KARAFIATM,BURGETL,etal.Recurrentneuralnetworkbasedlanguagemodel[C]//11thAnnualConferenceoftheInternationalSpeechCommunicationAssociation,September26-30,2010,Makuhari,Chiba,Japan.[S.l.:s.n.],2010:1045-1048.

[44]CHENX,WANGY,LIUX,etal.EfficientGPU-basedtrainingofrecurrentneuralnetworklanguagemodelsusingsplicedsentencebunch[EB].2014.

[45]MIKOLOVT,KOMBRINKS,BURGETL,etal.Extensionsofrecurrentneuralnetworklanguagemodel[C]//IEEEInternationalConferenceonAcoustics,May22-27,2011,Prague,CzechRepublic.Piscataway:IEEEPress,2011:5528-5531.

[46]SUNDERMEYERM,SCHLUTERR,NEYH.LSTMneuralnetworksforlanguagemodeling[EB].2012.

[47]BENGIOY,SIMARDP,FRASCONIP.Learninglongtermdependencieswithgradientdescentisdifficult[J].IEEETransactionsonNeuralNetworks,1994,5(2):157.

[48]SAKH,SENIORA,RAOK.Learningacousticframelabelingforspeechrecognitionwithrecurrentneuralnetworks[C]//2015ICASSP,April19-24,2015,Brisbane,QLD,Australia.[S.l.:s.n.],2015:4280-4284.

[49]SAKH,SENIORA,RAOK,etal.Fastandaccuraterecurrentneuralnetworkacousticmodelsforspeechrecognition[J].arXiv:1507.06947,2015.

[50]SENIORA,SAKH,QUITRYFDC,etal.AcousticmodellingwithCD-CTC-SMBRLSTMRNNS[C]//2015IEEEWorkshoponAutomaticSpeechRecognitionandUnderstanding(ASRU),December13-17,2015,Scottsdale,AZ,USA.Piscataway:IEEEPress,2015:604-609.

[51]BAHDANAUD,CHOK,BENGIOY.Neuralmachinetranslationbyjointlylearningtoalignandtranslate[J].arXiv:1409.0473,2014.

[52]MNIHV,HEESSN,GRAVESA,etal.Recurrentmodelsofvisualattention[C]//28thAnnualConferenceonNeuralInformationProcessingSystems,December8-13,2014,Montreal,Canada.[S.l.:s.n.],2014:2204-2212.

[53]TUSKEZ,GOLIKP,SCHLUTERR,etal.AcousticmodelingwithdeepneuralnetworksusingrawtimesignalforLVCSR[EB].2014.

[54]SAINATHTN,WEISSRJ,SENIORAW,etal.Learningthespeechfront-endwithrawwaveform[EB].2015.

责任编辑：路明玉

语音识别技术概述 语音识别技术是让机器能够听懂人类的语言