语音识别的基本概述、原理及应用发展语音识别技术的研究最早开始于二十世纪多少年代

发表时间：2023-07-11 19:18:26

语音识别的基本概述、原理及应用发展

语音识别作为信息技术中一种人机接口的关键技术，具有重要的研究意义和广泛的应用价值。介绍了语音识别技术发展的历程，具体阐述了语音识别概念、基本原理、声学建模方法等基本知识，并对语音识别技术在各领域的应用作了简要介绍。

语言是人类相互交流最常用、最有效、最重要和最方便的通信形式，语音是语言的声学表现，与机器进行语音交流是人类一直以来的梦想。随着计算机技术的飞速发展，语音识别技术也取得突破性的成就，人与机器用自然语言进行对话的梦想逐步接近实现。语音识别技术的应用范围极为广泛，不仅涉及到日常生活的方方面面，在军事领域也发挥着极其重要的作用。它是信息社会朝着智能化和自动化发展的关键技术，使人们对信息的处理和获取更加便捷，从而提高人们的工作效率。

1语音识别技术的发展

语音识别技术起始于20世纪50年代。这一时期，语音识别的研究主要集中在对元音、辅音、数字以及孤立词的识别。

20世纪60年代，语音识别研究取得实质性进展。线性预测分析和动态规划的提出较好地解决了语音信号模型的产生和语音信号不等长两个问题，并通过语音信号的线性预测编码，有效地解决了语音信号的特征提取。

2O世纪70年代，语音识别技术取得突破性进展。基于动态规划的动态时间规整（DynamicTimeWarping，DTW）技术基本成熟，特别提出了矢量量化（VectorQuantization，VQ）和隐马尔可夫模型（HiddenMarkovModel，HMM）理论。

20世纪80年代，语音识别任务开始从孤立词、连接词的识别转向大词汇量、非特定人、连续语音的识别，识别算法也从传统的基于标准模板匹配的方法转向基于统计模型的方法。在声学模型方面，由于HMM能够很好的描述语音时变性和平稳性，开始被广泛应用于大词汇量连续语音识别（LargeVocabularyContinousSpeechRecognition，LVCSR）的声学建模；在语言模型方面，以N元文法为代表的统计语言模型开始广泛应用于语音识别系统。在这一阶段，基于HMM/VQ、HMM/高斯混合模型、HMM/人工神经网络的语音建模方法开始广泛应用于LVCSR系统，语音识别技术取得新突破。

20世纪90年代以后，伴随着语音识别系统走向实用化，语音识别在细化模型的设计、参数提取和优化、系统的自适应方面取得较大进展。同时，人们更多地关注话者自适应、听觉模型、快速搜索识别算法以及进一步的语言模型的研究等课题。此外，语音识别技术开始与其他领域相关技术进行结合，以提高识别的准确率，便于实现语音识别技术的产品化。

2语音识别基础

2．1语音识别概念

语音识别是将人类的声音信号转化为文字或者指令的过程。语音识别以语音为研究对象，它是语音信号处理的一个重要研究方向，是模式识别的一个分支。语音识别的研究涉及微机技术、人工智能、数字信号处理、模式识别、声学、语言学和认知科学等许多学科领域，是一个多学科综合性研究领域。

根据在不同限制条件下的研究任务，产生了不同的研究领域。这些领域包括：根据对说话人说话方式的要求，可分为孤立字（词）、连接词和连续语音识别系统；根据对说话人的依赖程度，可分为特定人和非特定人语音识别系统；根据词汇量的大小，可分为小词汇量、中等词汇量、大词汇量以及无限词汇量语音识别系统。

2．2语音识别基本原理

从语音识别模型的角度讲，主流的语音识别系统理论是建立在统计模式识别基础之上的。语音识别的目标是利用语音学与语言学信息，把输入的语音特征向量序列X=x1，x2，……，xT转化成词序列W=w1，w2，……，wN并输出。基于最大后验概率的语音识别模型如下式所示：

上式表明，要寻找的最可能的词序列

，应该使P（X|W）与P（W）的乘积达到最大。其中，P（X|W）是特征矢量序列X在给定W条件下的条件概率，由声学模型决定。P（W）是W独立于语音特征矢量的先验概率，由语言模型决定。由于将概率取对数不影响W的选取，第四个等式成立。logP（X|W）与logP（W）分别表示声学得分与语言得分，且分别通过声学模型与语言模型计算得到。A是平衡声学模型与语言模型的权重。从语音识别系统构成的角度讲，一个完整的语音识别系统包括特征提取、声学模型、语言模型、搜索算法等模块。语音识别系统本质上是一种多维模式识别系统，对于不同的语音识别系统，人们所采用的具体识别方法及技术不同，但其基本原理都是相同的，即将采集到的语音信号送到特征提取模块处理，将所得到的语音特征参数送入模型库模块，由声音模式匹配模块根据模型库对该段语音进行识别，最后得出识别结果。

语音识别系统基本原理框图如图1所示，其中：预处理模块滤除原始语音信号中的次要信息及背景噪音等，包括抗混叠滤波、预加重、模／数转换、自动增益控制等处理过程，将语音信号数字化；特征提取模块对语音的声学参数进行分析后提取出语音特征参数，形成特征矢量序列。语音识别系统常用的特征参数有短时平均幅度、短时平均能量、线性预测编码系数、短时频谱等。特征提取和选择是构建系统的关键，对识别效果极为重要。

图1语音识别基本原理框图

由于语音信号本质上属于非平稳信号，目前对语音信号的分析是建立在短时平稳性假设之上的。在对语音信号作短时平稳假设后，通过对语音信号进行加窗，实现短时语音片段上的特征提取。这些短时片段被称为帧，以帧为单位的特征序列构成语音识别系统的输人。由于梅尔倒谱系数及感知线性预测系数能够从人耳听觉特性的角度准确刻画语音信号，已经成为目前主流的语音特征。为补偿帧间独立性假设，人们在使用梅尔倒谱系数及感知线性预测系数时，通常加上它们的一阶、二阶差分，以引入信号特征的动态特征。

声学模型是语音识别系统中最为重要的部分之一。声学建模涉及建模单元选取、模型状态聚类、模型参数估计等很多方面。在目前的LVCSR系统中，普遍采用上下文相关的模型作为基本建模单元，以刻画连续语音的协同发音现象。在考虑了语境的影响后，声学模型的数量急剧增加，LVCSR系统通常采用状态聚类的方法压缩声学参数的数量，以简化模型的训练。在训练过程中，系统对若干次训练语音进行预处理，并通过特征提取得到特征矢量序列，然后由特征建模模块建立训练语音的参考模式库。

搜索是在指定的空间当中，按照一定的优化准则，寻找最优词序列的过程。搜索的本质是问题求解，广泛应用于语音识别、机器翻译等人工智能和模式识别的各个领域。它通过利用已掌握的知识（声学知识、语音学知识、词典知识、语言模型知识等），在状态（从高层至底层依次为词、声学模型、HMM状态）空间中找到最优的状态序列。最终的词序列是对输入的语音信号在一定准则下的一个最优描述。在识别阶段，将输入语音的特征矢量参数同训练得到的参考模板库中的模式进行相似性度量比较，将相似度最高的模式所属的类别作为识别中间候选结果输出。为了提高识别的正确率，在后处理模块中对上述得到的候选识别结果继续处理，包括通过Lattice重打分融合更高元的语言模型、通过置信度度量得到识别结果的可靠程度等。最终通过增加约束，得到更可靠的识别结果。

2．3声学建模方法

常用的声学建模方法包含以下三种：基于模式匹配的动态时间规整法（DTW）；隐马尔可夫模型法（HMM）；基于人工神经网络识别法（ANN）等。

DTW是较早的一种模式匹配的方法。它基于动态规划的思想，解决孤立词语音识别中的语音信号特征参数序列比较时长度不一的模板匹配问题在实际应用中，DTW通过计算已预处理和分帧的语音信号与参考模板之间的相似度，再按照某种距离测度计算出模板间的相似度并选择最佳路径。

HMM是对语音信号的时间序列结构所建立的统计模型，是在马尔可夫链的基础上发展起来的，它是一种基于参数模型的统计识别方法。HMM可模仿人的言语过程，可视作一个双重随机过程：一个是用具有有限状态数的马尔可夫链来模拟语音信号统计特性变化的隐含的随机过程，另一个是与马尔可夫链的每一个状态相关联的观测序列的随机过程。

ANN以数学模型模拟神经元活动，将人工神经网络中大量神经元并行分布运算的原理、高效的学习算法以及对人的认知系统的模仿能力充分运用到语音识别领域，并结合神经网络和隐含马尔可夫模型的识别算法，克服了ANN在描述语音信号时间动态特性方面的缺点，进一步提高了语音识别的鲁棒性和准确率。其中成功的方法就是在混合模型中用ANN替代高斯混合模型估计音素或状态的后验概率。2011年，微软以深度神经网络替代多层感知机形成的混合模型系统大大提高了语音识别的准确率。

3语音识别的应用

语音识别技术有着非常广泛的应用领域和市场前景。在语音输入控制系统中，它使得人们可以甩掉键盘，通过识别语音中的要求、请求、命令或询问来作出正确的响应，这样既可以克服人工键盘输入速度慢，极易出差错的缺点，又有利于缩短系统的反应时间，使人机交流变得简便易行，比如用于声控语音拨号系统、声控智能玩具、智能家电等领域。在智能对话查询系统中，人们通过语音命令，可以方便地从远端的数据库系统中查询与提取有关信息，享受自然、友好的数据库检索服务，例如信息网络查询、医疗服务、银行服务等。语音识别技术还可以应用于自动口语翻译，即通过将口语识别技术、机器翻译技术、语音合成技术等相结合，可将一种语言的语音输入翻译为另一种语言的语音输出，实现跨语言交流。

语音识别技术在军事斗争领域里也有着极为重要的应用价值和极其广阔的应用空间。一些语音识别技术就是着眼于军事活动而研发，并在军事领域首先应用、首获成效的，军事应用对语音识别系统的识别精度、响应时间、恶劣环境下的顽健性都提出了更高的要求。目前，语音识别技术已在军事指挥和控制自动化方面得以应用。比如，将语音识别技术应用于航空飞行控制，可快速提高作战效率和减轻飞行员的工作负担，飞行员利用语音输人来代替传统的手动操作和控制各种开关和设备，以及重新改编或排列显示器上的显示信息等，可使飞行员把时间和精力集中于对攻击目标的判断和完成其他操作上来，以便更快获得信息来发挥战术优势。

4结语

语音识别的研究工作对于信息化社会的发展，人们生活水平的提高等方面有着深远的意义。随着计算机信息技术的不断发展，语音识别技术将取得更多重大突破，语音识别系统的研究将会更加深入，有着更加广阔的发展空间。

责任编辑：gt

什么是语音识别技术原理是什么应用领域介绍

语音识别作为解放人类双手的沟通方式，一直是人类与机器进行交流的最佳方式。随着科学技术的不断进步，语音识别技术在生活中的应用越来越广泛，那么，什么是语音识别技术?原理是什么?本文将具体介绍。

1.语音识别技术

语音识别(AutomaticSpeechRecognition，ASR)技术也称自动语音识别技术，是指机器通过识别和理解过程将语音信号转化为文本或指令的技术。语音识别以语音为研究对象，涉及到数字信号处理、计算机、模式识别、语音学、语言学、心理学、生理学、数理统计学等多门学科领域，是一门综合性很强的技术，在军事、交通、医学、工业、商业等领域都有着广泛的应用。语音识别的目标是让机器能够像人一样准确理解语音信号所承载的信息，从而实现人机交互。语音识别系统可以分成三类：孤立词语音识别系统、连接词语音识别系统与连续语音识别系统。

2.语音识别技术的发展

语音识别技术的研究最早开始于20世纪50年代，1952年贝尔实验室研发出了10个孤立数字的识别系统。从20世纪60年代开始，美国卡耐基梅隆大学的Reddy等开展了连续语音识别的研究，但是这段时间发展很缓慢。1969年贝尔实验室的PierceJ甚至在一封公开信中将语音识别比作近几年不可能实现的事情。

20世纪80年代开始，以隐马尔可夫模型(hiddenMarkovmodel，HMM)方法为代表的基于统计模型方法逐渐在语音识别研究中占据了主导地位。HMM模型能够很好地描述语音信号的短时平稳特性，并且将声学、语言学、句法等知识集成到统一框架中。此后，HMM的研究和应用逐渐成为了主流。例如，第一个“非特定人连续语音识别系统”是当时还在卡耐基梅隆大学读书的李开复研发的SPHINX系统，其核心框架就是GMM-HMM框架，其中GMM(Gaussianmixturemodel，高斯混合模型)用来对语音的观察概率进行建模，HMM则对语音的时序进行建模。

20世纪80年代后期，深度神经网络(deepneuralnetwork，DNN)的前身——人工神经网络(artificialneuralnetwork，ANN)也成为了语音识别研究的一个方向。但这种浅层神经网络在语音识别任务上的效果一般，表现并不如GMM-HMM模型。

20世纪90年代开始，语音识别掀起了第一次研究和产业应用的小高潮，主要得益于基于GMM-HMM声学模型的区分性训练准则和模型自适应方法的提出。这时期剑桥发布的HTK开源工具包大幅度降低了语音识别研究的门槛。此后将近10年的时间里，语音识别的研究进展一直比较有限，基于GMM-HMM框架的语音识别系统整体效果还远远达不到实用化水平，语音识别的研究和应用陷入了瓶颈。

2006年Hinton]提出使用受限波尔兹曼机(restrictedBoltzmannmachine，RBM)对神经网络的节点做初始化，即深度置信网络(deepbeliefnetwork，DBN)。DBN解决了深度神经网络训练过程中容易陷入局部最优的问题，自此深度学习的大潮正式拉开。

2009年，Hinton和他的学生MohamedD将DBN应用在语音识别声学建模中，并且在TIMIT这样的小词汇量连续语音识别数据库上获得成功。

2011年DNN在大词汇量连续语音识别上获得成功，语音识别效果取得了近10年来最大的突破。从此，基于深度神经网络的建模方式正式取代GMM-HMM，成为主流的语音识别建模方式。

3.语音识别技术的工作流程

一般来说，一套完整的语音识别系统其工作过程分为7步：

(1)对语音信号进行分析和处理，除去冗余信息。

(2)提取影响语音识别的关键信息和表达语言含义的特征信息。

(3)紧扣特征信息，用最小单元识别字词。

(4)按照不同语言的各自语法，依照先后次序识别字词。

(5)把前后意思当作辅助识别条件，有利于分析和识别。

(6)按照语义分析，给关键信息划分段落，取出所识别出的字词并连接起来，同时根据语句意思调整句子构成。

(7)结合语义，仔细分析上下文的相互联系，对当前正在处理的语句进行适当修正。

4.语音识别的基本原理

所谓语音识别，就是将一段语音信号转换成相对应的文本信息，系统主要包含特征提取、声学模型，语言模型以及字典与解码四大部分，其中为了更有效地提取特征往往还需要对所采集到的声音信号进行滤波、分帧等预处理工作，把要分析的信号从原始信号中提取出来;之后，特征提取工作将声音信号从时域转换到频域，为声学模型提供合适的特征向量;声学模型中再根据声学特性计算每一个特征向量在声学特征上的得分;而语言模型则根据语言学相关的理论，计算该声音信号对应可能词组序列的概率;最后根据已有的字典，对词组序列进行解码，得到最后可能的文本表示。

5.语音识别技术的工作原理

首先，声音实际上是一种波。常见的mp3等格式都是压缩格式，必须转成非压缩的纯波形文件来处理，比如WindowsPCM文件，也就是俗称的wav文件。wav文件里存储的除了一个文件头以外，就是声音波形的一个个点了。

在开始语音识别之前，有时需要把首尾端的静音切除，降低对后续步骤造成的干扰。这个静音切除的操作一般称为VAD，需要用到信号处理的一些技术。

要对声音进行分析，需要对声音分帧，也就是把声音切开成一小段一小段，每小段称为一帧。分帧操作一般不是简单的切开，而是使用移动窗函数来实现。

分帧后，语音就变成了很多小段。但波形在时域上几乎没有描述能力，因此必须将波形作变换。常见的一种变换方法是提取MFCC特征，根据人耳的生理特性，把每一帧波形变成一个多维向量，可以简单地理解为这个向量包含了这帧语音的内容信息。这个过程叫做声学特征提取。

至此，声音就成了一个12行(假设声学特征是12维)、N列的一个矩阵，称之为观察序列，这里N为总帧数。

那，怎样把这个矩阵变成文本了。首先要介绍两个概念：

音素：单词的发音由音素构成。对英语，一种常用的音素集是卡内基梅隆大学的一套由39个音素构成的音素集。汉语一般直接用全部声母和韵母作为音素集，另外汉语识别还分有调无调，不详述。

状态：这里理解成比音素更细致的语音单位就行啦。通常把一个音素划分成3个状态。

那，语音识别是怎么工作的呢?

第一步，把帧识别成状态。

第二步，把状态组合成音素。

第三步，把音素组合成单词。

每个小竖条代表一帧，若干帧语音对应一个状态，每三个状态组合成一个音素，若干个音素组合成一个单词。也就是说，只要知道每帧语音对应哪个状态了，语音识别的结果也就出来了。

那每帧音素对应哪个状态呢?有个容易想到的办法，看某帧对应哪个状态的概率最大，那这帧就属于哪个状态。

那这些用到的概率从哪里读取呢?有个叫“声学模型”的东西，里面存了一大堆参数，通过这些参数，就可以知道帧和状态对应的概率。获取这一大堆参数的方法叫做“训练”，需要使用巨大数量的语音数据。

但这样做有一个问题：每一帧都会得到一个状态号，最后整个语音就会得到一堆乱七八糟的状态号，相邻两帧间的状态号基本都不相同。假设语音有1000帧，每帧对应1个状态，每3个状态组合成一个音素，那么大概会组合成300个音素，但这段语音其实根本没有这么多音素。如果真这么做，得到的状态号可能根本无法组合成音素。实际上，相邻帧的状态应该大多数都是相同的才合理，因为每帧很短。

解决这个问题的常用方法就是使用隐马尔可夫模型(HiddenMarkovModel，HMM)。

第一步，构建一个状态网络。

第二步，从状态网络中寻找与声音最匹配的路径。

这样就把结果限制在预先设定的网络中，避免了刚才说到的问题，当然也带来一个局限，比如设定的网络里只包含了“今天晴天”和“今天下雨”两个句子的状态路径，那么不管说些什么，识别出的结果必然是这两个句子中的一句。

那如果想识别任意文本呢?把这个网络搭得足够大，包含任意文本的路径就可以了。但这个网络越大，想要达到比较好的识别准确率就越难。所以要根据实际任务的需求，合理选择网络大小和结构。

搭建状态网络，是由单词级网络展开成音素网络，再展开成状态网络。语音识别过程其实就是在状态网络中搜索一条最佳路径，语音对应这条路径的概率最大，这称之为“解码”。路径搜索的算法是一种动态规划剪枝的算法，称之为Viterbi算法，用于寻找全局最优路径。

这里所说的累积概率，由三部分构成，分别是：

观察概率：每帧和每个状态对应的概率

转移概率：每个状态转移到自身或转移到下个状态的概率

语言概率：根据语言统计规律得到的概率

其中，前两种概率从声学模型中获取，最后一种概率从语言模型中获取。语言模型是使用大量的文本训练出来的，可以利用某门语言本身的统计规律来帮助提升识别正确率。语言模型很重要，如果不使用语言模型，当状态网络较大时，识别出的结果基本是一团乱麻。

这样，基本上语音识别过程就完成了。这，也是语音识别技术的工作原理。

6.语音识别技术应用领域

(1)桌面/移动设备应用

语音识别技术在PC机/移动终端上的应用范围较广，目前可以用语音识别来进行身份认证、编辑文本或者语音控制。典型的包括语音输入法、语音助手、音频识别软件等。

(2)嵌入式应用

应用的范畴广，根据市场需求考虑不同的嵌入式硬件平台，目前嵌入式语音识别系统主流是智能手机、车载系统、智能家居、智能终端的集成应用。

(3)电信级系统应用

语音识别技术应用于企业自动语音服务，可以为企业提供--种智能化的并且相对安全的自动服务方式。包括，企业的用户服务中心、电话银行、股票交易、电子商务等应用领城。

(4)Web应用

把语音技术与Web应用结合，例如语音浏览器、语音搜索引擎，网上语音聊天室及语音网游等。

(5)行业特殊应用领域

为安全部门提供声纹识别应用方案，进行自动的身份辨认，在国家安全、侦破等特殊领域，市场专业性强，进入壁垒高，同业竞争者很少。

以上梳理了语音识别技术的定义、原理、发展历程等信息，希望对你有所帮助，当前，随着人机交互技术的发展，语音识别技术有了更广阔的发展空间，是未来科技的一大趋势。如果你想了解更多相关内容，敬请关注三个皮匠报告的行业知识栏目。

本文由@2200发布于三个皮匠报告网站，未经授权禁止转载。

语音识别的基本概述、原理及应用发展 语音识别技术的研究最早开始于二十世纪多少年代