语音识别技术原理概述！语音识别的基本原理所谓语音识别，就是将一段语音信号转换成相对应的文本信息，系统主要包含特征提取、声学模型，语言模型以及语音识别技术应用原理

发表时间：2023-07-06 23:48:07

语音识别技术原理概述！语音识别的基本原理所谓语音识别，就是将一段语音信号转换成相对应的文本信息，系统主要包含特征提取、声学模型，语言模型以及

来源：雪球App，作者：手机技术资讯，（https://xueqiu.com/3075605687/130174699）

语音识别的基本原理

所谓语音识别，就是将一段语音信号转换成相对应的文本信息，系统主要包含特征提取、声学模型，语言模型以及字典与解码四大部分，其中为了更有效地提取特征往往还需要对所采集到的声音信号进行滤波、分帧等预处理工作，把要分析的信号从原始信号中提取出来;之后，特征提取工作将声音信号从时域转换到频域，为声学模型提供合适的特征向量;声学模型中再根据声学特性计算每一个特征向量在声学特征上的得分;而语言模型则根据语言学相关的理论，计算该声音信号对应可能词组序列的概率;最后根据已有的字典，对词组序列进行解码，得到最后可能的文本表示。

声学信号预处理

作为语音识别的前提与基础，语音信号的预处理过程至关重要。在最终进行模板匹配的时候，是将输入语音信号的特征参数同模板库中的特征参数进行对比，因此，只有在预处理阶段得到能够表征语音信号本质特征的特征参数，才能够将这些特征参数进行匹配进行识别率高的语音识别。

首先需要对声音信号进行滤波与采样，此过程主要是为了排除非人体发声以外频率的信号与50Hz电流频率的干扰，该过程一般是用一个带通滤波器、设定上下戒指频率进行滤波，再将原有离散信号进行量化处理实现的;之后需要平滑信号的高频与低频部分的衔接段，从而可以在同一信噪比条件下对频谱进行求解，使得分析更为方便快捷;分帧加窗操作是为了将原有频域随时间变化的信号具有短时平稳特性，即将连续的信号用不同长度的采集窗口分成一个个独立的频域稳定的部分以便于分析，此过程主要是采用预加重技术;最后还需要进行端点检测工作，也就是对输入语音信号的起止点进行正确判断，这主要是通过短时能量(同一帧内信号变化的幅度)与短时平均过零率(同一帧内采样信号经过零的次数)来进行大致的判定。

声学特征提取

完成信号的预处理之后，随后进行的就是整个过程中极为关键的特征提取的操作。将原始波形进行识别并不能取得很好的识别效果，频域变换后提取的特征参数用于识别，而能用于语音识别的特征参数必须满足以下几点：

1、特征参数能够尽量描述语音的根本特征;

2、尽量降低参数分量之间的耦合，对数据进行压缩;

3、应使计算特征参数的过程更加简便，使算法更加高效。基音周期、共振峰值等参数都可以作为表征语音特性的特征参数。

目前主流研究机构最常用到的特征参数有：线性预测倒谱系数(LPCC)和Mel倒谱系数(MFCC)。两种特征参数在倒谱域上对语音信号进行操作，前者以发声模型作为出发点，利用LPC技术求倒谱系数。后者则模拟听觉模型，把语音经过滤波器组模型的输出做为声学特征，然后利用离散傅里叶变换(DFT)进行变换。

所谓基音周期，是指声带振动频率(基频)的振动周期，因其能够有效表征语音信号特征，因此从最初的语音识别研究开始，基音周期检测就是一个至关重要的研究点;所谓共振峰，是指语音信号中能量集中的区域，因其表征了声道的物理特征，并且是发音音质的主要决定条件，因此同样是十分重要的特征参数。此外，目前也有许多研究者开始将深度学习中一些方法应用在特征提取中，取得了较快的进展。

声学模型

声学模型是语音识别系统中非常重要的一个组件，对不同基本单元的区分能力直接关系到识别结果的好坏。语音识别本质上一个模式识别的过程，而模式识别的核心是分类器和分类决策的问题。

通常，在孤立词、中小词汇量识别中使用动态时间规整(DTW)分类器会有良好的识别效果，并且识别速度快，系统开销小，是语音识别中很成功的匹配算法。但是，在大词汇量、非特定人语音识别的时候，DTW识别效果就会急剧下降，这时候使用隐马尔科夫模型(HMM)进行训练识别效果就会有明显提升，由于在传统语音识别中一般采用连续的高斯混合模型GMM来对状态输出密度函数进行刻画，因此又称为GMM-HMM构架。

同时，随着深度学习的发展，通过深度神经网络来完成声学建模，形成所谓的DNN-HMM构架来取代传统的GMM-HMM构架，在语音识别上也取得了很好的效果。

高斯混合模型

对于一个随机向量x，如果它的联合概率密度函数符合公式2-9，则称它服从高斯分布，并记为x∼N(µ,Σ)。

其中，µ为分布的期望，Σ为分布的协方差矩阵。高斯分布有很强的近似真实世界数据的能力，同时又易于计算，因此被广泛地应用在各个学科之中。但是，仍然有很多类型的数据不好被一个高斯分布所描述。这时候我们可以使用多个高斯分布的混合分布来描述这些数据，由多个分量分别负责不同潜在的数据来源。此时，随机变量符合密度函数。

其中，M为分量的个数，通常由问题规模来确定。

我们称认为数据服从混合高斯分布所使用的模型为高斯混合模型。高斯混合模型被广泛的应用在很多语音识别系统的声学模型中。考虑到在语音识别中向量的维数相对较大，所以我们通常会假设混合高斯分布中的协方差矩阵Σm为对角矩阵。这样既大大减少了参数的数量，同时可以提高计算的效率。

使用高斯混合模型对短时特征向量建模有以下几个好处：首先，高斯混合模型的具有很强的建模能力，只要分量总数足够多，高斯混合模型就可以以任意精度来逼近一个概率分布函数;另外，使用EM算法可以很容易地使模型在训练数据上收敛。对于计算速度和过拟合等问题，人们还研究出了参数绑定的GMM和子空间高斯混合模型(subspaceGMM)来解决。除了使用EM算法作最大似然估计以外，我们还可以使用和词或音素错误率直接相关的区分性的误差函数来训练高斯混合模型，能够极大地提高系统性能。因此，直到在声学模型中使用深度神经网络的技术出现之前，高斯混合模型一直是短时特征向量建模的不二选择。

但是，高斯混合模型同样具有一个严重的缺点：高斯混合模型对于靠近向量空间上一个非线性流形(manifold)上的数据建模能力非常差。例如，假设一些数据分布在一个球面两侧，且距离球面非常近。如果使用一个合适的分类模型，我们可能只需要很少的参数就可以将球面两侧的数据区分开。但是，如果使用高斯混合模型描绘他们的实际分布情况，我们需要非常多的高斯分布分量才能足够精确地刻画。这驱使我们寻找一个能够更有效利用语音信息进行分类的模型。

隐马尔科夫模型

我们现在考虑一个离散的随机序列，若转移概率符合马尔可夫性质，即将来状态和过去状态独立，则称其为一条马尔可夫链(MarkovChain)。若转移概率和时间无关，则称其为齐次(homogeneous)马尔可夫链。马尔可夫链的输出和预先定义好的状态一一对应，对于任意给定的状态，输出是可观测的，没有随机性。如果我们对输出进行扩展，使马尔可夫链的每个状态输出为一个概率分布函数。这样的话马尔可夫链的状态不能被直接观测到，只能通过受状态变化影响的符合概率分布的其他变量来推测。我们称以这种以隐马尔可夫序列假设来建模数据的模型为隐马尔可夫模型。

对应到语音识别系统中，我们使用隐马尔可夫模型来刻画一个音素内部子状态变化，来解决特征序列到多个语音基本单元之间对应关系的问题。

在语音识别任务中使用隐马尔可夫模型需要计算模型在一段语音片段上的可能性。而在训练的时候，我们需要使用Baum-Welch算法[23]学习隐马尔可夫模型参数，进行最大似然估计(MaximumLikelihoodEstimation,MLE)。Baum-Welch算法是EM(Expectation-Maximization)算法的一种特例，利用前后项概率信息迭代地依次进行计算条件期望的E步骤和最大化条件期望的M步骤。

语言模型

语言模型主要是刻画人类语言表达的方式习惯，着重描述了词与词在排列结构上的内在联系。在语音识别解码的过程中，在词内转移参考发声词典、词间转移参考语言模型，好的语言模型不仅能够提高解码效率，还能在一定程度上提高识别率。语言模型分为规则模型和统计模型两类，统计语言模型用概率统计的方法来刻画语言单位内在的统计规律，其设计简单实用而且取得了很好的效果，已经被广泛用于语音识别、机器翻译、情感识别等领域。

最简单又却又最常用的语言模型是N元语言模型(N-gramLanguageModel,N-gramLM)。N元语言模型假设当前在给定上文环境下，当前词的概率只与前N-1个词相关。于是词序列w1,...,wm的概率P(w1,...,wm)可以近似为

为了得到公式中的每一个词在给定上文下的概率，我们需要一定数量的该语言文本来估算。可以直接使用包含上文的词对在全部上文词对中的比例来计算该概率，即

对于在文本中未出现的词对，我们需要使用平滑方法来进行近似，如Good-Turing估计或Kneser-Ney平滑等。

解码与字典

解码器是识别阶段的核心组件，通过训练好的模型对语音进行解码，获得最可能的词序列，或者根据识别中间结果生成识别网格(lattice)以供后续组件处理。解码器部分的核心算法是动态规划算法Viterbi。由于解码空间非常巨大，通常我们在实际应用中会使用限定搜索宽度的令牌传递方法(tokenpassing)。

传统解码器会完全动态生成解码图(decodegraph)，如著名语音识别工具HTK(HMMToolKit)中的HVite和HDecode等。这样的实现内存占用较小，但考虑到各个组件的复杂性，整个系统的流程繁琐，不方便高效地将语言模型和声学模型结合起来，同时更加难以扩展。现在主流的解码器实现会一定程度上使用预生成的有限状态变换器(FiniteStateTransducer,FST)作为预加载的静态解码图。这里我们可以将语言模型(G)，词汇表(L)，上下文相关信息(C)，隐马尔可夫模型(H)四个部分分别构建为标准的有限状态变换器，再通过标准的有限状态变换器操作将他们组合起来，构建一个从上下文相关音素子状态到词的变换器。这样的实现方法额外使用了一些内存空间，但让解码器的指令序列变得更加整齐，使得一个高效的解码器的构建更加容易。同时，我们可以对预先构建的有限状态变换器进行预优化，合并和剪掉不必要的部分，使得搜索空间变得更加合理

语音识别技术的工作原理

首先，我们知道声音实际上是一种波。常见的mp3等格式都是压缩格式，必须转成非压缩的纯波形文件来处理，比如WindowsPCM文件，也就是俗称的wav文件。wav文件里存储的除了一个文件头以外，就是声音波形的一个个点了。下图是一个波形的示例。

图中，每帧的长度为25毫秒，每两帧之间有25-10=15毫秒的交叠。我们称为以帧长25ms、帧移10ms分帧。

分帧后，语音就变成了很多小段。但波形在时域上几乎没有描述能力，因此必须将波形作变换。常见的一种变换方法是提取MFCC特征，根据人耳的生理特性，把每一帧波形变成一个多维向量，可以简单地理解为这个向量包含了这帧语音的内容信息。这个过程叫做声学特征提取。

至此，声音就成了一个12行(假设声学特征是12维)、N列的一个矩阵，称之为观察序列，这里N为总帧数。观察序列如下图所示，图中，每一帧都用一个12维的向量表示，色块的颜色深浅表示向量值的大小。

接下来就要介绍怎样把这个矩阵变成文本了。首先要介绍两个概念：

音素：单词的发音由音素构成。对英语，一种常用的音素集是卡内基梅隆大学的一套由39个音素构成的音素集。汉语一般直接用全部声母和韵母作为音素集，另外汉语识别还分有调无调，不详述。

状态：这里理解成比音素更细致的语音单位就行啦。通常把一个音素划分成3个状态。

语音识别是怎么工作的呢?实际上一点都不神秘，无非是：

第一步，把帧识别成状态。

第二步，把状态组合成音素。

第三步，把音素组合成单词。

如下图所示：

图中，每个小竖条代表一帧，若干帧语音对应一个状态，每三个状态组合成一个音素，若干个音素组合成一个单词。也就是说，只要知道每帧语音对应哪个状态了，语音识别的结果也就出来了。

那每帧音素对应哪个状态呢?有个容易想到的办法，看某帧对应哪个状态的概率最大，那这帧就属于哪个状态。比如下面的示意图，这帧在状态S3上的条件概率最大，因此就猜这帧属于状态S3。

那这些用到的概率从哪里读取呢?有个叫“声学模型”的东西，里面存了一大堆参数，通过这些参数，就可以知道帧和状态对应的概率。获取这一大堆参数的方法叫做“训练”，需要使用巨大数量的语音数据。

但这样做有一个问题：每一帧都会得到一个状态号，最后整个语音就会得到一堆乱七八糟的状态号，相邻两帧间的状态号基本都不相同。假设语音有1000帧，每帧对应1个状态，每3个状态组合成一个音素，那么大概会组合成300个音素，但这段语音其实根本没有这么多音素。如果真这么做，得到的状态号可能根本无法组合成音素。实际上，相邻帧的状态应该大多数都是相同的才合理，因为每帧很短。

解决这个问题的常用方法就是使用隐马尔可夫模型(HiddenMarkovModel，HMM)。这东西听起来好像很高深的样子，实际上用起来很简单：

第一步，构建一个状态网络。

第二步，从状态网络中寻找与声音最匹配的路径。

这样就把结果限制在预先设定的网络中，避免了刚才说到的问题，当然也带来一个局限，比如你设定的网络里只包含了“今天晴天”和“今天下雨”两个句子的状态路径，那么不管说些什么，识别出的结果必然是这两个句子中的一句。

那如果想识别任意文本呢?把这个网络搭得足够大，包含任意文本的路径就可以了。但这个网络越大，想要达到比较好的识别准确率就越难。所以要根据实际任务的需求，合理选择网络大小和结构。

搭建状态网络，是由单词级网络展开成音素网络，再展开成状态网络。语音识别过程其实就是在状态网络中搜索一条最佳路径，语音对应这条路径的概率最大，这称之为“解码”。路径搜索的算法是一种动态规划剪枝的算法，称之为Viterbi算法，用于寻找全局最优路径。

这里所说的累积概率，由三部分构成，分别是：

观察概率：每帧和每个状态对应的概率

转移概率：每个状态转移到自身或转移到下个状态的概率

语言概率：根据语言统计规律得到的概率

其中，前两种概率从声学模型中获取，最后一种概率从语言模型中获取。语言模型是使用大量的文本训练出来的，可以利用某门语言本身的统计规律来帮助提升识别正确率。语言模型很重要，如果不使用语言模型，当状态网络较大时，识别出的结果基本是一团乱麻。

这样基本上语音识别过程就完成了,这就是语音识别技术的工作原理。

语音识别技术的工作流程

一般来说，一套完整的语音识别系统其工作过程分为7步：

1、对语音信号进行分析和处理，除去冗余信息。

2、提取影响语音识别的关键信息和表达语言含义的特征信息。

3、紧扣特征信息，用最小单元识别字词。

4、按照不同语言的各自语法，依照先后次序识别字词。

5、把前后意思当作辅助识别条件，有利于分析和识别。

6、按照语义分析，给关键信息划分段落，取出所识别出的字词并连接起来，同时根据语句意思调整句子构成。

7、结合语义，仔细分析上下文的相互联系，对当前正在处理的语句进行适当修正。

语音识别原理有三点：

1、对语音信号中的语言信息编码是按照幅度谱的时间变化来进行;

2、由于语音是可以阅读的，也就是说声学信号可以在不考虑说话人说话传达的信息内容的前提下用多个具有区别性的、离散的符号来表示;

3、语音的交互是一个认知过程，所以绝对不能与语法、语义和用语规范等方面分裂开来。

预处理，其中就包括对语音信号进行采样、克服混叠滤波、去除部分由个体发音的差异和环境引起的噪声影响，此外还会考虑到语音识别基本单元的选取和端点检测问题。反复训练是在识别之前通过让说话人多次重复语音，从原始语音信号样本中去除冗余信息，保留关键信息，再按照一定规则对数据加以整理，构成模式库。再者是模式匹配，它是整个语音识别系统的核心部分，是根据一定规则以及计算输入特征与库存模式之间的相似度，进而判断出输入语音的意思。

前端处理，先对原始语音信号进行处理，再进行特征提取，消除噪声和不同说话人的发音差异带来的影响，使处理后的信号能够更完整地反映语音的本质特征提取，消除噪声和不同说话人的发音差异带来的影响，使处理后的信号能够更完整地反映语音的本质特征。

推荐关注人工智能微信公众号：

推荐关注手机领域招聘公众号：

推荐关注手机技术资讯公众号：

要入群请加手机技术资讯管理员Lianjie0706，入群前请备注行业岗位地点：

语音识别（ASR）

语音识别（AutomaticSpeechRecognition）是以语音为研究对象，通过语音信号处理和模式识别让机器自动识别和理解人类口述的语。语音识别技术就是让机器通过识别和理解过程把语音信号转变为相应的文本或命令的高技术。语音识别是一门涉及面很广的交叉学科，它与声学、语音学、语言学、信息理论、模式识别理论以及神经生物学等学科都有非常密切的关系。

语音识别的基本原理

语音识别系统本质上是一种模式识别系统，包括特征提取、模式匹配、参考模式库等三个基本单元，它的基本结构如下图所示：

上面这个图其实很好理解，就是把语音输入，我们首先就是要对输入的语音进行预处理，然后提取语音的特征，在此基础上建立语音识别所需的模板。而计算机在识别过程中要根据语音识别的模型，将计算机中存放的语音模板与输入的语音信号的特征进行比较，根据一定的搜索和匹配策略，找出一系列最优的与输入语音匹配的模板。然后根据此模板的定义，通过查表就可以给出计算机的识别结果。显然，这种最优的结果与特征的选择、语音模型的好坏、模板是否准确都有直接的关系。

语音识别系统构建过程整体上包括两大部分：训练和识别。训练通常是离线完成的，对预先收集好的海量语音、语言数据库进行信号处理和知识挖掘，获取语音识别系统所需要的“声学模型”和“语言模型”;而识别过程通常是在线完成的，对用户实时的语音进行自动识别。识别过程通常又可以分为“前端”和“后端”两大模块：“前端”模块主要的作用是进行端点检测(去除多余的静音和非说话声)、降噪、特征提取等;“后端”模块的作用是利用训练好的“声学模型”和“语言模型”对用户说话的特征向量进行统计模式识别(又称“解码”)，得到其包含的文字信息，此外，后端模块还存在一个“自适应”的反馈模块，可以对用户的语音进行自学习，从而对“声学模型”和“语音模型”进行必要的“校正”，进一步提高识别的准确率。

语音识别的技术原理

声音波形图

其实语音识别的声音预处理与声纹识别的声音预处理有很大一部分是相似的（前面我有介绍：【自主学习】声纹识别.2-简书）。在开始语音识别之前，有时需要把首尾端的静音切除，降低对后续步骤造成的干扰。这个静音切除的操作一般称为VAD（【自主学习】声纹识别.2-简书）。

要对声音进行分析，需要对声音分帧，也就是把声音切开一小段一小段，每小段称为一帧。分帧操作一般不是简单的切开，而是使用移动窗函数（【自主学习】声纹识别.2-简书）来实现。帧与帧之间一般是有交叠的，就像下图：

图中，每帧的长度为25毫秒，每两帧之间有毫秒的交叠。我们称为以帧长25ms、帧移10ms分帧。

分帧后，语音就变成了很多小段。但波形在时域上几乎没有描述能力，因此必须将波形作变换。常见的一种变换方法是提取MFCC特征（【自主学习】声纹识别.2-简书）。

接下来就要把这个矩阵变成文本了。首先要介绍两个概念：

音素：单词的发音由音素构成。对英语，一种常用的音素集是卡内基梅隆大学的一套由39个音素构成的音素集，参见TheCMUPronouncingDictionary。汉语一般直接用全部声母和韵母作为音素集，另外汉语识别还分有调无调等等，有兴趣的可以自己去了解一下哈。

状态：这里理解成比音素更细致的语音单位就行啦。通常把一个音素划分成3个状态。

下面我们来看看语音识别的工作流程：

第一步，把帧识别成状态(难点)。

第二步，把状态组合成音素。

第三步，把音素组合成单词。

如下图：

在上图中，每个小竖条代表一帧，若干帧语音对应一个状态，每三个状态组合成一个音素，若干个音素组合成一个单词。也就是说，只要知道每帧语音对应哪个状态，语音识别的结果就出来了。

那每帧音素对应哪个状态呢？有个容易想到的办法，看某帧对应哪个状态的概率最大，那这帧就属于哪个状态。比如下面的示意图，这帧在状态S3上的条件概率最大，因此就猜这帧属于状态S3。

那这些用到的概率从哪里读取呢?有个叫“声学模型”的东西，里面存了一大堆参数，通过这些参数，就可以知道帧和状态对应的概率。获取这一大堆参数的方法叫做“训练”，需要使用巨大数量的语音数据，训练的方法比较繁琐，现在有很多训练模型的工具（如：CMUSphinxOpenSourceSpeechRecognition ，KaldiASR）。

解决这个问题的常用方法就是使用隐马尔可夫模型(HiddenMarkovModel，HMM)。这东西听起来好像很高深的样子，实际上用起来很简单：首先构建一个状态网络，然后从状态网络中寻找与声音最匹配的路径。

这样就把结果限制在预先设定的网络中，避免了刚才说到的问题，当然也带来一个局限，比如你设定的网络里只包含了“今天晴天”和“今天下雨”两个句子的状态路径，那么不管说些什么，识别出的结果必然是这两个句子中的一句。那如果想识别任意文本呢?把这个网络搭得足够大，包含任意文本的路径就可以了。但这个网络越大，想要达到比较好的识别准确率就越难。所以要根据实际任务的需求，合理选择网络大小和结构。

搭建状态网络，是由单词级网络展开成音素网络，再展开成状态网络。语音识别过程其实就是在状态网络中搜索一条最佳路径，语音对应这条路径的累积概率最大，这称之为“解码”。路径搜索的算法是一种动态规划剪枝的算法，称之为Viterbi算法，用于寻找全局最优路径。

这里所说的累积概率，由三部分构成，分别是：

观察概率：每帧和每个状态对应的概率

转移概率：每个状态转移到自身或转移到下个状态的概率

语言概率：根据语言统计规律得到的概率

语音识别的工作流程语义识别流程图

预处理：

1. 首尾端的静音切除，降低干扰，静音切除的操作一般称为VAD。

2. 声音分帧，也就是把声音切开成一小段一小段，每小段称为一帧，使用移动窗函数来实现，不是简单的切开，各帧之间一般是有交叠的。

特征提取：主要算法有线性预测倒谱系数（LPCC）和Mel 倒谱系数（MFCC），目的是把每一帧波形变成一个包含声音信息的多维向量；

声学模型（AM）：通过对语音数据进行训练获得，输入是特征向量，输出为音素信息；

字典：字或者词与音素的对应，简单来说，中文就是拼音和汉字的对应，英文就是音标与单词的对应；

语言模型（LM）：通过对大量文本信息进行训练，得到单个字或者词相互关联的概率；

解码：就是通过声学模型，字典，语言模型对提取特征后的音频数据进行文字输出；

语音识别流程的举例（只是形象表述，不是真实数据和过程）：

1、语音信号：我是机器人

2、特征提取：我是机器人

3、声学模型：wosijiqirn

4、字典：窝：wo；我：wo；是：si；机：ji；器：qi；人：rn；级：ji；忍：rn；

5、语言模型（给出概率）：我：0.0786，是：0.0546，我是：0.0898，机器：0.0967，机器人：0.6785；

6、输出文字：我是机器人；

有什么问题尽管提出来哈！

参考：

语音识别技术基础理解-简书

语音识别的技术原理是什么？-知乎

语音识别基本流程-nsh119的博客-CSDN博客

语音识别的原理与应用

2、噪声控制及有效语音检测；

3、特征提取；

4、声音建模；

5、识别匹配。

通过巨大数量的语音数据，经过神经网络监督训练得到“声学模型”。通过声学模型里的参数，就可以知道帧和状态对应的概率。

这样由状态组合成音素，再组合成单词，就完成了语音识别的过程。

神经网络不仅编码最近的几个词，还可以把前文中的所有词（称作“历史”）中的各种信息都作为输入特征。由于历史是一个序列，可以采用递归神经网络来建立声学模型。

语音识别技术的应用：

1、拨号；

2、语音导航；

3、室内设备控制等。

语音识别技术与其他自然语言处理技术如机器翻译及语音合成技术相结合，可以构建出更复杂的应用，例如同声传译。

目前比较成熟的应用，包括语音输入法。通过语音识别输入文字，最高速度能够达到1分钟400字，比普通键盘输入更加高效。还包括个人语音助理：智能语音助手和搜索引擎是相辅相成的，更聪明的搜索逻辑能够更快的帮助用户找到答案。

家居场景中，智能电视、智能冰箱甚至智能镜子等设备都可搭载语音助手，实现语音控制，串联起从厨房、客厅到起居室、卫生间的智慧家居物联网。

因为传统家电硬件的语音交互改造成本较高，入局的互联网企业普遍推出家用智能音箱作为核心硬件，试图将这一全新品类打造成家居场景的语音控制枢纽。

随着语音识别、自然语音理解等技术的发展，在车内场景中通过语音交互控制车载导航、娱乐、空调等系统成为可能。语音控制系统将驾驶者的注意力从屏幕和按钮中解放出来，一定程度上增强了行车安全性。由于车内场景具有一定的私密性，这种交互方式自然容易被接受。

中天智领的智能AI语音交互系统，让交互“说”出来。无论将来指挥中心增加多少信号，多少业务场景，不再需要后台人员使用电脑操作，只需说出名字，即可快速大屏展示。面对成千上万的监控图像，不再需要眼花缭乱的寻找，只需要说出想看到的监控场景，大屏即可全屏显示,彰显了前瞻科技，成为智慧交互的龙头企业。

5G商用近在眼前，物联网发展的快车即将启程，所有需要人与人进行对话的行业都可由智能语音助手进行赋能。语音识别、自然语言理解、语音合成等底层技术在各行各业都有很强的应用潜力。目前以广泛应用到智能家居、车载语音、智能客服等行业和场景。

中天智领的语音交互系统输入效率高且交互方式更自然，解放我们的双手，拓宽使用场景，信息传递的效率高。语音交互及人工智能技术应用的产业链极长，全面打造开放平台的发展战略已势在必行。

中天智领是国内领先的“智慧交互信息化系统整体解决方案服务商”，致力于智慧交互业务模式化，最核心的内容就是交互，中天智领拥有一套独立的智慧电子沙盘交互系统，适用于各个领域，公司在“智慧人机交互与信息化领域”已经成为国内的领创品牌，拥有完全自主产权及发明专利池近30项，以“智慧交互”为核心竞争力，一直致力于为政府、军队、武警、公安、轨道交通等重要部门，提供卓越的指挥中心智慧交互解决方案。创新的推出“显控平台+指挥中心+智慧云交互”三大系统，是集智慧人机交互、智能显示、指挥调度、数据分析、深度学习等功能于一体的应用平台，革新了传统指挥交互方式，研发人机交互新应用，获得行业巨大的反响，同时在光学传感器方面也独树一帜，拥有领先的技术。返回搜狐，查看更多

浅谈语音识别技术的发展趋势与应用前景

一、语音识别技术定义

语音识别技术，也被称为自动语音识别AutomaticSpeechRecognition，（ASR），其目标是将人类的语音中的词汇内容转换为计算机可读的输入，例如按键、二进制编码或者字符序列。与说话人识别及说话人确认不同，后者尝试识别或确认发出语音的说话人而非其中所包含的词汇内容。

语音识别技术的应用包括语音拨号、语音导航、室内设备控制、语音文档检索、简单的听写数据录入等。语音识别技术与其他自然语言处理技术如机器翻译及语音合成技术相结合，可以构建出更加复杂的应用，例如语音到语音的翻译。

二、语音识别技术原理

语音识别系统提示客户在新的场合使用新的口令密码，这样使用者不需要记住固定的口令，系统也不会被录音欺骗。文本相关的声音识别方法可以分为动态时间伸缩或隐马尔可夫模型方法。文本无关声音识别已经被研究很长时间了，不一致环境造成的性能下降是应用中的一个很大的障碍。

其工作原理：

动态时间伸缩方法使用瞬间的、变动倒频。1963年Bogertetal出版了《回声的时序倒频分析》。通过交换字母顺序，他们用一个含义广泛的词汇定义了一个新的信号处理技术，倒频谱的计算通常使用快速傅立叶变换。

从1975年起，隐马尔可夫模型变得很流行。运用隐马尔可夫模型的方法，频谱特征的统计变差得以测量。文本无关语音识别方法的例子有平均频谱法、矢量量化法和多变量自回归法。

平均频谱法使用有利的倒频距离，语音频谱中的音位影响被平均频谱去除。使用矢量量化法，语者的一套短期训练的特征向量可以直接用来描绘语者的本质特征。但是，当训练向量的数量很大时，这种直接的描绘是不切实际的，因为存储和计算的量变得离奇的大。所以尝试用矢量量化法去寻找有效的方法来压缩训练数据。Montacieetal在倒频向量的时序中应用多变量自回归模式来确定语者特征，取得了很好的效果。

想骗过语音识别系统要有高质量的录音机，那不是很容易买到的。一般的录音机不能记录声音的完整频谱，录音系统的质量损失也必须是非常低的。对于大多数的语音识别系统，模仿的声音都不会成功。用语音识别来辨认身份是非常复杂的，所以语音识别系统会结合个人身份号码识别或芯片卡。

语音识别系统得益于廉价的硬件设备，大多数的计算机都有声卡和麦克风，也很容易使用。但语音识别还是有一些缺点的。语音随时间而变化，所以必须使用生物识别模板。语音也会由于伤风、嗓音沙哑、情绪压力或是青春期而变化。语音识别系统比指纹识别系统有着较高的误识率，因为人们的声音不像指纹那样独特和唯一。对快速傅立叶变换计算来说，系统需要协同处理器和比指纹系统更多的效能。目前语音识别系统不适合移动应用或以电池为电源的系统。

三、语音识别的技术实现方式

语音识别技术主要包括特征提取技术、模式匹配准则及模型训练技术三个方面，其中，最基础的就是语音识别单元的选取。

（1）语音识别单元的选取。语音识别研究的基础是选择语音识别单元。语音识别单元有单词（句）、音节和音素三种，具体选择哪一种语音识别单元由具体研究任务的类型决定：

单词（句）单元在中小词汇语音识别系统中应用广泛，但由于模型库过于庞大，模型匹配算法复杂，实时性不强，所以不适合大词汇系统；

音节单元主要应用于汉语语音识别，因为汉语是单音节结构的语言，虽然有大约1300个音节，但无调音节共408个，相对较少，所以音节单元在中、大词汇量的汉语语音识别系统上是可行的。

音素单元之前曾广泛应用于英语语音识别，也越来越多的应用于中、大词汇量汉语语音识别系统中。原因在于汉语音节仅由22个声母和28个韵母构成，把声母细化，虽然增加了模型数量，但是提高了易混淆音节的区分能力

（2）特征参数提取技术。特征提取就是对语音信号进行分析处理，把丰富的语音信息中的冗余信息去除，获得对语音识别有用的信息。这是一个对语音信号进行信息压缩的过程，目前经常采用的特征参数提取技术是线性预测（LP）分析技术。基于LP技术提取的倒谱参数再加上Mel参数和基于感知线性预测（PLP）分析提取的感知线性预测倒谱对人耳处理声音的模拟，进一步提高了语音识别系统的性能。

（3）模式匹配及模型训练技术。早期的语音识别应用的模式匹配和模型训练技术是动态时间归正技术（DTW），它在孤立词语音识别中获得了良好性能，但是由于对大词汇量以及连续语音识别的不准确，目前已经被隐马尔可夫模型（HMM）和人工神经元网络（ANN）所取代。

四、语音识别遇到的困难

目前，语音识别研究工作进展缓慢，困难具体表现在：

（一）语音识别系统对环境敏感，采集到的语音训练系统只能应用于与之对应的环境，而且当用户输入错误时不能正确响应，应用起来相对困难；

（二）必须采取新的新号处理方法来处理人在高噪声环境下的发音变化的问题；（三）语言模型、语法及词法模型在中、大词汇量连续语音识别中无法正确、合理的运用，需要有效地利用语言学、心理学及生理学等方面的研究成果；现阶段的科学技术对人类生理学诸如听觉系统分析理解功能、大脑神经系统的控制功能等还不够，更无法应用于语音识别；语音识别系统从实验室演示系统向商品的转化过程中还有许多具体细节技术问题需要解决。

五、语音识别技术的发展状况1.语音识别技术在国际的发展

早在三四十年前，美国的一些大学和实验室就开始了语音识别技术的研究，50年代的AT&TBell实验室研发的Audry系统第一个实现了可识别十个英文数字。60和70年代，提出了线性预测分析技术（LP）等相关理论并深入研究，创造出可以实现特定人孤立语音识别系统；80年代和90年代是语音识别技术应用研究方向的高潮，HMM模型和人工神经元网络（ANN）的成功应用，使得语音识别系统的性能比以往更优异；伴随着多媒体时代的来临，微软，Apple等著名公司都研发出相当成功的商业应用语音识别系统，比如，Apple的Siri系统，微软的PhoneQuery（电话语音识别）引擎等。

2.语音识别技术在国内的发展

我国的语音识别研究工作虽然起步较晚，但由于国家的重视，研究工作进展顺利，相关研究紧跟国际水平。由于中国有不可忽视的庞大市场，国外对中国的语音识别技术也非常重视，汉语语音语义的特殊性也使得中文语音识别技术的研究更具有挑战。但是，国内研究机构在进行理论研究的同时，应注重语音识别系统在商业中的应用，加快从实验室演示系统到商品的转化。

现如今，许多用户已经能享受到语音识别技术带来的方便，比如智能手机的语音操作等。但是，这与实现真正的人机交流还有相当遥远的距离。目前，计算机对用户语音的识别程度不高，人机交互上还存在一定的问题，语音识别技术还有很长的一段路要走，必须取得突破性的进展，才能做到更好的商业应用，这也是未来语音识别技术的发展方向。

六、语音识别技术的发展趋势1.进一步提高可靠性

目前语音识别系统很难做到排除各种声学环境因素的影响，而人类语言在日常生活中的随意性和不确定性给语音识别系统造成极大的识别困难。所以，要应用现代技术智能化语音识别系统，以达到更好的识别效果；

2.增加词汇量

目前语音识别系统使用的声学模型和语音模型过于局限，需要通过改进系统建模方法、提高搜索算法的效率来做到词汇量无限制和多重语言混合，减少词汇量对语音识别系统的限制；

3.微型化并降低成本

语音识别系统在商业上的用途相当广泛，利用先进的微电子技术，将具有先进功能和性能的语音识别应用系统固化到更加微小的芯片或模块上，可以缩减成本，更方便的推广和使用。语音识别系统和微电子芯片技术的发展将引领信息技术革命到一个新的台阶。语音识别系统使人沟通更加自由，使人可以方便地享受到更多的社会信息资源和现代化服务。这必然会成为语音识别技术研究和应用的重要发展趋势。

七、语音识别技术的前景和应用

在电话与通信系统中，智能语音接口正在把电话机从一个单纯的服务工具变成为一个服务的“提供者”和生活“伙伴”；使用电话与通信网络，人们可以通过语音命令方便地从远端的数据库系统中查询与提取有关的信息；随着计算机的小型化，键盘已经成为移动平台的一个很大障碍，想象一下如果手机仅仅只有一个手表那么大，再用键盘进行拨号操作已经是不可能的。语音识别正逐步成为信息技术中人机接口的关键技术，语音识别技术与语音合成技术结合使人们能够甩掉键盘，通过语音命令进行操作。语音技术的应用已经成为一个具有竞争性的新兴高技术产业。

语音识别技术发展到今天，特别是中小词汇量非特定人语音识别系统识别精度已经大于98％，对特定人语音识别系统的识别精度就更高。这些技术已经能够满足通常应用的要求。由于大规模集成电路技术的发展，这些复杂的语音识别系统也已经完全可以制成专用芯片，大量生产。在西方经济发达国家，大量的语音识别产品已经进入市场和服务领域。一些用户交机、电话机、手机已经包含了语音识别拨号功能，还有语音记事本、语音智能玩具等产品也包括语音识别与语音合成功能。人们可以通过电话网络用语音识别口语对话系统查询有关的机票、旅游、银行信息，并且取得很好的结果。调查统计表明多达85％以上的人对语音识别的信息查询服务系统的性能表示满意。

可以预测在近五到十年内，语音识别系统的应用将更加广泛。各种各样的语音识别系统产品将出现在市场上。人们也将调整自己的说话方式以适应各种各样的识别系统。在短期内还不可能造出具有和人相比拟的语音识别系统，要建成这样一个系统仍然是人类面临的一个大的挑战，我们只能一步步朝着改进语音识别系统的方向一步步地前进。至于什么时候可以建立一个像人一样完善的语音识别系统则是很难预测的。就像在60年代，谁又能预测今天超大规模集成电路技术会对我们的社会产生这么大的影响。

更多精彩阅读：语音识别的两个方法_语音识别的应用有哪些语音识别的优缺点_语音识别功能介绍语音识别算法有哪些_语音识别特征提取方法怎么实现语音识别_手机语音识别怎么设置语音识别设置能删除吗_语音识别系统工作流程

语音识别技术原理概述！ 语音识别的基本原理 所谓语音识别，就是将一段语音信号转换成相对应的文本信息，系统主要包含特征提取、声学模型，语言模型以及 语音识别技术应用原理