语音识别（ASR）语音识别的主要应用包括

发表时间：2023-07-05 15:04:57

语音识别（ASR）

语音识别（AutomaticSpeechRecognition）是以语音为研究对象，通过语音信号处理和模式识别让机器自动识别和理解人类口述的语。语音识别技术就是让机器通过识别和理解过程把语音信号转变为相应的文本或命令的高技术。语音识别是一门涉及面很广的交叉学科，它与声学、语音学、语言学、信息理论、模式识别理论以及神经生物学等学科都有非常密切的关系。

语音识别的基本原理

语音识别系统本质上是一种模式识别系统，包括特征提取、模式匹配、参考模式库等三个基本单元，它的基本结构如下图所示：

上面这个图其实很好理解，就是把语音输入，我们首先就是要对输入的语音进行预处理，然后提取语音的特征，在此基础上建立语音识别所需的模板。而计算机在识别过程中要根据语音识别的模型，将计算机中存放的语音模板与输入的语音信号的特征进行比较，根据一定的搜索和匹配策略，找出一系列最优的与输入语音匹配的模板。然后根据此模板的定义，通过查表就可以给出计算机的识别结果。显然，这种最优的结果与特征的选择、语音模型的好坏、模板是否准确都有直接的关系。

语音识别系统构建过程整体上包括两大部分：训练和识别。训练通常是离线完成的，对预先收集好的海量语音、语言数据库进行信号处理和知识挖掘，获取语音识别系统所需要的“声学模型”和“语言模型”;而识别过程通常是在线完成的，对用户实时的语音进行自动识别。识别过程通常又可以分为“前端”和“后端”两大模块：“前端”模块主要的作用是进行端点检测(去除多余的静音和非说话声)、降噪、特征提取等;“后端”模块的作用是利用训练好的“声学模型”和“语言模型”对用户说话的特征向量进行统计模式识别(又称“解码”)，得到其包含的文字信息，此外，后端模块还存在一个“自适应”的反馈模块，可以对用户的语音进行自学习，从而对“声学模型”和“语音模型”进行必要的“校正”，进一步提高识别的准确率。

语音识别的技术原理

首先，我们知道声音实际上是一种波。常见的mp3等格式都是压缩格式，必须转成非压缩的纯波形文件来处理，比如WindowsPCM文件，也就是俗称的wav文件。wav文件里存储的除了一个文件头以外，就是声音波形的一个个点了。下图是一个波形的示例。

声音波形图

其实语音识别的声音预处理与声纹识别的声音预处理有很大一部分是相似的（前面我有介绍：【自主学习】声纹识别.2-简书）。在开始语音识别之前，有时需要把首尾端的静音切除，降低对后续步骤造成的干扰。这个静音切除的操作一般称为VAD（【自主学习】声纹识别.2-简书）。

要对声音进行分析，需要对声音分帧，也就是把声音切开一小段一小段，每小段称为一帧。分帧操作一般不是简单的切开，而是使用移动窗函数（【自主学习】声纹识别.2-简书）来实现。帧与帧之间一般是有交叠的，就像下图：

图中，每帧的长度为25毫秒，每两帧之间有毫秒的交叠。我们称为以帧长25ms、帧移10ms分帧。

分帧后，语音就变成了很多小段。但波形在时域上几乎没有描述能力，因此必须将波形作变换。常见的一种变换方法是提取MFCC特征（【自主学习】声纹识别.2-简书）。

至此，声音就成了一个12行(假设声学特征是12维)、N列的一个矩阵，称之为观察序列，这里N为总帧数。观察序列如下图所示，图中，每一帧都用一个12维的向量表示，色块的颜色深浅表示向量值的大小。

接下来就要把这个矩阵变成文本了。首先要介绍两个概念：

音素：单词的发音由音素构成。对英语，一种常用的音素集是卡内基梅隆大学的一套由39个音素构成的音素集，参见TheCMUPronouncingDictionary。汉语一般直接用全部声母和韵母作为音素集，另外汉语识别还分有调无调等等，有兴趣的可以自己去了解一下哈。

状态：这里理解成比音素更细致的语音单位就行啦。通常把一个音素划分成3个状态。

下面我们来看看语音识别的工作流程：

第一步，把帧识别成状态(难点)。

第二步，把状态组合成音素。

第三步，把音素组合成单词。

如下图：

在上图中，每个小竖条代表一帧，若干帧语音对应一个状态，每三个状态组合成一个音素，若干个音素组合成一个单词。也就是说，只要知道每帧语音对应哪个状态，语音识别的结果就出来了。

那每帧音素对应哪个状态呢？有个容易想到的办法，看某帧对应哪个状态的概率最大，那这帧就属于哪个状态。比如下面的示意图，这帧在状态S3上的条件概率最大，因此就猜这帧属于状态S3。

那这些用到的概率从哪里读取呢?有个叫“声学模型”的东西，里面存了一大堆参数，通过这些参数，就可以知道帧和状态对应的概率。获取这一大堆参数的方法叫做“训练”，需要使用巨大数量的语音数据，训练的方法比较繁琐，现在有很多训练模型的工具（如：CMUSphinxOpenSourceSpeechRecognition ，KaldiASR）。

但这样做有一个问题：每一帧都会得到一个状态号，最后整个语音就会得到一堆乱七八糟的状态号，相邻两帧间的状态号基本都不相同。假设语音有1000帧，每帧对应1个状态，每3个状态组合成一个音素，那么大概会组合成300个音素，但这段语音其实根本没有这么多音素。如果真这么做，得到的状态号可能根本无法组合成音素。实际上，相邻帧的状态应该大多数都是相同的才合理，因为每帧很短。

解决这个问题的常用方法就是使用隐马尔可夫模型(HiddenMarkovModel，HMM)。这东西听起来好像很高深的样子，实际上用起来很简单：首先构建一个状态网络，然后从状态网络中寻找与声音最匹配的路径。

这样就把结果限制在预先设定的网络中，避免了刚才说到的问题，当然也带来一个局限，比如你设定的网络里只包含了“今天晴天”和“今天下雨”两个句子的状态路径，那么不管说些什么，识别出的结果必然是这两个句子中的一句。那如果想识别任意文本呢?把这个网络搭得足够大，包含任意文本的路径就可以了。但这个网络越大，想要达到比较好的识别准确率就越难。所以要根据实际任务的需求，合理选择网络大小和结构。

搭建状态网络，是由单词级网络展开成音素网络，再展开成状态网络。语音识别过程其实就是在状态网络中搜索一条最佳路径，语音对应这条路径的累积概率最大，这称之为“解码”。路径搜索的算法是一种动态规划剪枝的算法，称之为Viterbi算法，用于寻找全局最优路径。

这里所说的累积概率，由三部分构成，分别是：

观察概率：每帧和每个状态对应的概率

转移概率：每个状态转移到自身或转移到下个状态的概率

语言概率：根据语言统计规律得到的概率

其中，前两种概率从声学模型中获取，最后一种概率从语言模型中获取。语言模型是使用大量的文本训练出来的，可以利用某门语言本身的统计规律来帮助提升识别正确率。语言模型很重要，如果不使用语言模型，当状态网络较大时，识别出的结果基本是一团乱麻。

语音识别的工作流程语义识别流程图

预处理：

1. 首尾端的静音切除，降低干扰，静音切除的操作一般称为VAD。

2. 声音分帧，也就是把声音切开成一小段一小段，每小段称为一帧，使用移动窗函数来实现，不是简单的切开，各帧之间一般是有交叠的。

特征提取：主要算法有线性预测倒谱系数（LPCC）和Mel 倒谱系数（MFCC），目的是把每一帧波形变成一个包含声音信息的多维向量；

声学模型（AM）：通过对语音数据进行训练获得，输入是特征向量，输出为音素信息；

字典：字或者词与音素的对应，简单来说，中文就是拼音和汉字的对应，英文就是音标与单词的对应；

语言模型（LM）：通过对大量文本信息进行训练，得到单个字或者词相互关联的概率；

解码：就是通过声学模型，字典，语言模型对提取特征后的音频数据进行文字输出；

语音识别流程的举例（只是形象表述，不是真实数据和过程）：

1、语音信号：我是机器人

2、特征提取：我是机器人

3、声学模型：wosijiqirn

4、字典：窝：wo；我：wo；是：si；机：ji；器：qi；人：rn；级：ji；忍：rn；

5、语言模型（给出概率）：我：0.0786，是：0.0546，我是：0.0898，机器：0.0967，机器人：0.6785；

6、输出文字：我是机器人；

有什么问题尽管提出来哈！

参考：

语音识别技术基础理解-简书

语音识别的技术原理是什么？-知乎

语音识别基本流程-nsh119的博客-CSDN博客

语音识别技术应用领域有哪些?分别介绍应用领域

随着语音识别技术的不断发展和进步，也应用到越来越多的产品跟领域中。它们都少不了语音识别芯片、语音识别模块的支持。那么市面上有哪些语音识别模块好用呢？哪些领域又运用到语音识别技术呢？语音识别模块哪个好用为大家推荐一款由九芯电子完全自主研发的无须外围元件，直接对接外部TD01系列语音识别模块，集成了了一颗高性能、低成本的离线语音识别芯片。TD01系列语音识别模块具有语音识别及播报功能，需要外挂spl-Flash，存储词条或者语音播放内容。这款模块还具备有工业级性能，同时还具有识别率高、简单易用、更新词条方便等优势。这款语音识别模块被广泛应用在AI人工智能产品、智能家居遥控、智能玩具等多种领域上。

语音识别技术的应用领域：智能家电遥控

语音识别技术应用领域介绍

如今很多家电都已经智能化了BCM3037KPF，用一个小小的遥控器就可以把家里所有的电器用语音操控起来，比如客厅的电视、空调、窗帘等。以前要一个个遥控器换着操控，如今只需要结合到一个遥控器就可以让这些操作轻松实现。

语音识别技术的应用领域：智能玩具

语音识别技术的智能化也让玩具行业进行了变革，越来越多的智能玩具被研发出来，比如智能语音娃娃、智能语音儿童机器人。我们可以用语音跟它们做些简单交流，完成一些简单的任务等等。

语音识别技术的应用领域：汽车语音控制

当我们驾驶汽车在行驶过程中，必须时刻握好方向盘，但是难免有时候遇到急事需要拨打电话这些，这时候运用汽车上的语音拨号功能的免提电话通信方式便可简单实现。此外，对汽车的卫星导航定位系统（GPS）的操作，汽车空调、照明以及音响等设备的操作，同样也可以用语音的方式进行操作。

语音识别技术的应用领域：工业控制及医疗领域

在工业及医疗领域上，运用智能语音交互，能够让我们解放双手，只需要对机器发出命令，就可以让其操作完成需要的任务。大大提升了工作的效率。

语音识别技术在个人助理、智能家居等很多领域都有运用到，随着语音识别技术在未来的不断发展，语音识别芯片的不敢提高，给我们的生活带来了更大的便利和智能化。

语音识别技术构架

转自：https://coffee.pmcaff.com/article/1055672606603392/pmcaff?utm_source=forum&from=search

很好的一篇文章，没有任何公式，但是把语音识别的技术框架说的很清楚，适合刚接触语音识别的小伙伴看一下。我转来备份一下。

语音交互将会成为新的入口，也是各大公司务必争夺的资源之一，资源是指数据，不是技术，因为技术会开放，而有价值的有标注的数据才是制胜法宝。所以，pm们需要了解语音识别技术的基础，总有一天你会用到，并且这一天不会太远。我会从以下几个方面介绍语音识别：

语音识别基础.png

一、语音识别的基础概念

1.概念

自动语音识别（AutomaticSpeechRecognition，ASR）技术是一种将人的语音转换为文本的技术。

这项技术被当做是可以使人与人、人与机器更顺畅交流的桥梁，已经在研究领域活跃了50多年。

2.发展

ASR在近几年的流行，与以下几个关键领域的进步有关：

摩尔定律持续有效使得多核处理器、通用计算图形处理器GPGPU、CPU/GPU集群等技术，为训练复杂模型提供了可能，显著降低了ASR系统的错误率。大数据时代借助互联网和云计算，获得了真实使用场景的大数据训练模型，使得ASR系统更具鲁棒性(健壮性、稳定性)。移动智能时代移动设备、可穿戴设备、智能家居设备、车载信息娱乐系统，变得越来越流行，语音交互成为新的入口。

3.研究领域分类

根据在不同限制条件下的研究任务，产生了不同的研究领域。如图：

研究领域分类

4.语音识别任务分类

根据不同任务，语音识别可分为4类：

任务分类

5.应用

语音交互作为新的入口，主要应用于上图中的两大类：帮助人与人的交流和人与机器的交流。

帮助人与人的交流HHC应用场景如，如翻译系统，微信沟通中的语音转文字，语音输入等功能。

语音到语音（speech-to-speech，S2S）翻译系统，可以整合到像Skype这样的交流工具中，实现自由的远程交流。

S2S组成模块主要是，语音识别-->机器翻译-->文字转语音，可以看到，语音识别是整个流水线中的第一环。

帮助人与机器的交流HMC应用场景如，语音搜索VS，个人数码助理PDA，游戏，车载信息娱乐系统等。

6.对话系统

要注意的是，我们上面所说的应用场景和系统讨论，都是基于【语音对话系统】的举例。

语音识别技术只是其中关键的一环，想要组建一个完整的语音对话系统，还需要其他技术。

语音对话系统：（包含以下系统的一个或多个）1）语音识别系统：语音-->文字2）语义理解系统：提取用户说话的语音信息3）文字转语音系统：文字-->语音4）对话管理系统：1）+2）+3）完成实际应用场景的沟通

语音对话系统

二、语音识别系统

语音识别问题，其实是一个模式识别的问题。给你一段声波，机器判别是a还是b。

这个过程有两大块，一个是生成机器能理解的声音向量。第二个是通过模型算法识别这些声音向量，最终给出识别结果。

每一块中间都有很多细小的步骤，我们后面会提到。

1.系统架构概述

下图是语音识别系统的组成结构，主要分4部分：信号处理和特征提取、声学模型（AM）、语言模型（LM）和解码搜索部分。

语音识别系统的架构

左半部分可以看做是前端，用于处理音频流，从而分隔可能发声的声音片段，并将它们转换成一系列数值。

声学模型就是识别这些数值，给出识别结果。后面我们会详细解释。

右半边看做是后端，是一个专用的搜索引擎，它获取前端产生的输出，在以下三个数据库进行搜索：一个发音模型，一个语言模型，一个词典。

【发音模型】表示一种语言的发音声音,可通过训练来识别某个特定用户的语音模式和发音环境的特征。【语言模型】表示一种语言的单词如何合并。【词典】列出该语言的大量单词，以及关于每个单词如何发音的信息。

a）信号处理和特征提取：以音频信号为输入，通过消除噪声和信道失真对语音进行增强，将信号从时域转化到频域，并为后面的声学模型提取合适的有代表性的特征向量。

b）声学模型：将声学和发音学的知识进行整合，以特征提取部分生成的特征为输入，并为可变长特征序列生成声学模型分数。

c）语言模型：语言模型估计通过训练语料学习词与词之间的相互关系，来估计假设词序列的可能性，又叫语言模型分数。如果了解领域或任务相关的先验知识，语言模型的分数通常可以估计的更准确。

d）解码搜索：综合声学模型分数与语言模型分数的结果，将总体输出分数最高的词序列当做识别结果。

2.语音识别技术详解

看完上面的架构图，你应该有个大致的印象，知道整个语音识别是怎么回事儿了。下面我们详细说一些重要的过程。

2.1语音识别单元

我们的语音内容，由基本的语音单元组成。选择要识别的语音单元是语音识别研究的第一步。

就是说，你要识别的结果是以什么为基础单位的？是单词还是元音字母？

语音识别单元有单词(句)、音节和音素三种，具体选择哪一种，根据具体任务来定，如词汇量大小、训练语音数据的多少。

语音识别单元

【音素】：在汉语里，最小的语音单位是音素，是从音色的角度分出来的。

【音节】：一个音素单独存在或几个音素结合起来，叫做音节。可以从听觉上区分，汉语一般是一字一音节，少数的有两字一音节（如“花儿”）和两音节一字。

语音识别单元

2.2信号的数字化和预处理

接下来就要将收集到的语音转化为一系列的数值，这样机器才可以理解。

1）数字化

声音是作为波的形式传播的。将声波转换成数字包括两个步骤：采样和量化。

为了将声波转换成数字，我们只记录声波在等距点的高度，这被称为采样（sampling）。

采样定理（Nyquisttheorem）规定，从间隔的采样中完美重建原始声波——只要我们的采样频率比期望得到的最高频率快至少两倍就行。

经过采样，我们获取了一系列的数字，这些数字才可以在机器上进行建模或计算。

我们每秒读取数千次，并把声波在该时间点的高度用一个数字记录下来。把每一秒钟所采样的数目称为采样频率或采率，单位为HZ（赫兹）。

「CD音质」的音频是以44.1khz（每秒44100个读数）进行采样的。但对于语音识别，16khz（每秒16000个采样）的采样率就足以覆盖人类语音的频率范围了。

2）采样信号预处理

这里的预处理主要指，分帧处理。因为语音信号是不平稳的、时长变化的，如下图：

我们把它分隔为一小段一小段（10毫秒-40毫秒）的短语音，我们认为这样的小片段是平稳的，称之为【帧】。

在每个帧上进行信号分析，称为语音的短时分析。

图中，每帧的长度为25毫秒，每两帧之间有25-10=15毫秒的交叠。我们称为帧长25ms、帧移10ms的分帧。

帧移的事情就不详细解释了，它是为了保证语音信息的完整性。感兴趣的同学可以查一下，加窗/窗函数。

那为什么需要平缓的分帧呢？因为我们需要做傅里叶变化，它适用于分析平稳的信号。（想弄明白傅里叶变换的，之后可以参考文章末尾的链接）

人类是根据振动频率判断声音的，而以时间为横轴（时域）的波形图没有振幅描述，我们需要做傅里叶变换，将它变成以频率为横轴（频域）的振幅描述。

2.3特征提取

特征提取就是从语音波形中提取出能反映语音特征的重要信息，去掉相对无关的信息（如背景噪声），并把这些信息转换为一组离散的参数矢量。

1）特征提取

如何提取呢？我们经过采样，预处理，将这些数字绘制为简单的折线图，如下所示，我们得到了20毫秒内原始声波的大致形状：

这样的波形图对机器来说没有任何描述信息。这个波形图背后是很多不同频率的波叠加产生的。（准确的讲，它在时域上没有描述能力）

我们希望一段声纹能够给出一个人的特性，比如什么时候高，什么时候低，什么时候频率比较密集，什么时候比较平缓等等。

就是我们上面所说的，用傅里叶变化来完成时域到频域的转换。

这就需要对每一帧做傅里叶变化，用特征参数MFCC得到每一帧的频谱（这个过程就是特征提取，结果用多维向量表示），最后可以总结为一个频谱图（语谱图）。

如下图所示，是“hello”的频谱图，很酷是吧~横轴是时间，纵轴是频率。颜色越亮，表示强度越大。

2）常用的特性参数

特性提取时，我们有常用的特征参数作为提取模板，主要有两种：

线性预测系数（LPC）

LPC的基本思想是，当前时刻的信号可以用若干个历史时刻的信号的线性组合来估计。通过使实际语音的采样值和线性预测采样值之间达到均方差最小，即可得到一组线性预测系数。

求解LPC系数可以采用自相关法(德宾durbin法)、协方差法、格型法等快速算法。

倒谱系数

利用同态处理方法，对语音信号求离散傅立叶变换后取对数，再求反变换就可得到倒谱系数。

其中，LPC倒谱(LPCCEP)是建立在LPC谱上的。而梅尔倒谱系数（MelFrequencyCepstrumCoefficient,MFCC）则是基于MEL谱的。不同于LPC等通过对人的发声机理的研究而得到的声学特征，MFCC是受人的听觉系统研究成果推动而导出的声学特征。

简单的说，经过梅尔倒谱分析，得到的参数更符合人耳的听觉特性。

3）短语音识别为单词

有了上面的特征提取，每一帧都可以表述为一个多维向量，接下来就是把向量识别为文本。

这里我们需要多介绍一个概念，叫【状态】。你可以理解为，是比音素更细致的语音单位。通常把一个音素划分成3个状态。

如上图所示，识别过程无非是：1）把帧识别成状态（难点）。2）把状态组合成音素。3）把音素组合成单词。

那每个音素应该对应哪种状态呢？这就需要用到声学模型了。

2.4声学模型

声学模型是识别系统的底层模型，其目的是提供一种计算语音的特征矢量序列和每个发音模板之间的距离的方法。

也就是说，提取到的语音特性，与某个发音之间的差距越小，越有可能是这个发音。

或者说，某帧对应哪个状态的概率最大，那这帧就属于哪个状态。这个可以用GMM（混合高斯模型，就是一种概率分布）或DNN（深度神经网络）来识别。

但这样识别出来的结果会比较乱，因为一个人讲话的速度不一样，每一帧识别出的结果可能是：....HHH_EE_LL__LLLL__OOO.....，如下图：

这个问题可以用DTW（动态时间规整）或HMM（隐马尔科夫模型）或CTC（改进的RNN模型）来对齐识别结果，知道单词从哪里开始，从哪里结束，哪些内容是重复的没有必要的。

1）常用的声学建模方法包含以下三种：

基于模式匹配的动态时间规整法(DTW)；隐马尔可夫模型法(HMM)；基于人工神经网络识别法(ANN)；

在过去，主流的语音识别系统通常使用梅尔倒谱系数（Mel-FrequencyCepstralCoefficient,MFCC）或者线性感知预测（PerceptualLinearPrediction,PLP）作为特征，使用混合高斯模型-隐马尔科夫模型（GMM-HMM）作为声学模型。

近些年，分层鉴别模型比如DNN，变得可行起来，比如上下文相关的深度神经网络-隐马尔可夫模型（context-dependentDNN-HMM，CD-DNN-HMM）就比传统的GMM-HMM表现要好得多。

如下图，你可以清晰的看到被替换的部分。

2）主要问题：

我们要了解的是，声学模型存在2个问题：1.特征向量序列的可变长；每个人说同一个单词的时间长度都不一样，声学模型要能从不同的时间长度的语音信号中识别出是同一个单词。

解决方法就是DTW（动态时间规整）、HMM（隐马尔可夫模型）。2.音频信号的丰富变化性；如说话人的性别，健康状况，紧张程度，说话风格、语速，环境噪音，周围人声，信道扭曲，方言差异，非母语口音等。

3）HMM声学建模：

对语音识别系统而言，HMM的输出值通常就是各个帧的声学特征。为了降低模型的复杂度，通常HMM模型有两个假设前提，一是内部状态的转移只与上一状态有关，一是输出值只与当前状态或当前状态转移有关。除了这两个假设外，HMM模型还存在着一些理论上的假设，其中之一就是，它假设语音是一个严格的马尔科夫过程。

2.5语言模型

如何将识别出的单词，组成有逻辑的句子，如何识别出正确的有歧义的单词，这些就用到语言模型了。

由于语音信号的时变性、噪声和其它一些不稳定因素，单纯靠声学模型无法达到较高的语音识别的准确率。在人类语言中，每一句话的单词直接有密切的联系，这些单词层面的信息可以减少声学模型上的搜索范围，有效地提高识别的准确性，要完成这项任务语言模型是必不可少的，它提供了语言中词之间的上下文信息以及语义信息。

随着统计语言处理方法的发展，统计语言模型成为语音识别中语言处理的主流技术，其中统计语言模型有很多种，如N-Gram语言模型、马尔可夫N元模型(MarkovN-gram)、指数模型(ExponentialModels)、决策树模型(DecisionTreeModels)等。而N元语言模型是最常被使用的统计语言模型，特别是二元语言模型（bigram）、三元语言模型（trigram）。

2.6字典

字典是存放所有单词的发音的词典，它的作用是用来连接声学模型和语言模型的。

识别出音素，利用字典，就可以查出单词了。

例如，一个句子可以分成若干个单词相连接，每个单词通过查询发音词典得到该单词发音的音素序列。相邻单词的转移概率可以通过语言模型获得，音素的概率模型可以通过声学模型获得。从而生成了这句话的一个概率模型。

2.7解码器

解码器的作用就是将上述训练好的模型按照一定的规则组合起来，将新输入的语音识别出来。

三、语音识别评估标准

在语音识别中，常用的评估标准为词错误率（WordErrorRate，WER)。

我们上面讲了帧向量识别为单词，需要用声学模型。因为识别出来的整个词序列是混乱的，需要进行替换、删除、插入某些词，使得次序列有序完整。

WER就是反映上述过程的标准，能直接反映识别系统声学模型的性能，也是其他评估指标如句错误率SER的基础。

传统的词错误率评估算法在语音识别中存在三种典型的词错误：1）替换错误（Substitution）在识别结果中，正确的词被错误的词代替；2）删除错误（Deletion）在识别结果中，丢失了正确的词；3）插入错误（Insertion）在识别结果中，增加了一个多余的词；

所以，词错误率为：

S为替代错误词数，D为删除错误词数，I为插入错误词数。T为参照句子中的所有词数。需要注意的是，因为有插入词，所以WER有可能大于100%。

以上。

---

参考文章：

《实用语音识别基础》王炳锡，2005《解析深度学习-语音识别实践》邓力，2016

语音识别（ASR） 语音识别的主要应用包括