博舍

语音识别技术的发展历程 语音识别技术的发展历程简述怎么写

语音识别技术的发展历程

  你知道语音识别技术的发展历程吗?在人工智能皇冠上,语言是一颗明珠,代表着人工智能的最高水平。假如机器能与人交谈,这台机器就一定有强大的人工智能。现在,智能语音对话已成为人工智能最有发展前景的技术领域之一。举例来说,在清晨起床时,我们向智能音箱发出语音指令以实现对它的操作。告诉它新闻播报的时候,可以实时收听,告诉它播放音乐,立刻就可以实现。总之,所有这些看起来科幻的智能场景,实际上都是未来智能生活的一个标志。而语音识别则从智能单品走向智能场景,扮演着重要角色。接下来小编就给大家介绍一下语音识别技术的发展历程,一起来看看吧。

Sensoro升哲科技-人工智能与机器视觉00条点评咨询产品免费试用解决用户选型困难的好软件,有各维度的信息客户案例5合作品牌16

语音识别技术的发展历程

  语音识别演示系统显示了计算机自动将人类声音内容转换成相应文字的能力。声音信号的预处理和特征提取,声音模型和模式的匹配,语言模型和语言处理是语音识别的基本过程。

  语音识别技术的原则如下:

  对语音特征参数进行预分析,制作语音模型,并储存在语音参数库中。识别:对待识语音进行同样的分析,得到语音参数,与库中的参考模板进行比较,用判别法找到与语音特征最接近的模板,从而得到识别结果。辨识方法主要有:基于模式匹配的动态时间规整方法,基于统计模型的隐马尔柯夫模型方法,基于统计模型的深度神经网络方法。

语音识别技术的发展历程

早在1952年,戴维斯等人就开发出了世界上第一套能够识别10个英文数字发音的实验系统,并正式开启了语音识别的进程。声音识别的发展至今已有70多年的历史,但从技术方向上大致可分为三个阶段。

从1993年至2009年,语音识别一直处于GMM-HMM时代,语音识别率的提高十分缓慢,尤其是在2000年至2009年,语音识别率的提高非常缓慢;2009年,深度学习技术,特别是DNN的兴起,语音识别框架变成了DNN,语音识别进入了DNN时代,语音识别的精确度大大提高;2015年后,由于“端到端”技术的出现,语音识别进入了一个百花齐放的时代,语音界正在进行深度和复杂的网络培训,而端到端技术的应用,进一步大大提高了语音识别的性能,直到2017年微软公司在Swichboard上达到了5.1%的准确率,从而使语音识别的准确率第一次超过了人类,当然,这是在某种限定条件下的一种实验结果,还不具有普遍性。

在70年代,语音识别主要是针对小词汇量、孤立词的识别,采用的方法也主要是简单的模板匹配法,即先提取语音信号的特征构造参数模板,然后将测试语音与参考模板参数一一比较匹配,并将与最接近样本对应的词标注为该语音信号的发音。这种方法可以有效地解决孤立词识别问题,但不能有效地解决词汇量大、个体差异大的连续语音识别问题。进入80年代以后,研究思路发生了很大变化,开始由传统的基于模板匹配的技术思路转变为基于统计模型的技术思路。

早在1970年左右,HMM的理论基础就由Baum等人建立起来,后来被CMU的Baker和IBM的Jelinek等人应用于语音识别。该模型假设一个音素包含3-5种状态,同一状态下的发音相对稳定,不同状态下的跳跃有一定概率;某一状态下的特征分布可用概率模型描述,GMM是该模型中使用最广泛的模型。所以GMM-HMM框架中,HMM描述了语音的短时、平稳动态,GMM用于描述HMM每个状态内的语音特征。

在GMM-HMM框架的基础上,研究人员提出了多种改进方法,如结合上下文信息的动态贝叶斯方法、区域训练方法、自适应训练方法和HMM/NN混合模型方法等。这一切都给语音识别研究带来了深远的影响,为下一代语音识别技术的发展奠定了基础。90年代以来,随着语音识别声学模型的区分性训练准则和模型自适应方法的提出,语音识别在很长一段时间里发展缓慢,语音识别中的误识率那条线一直没有明显下降。Hinton在2006年提出深度置信网络(DBN),推动了深度神经网络(DNN)研究的复苏。Hinton在2009年利用DNN对语音进行声学建模,在当时的TIMIT中取得了最佳效果。微软研究院的俞栋、邓力在2011年底又将DNN技术应用到大规模连续语音识别任务中,极大地降低了语音识别的错误率。从此以后,语音识别进入了DNN-HMM时代。

HMM主要用DNN模型来代替原始GMM模型来对每个状态进行建模,DNN的优点是使人们不再需要假设语音数据的分布,它将连续的语音帧拼接在一起,包含了语音的序列结构信息,对于状态的分类概率有了明显的提高,同时DNN还具有强大的环境学习能力,可以提高对噪声和重音的鲁棒性。

简而言之,DNN就是给出一系列特征输入所对应的状态概率。因为语音信号是连续的,不仅各音素、音节和词之间没有明显的界限,而且各发音单位也会受到语境的影响。尽管拼框能增加上下文信息,但对语音来说还不够。而且,递归神经网络的出现能够记忆更多的历史信息,更有利于建立语音信号的上下文信息模型。

因为简单RNN存在梯度爆炸和梯度消散问题,难以训练,不能直接用于语音信号建模,所以学者们进一步探索,开发出许多适合语音建模的RNN结构,其中最著名的就是LSTM。通过输入法、输出法和遗忘法门,LSTM能更好地控制信息的流动和传递,具有较长的短时记忆能力。尽管LSTM的计算复杂度较DNN有所提高,但总体性能仍能稳定提高约20%。

由于BLSTM在LSTM的基础上作了进一步的改进,不仅考虑了语音信号的历史信息对当前帧的影响,而且还考虑了未来信息对当前帧的影响,使得它的网络中有一个沿时间轴的正、反两个信息传递过程,从而使模型能够更加充分地考虑背景对当前帧的影响,从而大大提高了语音状态分类的准确性。考虑到未来信息的代价,BLSTM模型需要进行句子级更新,模型训练的收敛速度较慢,同时还会带来解码的延迟,针对这些问题,业届都做了工程上的优化和改进,至今仍有许多大公司采用这种模型结构。

CNN是图像识别的主流模型,而语音信号的时间频率图也可视为图像,因此CNN也被引入到语音识别中。为了提高语音识别率,需要克服语音信号所面对的多样性,包括说话者本身、说话者所在的环境、采集设备等,这些多样性可以等价于各种滤波器和语音信号的卷积。与CNN等效,CNN设计了一系列具有局部聚焦特性的滤波器,通过训练学习获得滤波器的参数,从而从多种多样的语音信号中提取不变的部分,CNN本质上也是一个不断地从语音信号中提取特征的过程。与传统的DNN模型相比,CNN模型在同样的性能条件下,具有较少的参数。

从建模能力上看,DNN适合于将特征映射到独立空间,而LSTM适合于长短记忆,CNN适合于减少语音信号的多样性,因此,一个好的语音识别系统就是这些网络的结合。

端到端的语音识别方法主要通过改变代价函数来实现,而神经网络的模型结构变化不大。总而言之,端到端技术解决了输入序列长度远远大于输出序列长度的问题。端对端技术主要分为两类:一类是CTC方法,另一类是Sequence-to-Sequence方法。在传统语音识别DNN-HMM体系结构中,每个帧输入对应一个标签类别,标签需要反复迭代,以确保更精确地匹配。以损失函数为CTC的声学模型序列,无需预对数据对齐,只需训练一个输入序列和一个输出序列。CTC关心的是预测输出的序列是否与实际输出的序列相似,而不关心每一个预测输出序列的结果是否与输入的序列在时间点上完全对齐。

调制模拟单元是音素或单词,所以它引入了Blank。对一个语音来说,CTC的最后输出是尖峰序列,尖峰的位置与建模单元的Label相对应,其他位置为Blank。

最初,Sequence-to-Sequence方法主要应用于机器翻译领域。Google在2017年将其应用到语音识别领域,取得了很好的效果,单词错误率降至5.6%。如下图所示,Google提出的新系统的框架由三个部分组成:Encoder编码器编码器组件,它类似于标准声学模型,输入语音信号的时间频率特征;经过一系列神经网络,将其映射为高级特征henc,然后传递到Attention组件,该组件利用henc特征来学习输入x和预测子单元之间的对齐方式,子单元可以是一个音素或一个字。最终,attention模块的输出被传递到Decoder,产生类似于传统语言模型的一系列假定单词的概率分布。

端对端技术的突破,不再需要用HMM来描述音位内部状态的变化,而是把语音识别的各个模块统一到神经网络模型中,使语音识别朝着更加简单、高效和精确的方向发展。声音识别技术的现状。

当前,主流的语音识别框架仍然是由三部分组成:声音模型、语言模型和译码器,其中一部分还包括前处理和后处理。伴随着各种深度学习网络和端到端技术的兴起,声学模型成为近年来的研究热点,业界纷纷推出自己的新型声学模型结构,刷新了各数据库的识别记录。鉴于中文语音识别的复杂性,国内在声学模型方面的研究进展较快,目前主流方向是深度和复杂度更高的端到端融合神经网络技术。

2018年,科大讯飞提出深度全序列卷积神经网络(DFCNN),DFCNN利用大量卷积直接对全句语音信号进行建模,主要借鉴了图像识别的网络结构,每个卷积层采用一个小的卷积核,在多个卷积层后加上一个池化层,通过累积非常多的卷积池化层对,可以看到更多的历史信息。

在2018年,阿里提出了LFR-DFSMN。在此模型中,采用了低帧率和DFSMN两种算法,使语音识别错误率降低了20%,解码速度提高了3倍。该网络通过在FNN的隐层中添加可学习记忆模块,有效地建立了语音的长时相关模型。并且DFSMN可以通过跳跃来训练更深层次的网络结构,避免深层网络梯度消失的问题。

在2019年,百度提出了流式多层次的截断注意力模型SMLTA,它是一种基于LSTM和CTC的注意力机制,用于获得更大范围和更多层次的上下文信息。其中,流式表示可以直接对语音中的一小段进行增量解码;多层次表示多层次注意模型的堆叠;截断表示利用CTC模型的尖峰信息,将语音切成一小段,注意模型和解码可在小段上展开。在在线语音识别率方面,该模型相对于百度上一代DeepPeak2模型提高了15%的识别率。

开放源码语音识别Kaldi是该行业的基础语音识别框架。DanielPovey,Kaldi的作者,一直推崇Chain模式。这种模式与CTC相似,其建模单位相对于传统的状态较粗,只有两个状态,一个状态为CDPhone,另一个为空白CDPhone,训练方法采用Lattice-FreeMMI训练。这种模型的结构能够在解码时采用较低的帧率,其解码帧率是传统神经网络声学模型的1/3,准确率比传统模型有很大的提高。

远场语音识别技术主要用于解决真实场景中舒适距离内的人机任务对话和服务,其发展始于2015年后。远场语音识别技术解决了复杂环境下的识别问题,使其广泛应用于智能家居、智能汽车、智能会议、智能安防等领域。当前,国内远场语音识别的技术框架主要是前端信号处理和后端语音识别,前端是利用麦克风阵列来进行信号处理,如去混响、波束形成等,以便使语音更加清晰,再送到后端语音识别引擎中。

另外两个技术方面的语音识别:语言模型和译码器,目前在技术上还没有太大的改变。目前,虽然神经网络在语言模型方面也有一定的研究,但是在实际应用中,纠错后处理方面的应用还比较多。译码器的核心指标是速度,行业内大多数译码器都是静态译码,即构造WFST网络,它包含了所有可能的路径,译码就是在这个空间中进行搜索的过程。因为这一理论比较成熟,更多的是工程优化问题,所以无论是学术界还是工业界目前都很少关注。

语音识别技术发展趋势

声音识别技术主要趋向于远场与融合,但是在远场可靠性方面仍有许多难点尚未突破,如多轮交互、多人噪杂等场景尚待突破,还有更迫切需要的人声分离等技术。这些问题应通过新技术彻底解决,使机器的听力远远超过人类的感知能力。不仅仅是算法上的进步,还需要整个产业链共同的技术升级,包括更先进的传感器和更强算力的芯片。

仅就远场语音识别技术而言,仍有许多难题,包括:消除回声技术。在传统的单靠信号处理方法难以消除非线性失真的情况下,对语音交互系统的发展起到了一定的阻碍作用,而深度学习方法在消除非线性失真时,往往不能充分考虑信号的相位信息,而只能直接寻求各频段上的增益,因此深度学习方法在拟合非线性失真时,与信号处理方法相结合可能是一个好的方向。二是在噪声条件下的语音识别有待突破。擅长信号处理线性化,深度问题。

  伴随着人工智能语音技术的成熟和发展,智能语音产品不断涌现,层出不穷。借着迅雷不及掩耳之势迅速占领了市场,各大巨头都看中了其中的商业价值空间,纷纷想要分一杯羹,一时间智能语音产业蓬勃发展。在这样的市场背景下,语音识别方案也开始出现新一轮的变革,一方面是语音识别方案的蓬勃发展,另一方面是局部离线语音技术的兴起。拿智能翻译机器来说。云翻译智能机,解决语言交流中的语言障碍,实现外语自然对话。智能化翻译设备的出现打破了语言的束缚,解决了出国语言交流的难题。以上就是小编为大家介绍的语音识别技术的发展历程,希望对您有帮助。

2023年中国AI语音识别行业市场现状及发展前景分析 未来5年市场规模或突破300亿元

中国智能语音市场规模将会继续保持稳步扩张态势

语音识别是人机交互的入口,是指机器/程序接收、解释声音,或理解和执行口头命令的能力。随着语音技术与智能手机、平板电脑等电子产品芯片集成的深入发展,用户交互体验水平将得到大幅提升,用户认知和习惯得以培养,中国智能语音市场规模将会继续保持稳步扩张态势。

2020年中国智能语音市场规模达到113.96亿元,同比增长19.2%,预计2026年中国智能语音市场规模将进一步增长,达到326.88亿元。

1、AI语音识别发展历程分析

语音识别技术自20世纪50年代开始步入萌芽阶段,发展至今,主流算法模型已经经历了四个阶段:包括模板匹配阶段、模式和特征分析阶段、概率统计建模阶段和现在主流的深度神经网络阶段。目前,语音识别主流厂商主要使用端到端算法,在理想实验环境下语音识别准确率可高达99%以上。

2、中国AI语音识别产业链分析

中国AI语音识别市场参与者众多,主要分为上游、中游、下游。

语音识别上游主要为一些提供数据与云服务的企业。语音识别解码过程中包含了声学模型和语言模型的识别建模和模型训练两个部分。在运行过程中训练数据量和计算量需求极大,因此,能提供海量数据处理、存储以及高性能运算能力的云计算技术成为语音识别行业的应用热点。

语音识别的中游主要为将语音识别技术实现商业化落地的硬件及软件服务供应商。根据终端消费者类型,语音识别的中游厂商主要可以分为消费级市场和专业级市场。

语音识别下游行业应用多样化,一站式服务需求广。语音识别作为AI交互的重要入口,在人工智能领域属于最重要和发展最为成熟的技术之一,目前已经以多种商业化形式广泛应用于下游市场。从应用领域来看,目前消费级市场主要应用于智能硬件、智能家居、智慧教育、车载系统等领域,专业级市场主要应用于医疗、公检法、教育、客服、语音审核等领域。

3、语音识别准确率逐步提升

在过去5-10年,随着技术端的快速发展,AI语音识别市场得到的快速发展。目前主流语音识别模型已经以深度神经网络为主导,神经网络的出现及普及为语音识别准确率的提升起到了重要作用。

4、下游需求增长,AI语音识别市场空间稳步提高

在过去五年间,中国AI语音的需求逐渐爆发,产品及服务主要包括智能音箱、智能车载和智能硬件及消费及互联网增值服务。然而,目前面向消费者的产品及服务在内,语音识别的相关应用及使用场景仍具有局限性。

未来,在产品供应商和开发者共同构建产业生态圈的过程中,语音识别技术将更好地与其他语音交互技术及软件功能融合,为消费者提供更优质的体验,未来AI语音识别市场将迎来广阔的发展空间。

2020年中国智能语音市场规模达到113.96亿元,同比增长19.2%,预计2026年中国智能语音市场规模将进一步增长,达到326.88亿元。

5、人工智能上升至国家战略地位,政策推动AI语音识别行业加速发展

人工智能发展水平一定程度上体现了各国最高的科技水平。考虑到人工智能发展对于国家经济发展的重要性,中国政府已针对人工智能行业颁布了多项国家层面的发展政策,自2017年以来人工智能行业已经连续三年被写入《全国政府工作报告》内。

具体支持政策包括项目发展基金、人才引进政策及其他国家扶持政策。目前,语音识别技术属于中国AI领域中最为成熟落地的技术之一,在国家政策的强力扶持下,预计未来能够加速在垂直行业的渗透和布局。

更多数据及分析请参考于前瞻产业研究院《中国人工智能行业市场前瞻与投资战略规划分析报告》,同时前瞻产业研究院还提供产业大数据、产业研究、产业链咨询、产业图谱、产业规划、园区规划、产业招商引资、IPO募投可研、招股说明书撰写等解决方案。

语音识别发展史

【导读】语音识别自半个世纪前诞生以来,一直处于不温不火的状态,直到2009年深度学习技术的长足发展才使得语音识别的精度大大提高,虽然还无法进行无限制领域、无限制人群的应用,但也在大多数场景中提供了一种便利高效的沟通方式。本篇文章将从技术和产业两个角度来回顾一下语音识别发展的历程和现状,并分析一些未来趋势,希望能帮助更多年轻技术人员了解语音行业,并能产生兴趣投身于这个行业。

语音识别,通常称为自动语音识别,英文是AutomaticSpeechRecognition,缩写为ASR,主要是将人类语音中的词汇内容转换为计算机可读的输入,一般都是可以理解的文本内容,也有可能是二进制编码或者字符序列。但是,我们一般理解的语音识别其实都是狭义的语音转文字的过程,简称语音转文本识别(SpeechToText,STT)更合适,这样就能与语音合成(TextToSpeech,TTS)对应起来。

语音识别是一项融合多学科知识的前沿技术,覆盖了数学与统计学、声学与语言学、计算机与人工智能等基础学科和前沿学科,是人机自然交互技术中的关键环节。但是,语音识别自诞生以来的半个多世纪,一直没有在实际应用过程得到普遍认可,一方面这与语音识别的技术缺陷有关,其识别精度和速度都达不到实际应用的要求;另一方面,与业界对语音识别的期望过高有关,实际上语音识别与键盘、鼠标或触摸屏等应是融合关系,而非替代关系。

深度学习技术自2009年兴起之后,已经取得了长足进步。语音识别的精度和速度取决于实际应用环境,但在安静环境、标准口音、常见词汇场景下的语音识别率已经超过95%,意味着具备了与人类相仿的语言识别能力,而这也是语音识别技术当前发展比较火热的原因。

随着技术的发展,现在口音、方言、噪声等场景下的语音识别也达到了可用状态,特别是远场语音识别已经随着智能音箱的兴起成为全球消费电子领域应用最为成功的技术之一。由于语音交互提供了更自然、更便利、更高效的沟通形式,语音必定将成为未来最主要的人机互动接口之一。

当然,当前技术还存在很多不足,如对于强噪声、超远场、强干扰、多语种、大词汇等场景下的语音识别还需要很大的提升;另外,多人语音识别和离线语音识别也是当前需要重点解决的问题。虽然语音识别还无法做到无限制领域、无限制人群的应用,但是至少从应用实践中我们看到了一些希望。

本篇文章将从技术和产业两个角度来回顾一下语音识别发展的历程和现状,并分析一些未来趋势,希望能帮助更多年轻技术人员了解语音行业,并能产生兴趣投身于这个行业。

语音识别的技术历程

现代语音识别可以追溯到1952年,Davis等人研制了世界上第一个能识别10个英文数字发音的实验系统,从此正式开启了语音识别的进程。语音识别发展到今天已经有70多年,但从技术方向上可以大体分为三个阶段。

下图是从1993年到2017年在Switchboard上语音识别率的进展情况,从图中也可以看出1993年到2009年,语音识别一直处于GMM-HMM时代,语音识别率提升缓慢,尤其是2000年到2009年语音识别率基本处于停滞状态;2009年随着深度学习技术,特别是DNN的兴起,语音识别框架变为DNN-HMM,语音识别进入了DNN时代,语音识别精准率得到了显著提升;2015年以后,由于“端到端”技术兴起,语音识别进入了百花齐放时代,语音界都在训练更深、更复杂的网络,同时利用端到端技术进一步大幅提升了语音识别的性能,直到2017年微软在Swichboard上达到词错误率5.1%,从而让语音识别的准确性首次超越了人类,当然这是在一定限定条件下的实验结果,还不具有普遍代表性。

GMM-HMM时代

70年代,语音识别主要集中在小词汇量、孤立词识别方面,使用的方法也主要是简单的模板匹配方法,即首先提取语音信号的特征构建参数模板,然后将测试语音与参考模板参数进行一一比较和匹配,取距离最近的样本所对应的词标注为该语音信号的发音。该方法对解决孤立词识别是有效的,但对于大词汇量、非特定人连续语音识别就无能为力。因此,进入80年代后,研究思路发生了重大变化,从传统的基于模板匹配的技术思路开始转向基于统计模型(HMM)的技术思路。

HMM的理论基础在1970年前后就已经由Baum等人建立起来,随后由CMU的Baker和IBM的Jelinek等人将其应用到语音识别当中。HMM模型假定一个音素含有3到5个状态,同一状态的发音相对稳定,不同状态间是可以按照一定概率进行跳转;某一状态的特征分布可以用概率模型来描述,使用最广泛的模型是GMM。因此GMM-HMM框架中,HMM描述的是语音的短时平稳的动态性,GMM用来描述HMM每一状态内部的发音特征。

基于GMM-HMM框架,研究者提出各种改进方法,如结合上下文信息的动态贝叶斯方法、区分性训练方法、自适应训练方法、HMM/NN混合模型方法等。这些方法都对语音识别研究产生了深远影响,并为下一代语音识别技术的产生做好了准备。自上世纪90年代语音识别声学模型的区分性训练准则和模型自适应方法被提出以后,在很长一段内语音识别的发展比较缓慢,语音识别错误率那条线一直没有明显下降。

DNN-HMM时代

2006年,Hinton提出深度置信网络(DBN),促使了深度神经网络(DNN)研究的复苏。2009年,Hinton将DNN应用于语音的声学建模,在TIMIT上获得了当时最好的结果。2011年底,微软研究院的俞栋、邓力又把DNN技术应用在了大词汇量连续语音识别任务上,大大降低了语音识别错误率。从此语音识别进入DNN-HMM时代。

DNN-HMM主要是用DNN模型代替原来的GMM模型,对每一个状态进行建模,DNN带来的好处是不再需要对语音数据分布进行假设,将相邻的语音帧拼接又包含了语音的时序结构信息,使得对于状态的分类概率有了明显提升,同时DNN还具有强大环境学习能力,可以提升对噪声和口音的鲁棒性。

简单来说,DNN就是给出输入的一串特征所对应的状态概率。由于语音信号是连续的,不仅各个音素、音节以及词之间没有明显的边界,各个发音单位还会受到上下文的影响。虽然拼帧可以增加上下文信息,但对于语音来说还是不够。而递归神经网络(RNN)的出现可以记住更多历史信息,更有利于对语音信号的上下文信息进行建模。

由于简单的RNN存在梯度爆炸和梯度消散问题,难以训练,无法直接应用于语音信号建模上,因此学者进一步探索,开发出了很多适合语音建模的RNN结构,其中最有名的就是LSTM。LSTM通过输入门、输出门和遗忘门可以更好的控制信息的流动和传递,具有长短时记忆能力。虽然LSTM的计算复杂度会比DNN增加,但其整体性能比DNN有相对20%左右稳定提升。

BLSTM是在LSTM基础上做的进一步改进,不仅考虑语音信号的历史信息对当前帧的影响,还要考虑未来信息对当前帧的影响,因此其网络中沿时间轴存在正向和反向两个信息传递过程,这样该模型可以更充分考虑上下文对于当前语音帧的影响,能够极大提高语音状态分类的准确率。BLSTM考虑未来信息的代价是需要进行句子级更新,模型训练的收敛速度比较慢,同时也会带来解码的延迟,对于这些问题,业届都进行了工程优化与改进,即使现在仍然有很多大公司使用的都是该模型结构。

图像识别中主流的模型就是CNN,而语音信号的时频图也可以看作是一幅图像,因此CNN也被引入到语音识别中。要想提高语音识别率,就需要克服语音信号所面临的多样性,包括说话人自身、说话人所处的环境、采集设备等,这些多样性都可以等价为各种滤波器与语音信号的卷积。而CNN相当于设计了一系列具有局部关注特性的滤波器,并通过训练学习得到滤波器的参数,从而从多样性的语音信号中抽取出不变的部分,CNN本质上也可以看作是从语音信号中不断抽取特征的一个过程。CNN相比于传统的DNN模型,在相同性能情况下,前者的参数量更少。

综上所述,对于建模能力来说,DNN适合特征映射到独立空间,LSTM具有长短时记忆能力,CNN擅长减少语音信号的多样性,因此一个好的语音识别系统是这些网络的组合。

端到端时代

语音识别的端到端方法主要是代价函数发生了变化,但神经网络的模型结构并没有太大变化。总体来说,端到端技术解决了输入序列的长度远大于输出序列长度的问题。端到端技术主要分成两类:一类是CTC方法,另一类是Sequence-to-Sequence方法。传统语音识别DNN-HMM架构里的声学模型,每一帧输入都对应一个标签类别,标签需要反复的迭代来确保对齐更准确。

采用CTC作为损失函数的声学模型序列,不需要预先对数据对齐,只需要一个输入序列和一个输出序列就可以进行训练。CTC关心的是预测输出的序列是否和真实的序列相近,而不关心预测输出序列中每个结果在时间点上是否和输入的序列正好对齐。CTC建模单元是音素或者字,因此它引入了Blank。对于一段语音,CTC最后输出的是尖峰的序列,尖峰的位置对应建模单元的Label,其他位置都是Blank。

Sequence-to-Sequence方法原来主要应用于机器翻译领域。2017年,Google将其应用于语音识别领域,取得了非常好的效果,将词错误率降低至5.6%。如下图所示,Google提出新系统的框架由三个部分组成:Encoder编码器组件,它和标准的声学模型相似,输入的是语音信号的时频特征;经过一系列神经网络,映射成高级特征henc,然后传递给Attention组件,其使用henc特征学习输入x和预测子单元之间的对齐方式,子单元可以是一个音素或一个字。最后,attention模块的输出传递给Decoder,生成一系列假设词的概率分布,类似于传统的语言模型。

端到端技术的突破,不再需要HMM来描述音素内部状态的变化,而是将语音识别的所有模块统一成神经网络模型,使语音识别朝着更简单、更高效、更准确的方向发展。

语音识别的技术现状

目前,主流语音识别框架还是由3个部分组成:声学模型、语言模型和解码器,有些框架也包括前端处理和后处理。随着各种深度神经网络以及端到端技术的兴起,声学模型是近几年非常热门的方向,业界都纷纷发布自己新的声学模型结构,刷新各个数据库的识别记录。由于中文语音识别的复杂性,国内在声学模型的研究进展相对更快一些,主流方向是更深更复杂的神经网络技术融合端到端技术。

2018年,科大讯飞提出深度全序列卷积神经网络(DFCNN),DFCNN使用大量的卷积直接对整句语音信号进行建模,主要借鉴了图像识别的网络配置,每个卷积层使用小卷积核,并在多个卷积层之后再加上池化层,通过累积非常多卷积池化层对,从而可以看到更多的历史信息。

2018年,阿里提出LFR-DFSMN(LowerFrameRate-DeepFeedforwardSequentialMemoryNetworks)。该模型将低帧率算法和DFSMN算法进行融合,语音识别错误率相比上一代技术降低20%,解码速度提升3倍。FSMN通过在FNN的隐层添加一些可学习的记忆模块,从而可以有效的对语音的长时相关性进行建模。而DFSMN是通过跳转避免深层网络的梯度消失问题,可以训练出更深层的网络结构。

2019年,百度提出了流式多级的截断注意力模型SMLTA,该模型是在LSTM和CTC的基础上引入了注意力机制来获取更大范围和更有层次的上下文信息。其中流式表示可以直接对语音进行一个小片段一个小片段的增量解码;多级表示堆叠多层注意力模型;截断则表示利用CTC模型的尖峰信息,把语音切割成一个一个小片段,注意力模型和解码可以在这些小片段上展开。在线语音识别率上,该模型比百度上一代DeepPeak2模型提升相对15%的性能。

开源语音识别Kaldi是业界语音识别框架的基石。Kaldi的作者DanielPovey一直推崇的是Chain模型。该模型是一种类似于CTC的技术,建模单元相比于传统的状态要更粗颗粒一些,只有两个状态,一个状态是CDPhone,另一个是CDPhone的空白,训练方法采用的是Lattice-FreeMMI训练。该模型结构可以采用低帧率的方式进行解码,解码帧率为传统神经网络声学模型的三分之一,而准确率相比于传统模型有非常显著的提升。

远场语音识别技术主要解决真实场景下舒适距离内人机任务对话和服务的问题,是2015年以后开始兴起的技术。由于远场语音识别解决了复杂环境下的识别问题,在智能家居、智能汽车、智能会议、智能安防等实际场景中获得了广泛应用。目前国内远场语音识别的技术框架以前端信号处理和后端语音识别为主,前端利用麦克风阵列做去混响、波束形成等信号处理,以让语音更清晰,然后送入后端的语音识别引擎进行识别。

语音识别另外两个技术部分:语言模型和解码器,目前来看并没有太大的技术变化。语言模型主流还是基于传统的N-Gram方法,虽然目前也有神经网络的语言模型的研究,但在实用中主要还是更多用于后处理纠错。解码器的核心指标是速度,业界大部分都是按照静态解码的方式进行,即将声学模型和语言模型构造成WFST网络,该网络包含了所有可能路径,解码就是在该空间进行搜索的过程。由于该理论相对成熟,更多的是工程优化的问题,所以不论是学术还是产业目前关注的较少。

语音识别的技术趋势

语音识别主要趋于远场化和融合化的方向发展,但在远场可靠性还有很多难点没有突破,比如多轮交互、多人噪杂等场景还有待突破,还有需求较为迫切的人声分离等技术。新的技术应该彻底解决这些问题,让机器听觉远超人类的感知能力。这不能仅仅只是算法的进步,需要整个产业链的共同技术升级,包括更为先进的传感器和算力更强的芯片。

单从远场语音识别技术来看,仍然存在很多挑战,包括:

(1)回声消除技术。由于喇叭非线性失真的存在,单纯依靠信号处理手段很难将回声消除干净,这也阻碍了语音交互系统的推广,现有的基于深度学习的回声消除技术都没有考虑相位信息,直接求取的是各个频带上的增益,能否利用深度学习将非线性失真进行拟合,同时结合信号处理手段可能是一个好的方向。

(2)噪声下的语音识别仍有待突破。信号处理擅长处理线性问题,深度学习擅长处理非线性问题,而实际问题一定是线性和非线性的叠加,因此一定是两者融合才有可能更好地解决噪声下的语音识别问题。

(3)上述两个问题的共性是目前的深度学习仅用到了语音信号各个频带的能量信息,而忽略了语音信号的相位信息,尤其是对于多通道而言,如何让深度学习更好的利用相位信息可能是未来的一个方向。

(4)另外,在较少数据量的情况下,如何通过迁移学习得到一个好的声学模型也是研究的热点方向。例如方言识别,若有一个比较好的普通话声学模型,如何利用少量的方言数据得到一个好的方言声学模型,如果做到这点将极大扩展语音识别的应用范畴。这方面已经取得了一些进展,但更多的是一些训练技巧,距离终极目标还有一定差距。

(5)语音识别的目的是让机器可以理解人类,因此转换成文字并不是最终的目的。如何将语音识别和语义理解结合起来可能是未来更为重要的一个方向。语音识别里的LSTM已经考虑了语音的历史时刻信息,但语义理解需要更多的历史信息才能有帮助,因此如何将更多上下文会话信息传递给语音识别引擎是一个难题。

(6)让机器听懂人类语言,仅靠声音信息还不够,“声光电热力磁”这些物理传感手段,下一步必然都要融合在一起,只有这样机器才能感知世界的真实信息,这是机器能够学习人类知识的前提条件。而且,机器必然要超越人类的五官,能够看到人类看不到的世界,听到人类听不到的世界。

语音识别的产业历程

语音识别这半个多世纪的产业历程中,其中共有三个关键节点,两个和技术有关,一个和应用有关。第一个关键节点是1988年的一篇博士论文,开发了第一个基于隐马尔科夫模型(HMM)的语音识别系统——Sphinx,当时实现这一系统的正是现在的著名投资人李开复。

从1986年到2010年,虽然混合高斯模型效果得到持续改善,而被应用到语音识别中,并且确实提升了语音识别的效果,但实际上语音识别已经遭遇了技术天花板,识别的准确率很难超过90%。很多人可能还记得,在1998年前后IBM、微软都曾经推出和语音识别相关的软件,但最终并未取得成功。

第二个关键节点是2009年深度学习被系统应用到语音识别领域中。这导致识别的精度再次大幅提升,最终突破90%,并且在标准环境下逼近98%。有意思的是,尽管技术取得了突破,也涌现出了一些与此相关的产品,比如Siri、GoogleAssistant等,但与其引起的关注度相比,这些产品实际取得的成绩则要逊色得多。Siri刚一面世的时候,时任GoogleCEO的施密特就高呼,这会对Google的搜索业务产生根本性威胁,但事实上直到AmazonEcho的面世,这种根本性威胁才真的有了具体的载体。

第三个关键点正是AmazonEcho的出现,纯粹从语音识别和自然语言理解的技术乃至功能的视角看这款产品,相对于Siri等并未有什么本质性改变,核心变化只是把近场语音交互变成了远场语音交互。Echo正式面世于2015年6月,到2017年销量已经超过千万,同时在Echo上扮演类似Siri角色的Alexa渐成生态,其后台的第三方技能已经突破10000项。借助落地时从近场到远场的突破,亚马逊一举从这个赛道的落后者变为行业领导者。

但自从远场语音技术规模落地以后,语音识别领域的产业竞争已经开始从研发转为应用。研发比的是标准环境下纯粹的算法谁更有优势,而应用比较的是在真实场景下谁的技术更能产生优异的用户体验,而一旦比拼真实场景下的体验,语音识别便失去独立存在的价值,更多作为产品体验的一个环节而存在。

所以到2019年,语音识别似乎进入了一个相对平静期,全球产业界的主要参与者们,包括亚马逊、谷歌、微软、苹果、百度、科大讯飞、阿里、腾讯、云知声、思必驰、声智等公司,在一路狂奔过后纷纷开始反思自己的定位和下一步的打法。

语音赛道里的标志产品——智能音箱,以一种大跃进的姿态出现在大众面前。2016年以前,智能音箱玩家们对这款产品的认识还都停留在:亚马逊出了一款叫Echo的产品,功能和Siri类似。先行者科大讯飞叮咚音箱的出师不利,更是加重了其它人的观望心态。真正让众多玩家从观望转为积极参与的转折点是逐步曝光的Echo销量,2016年底,Echo近千万的美国销量让整个世界震惊。这是智能设备从未达到过的高点,在Echo以前除了AppleWatch与手环,像恒温器、摄像头这样的产品突破百万销量已是惊人表现。这种销量以及智能音箱的AI属性促使2016年下半年,国内各大巨头几乎是同时转变态度,积极打造自己的智能音箱。

未来,回看整个发展历程,2019年是一个明确的分界点。在此之前,全行业是突飞猛进,但2019年之后则开始进入对细节领域渗透和打磨的阶段,人们关注的焦点也不再是单纯的技术指标,而是回归到体验,回归到一种“新的交互方式到底能给我们带来什么价值”这样更为一般的、纯粹的商业视角。技术到产品再到是否需要与具体的形象进行交互结合,比如人物形象;流程自动化是否要与语音结合;酒店场景应该如何使用这种技术来提升体验,诸如此类最终都会一一呈现在从业者面前。而此时行业的主角也会从原来的产品方过渡到平台提供方,AIoT纵深过大,没有任何一个公司可以全线打造所有的产品。

语音识别的产业趋势

当语音产业需求四处开花的同时,行业的发展速度反过来会受限于平台服务商的供给能力。跳出具体案例来看,行业下一步发展的本质逻辑是:在具体每个点的投入产出是否达到一个普遍接受的界限。

离这个界限越近,行业就越会接近滚雪球式发展的临界点,否则整体增速就会相对平缓。不管是家居、酒店、金融、教育或者其他场景,如果解决问题都是非常高投入并且长周期的事情,那对此承担成本的一方就会犹豫,这相当于试错成本过高。如果投入后,没有可感知的新体验或者销量促进,那对此承担成本的一方也会犹豫,显然这会影响值不值得上的判断。而这两个事情,归根结底都必须由平台方解决,产品方或者解决方案方对此无能为力,这是由智能语音交互的基础技术特征所决定。

从核心技术来看,整个语音交互链条有五项单点技术:唤醒、麦克风阵列、语音识别、自然语言处理、语音合成,其它技术点比如声纹识别、哭声检测等数十项技术通用性略弱,但分别出现在不同的场景下,并会在特定场景下成为关键。看起来关联的技术已经相对庞杂,但切换到商业视角我们就会发现,找到这些技术距离打造一款体验上佳的产品仍然有绝大距离。

所有语音交互产品都是端到端打通的产品,如果每家厂商都从这些基础技术来打造产品,那就每家都要建立自己云服务稳定,确保响应速度,适配自己所选择的硬件平台,逐项整合具体的内容(比如音乐、有声读物)。这从产品方或者解决方案商的视角来看是不可接受的。这时候就会催生相应的平台服务商,它要同时解决技术、内容接入和工程细节等问题,最终达成试错成本低、体验却足够好的目标。

平台服务并不需要闭门造车,平台服务的前提是要有能屏蔽产品差异的操作系统,这是AI+IOT的特征,也是有所参照的,亚马逊过去近10年里是同步着手做两件事:一个是持续推出面向终端用户的产品,比如Echo,EchoShow等;一个是把所有产品所内置的系统Alexa进行平台化,面向设备端和技能端同步开放SDK和调试发布平台。虽然GoogleAssistant号称单点技术更为领先,但从各方面的结果来看Alexa是当之无愧的最为领先的系统平台,可惜的是Alexa并不支持中文以及相应的后台服务。

国内则缺乏亚马逊这种统治力的系统平台提供商,当前的平台提供商分为两个阵营:一类是以百度、阿里、讯飞、小米、腾讯为代表的传统互联网或者上市公司;一类是以声智等为代表的新兴人工智能公司。新兴的人工智能公司相比传统公司产品和服务上的历史包袱更轻,因此在平台服务上反倒是可以主推一些更为面向未来、有特色的基础服务,比如兼容性方面新兴公司做的会更加彻底,这种兼容性对于一套产品同时覆盖国内国外市场是相当有利的。

类比过去的Android,语音交互的平台提供商们其实面临更大的挑战,发展过程可能会更加的曲折。过去经常被提到的操作系统的概念在智能语音交互背景下事实上正被赋予新的内涵,它日益被分成两个不同但必须紧密结合的部分。

过去的Linux以及各种变种承担的是功能型操作系统的角色,而以Alexa为代表的新型系统则承担的则是智能型系统的角色。前者完成完整的硬件和资源的抽象和管理,后者则让这些硬件以及资源得到具体的应用,两者相结合才能输出最终用户可感知的体验。功能型操作系统和智能型操作系统注定是一种一对多的关系,不同的AIoT硬件产品在传感器(深度摄像头、雷达等)、显示器上(有屏、无屏、小屏、大屏等)具有巨大差异,这会导致功能型系统的持续分化(可以和Linux的分化相对应)。这反过来也就意味着一套智能型系统,必须同时解决与功能型系统的适配以及对不同后端内容以及场景进行支撑的双重责任。

这两边在操作上,属性具有巨大差异。解决前者需要参与到传统的产品生产制造链条中去,而解决后者则更像应用商店的开发者。这里面蕴含着巨大的挑战和机遇。在过去功能型操作系统的打造过程中,国内的程序员们更多的是使用者的角色,但智能型操作系统虽然也可以参照其他,但这次必须自己来从头打造完整的系统。(国外巨头不管在中文相关的技术上还是内容整合上事实上都非常薄弱,不存在侵略国内市场的可能性)

随着平台服务商两边的问题解决的越来越好,基础的计算模式则会逐渐发生改变,人们的数据消费模式会与今天不同。个人的计算设备(当前主要是手机、笔记本、Pad)会根据不同场景进一步分化。比如在车上、家里、酒店、工作场景、路上、业务办理等会根据地点和业务进行分化。但分化的同时背后的服务则是统一的,每个人可以自由的根据场景做设备的迁移,背后的服务虽然会针对不同的场景进行优化,但在个人偏好这样的点上则是统一的。

人与数字世界的接口,在现在越来越统一于具体的产品形态(比如手机),但随着智能型系统的出现,这种统一则会越来越统一于系统本身。作为结果这会带来数据化程度的持续加深,我们越来越接近一个百分百数据化的世界。

总结

从技术进展和产业发展来看,语音识别虽然还不能解决无限制场景、无限制人群的通用识别问题,但是已经能够在各个真实场景中普遍应用并且得到规模验证。更进一步的是,技术和产业之间形成了比较好的正向迭代效应,落地场景越多,得到的真实数据越多,挖掘的用户需求也更准确,这帮助了语音识别技术快速进步,也基本满足了产业需求,解决了很多实际问题,这也是语音识别相对其他AI技术最为明显的优势。

不过,我们也要看到,语音识别的内涵必须不断扩展,狭义语音识别必须走向广义语音识别,致力于让机器听懂人类语言,这才能将语音识别研究带到更高维度。我们相信,多技术、多学科、多传感的融合化将是未来人工智能发展的主流趋势。在这种趋势下,我们还有很多未来的问题需要探讨,比如键盘、鼠标、触摸屏和语音交互的关系怎么变化?搜索、电商、社交是否再次重构?硬件是否逆袭变得比软件更加重要?产业链中的传感、芯片、操作系统、产品和内容厂商之间的关系又该如何变化?

本文得到众多语音识别领域专家的指导,并引用了一些参考资料的配图,在此表示感谢,本文中的不足之处还请批评指正。

语音识别技术的发展历史

在人际交往中,言语是最自然并且最直接的方式之一。随着技术的进步,越来越多的人们也期望计算机能够具备与人进行言语沟通的能力,因此,语音识别这一技术也越来越受到关注。尤其,随着深度学习技术应用在语音识别技术中,使得语音识别的性能得到了显著提升,也使得语音识别技术的普及成为了现实。

语音识别技术

自动语音识别技术,简单来说其实就是利用计算机将语音信号自动转换为文本的一项技术。这项技术同时也是机器理解人类言语的第一个也是很重要的一个过程。

语音识别是一门交叉学科,所涉及的领域有信号处理、模式识别、概率论和信息论、发声机理和听觉机理、人工智能等等,甚至还涉及到人的体态语言(如人民在说话时的表情手势等行为动作可帮助对方理解)。其应用领域也非常广,例如相对于键盘输入方法的语音输入系统、可用于工业控制的语音控制系统及服务领域的智能对话查询系统,在信息高度化的今天,语音识别技术及其应用已成为信息社会不可或缺的重要组成部分。

语音识别技术的发展历史

语音识别技术的研究开始二十世纪50年代。1952年,AT&Tbell实验室的Davis等人成功研制出了世界上第一个能识别十个英文数字发音的实验系统:Audry系统。

60年代计算机的应用推动了语音识别技术的发展,提出两大重要研究成果:动态规划(DynamicPlanning,DP)和线性预测分析(LinearPredict,LP),其中后者较好的解决了语音信号产生模型的问题,对语音识别技术的发展产生了深远影响。

70年代,语音识别领域取得突破性进展。线性预测编码技术(LinearPredictCoding,LPC)被Itakura成功应用于语音识别;Sakoe和Chiba将动态规划的思想应用到语音识别并提出动态时间规整算法,有效的解决了语音信号的特征提取和不等长语音匹配问题;同时提出了矢量量化(VQ)和隐马尔可夫模型(HMM)理论。在同一时期,统计方法开始被用来解决语音识别的关键问题,这为接下来的非特定人大词汇量连续语音识别技术走向成熟奠定了重要的基础。

80年代,连续语音识别成为语音识别的研究重点之一。Meyers和Rabiner研究出多级动态规划语音识别算法(LevelBuilding,LB)这一连续语音识别算法。80年代另一个重要的发展是概率统计方法成为语音识别研究方法的主流,其显著特征是HMM模型在语音识别中的成功应用。1988年,美国卡内基-梅隆大学(CMU)用VQ/HMM方法实现了997词的非特定人连续语音识别系统SPHINX。在这一时期,人工神经网络在语音识别中也得到成功应用。

进入90年代后,随着多媒体时代的来临,迫切要求语音识别系统从实验走向实用,许多发达国家如美国、日本、韩国以及IBM、Apple、AT&T、NTT等著名公司都为语音识别系统实用化的开发研究投以巨资。最具代表性的是IBM的ViaVoice和Dragon公司的DragonDectate系统。这些系统具有说话人自适应能力,新用户不需要对全部词汇进行训练便可在使用中不断提高识别率。

当前,美国在非特定人大词汇表连续语音隐马尔可夫模型识别方面起主导作用,而日本则在大词汇表连续语音神经网络识别、模拟人工智能进行语音后处理方面处于主导地位。

我国在七十年代末就开始了语音技术的研究,但在很长一段时间内,都处于缓慢发展的阶段。直到八十年代后期,国内许多单位纷纷投入到这项研究工作中去,其中有中科院声学所,自动化所,清华大学,四川大学和西北工业大学等科研机构和高等院校,大多数研究者致力于语音识别的基础理论研究工作、模型及算法的研究和改进。但由于起步晚、基础薄弱,计算机水平不发达,导致在整个八十年代,我国在语音识别研究方面并没有形成自己的特色,更没有取得显著的成果和开发出大型性能优良的实验系统。

但进入九十年代后,我国语音识别研究的步伐就逐渐紧追国际先进水平了,在“八五”、“九五”国家科技攻关计划、国家自然科学基金、国家863计划的支持下,我国在中文语音技术的基础研究方面也取得了一系列成果。

在语音合成技术方面,中国科大讯飞公司已具有国际上最领先的核心技术;中科院声学所也在长期积累的基础上,研究开发出颇具特色的产品:在语音识别技术方面,中科院自动化所具有相当的技术优势:社科院语言所在汉语言学及实验语言科学方面同样具有深厚的积累。但是,这些成果并没有得到很好的应用,没有转化成产业;相反,中文语音技术在技术、人才、市场等方面正面临着来自国际竞争环境中越来越严峻的挑战和压力。

语音识别系统的结构

主要包括语音信号的采样和预处理部分、特征参数提取部分、语音识别核心部分以及语音识别后处理部分,图中给出了语音识别系统的基本结构。

语音识别的过程是一个模式识别匹配的过程。在这个过程中,首先要根据人的语音特点建立语音模型,对输入的语音信号进行分析,并抽取所需的特征,在此基础上建立语音识别所需的模式。而在识别过程中要根据语音识别的整体模型,将输入的语音信号的特征与已经存在的语音模式进行比较,根据一定的搜索和匹配策略,找出一系列最优的与输入的语音相匹配的模式。然后,根据此模式号的定义,通过查表就可以给出计算机的识别结果。

语音识别系统的分类

根据识别的对象不同,语音识别任务大体可分为三类,即孤立词识别(isolatedwordrecognition),关键词识别(或称关键词检出,keywordspotting)和连续语音识别。

孤立词识别的任务是识别事先已知的孤立的词,如“开机”、“关机”等;连续语音识别的任务则是识别任意的连续语音,如一个句子或一段话;连续语音流中的关键词检测针对的是连续语音,但它并不识别全部文字,而只是检测已知的若干关键词在何处出现,如在一段话中检测“计算机”、“世界”这两个词。

根据针对的发音人,可以把语音识别技术分为特定人语音识别和非特定人语音识别,前者只能识别一个或几个人的语音,而后者则可以被任何人使用。显然,非特定人语音识别系统更符合实际需要,但它要比针对特定人的识别困难得多。

另外,根据语音设备和通道,可以分为桌面(PC)语音识别、电话语音识别和嵌入式设备(手机、PDA等)语音识别。不同的采集通道会使人的发音的声学特性发生变形,因此需要构造各自的识别系统。

语音识别技术类型

目前具有代表性的语音识别技术主要有动态时间规整技术(DTW)、隐马尔可夫模型(HMM)、矢量量化(VQ)、人工神经网络(ANN)、支持向量机(SVM)等技术方法。

动态时间规整算法(DynamicTimeWarping,DTW)

是在非特定人语音识别中一种简单有效的方法,该算法基于动态规划的思想,解决了发音长短不一的模板匹配问题,是语音识别技术中出现较早、较常用的一种算法。在应用DTW算法进行语音识别时,就是将已经预处理和分帧过的语音测试信号和参考语音模板进行比较以获取他们之间的相似度,按照某种距离测度得出两模板间的相似程度并选择最佳路径。

隐马尔可夫模型(HMM)

是语音信号处理中的一种统计模型,是由Markov链演变来的,所以它是基于参数模型的统计识别方法。由于其模式库是通过反复训练形成的与训练输出信号吻合概率最大的最佳模型参数而不是预先储存好的模式样本,且其识别过程中运用待识别语音序列与HMM参数之间的似然概率达到最大值所对应的最佳状态序列作为识别输出,因此是较理想的语音识别模型。

矢量量化(VectorQuantization)

是一种重要的信号压缩方法。与HMM相比,矢量量化主要适用于小词汇量、孤立词的语音识别中。其过程是将若干个语音信号波形或特征参数的标量数据组成一个矢量在多维空间进行整体量化。把矢量空间分成若干个小区域,每个小区域寻找一个代表矢量,量化时落入小区域的矢量就用这个代表矢量代替。矢量量化器的设计就是从大量信号样本中训练出好的码书,从实际效果出发寻找到好的失真测度定义公式,设计出最佳的矢量量化系统,用最少的搜索和计算失真的运算量实现最大可能的平均信噪比。

在实际的应用过程中,人们还研究了多种降低复杂度的方法,包括无记忆的矢量量化、有记忆的矢量量化和模糊矢量量化方法。

人工神经网络(ANN)

是20世纪80年代末期提出的一种新的语音识别方法。其本质上是一个自适应非线性动力学系统,模拟了人类神经活动的原理,具有自适应性、并行性、鲁棒性、容错性和学习特性,其强大的分类能力和输入—输出映射能力在语音识别中都很有吸引力。其方法是模拟人脑思维机制的工程模型,它与HMM正好相反,其分类决策能力和对不确定信息的描述能力得到举世公认,但它对动态时间信号的描述能力尚不尽如人意,通常MLP分类器只能解决静态模式分类问题,并不涉及时间序列的处理。尽管学者们提出了许多含反馈的结构,但它们仍不足以刻画诸如语音信号这种时间序列的动态特性。由于ANN不能很好地描述语音信号的时间动态特性,所以常把ANN与传统识别方法结合,分别利用各自优点来进行语音识别而克服HMM和ANN各自的缺点。

近年来结合神经网络和隐含马尔可夫模型的识别算法研究取得了显著进展,其识别率已经接近隐含马尔可夫模型的识别系统,进一步提高了语音识别的鲁棒性和准确率。

支持向量机(Supportvectormachine)

是应用统计学理论的一种新的学习机模型,采用结构风险最小化原理(StructuralRiskMinimization,SRM),有效克服了传统经验风险最小化方法的缺点。兼顾训练误差和泛化能力,在解决小样本、非线性及高维模式识别方面有许多优越的性能,已经被广泛地应用到模式识别领域。

语音识别技术的难点及对策

语音识别技术的发展,达不到实用要求的,主要表现在以下方面:

(1)自适应问题。

语音识别系统的自适应性差体现在对环境条件的依赖性强。现有倒谱归一化技术、相对谱(RASTA)技术、LINLOGRASTA技术等自适应训练方法。

(2)噪声问题。

语音识别系统在噪声环境下使用,讲话人产生情绪或心里上的变化,导致发音失真、发音速度和音调改变,产生Lombard/Loud效应。常用的抑制噪声的方法有谱减法、环境规正技术、不修正语音信号而是修正识别器模型使之适合噪声、建立噪声模型。

(3)语音识别基元的选取问题。

一般地,欲识别的词汇量越多,所用基元应越小越好。

(4)端点检测。 

语音信号的端点检测是语音识别的关键第一步。研究表明,即使在安静的环境下,语音识别系统一半以上的识别错误来自端点检测器。提高端点检测技术的关键在于寻找稳定的语音参数。

(5)其它如识别速度问题、拒识问题以及关键词检测技术(即从连续语音中去除“啊”、“唉”的语气助词,获得真正待识别的语音部分)、对用户的错误输入不能正确响应等问题。

语音识别的应用

语音识别可以应用的领域大致分为大五类:

办公室或商务系统。典型的应用包括:填写数据表格、数据库管理和控制、键盘功能增强等等。

制造业。

在质量控制中,语音识别系统可以为制造过程提供一种“不用手”、“不用眼”的检控(部件检查)。

电信。

相当广泛的一类应用在拨号电话系统上都是可行的,包括话务员协助服务的自动化、国际国内远程电子商务、语音呼叫分配、语音拨号、分类订货。

医疗。

这方面的主要应用是由声音来生成和编辑专业的医疗报告。

其他。

包括由语音控制和操作的游戏和玩具、帮助残疾人的语音识别系统、车辆行驶中一些非关键功能的语音控制,如车载交通路况控制系统、音响系统。

随着移动互联网技术的不断发展,尤其是移动终端的小型化、多样化变化趋势,语音识别成为区别于键盘、触屏的人机交互手段之一。随着语音识别算法模型、自适应性的加强,相信在未来很长一段时间内,语音识别系统的应用将更加广泛与深入,更多丰富的移动终端语音识别产品将步入人们的日常生活。

责任编辑:lq

 

版权声明:本文内容由互联网用户自发贡献,该文观点仅代表作者本人。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如发现本站有涉嫌抄袭侵权/违法违规的内容,一经查实,本站将立刻删除。

上一篇

下一篇