浅谈语音识别的前景展望语音识别的应用前景

发表时间：2023-07-18 12:44:12

浅谈语音识别的前景展望

当今语音识别的主流算法，主要有基于动态时间规整(DTW)算法、基于非参数模型的矢量量化(VQ)方法、基于参数模型的隐马尔可夫模型(HMM)的方法、基于人工神经网络(ANN)和支持向量机等语音识别方法。

(1) 动态时间规整(DTW)

DTW是把时间规整和距离测度计算结合起来的一种非线性规整技术，是较早的一种模式匹配和模型训练技术。该方法成功解决了语音信号特征参数序列比较时时长不等的难题，在语音识别中获得了良好性能。

(2) 矢量量化(VQ)

矢量量化是一种重要的信号压缩方法，主要适用于小词汇量、孤立词的语音识别中。其过程是：将语音信号波形的k个样点的每1帧，或有k个参数的每1参数帧，构成k维空间中的1个矢量，然后对矢量进行量化。量化时，将k维无限空间划分为M个区域边界，然后将输入矢量与这些边界进行比较，并被量化为“距离”最小的区域边界的中心矢量值。

(3) 隐马尔可夫模型(HMM)

HMM是对语音识别的时间序列结构建立统计模型，将其看作一个数学上的双重随机过程：一个是用具有有限状态数的Markov链来模拟语音识别统计特性变化的隐含的随机过程，另一个是与Markov链的每一个状态相关联的观测序列的随机过程。前者通过后者表现出来，但前者的具体参数是不可测的。人的言语过程实际上就是一个双重随机过程，语音识别本身是一个可观测的时变序列，是由大脑根据语法知识和言语需要(不可观测的状态)发出的音素的参数流。HMM合理地模仿了这一过程，很好地描述了语音识别的整体非平稳性和局部平稳性，是较为理想的一种语音识别。

(4)人工神经元网络(ANN)

人工神经元网络在语音识别中的应用是目前研究的又一热点。ANN实际上是一个超大规模非线性连续时间自适应信息处理系统，它模拟了人类神经元活动的原理，最主要的特征为连续时间非线性动力学、网络的全局作用、大规模并行分布处理及高度的稳健性和学习联想能力。这些能力是HMM模型不具备的。但ANN又不具有HMM模型的动态时间归正性能。因此，人们尝试研究基于HMM和ANN的混合模型，把两者的优点有机结合起来，从而提高整个模型的鲁棒性，这也是目前研究的一个热点。

(5) 支持向量机（SVM)

支持向量机是应用统计学习理论的一种新的学习机模型，它采用结构风险最小化原理(SRM)，有效克服了传统经验风险最小化方法的缺点，在解决小样本、非线性及高维模式识别方面有许多优越的性能。其基本思想可以概括为：首先通过非线性变换将输入空间变换到一个高维空间，然后在这个新空间中求取最优线性分类面，而这种非线性变换是通过定义适当的内积函数实现的。

一、语音识别所面临的问题

(1)识别识别系统的适应性差。主要体现在对环境依赖性强，特别在高噪音环境下语音识别性能还不理想。

(2)语音识别系统从实验室演示系统到商品的转化过程中，还有许多具体问题需要解决。例如，口语中的重复、改正、强调、倒叙、省略、拖音、韵律、识别速度、拒识等问题，还有连续语音中去除不必要语气词如“呃”、“啊”等语音识别的技术细节问题。

(3)语言学、生理学、心理学方面的研究成果已有不少，但如何把这些知识量化、建模并用于语音识别，还需要进一步研究。

(4)语音识别的方言和口音问题

(5)信道问题:我们知道在无线互联应用中，涉及到的信道种类可能会很多，比如固定电话、手机、IP、网络、车载系统等等，各种各样的信道都有不同的特性。语音识别、声纹识别和语音理解如何去适应不同信道的差异是一个不得不面对的问题。

(6)语音合成:语音合成当中，怎样能够很好地把感情色彩、情绪等正确地表达出来，也需要进一步去研究。

二、语音识别的前景展望

语音识别作为当前通信系统中最自然的通信媒介，语音识别是非常重要的人机交互技术。随着计算机和语音处理技术的发展，语音识别的实用性将进一步提高。应用语音的自动理解和翻译，可消除人类相互交往的语言障碍。

近年来语音交互功能被应用到了应急指挥中心当中，通过语音调用大屏幕场景，语音调用监控，语音调用信号源，语音调用预设内容等；

智能语音交互基于指挥中心的应用，领导只需按键，说出关键词即可调用想要的监控、PC、及相关信息，提高了整体指挥调度的水平。

以上仅为驰声对语音识别的浅谈，详细了解请咨询www.chivox.com驰声官网。

语音识别系统市场前景及发展趋势

语音识别系统历史

国外研究：

从开始研究语音识别技术至今，语音识别技术的发展已经有半个多世纪的历史。语音识别技术研究的开端，是Davis等人研究的Audry系统，它是当时第一个可以获取几个英文字母的系统。到了20世纪60年代，伴随计算机技术的发展，语音识别技术也得以进步，动态规划和线性预测分析技术解决了语音识别中最为重要的问题——语音信号产生的模型问题；70年代，语音识别技术有了重大突破，动态时间规整技术（DTW）基本成熟，使语音变得可以等长，另外，矢量量化（VQ）和隐马尔科夫模型理论（HMM）也不断完善，为之后语音识别的发展做了铺垫；80年代对语音识别的研究更为彻底，各种语音识别算法被提出，其中的突出成就包括HMM模型人工神经网络（ANN）；进入90年代后，语音识别技术开始应用于全球市场，许多著名科技互联网公司，如IBM，Apple等，都为语音识别技术的开发和研究投入巨资；到了21世纪，语音识别技术研究重点转变为即兴口语和自然对话以及多种语种的同声翻译。

国内研究：

国内关于语音识别技术的研究与探索从20世纪80年代开始，取得了许多成果并且发展飞速。例如：清华大学研发的语音识别技术以1183个单音节作为识别基元，并对其音节进行分解，最后进行识别，使三字词和四字词的准确率高达98%；中科院采用连续密度的HMM，整个系统的识别率达到89.5%，声调和词语的识别率分别是99.5%和95%。目前，我国的语音识别技术已经和国际上的超级大国实力相当，其综合错误率可控制在10%以内。

清华大学电子工程系语音技术与专用芯片设计课题组，研发的非特定人汉语数码串连续语音识别系统的识别精度，达到94.8%（不定长数字串）和96.8%（定长数字串）。在有5%的拒识率情况下，系统识别率可以达到96.9%（不定长数字串）和98.7%（定长数字串），这是目前国际最好的识别结果之一，其性能已经接近实用水平。研发的5000词邮包校核非特定人连续语音识别系统的识别率达到98.73%，前三选识别率达99.96%；并且可以识别普通话与四川话两种语言，达到实用要求。

中科院自动化所及其所属模式科技（Pattek）公司2002年发布了他们共同推出的面向不同计算平台和应用的“天语”中文语音系列产品——PattekASR，结束了中文语音识别产品自1998年以来一直由国外公司垄断的历史。

语音识别系统前景趋势

在新兴产业市场需求的推动下，语音识别的市场也是十分具有看头的，有研究机构指出，预计到2020年，全球语音识别的市场规模将从2015年的61.9亿美元增长到200亿美元。然而，在市场规模壮大这一美好的预测面前，我们也不能忽视一些需要面对的问题，只有解决了它们，语音识别才能得到完善，给用户带来极致服务。

首先就是对象识别的准确性。现在，在应用上，我们看见语音识别多是在智能家居领域，包括智能家电和服务机器人。此时，我们就要考虑一个问题了，当多个家庭成员同时讲话时，智能家电和服务机器人该执行谁的命令呢？它们又如何能在众声音中找出自己主人的命令？这些都是当前语音识别所需要解决的问题，毕竟我们通常所说的语音识别不仅仅只是单纯的对语音内容进行识别。

在这个问题上，人们也找到了一个解决方案——声纹识别。一般来讲，声纹具有唯一性，对说话人身份的确认有着极大的帮助。借助于声纹识别，语音识别能够准确对说话人的位置和身份进行定位，从而准确识别语音内容，执行其中下达的指令。不过，鉴于数据的极大空缺等问题，声纹识别技术还需完善。

其次是降低周边环境的干扰。对于人类来讲，在嘈杂环境中听别人说话或是从众多声音中找出自己想听的内容还是一件较为简单的事，而与此相反，这件事在机器这里并没有那么容易。

为了降低周边环境对语音识别的干扰，亚马逊和谷歌都在智能音箱中使用了麦克风阵列技术，从而起到一定的“降噪”作用，增加语音识别的准确率。不过，到目前为止，环境的干扰依然没有得到更好的解决，仍然是语音识别前进道路中的一只“拦路虎”，尤其是在多段语音中准确找出指定说话人的情境中。

在一次采访中，和机器学习权威学者、百度首席科学家吴恩达表示，2017年是“对话式电脑”快速发展的一年。对话式电脑，诸如聊天机器人、人工智能虚拟助手之类，作为展开对话的第一步，语音识别也属于这快速发展的一部分。

在、等多种产业以及聊天机器人、虚拟助手这些产品市场的推动下，语音识别的市场正在不断扩大，同时也是对它准确性的一个挑战。

浅谈语音识别的前景展望 语音识别的应用前景