浅谈语音识别技术的发展趋势与应用前景语音识别技术应用现状分析

发表时间：2023-07-06 04:58:57

浅谈语音识别技术的发展趋势与应用前景

一、语音识别技术定义

语音识别技术，也被称为自动语音识别AutomaticSpeechRecognition，（ASR），其目标是将人类的语音中的词汇内容转换为计算机可读的输入，例如按键、二进制编码或者字符序列。与说话人识别及说话人确认不同，后者尝试识别或确认发出语音的说话人而非其中所包含的词汇内容。

语音识别技术的应用包括语音拨号、语音导航、室内设备控制、语音文档检索、简单的听写数据录入等。语音识别技术与其他自然语言处理技术如机器翻译及语音合成技术相结合，可以构建出更加复杂的应用，例如语音到语音的翻译。

二、语音识别技术原理

语音识别系统提示客户在新的场合使用新的口令密码，这样使用者不需要记住固定的口令，系统也不会被录音欺骗。文本相关的声音识别方法可以分为动态时间伸缩或隐马尔可夫模型方法。文本无关声音识别已经被研究很长时间了，不一致环境造成的性能下降是应用中的一个很大的障碍。

其工作原理：

动态时间伸缩方法使用瞬间的、变动倒频。1963年Bogertetal出版了《回声的时序倒频分析》。通过交换字母顺序，他们用一个含义广泛的词汇定义了一个新的信号处理技术，倒频谱的计算通常使用快速傅立叶变换。

从1975年起，隐马尔可夫模型变得很流行。运用隐马尔可夫模型的方法，频谱特征的统计变差得以测量。文本无关语音识别方法的例子有平均频谱法、矢量量化法和多变量自回归法。

平均频谱法使用有利的倒频距离，语音频谱中的音位影响被平均频谱去除。使用矢量量化法，语者的一套短期训练的特征向量可以直接用来描绘语者的本质特征。但是，当

国内外语音识别技术发展现状探讨

语音识别的意思是将人说话的内容和意思转换为计算机可读的输入，例如按键、二进制编码或者字符序列等。与说话人的识别不同，后者主要是识别和确认发出语音的人而非其中所包含的内容。语音识别的目的就是让机器听懂人类口述的语言，包括了两方面的含义：第一是逐字逐句听懂而不是转化成书面的语言文字;第二是对口述语言中所包含的命令或请求加以领会，做出正确回应，而不仅仅只是拘泥于所有词汇的正确转换。

本文引用地址：http://www.eepw.com.cn/article/201610/311278.htm

自从1952年，AT&TBell实验室的Davis等人研制了第一个可十个英文数字的特定人语音增强系统一Audry系统1956年，美国普林斯顿大学RCA实验室的Olson和Belar等人研制出能10个单音节词的系统，该系统采用带通滤波器组获得的频谱参数作为语音增强特征。1959年，Fry和Denes等人尝试构建音素器来4个元音和9个辅音，并采用频谱分析和模式匹配进行决策。这就大大提高了语音识别的效率和准确度。从此计算机语音识别的受到了各国科研人员的重视并开始进入语音识别的研究。60年代，苏联的MaTIn等提出了语音结束点的端点检测，使语音识别水平明显上升;Vintsyuk提出了动态编程，这一提法在以后的识别中不可或缺。60年代末、70年代初的重要成果是提出了信号线性预测编码(LPC)技术和动态时间规整(DTW)技术，有效地解决了语音信号的特征提取和不等长语音匹配问题;同时提出了矢量量化(VQ)和隐马尔可夫模型(HMM)理论。语音识别技术与语音合成技术结合使人们能够摆脱键盘的束缚，取而代之的是以语音输入这样便于使用的、自然的、人性化的输入方式，它正逐步成为信息技术中人机接口的关键技术。

一：语音识别技术发展现状-语音识别系统的分类

语音识别系统可以根据对输入语音的限制加以分类。如果从说话者与识别系统的相关性考虑，可以将识别系统分为三类：

(1)特定人语音识别系统。仅考虑对于专人的话音进行识别。

(2)非特定人语音系统。识别的语音与人无关，通常要用大量不同人的语音数据库对识别系统进行学习。

(3)多人的识别系统。通常能识别一组人的语音，或者成为特定组语音识别系统，该系统仅要求对要识别的那组人的语音进行训练。

如果从说话的方式考虑，也可以将识别系统分为三类：

(1)孤立词语音识别系统。孤立词识别系统要求输入每个词后要停顿。

(2)连接词语音识别系统。连接词输入系统要求对每个词都清楚发音，一些连音现象开始出现。

(3)连续语音识别系统。连续语音输入是自然流利的连续语音输入，大量连音和变音会出现。

如果从识别系统的词汇量大小考虑，也可以将识别系统分为三类：

(1)小词汇量语音识别系统。通常包括几十个词的语音识别系统。

(2)中等词汇量的语音识别系统。通常包括几百个词到上千个词的识别系统。

(3)大词汇量语音识别系统。通常包括几千到几万个词的语音识别系统。随着计算机与数字信号处理器运算能力以及识别系统精度的提高，识别系统根据词汇量大小进行分类也不断进行变化。目前是中等词汇量的识别系统，将来可能就是小词汇量的语音识别系统。这些不同的限制也确定了语音识别系统的困难度。

二：语音识别技术发展现状-语音识别的方法汇总分析

目前具有代表性的语音识别方法主要有动态时间规整技术(DTW)、隐马尔可夫模型(HMM)、矢量量化(VQ)、人工神经网络(ANN)、支持向量机(SVM)等方法。

动态时间规整算法(DynamicTImeWarping，DTW)是在非特定人语音识别中一种简单有效的方法，该算法基于动态规划的思想，解决了发音长短不一的模板匹配问题，是语音识别技术中出现较早、较常用的一种算法。在应用DTW算法进行语音识别时，就是将已经预处理和分帧过的语音测试信号和参考语音模板进行比较以获取他们之间的相似度，按照某种距离测度得出两模板间的相似程度并选择最佳路径。

隐马尔可夫模型(HMM)是语音信号处理中的一种统计模型，是由Markov链演变来的，所以它是基于参数模型的统计识别方法。由于其模式库是通过反复训练形成的与训练输出信号吻合概率最大的最佳模型参数而不是预先储存好的模式样本，且其识别过程中运用待识别语音序列与HMM参数之间的似然概率达到最大值所对应的最佳状态序列作为识别输出，因此是较理想的语音识别模型。

矢量量化(VectorQuanTIzaTIon)是一种重要的信号压缩方法。与HMM相比，矢量量化主要适用于小词汇量、孤立词的语音识别中。其过程是将若干个语音信号波形或特征参数的标量数据组成一个矢量在多维空间进行整体量化。把矢量空间分成若干个小区域，每个小区域寻找一个代表矢量，量化时落入小区域的矢量就用这个代表矢量代替。矢量量化器的设计就是从大量信号样本中训练出好的码书，从实际效果出发寻找到好的失真测度定义公式，设计出最佳的矢量量化系统，用最少的搜索和计算失真的运算量实现最大可能的平均信噪比。

在实际的应用过程中，人们还研究了多种降低复杂度的方法，包括无记忆的矢量量化、有记忆的矢量量化和模糊矢量量化方法。

人工神经网络(ANN)是20世纪80年代末期提出的一种新的语音识别方法。其本质上是一个自适应非线性动力学系统，模拟了人类神经活动的原理，具有自适应性、并行性、鲁棒性、容错性和学习特性，其强大的分类能力和输入—输出映射能力在语音识别中都很有吸引力。其方法是模拟人脑思维机制的工程模型，它与HMM正好相反，其分类决策能力和对不确定信息的描述能力得到举世公认，但它对动态时间信号的描述能力尚不尽如人意，通常MLP分类器只能解决静态模式分类问题，并不涉及时间序列的处理。尽管学者们提出了许多含反馈的结构，但它们仍不足以刻画诸如语音信号这种时间序列的动态特性。由于ANN不能很好地描述语音信号的时间动态特性，所以常把ANN与传统识别方法结合，分别利用各自优点来进行语音识别而克服HMM和ANN各自的缺点。近年来结合神经网络和隐含马尔可夫模型的识别算法研究取得了显著进展，其识别率已经接近隐含马尔可夫模型的识别系统，进一步提高了语音识别的鲁棒性和准确率。

支持向量机(Supportvectormachine)是应用统计学理论的一种新的学习机模型，采用结构风险最小化原理(StructuralRiskMinimization，SRM)，有效克服了传统经验风险最小化方法的缺点。兼顾训练误差和泛化能力，在解决小样本、非线性及高维模式识别方面有许多优越的性能，已经被广泛地应用到模式识别领域。

三：语音识别技术发展现状-国外研究

语音识别的研究工作可以追溯到20世纪50年代AT&T贝尔实验室的Audry系统，它是第一个可以识别十个英文数字的语音识别系统。

但真正取得实质性进展，并将其作为一个重要的课题开展研究则是在60年代末70年代初。这首先是因为计算机技术的发展为语音识别的实现提供了硬件和软件的可能，更重要的是语音信号线性预测编码(LPC)技术和动态时间规整(DTW)技术的提出，有效的解决了语音信号的特征提取和不等长匹配问题。这一时期的语音识别主要基于模板匹配原理，研究的领域局限在特定人，小词汇表的孤立词识别，实现了基于线性预测倒谱和DTW技术的特定人孤立词语音识别系统;同时提出了矢量量化(VQ)和隐马尔可夫模型(HMM)理论。

随着应用领域的扩大，小词汇表、特定人、孤立词等这些对语音识别的约束条件需要放宽，与此同时也带来了许多新的问题：第一，词汇表的扩大使得模板的选取和建立发生困难;第二，连续语音中，各个音素、音节以及词之间没有明显的边界，各个发音单位存在受上下文强烈影响的协同发音(Co-articulation)现象;第三，非特定人识别时，不同的人说相同的话相应的声学特征有很大的差异，即使相同的人在不同的时间、生理、心理状态下，说同样内容的话也会有很大的差异;第四，识别的语音中有背景噪声或其他干扰。因此原有的模板匹配方法已不再适用。

实验室语音识别研究的巨大突破产生于20世纪80年代末：人们终于在实验室突破了大词汇量、连续语音和非特定人这三大障碍，第一次把这三个特性都集成在一个系统中，比较典型的是卡耐基梅隆大学(CarnegieMellonUniversity)的Sphinx系统，它是第一个高性能的非特定人、大词汇量连续语音识别系统。

关键词：语音识别

语音识别技术发展的历史背景和研究现状

浏览量：5,333(在苹果系统下，如果文章中的图片不能正常显示，请升级Safari浏览器到最新版本，或者使用Chrome、Firefox浏览器打开。)

人类对于语音识别领域相关技术的研究，从上世纪的50年代初就已经开始了，当时的科研人员就曾对语音发音的音素特征做了相关研究。在1952年时,贝尔(Bell)实验室的研究人员,通过使用模拟的电子器件,实现了针对特定说话人说英文数字的孤立词进行语音识别的功能。这个系统主要是提取发音中每个元音的共振峰信息,然后通过简单的模板匹配,从而实现的。该系统得到了98%的正确率[1]。

1960年代,语音识别领域引入了人工神经网络。苏联的研究者Vintsyuk提出了用DynamicProgramming(动态规划算法)实现DynamicTimeWarp(动态时间规整),该算法可以将两个长度不同的语音进行时间上的对齐,从而可以使得两端语音在相同时间长度下得到更有意义的相似度度量。该技术在小规模词语环境下取得了很大的成功,一度成为自动语音识别技术中的主流[2]。

上世纪70年代,卡内基梅隆大学的李开复将隐马尔可夫模型在语音识别中进行了应用,实现了第一个基于HMM的大词汇量的语音识别系统Sphinx[3],对此后的语音识别技术产生了持续的影响。到了80年代,语音识别的研究重心从孤立词的识别转向连续词汇,主要是在孤立词的基础上,通过单个词进行模式匹配实现。并且,语音识别技术的重心从模式匹配的方案逐渐转移到了统计模型的方法上来,尤其是基于隐马尔可夫模型的方案得到了长足的发展。

在2010年之前,基于隐马尔可夫模型的高斯混合模型(GMM-HMM模型)通常代表着最先进的语音识别技术，这类的模型通常采用的特征提取算法是梅尔频率倒谱系数(即MFCC)算法,常用的还有fBank等特征提取算法。而人们也开展了很多研究工作来模仿人类听觉过程,后来通过引入DNN自动学习特征表示,直接取代GMM。深度学习还可以应用于给传统的HMM模型提供强大的具有判别性的特征。DNN和HMM结合的语音识别系统,大大降低了识别错误率[4]。

2010年以来,随着大数据和深度学习的发展,CNN、RNN、LSTM和GRU等网络结构也应用到语音识别中,使得语音识别技术取得了又一次巨大的突破。连接时序分类(ConnectionistTemporalClassification,CTC)方法,端到端(End-to-End)结构模型,和DFCNN、DeepSpeech、WaveNet、DFSMN等模型的出现,将语音识别的准确率一次又一次地推向巅峰。大多数的语音识别系统,目前仍然使用基于概率统计的N元语言模型,和相关变体模型。

近几年来,残差网络(ResNet)、注意力机制(Attentionmechanism)和RNNTransducer的出现,又将语音识别技术带领到发展的新阶段。当前,国内外几种主流的语音识别系统的准确率均超过了90%,有的甚至超过了95%。其中,85%准确率是评价一个语音识别系统是否可实际使用的分水岭。

自2016年以来，AI柠檬博主在研究针对中文的语音识别实践中，通过采用深度卷积神经网络，融合CTC方法进行声学建模，并使用统计语言模型，得到最终我们所需要的汉字文本。基于此，由AI柠檬博主开发的ASRT开源语音识别项目可取得80%的识别准确率。该开源项目的GitHub仓库链接为：https://github.com/nl8590687/ASRT_SpeechRecognition

当前，除了直接使用一些主流的深度学习框架实现语音识别以外，有很多用来实现语音识别的技术都是基于Kaldi进行开发的。众所周知，Kaldi是一个用C++编写的语音识别工具包，供语音识别研究人员使用[5]。Kaldi集成了包括数据预处理、声学特征提取、声学模型建模、声学解码、语言模型建模和并行计算、Cuda计算库等。对于多数传统的语音识别技术，Kaldi均能胜任，其中阿里巴巴的DFSMN模型就是使用Kaldi实现的。

不言而喻,语音识别技术对于人类很重要。在人与人的交流以及传播知识过程中,大约70%的信息是来自于语音。未来,语音识别将必然成为智能生活里重要的一部分,它可以为个人语音助手、语音输入、智能音箱等应用场景提供相关必不可少的技术基础,而且,这还将会成为未来一种新的人机交互方式。

参考文献

[1] DavisKH,BiddulphR,BalashekS.Automaticrecognitionofspokendigits[J].TheJournaloftheAcousticalSocietyofAmerica,1952,24(6):637-642.[2]Wikipedia.SpeechRecognition[EB/OL].https://en.wikipedia.org/wiki/Speech_recognition[3] LeeKF.Automaticspeechrecognition:thedevelopmentoftheSPHINXsystem[M].SpringerScience&BusinessMedia,1988.[4] 俞栋,邓力,俞凯,等.解析深度学习语音识别实践[M].北京:电子工业出版社,2016.[5]KaldiASR.http://www.kaldi-asr.org/

版权声明本博客的文章除特别说明外均为原创，本人版权所有。欢迎转载，转载请注明作者及来源链接，谢谢。本文地址:https://blog.ailemon.net/2019/06/20/history-and-research-status-quo-of-speech-recognition/AllarticlesareunderAttribution-NonCommercial-ShareAlike4.0发表你的看法“点击发表你的看法”

关注“AI柠檬博客”微信公众号，及时获取你最需要的干货。

AI柠檬博主正在阿里云上出售域名“y403.com”，感兴趣就快去看看吧打赏赞(1)微海报分享

语音识别系统市场现状及未来发展趋势2023

原标题：语音识别系统市场现状及未来发展趋势2023

语音识别系统是一种技术，它可以将人类语音转换为计算机可读的文本或命令。这种系统使用声音信号处理、语音特征提取、语音模型匹配等技术，通过对语音信号的分析和处理，将其转换为计算机可以理解的文本或命令。语音识别系统广泛应用于语音助手、智能家居、电话客服、语音搜索等领域。随着人工智能技术的不断发展，语音识别系统的准确率和应用范围也在不断提高和扩大。

政府对语音识别技术的政策和法规对市场发展有着重要影响。政府的支持和投资可以促进语音识别技术的发展，但政策限制和监管也可能对市场造成不利影响。

语音识别技术的市场规模和增长速度受到经济因素的影响。市场需求、消费者购买力、竞争环境、投资和融资等因素都会影响市场的发展。

社会因素包括人口结构、文化背景、生活方式等，这些因素会影响语音识别技术的应用场景和用户需求。例如，老年人和残障人士对语音识别技术的需求更高，而年轻人则更注重语音识别技术的便捷性和智能化。

技术因素是语音识别技术发展的关键因素。随着人工智能技术的不断发展，语音识别技术的准确率和应用范围也在不断提高和扩大。同时，语音识别技术的成本和可靠性也是技术因素中需要考虑的因素。

综上所述，PEST分析可以帮助我们了解语音识别系统市场的政治、经济、社会和技术环境，为市场分析和决策提供参考。

根据数据，全球语音识别市场规模在2020年达到了约20亿美元，预计到2027年将达到约50亿美元。

目前，语音识别系统市场竞争激烈，主要厂商包括苹果、谷歌、亚马逊、百度、微软等。这些厂商在技术研发、产品创新、市场推广等方面都有着自己的优势和特点。

语音识别系统广泛应用于语音助手、智能家居、电话客服、语音搜索、语音翻译、语音课堂等领域。其中，语音助手和智能家居是目前应用最广泛的领域。

目前，语音识别系统市场主要分布在北美、欧洲、亚太地区等地。其中，北美地区是语音识别系统市场最大的地区，占据了全球市场份额的40%左右。

展开全文

随着人工智能技术的不断发展，语音识别系统的准确率和应用范围也在不断提高和扩大。同时，深度学习、自然语言处理、语音合成等技术也在不断应用于语音识别系统中。

综上所述，语音识别系统市场是一个快速发展的市场，未来还有很大的发展空间和潜力。随着技术的不断进步和应用场景的不断扩大，语音识别系统市场将会迎来更多的机遇和挑战。

未来行业市场发展前景和投资机会在哪?欲了解更多关于语音识别系统市场分析，具体详情可以点击查看报告《2023-2029全球与中国语音识别系统市场现状及未来发展趋势》。QYResearch报告对行业相关各种因素进行具体调查、研究、分析，洞察行业今后的发展方向、行业竞争格局的演变趋势以及技术标准、市场规模、潜在问题与行业发展的症结所在，评估行业投资价值、效果效益程度，提出建设性意见建议，为行业投资决策者和企业经营者提供参考依据。

全球领先市场调查出版商QYResearch成立于2007年，总部位于美国，是全球领先的市场研究和咨询公司之一。主要业务内容有市场调研报告、定制报告、委托调研、IPO咨询、商业计划书等。凭借超过16年的经验和敬业的研究团队，我们能够为您的企业提供有用的信息和数据报告。我们在全球6个国家（美国、德国、日本、韩国、中国、印度等）设有办事处，业务合作伙伴遍及30多个国家。迄今为止，我们已经为全球超过60,000家公司提供了研究报告和信息服务。并提供企业单项冠军申报服务或申请国家冠军项目服务

我们的服务：

✓快速报告服务

✓超过16年的丰富经验

✓在6个国家设立办事处

✓一年365天，每天24小时营业

✓拥有庞大的数据库返回搜狐，查看更多

责任编辑：

浅谈语音识别技术的发展趋势与应用前景 语音识别技术应用现状分析