博舍

语音识别技术的研究进展与展望 语音识别论文参考文献

语音识别技术的研究进展与展望

【流媒体网】摘要:本文对语音识别技术的发展情况、最近几年的关键突破性技术进行了介绍,并对语音识别技术的发展趋势做了展望。

 

 【摘要】自动语音识别(ASR)技术的目的是让机器能够“听懂”人类的语音,将人类语音信息转化为可读的文字信息,是实现人机交互的关键技术,也是长期以来的研究热点。最近几年,随着深度神经网络的应用,加上海量大数据的使用和云计算的普及,语音识别取得了突飞猛进的进展,在多个行业突破了实用化的门槛,越来越多的语音技术产品进入了人们的日常生活,包括苹果的Siri、亚马逊的Alexa、讯飞语音输入法、叮咚智能音箱等都是其中的典型代表。对语音识别技术的发展情况、最近几年的关键突破性技术进行了介绍,并对语音识别技术的发展趋势做了展望。

【关键词】自动语音识别;深度神经网络;声学模型;语言模型

doi:10.11959/j.issn.1000-0801.2018095

【Abstract】

Thepurposeofautomaticspeechrecognition(ASR)istomakethemachinetobeableto“understand”thehumanspeechandtransformittoreadabletextinformation.ASRisoneofthekeytechnologiesofhumanmachineinteractionandalsoahotresearchdomainforalongtime.Inrecentyears,duetotheapplicationofdeepneuralnetworks,theuseofbigdataandthepopularityofcloudcomputing,ASRhasmadegreatprogressandbreakthroughthethresholdofapplicationinmanyindustries.MoreandmoreproductswithASRhaveenteredpeople’sdailylife,suchasApple’sSiri,Amazon’sAlexa,IFLYTEKspeechinputmethodandDingdongintelligentspeakerandsoon.Thedevelopmentstatusandkeybreakthroughtechnologiesinrecentyearswereintroduced.Also,aforecastofASRtechnologies’trendofdevelopmentwasgiven.

【Keywords】automaticspeechrecognition,deepneuralnetwork,acousticmodel,languagemodel

1引言

语音是人类最自然的交互方式。计算机发明之后,让机器能够“听懂”人类的语言,理解语言中的内在含义,并能做出正确的回答就成为了人们追求的目标。这个过程中主要涉及3种技术,即自动语音识别(automaticspeechrecognition,ASR);自然语言处理(naturallanguageprocessing,NLP),目的是让机器能理解人的意图;语音合成(speechsynthesis,SS),目的是让机器能说话。

语音识别技术的目的是让机器能听懂人类的语音,是一个典型的交叉学科任务,涉及模式识别、信号处理、物理声学、生理学、心理学、计算机科学和语言学等多个学科。

语音识别技术的研究最早开始于20世纪50年代,1952年贝尔实验室研发出了10个孤立数字的识别系统[1]。从20世纪60年代开始,美国卡耐基梅隆大学的Reddy等开展了连续语音识别的研究,但是这段时间发展很缓慢。1969年贝尔实验室的PierceJ甚至在一封公开信中将语音识别比作近几年不可能实现的事情,例如“将水转化为汽油,从海里提取金子,治疗癌症”等。20世纪80年代开始,以隐马尔可夫模型(hiddenMarkovmodel,HMM)方法[2,3]为代表的基于统计模型方法逐渐在语音识别研究中占据了主导地位。HMM模型能够很好地描述语音信号的短时平稳特性,并且将声学、语言学、句法等知识集成到统一框架中。此后,HMM的研究和应用逐渐成为了主流。例如,第一个“非特定人连续语音识别系统”是当时还在卡耐基梅隆大学读书的李开复研发的SPHINX[4]系统,其核心框架就是GMM-HMM框架,其中GMM(Gaussianmixturemodel,高斯混合模型)用来对语音的观察概率进行建模,HMM则对语音的时序进行建模。20世纪80年代后期,深度神经网络(deepneuralnetwork,DNN)的前身——人工神经网络(artificialneuralnetwork,ANN)也成为了语音识别研究的一个方向[5]。但这种浅层神经网络在语音识别任务上的效果一般,表现并不如GMM-HMM模型。20世纪90年代开始,语音识别掀起了第一次研究和产业应用的小高潮,主要得益于基于GMM-HMM声学模型的区分性训练准则和模型自适应方法的提出。这时期剑桥发布的HTK开源工具包[6]大幅度降低了语音识别研究的门槛。此后将近10年的时间里,语音识别的研究进展一直比较有限,基于GMM-HMM框架的语音识别系统整体效果还远远达不到实用化水平,语音识别的研究和应用陷入了瓶颈。

2006年Hinton[7]提出使用受限波尔兹曼机(restrictedBoltzmannmachine,RBM)对神经网络的节点做初始化,即深度置信网络(deepbeliefnetwork,DBN)。DBN解决了深度神经网络训练过程中容易陷入局部最优的问题,自此深度学习的大潮正式拉开。2009年,Hinton和他的学生MohamedD[8]将DBN应用在语音识别声学建模中,并且在TIMIT这样的小词汇量连续语音识别数据库上获得成功。2011年DNN在大词汇量连续语音识别上获得成功[9],语音识别效果取得了近10年来最大的突破。从此,基于深度神经网络的建模方式正式取代GMM-HMM,成为主流的语音识别建模方式。

2语音识别声学模型中深度神经网络的应用

2.1深度学习比浅层模型更适合语音处理

深度学习(deeplearning,DL)是指利用多层的非线性信号和信息处理技术,通过有监督或者无监督的方法,进行信号转换、特征提取以及模式分类等任务的机器学习类方法[10]的总称。因为采用深层结构(deeparchitecture)[11]模型对信号和信息进行处理,所以这里称为“深度”学习。传统的机器学习模型很多属于浅层结构(shallowstructure)模型,例如支持向量机(supportvectormachine,SVM)、GMM、HMM、条件随机场(conditionalrandomfield,CRF)、线性或者非线性动态系统、单隐层的神经网络(neuralnetwork,NN)等。原始的输入信号只经过比较少的层次(通常是一层)的线性或者非线性处理以达到信号与信息处理,是这些结构模型的共同特点。浅层模型的优点在于在数学上有比较完善的算法,并且结构简单、易于学习。但是浅层模型使用的线性或者非线性变换组合比较少,对于信号中复杂的结构信息并不能有效地学习,对于复杂信号的表达能力有局限性。而深层结构的模型则更适合于处理复杂类型的信号,原因在于深层结构具备多层非线性变换[12],具有更强的表达与建模能力。

人类语音信号产生和感知就是这样一个极其复杂的过程,并且在生物学上被证明具有明显的多层次甚至深层次的处理结构[13]。所以,对于语音识别任务,采用浅层结构模型明显有很大的局限性。利用深层次结构中的多层非线性变换进行语音信号中的结构化信息和更高层信息的提取,是更加合理的选择。

2.2DNN在语音识别系统中的应用和局限性

从2011年之后,基于DNN-HMM声学模型[14-18]在多种语言、多种任务的语音识别上取得了比传统GMM-HMM声学模型大幅度且一致性的效果提升。基于DNN-HMM语音识别系统的基本框架如图1所示,采用DNN替换GMM模型来建模语音观察概率,是其和传统的GMM-HMM语音识别系统最大的不同。前馈型深度神经网络(feed-forwarddeepneuralnetwork,FDNN)由于比较简单,是最初主流的深层神经网络。

使用DNN取代GMM主要有以下几个原因:DNN可以将相邻的语音帧拼接起来作为输入特征,使得更长时的结构信息得以描述;DNN的输入特征可以是多种特征的融合,也可以是离散或者连续的特征;不需要对语音数据分布进行假设,也是使用DNN估计HMM状态的后验概率分布的一个特点。

语音识别的特征提取需要首先对波形进行加窗和分帧,然后再提取特征。训练GMM模型的输入是单帧特征,DNN则一般采用多个相邻帧拼接在一起作为输入,这种方法使得语音信号更长的结构信息得以描述,研究表明,特征拼接输入是DNN相比于GMM可以获得大幅度性能提升的关键因素。由于说话时的协同发音的影响,语音是一种各帧之间相关性很强的复杂时变信号,正要说的字的发音和前后好几个字都有影响,并且影响的长度随着说话内容的不同而时变。虽然采用拼接帧的方式可以学到一定程度的上下文信息,但是由于DNN输入的窗长(即拼接的帧数)是事先固定的,因此DNN的结构只能学习到固定的输入到输入的映射关系,导致其对时序信息的更长时相关性的建模灵活性不足。

2.3递归神经网络在声学模型中的应用

语音信号具有明显的协同发音现象,因此必须考虑长时相关性。由于循环神经网络(recurrentneuralnetwork,RNN)具有更强的长时建模能力,使得RNN也逐渐替代DNN成为语音识别主流的建模方案。DNN和RNN的网络结构如图2所示,RNN在隐层上增加了一个反馈连接,是其和DNN最大的不同。这意味着RNN的隐层当前时刻的输入不但包括了来自上一层的输出,还包括前一时刻的隐层输出,这种循环反馈连接使得RNN原则上可以看到前面所有时刻的信息,这相当于RNN具备了历史记忆功能。对于语音这种时序信号来说,使用RNN建模显得更加适合。

但是,传统的RNN在训练过程中存在梯度消失的问题,导致该模型难以训练。为了克服梯度消失问题,有研究人员提出了长短时记忆(long-shorttermmemory,LSTM)RNN[19]。LSTM-RNN使用输入门、输出门和遗忘门来控制信息流,使得梯度能在相对更长的时间跨度内稳定地传播。双向LSTM-RNN(BLSTM-RNN)对当前帧进行处理时,可以利用历史的语音信息和未来的语音信息,从而容易进行更加准确的决策,因此也能取得比单向LSTM更好的性能提升。

尽管双向LSTM-RNN的性能更好,但它并不适合实时系统,由于要利用较长时刻的未来信息,会使得该系统具有很大时延,主要用于一些离线语音识别任务。基于此,研究人员提出了延迟受控BLSTM(latencycontrol-BLSTM)[20]和行卷积BLSTM等模型结构,这些模型试图构建单向LSTM和BLSTM之间的折中:即前向LSTM保持不变,针对用来看未来信息的反向LSTM做了优化。在LC-BLSTM结构中,标准的反向LSTM被带有最多N帧前瞻量的反向LSTM替代,而在行卷积模型中被集成了N帧前瞻量的行卷积替代。

2.4基于FSMN的语音识别系统

目前国际上已经有不少学术或工业机构在进行RNN架构下的研究。目前效果最好的基于BLSTM-RNN的语音识别系统存在时延过大的问题,这对于实时的语音交互系统(如语音输入法),并不合适。尽管可以通过LC-BLSTM和行卷积BLSTM将BLSTM做到实时语音交互系统,由于RNN具有比DNN更加复杂的结构,海量数据下的RNN模型训练需要耗费大量的时间。最后,由于RNN对上下文相关性的拟合较强,相对于DNN更容易陷入过拟合的问题,容易因为训练数据的局部问题而带来额外的异常识别错误。

为了解决以上问题,科大讯飞结合传统的DNN框架和RNN的特点,研发出了一种名为前馈型序列记忆网络(feed-forwardsequentialmemorynetwork,FSMN)的新框架[21],具体如图3所示。FSMN的结构采用非循环的前馈结构,只需要180ms的时延,就达到了和BLSTM-RNN相当的效果。

FSMN的结构示意如图3(a)所示,其主要是基于传统DNN结构的改进,在DNN的隐层旁增加了一个“记忆模块”,这个记忆模块用来存储对判断当前语音帧有用的语音信号的历史信息和未来信息。图3(b)画出了记忆模块左右各记忆N帧语音信息的时序展开结构。需记忆的历史和未来信息长度N可根据实际任务的需要来调整。FSMN记忆块的记忆功能是使用前馈结构实现的,这点有别于传统的基于循环反馈的RNN模型。采用这种前馈结构存储信息有两大好处:首先,传统双向RNN必须等待语音输入结束才能对当前语音帧进行判断,双向FSMN对未来信息进行记忆时只需要等待有限长度的未来语音帧即可,这个优点使得FSMN的时延是可控的。实验证明,使用双向FSMN结构,时延控制在180ms时就能取得和传统双向RNN相当的效果;其次,传统简单的RNN实际并不能记住无穷长的历史信息,而是只能记住有限长的历史信息,原因是其训练过程中存在梯度消失的问题。然而FSMN的记忆网络完全基于前馈展开,在模型训练过程中,梯度则沿着记忆块与隐层的连接权重(如图3所示)往回传给各个时刻,对判断当前语音帧的影响的信息通过这些连接权重来决定,而且这种梯度传播是可训练的,并且在任何时刻都是常数衰减,以上的实现方式使得FSMN也具有了类似LSTM的长时记忆能力,这相当于使用了一种更为简单的方式解决了传统RNN中的梯度消失问题。另外,由于FSMN完全基于前馈神经网络结构,也使得它的并行度更高,GPU计算能力可利用得更加充分,从而获得效率更高的模型训练过程,并且FSMN结构在稳定性方面也表现得更加出色。

2.5基于卷积神经网络的语音识别系统

卷积神经网络(convolutionalneuralnetwork,CNN)的核心是卷积运算(或卷积层),是另一种可以有效利用长时上下文语境信息的模型[22]。继DNN在大词汇量连续语音识别上的成功应用之后,CNN又在DNN-HMM混合模型架构下被重新引入。重新引入CNN最初只是为了解决频率轴的多变性[23-26]来提升模型的稳定性,因为该混合模型中的HMM已经有很强的处理语音识别中可变长度话语问题的能力。早期CNN-HMM模型仅使用了1~2个卷积层,然后和全连接DNN层堆叠在一起。后来,LSTM等其他RNN层也被集成到了该模型中,从而形成了所谓的CNN-LSTM-DNN(CLDNN)[27]架构。

基于CNN-HMM框架的语音识别吸引了大量的研究者,但是始终鲜有重大突破,最基本的原因有两个:首先是他们仍然采用固定长度的语音帧拼接作为输入的传统前馈神经网络的思路,导致模型不能看到足够的上下文信息;其次是他们采用的卷积层数很少,一般只有1~2层,把CNN视作一种特征提取器来使用,这样的卷积网络结构表达能力十分有限。针对这些问题,科大讯飞在2016年提出了一种全新的语音识别框架,称为全序列卷积神经网络(deepfullyconvolutionalneuralnetwork,DFCNN)。实验证明,DFCNN比BLSTM语音识别系统这个学术界和工业界最好的系统识别率提升了15%以上。基于DFCNN语音识别框架示意如图4所示。

如图4所示,DFCNN先对时域的语音信号进行傅里叶变换得到语音的语谱图,DFCNN直接将一句语音转化成一张图像作为输入,输出单元则直接与最终的识别结果(比如音节或者汉字)相对应。DFCNN的结构中把时间和频率作为图像的两个维度,通过较多的卷积层和池化(pooling)层的组合,实现对整句语音的建模。DFCNN的原理是把语谱图看作带有特定模式的图像,而有经验的语音学专家能够从中看出里面说的内容。

为了理解DFCNN的优势所在,下面从输入端、模型结构和输出端3个角度更具体地分析。首先,在输入端,传统语音识别系统的提取特征方式是在傅里叶变换后用各种类型的人工设计的滤波器,比如LogMel-FilterBank,造成在语音信号频域,尤其是高频区域的信息损失比较明显。另外,传统语音特征采用非常大的帧移来降低运算量,导致时域上的信息会有损失,当说话人语速较快的时候,这个问题表现得更为突出。而DFCNN将语谱图作为输入,避免了频域和时域两个维度的信息损失,具有天然的优势。其次,从模型结构上来看,为了增强CNN的表达能力,DFCNN借鉴了在图像识别中表现最好的网络配置,与此同时,为了保证DFCNN可以表达语音的长时相关性,通过卷积池化层的累积,DFCNN能看到足够长的历史和未来信息,有了这两点,和BLSTM的网络结构相比,DFCNN在顽健性上表现更加出色。最后,从输出端来看,DFCNN比较灵活,可以方便地和其他建模方式融合,比如和连接时序分类模型(connectionisttemporalclassification,CTC)方案结合,以实现整个模型的端到端声学模型训练。DFCNN语音识别框架可以方便地和其他多个技术点结合,实验证明,在数万小时的中文语音识别任务上,和目前业界最好的语音识别框架BLSTM-CTC系统相比,DFCNN系统获得了额外15%的性能提升。

2.6大规模语音数据下神经网络声学模型的训练

相比于传统的GMM-HMM系统,基于DNN-HMM语音识别系统取得了巨大的性能提升[28,29]。但是DNN声学模型的训练却非常耗时。举个例子,在一个配置为E5-2697v4的CPU上进行2万小时规模的语音数据的声学模型训练,大概需要116天左右才能训练完。造成这种情况的潜在原因是将随机梯度下降(stochasticgradientdescent,SGD)算法作为神经网络训练中的基本算法,SGD算法收敛相对较慢,而且是一个串行算法,很难进行并行化训练。而目前工业界主流的语音识别系统涉及的训练数据一般为几千小时甚至几万小时级别,因此,提高在大规模语音数据下深度神经网络的训练速度和训练效率,也成为了研究热点和必须解决的问题。

由于深度神经网络的模型参数非常稀疏,利用这个特点,参考文献[30]将深度神经网络模型中超过80%的较小参数都设置为0,几乎没有性能损失,同时模型尺寸大大减少,但是训练时间并没有明显减小,原因是参数稀疏性带来的高度随机内存访问并没有得到太多的优化。进一步地,参考文献[31]提出在深度神经网络中,用两个低秩矩阵的乘积表示权重矩阵,实现了30%~50%的效率提升。

通过使用多个CPU或者GPU并行训练来解决神经网络训练效率是另外一种可行的方法。参考文献[32,33]的方式是:把训练数据分成许多小块后并行地送到不同的机器来进行矩阵运算,从而实现并行训练。参考文献[34]的优化方案是:在模型的每遍迭代中,先将训练数据分成N个完全不相交的子集,然后在每个子集中训练一个sub-MLP,最后把这些sub-MLP进行合并网络结合。为了进一步提升并行效率,参考文献[35]在上千个CPU核的计算集群实现了这种方式,深层网络的训练主要是利用异步梯度下降(asynchronousSGD)算法。参考文献[36]将异步梯度下降算法应用到了多个GPU中。在参考文献[37]中,一种管道式的BP算法被提了出来,该方法利用不同的GPU单元来计算神经网络中不同层,实现并行训练的效果。实验证明,相对使用单个GPU训练,该方法通过使用4个GPU实现了3.1倍左右的效率提升。然而,不同计算单元之间极其频繁的数据传递成为该类方法提升训练效率的主要瓶颈。为此,为了更好地实现神经网络并行训练,一种新的基于状态聚类的多深层神经网络建模方法[38]被提出,该方法先将训练数据在状态层面进行聚类,在状态层面进行不相交的子集划分,使得不同计算单元神经网络之间的数据传递规模大幅度减小,从而实现每个神经网络完全独立的并行训练。使用4块GPU,在聚类数为4类的情况下,在SWB(SwitchBoard)数据集上的实验表明,这种状态聚类的多神经网络方法取得了约4倍的训练效率提升。

3语音识别语言模型中深度神经网络的应用

深度学习理论除了在声学模型建模上获得了广泛的应用外,在语音识别系统另外的重要组件——语言模型上也得到了应用。在深度神经网络普及之前,语音识别系统主要采用传统的统计语言模型N-gram模型[39]进行建模。N-gram模型也具备明显的优点,其结构简单且训练效率很高,但是N-gram的模型参数会随着阶数和词表的增大而指数级增长,导致无法使用更高的阶数,性能容易碰到瓶颈,在训练语料处于相对稀疏的状态时,可以借助降权(discounting)和回溯(backing-off)等成熟的平滑算法解决低频词或不可见词的概率估计问题,以获得比较可靠的模型估计。

在20世纪初,一些浅层前馈神经网络被用于统计语言模型建模[40]。神经网络语言模型是一种连续空间语言模型,平滑的词概率分布函数使得它对于训练语料中的低频词和不可见词的概率估计更为顽健,具有更好的推广性,在语音识别任务上也取得了显著的效果[41]。最近几年,相关研究人员也将深层神经网络用于语言模型建模,并取得了进一步的性能提升[42]。

然而,前馈神经网络语言模型只能够处理固定长度的历史信息,其仍然存在N阶假设,即在预测当前词概率的时候只与之前N-1个词有关,这在一定程度上影响了模型的准确性。实际上,人类能够记忆和处理的历史信息要长久得多,而标准的RNN正好能够通过循环网络结构记忆和处理任意长度的历史信息,因此参考文献[43]将RNN引入语言模型建模中。RNN相比于前馈神经网络取得了更好的性能。然而,由于基于RNN的深层网络的复杂特性,模型的训练训练依旧非常耗时,在大文本(100GB~1TB)语料上几乎不可实现。参考文献[44]提出在GPU上将多个句子拼接为数据组(mini-batch)同时参与训练,大幅度地提升了RNN的训练效率。科大讯飞基于参考文献[45]的方法进一步改进,将RNN的输出层基于词聚类进行了分解,在中文LVCSR任务上获得了50倍以上的训练效率提升。在提高训练效率的基础上,RNN模型相对于传统N-gram模型也获得了5%以上的识别效果提升,这也进一步验证了RNN的有效性。参考文献[46]提出了基于LSTM(longshort-termmemory)的RNN语言模型结构,通过对网络结构的调整,有效解决了RNN语言模型训练中存在梯度消失(gradientvanishing)的问题[47],并获得了一定的性能提升。

4深度学习、大数据和云计算之间的关系

基于深度学习的语音识别技术在21世纪初走向舞台的中央,并不只是由于深度学习类机器学习算法的进步,而是大数据、云计算和深度学习这3个要素相互促进的结果。

不同于之前GMM-HMM语音识别框架表达能力有限、效果对于大规模数据易饱和的情况,深度学习框架所具备的多层非线性变换的深层结构,则具有更强的表达与建模能力,使得语音识别模型对复杂数据的挖掘和学习能力得到了空前的提升,使得更大规模的海量数据的作用得以充分的发挥。大数据就像奶粉一样,“哺育”了深度学习算法,让深度学习算法变得越来越强大。

随着移动互联网、物联网技术和产品的普及,更重要的是采用云计算的方式,使得多种类型的海量数据得以在云端汇集。而对大规模的数据的运算的要求则又显著提升了对于云计算方式的依赖,因此云计算成为了本次深度学习革命的关键推手之一。

深度学习框架在云端的部署,则显著增强了云计算的能力。

正是由于深度学习、大数据和云计算三者的相互促进,才成就了本次语音技术的进步,成就了本次人工智能的浪潮。

5总结和展望

本文对语音识别领域的研究状况和最近几年的关键突破性技术做了比较详细的介绍。首先简要回顾了语音识别技术发展的历史,然后重点介绍了深度神经网络在语音识别声学模型建模中起到的引领作用,也介绍了各种形态(包括LSTM、FSMN、DFCNN等)的关键技术突破。相关研究证明,和传统的GMM-HMM框架相比,深度学习在大词汇量连续语音识别任务方面取得了30%~60%的性能提升。也介绍了深度声学模型训练的优化方法以及RNN在语言模型建模中的应用,在语言模型领域同样能取得比传统N-gram语言模型5%以上的识别效果提升。毫不夸张地说,深度学习技术的确给语音识别的研究和应用带来了革命性的历史突破。

语音识别技术进一步的研究热点方向应该包含以下几个。

首先是端到端的语音识别系统。在目前DNN-HMM的混合框架下,声学模型中DNN、HMM两个部分以及语言模型都是单独训练的。然而语音识别是一个序列识别的任务,如果能够对声学模型的各个部分以及语言模型进行联合优化,并且去除类似于发音词典等所有需要人工来设计的组件,必定能取得更进一步的效果提升。目前在声学模型建模领域已经出现了端到端的模型应用,即将声学模型中的各个组件做联合优化,且优化目标是输出的词或音素序列,而不是使用交叉熵(crossentropy,CE)准则来优化一帧一帧的标注,比如连接时序分类准则(CTC)被引入[48-50],并且在多个任务上取得了一定的效果。另外,受到CTC的启发,一种被称为无词图最大互信息(latticefreemaximummutualinformation,LFMMI)的准则被提出,可以实现从头训练的深度神经网络,不需要使用交叉熵做网络的初始化。但是无论是CTC还是LFMMI,都不能称为真正的端到端语音识别模型,它们仍需要发音词典、语言模型等组件,需要大量的专家知识来辅助设计。受到在翻译领域成功应用的Attention模型的启发[51,52],Encoder-Decoder框架已经不明确区分声学模型和语言模型,并且完全不需要发音词典等人工知识,可以真正地实现端到端的建模。Encoder-Decoder框架的模型训练难度很大并且收敛比较缓慢,目前Google(谷歌)和科大讯飞在新一代端到端框架下已经取得了正面的效果提升,后面应该会吸引更多的研究机构和学者进入该领域进行研究。

其次,直接利用时域波形语音建模来代替人工设计的特征(比如LogMel-FilterBank等)。主要原因是原始的时域波形文件中的信息量是最丰富的,在通过人工设计提取一些特征的同时也会抛弃一些信息,这些信息对于噪声较大等复杂场景识别十分重要。研究人员也在这个领域进行了相关的工作[53,54],但是只取得了与人工设计特征相当的效果。科大讯飞最新的研究成果证明,直接利用时域波形来建模在多个任务上都取得了10%以上的识别效果提升,并且认为该方面仍然会有巨大的提升潜力。

最后,利用多个麦克风信号和深度学习来联合建模,用来提升远场环境下的语音识别效果的研究也是近期和长期的热点,但是如何将深度学习对于离线大数据的学习能力和传统的信号处理对于瞬时信号处理能力结合起来,仍需要很多的研究工作要做。

参考文献

[1]DAVISK.H,BIDDULPHR,BALASHEKS.Automaticrecognitionofspokendigits[J].JournaloftheAcousticalSocietyofAmerica,1952,24(6):637.

[2]FERGUSONJD.ApplicationofhiddenMarkovmodelstotextandspeech[EB].1980.

[3]RABINERLR.AtutorialonhiddenMarkovmodelsandselectedapplicationsinspeechrecognition[J].ReadingsinSpeechRecognition,1990,77(2):267-296.

[4]LEEEKFLM.AnoverviewoftheSPHINXspeechrecognitionsystem[J].IEEETransactionsonAcousticsSpeech&SignalProcessingSpeech,1990,38(1):35-45.

[5]WAIBELA,HANAZAWAT,HINTONG.Phonemerecognitionusingtime-delayneuralnetworks[J].IEEETransactionsonAcoustics,Speech,andSignalProcessing,1990,1(2):393-404.

[6]YOUNGS,EVERMANNG,GALESM,etal.TheHTKbook[EB].2005.

[7]HINTONGE,OSINDEROS,TEHYW.Afastlearningalgorithmfordeepbeliefnets[J].NeuralComputation,2006,18(7):1527-1554.

[8]MOHAMEDAR,DAHLG,HINTONG.Deepbeliefnetworksforphonerecognition[EB].2009.

[9]YUD,DENGL.Deeplearninganditsapplicationstosignalandinformationprocessing[J].IEEESignalProcessingMagazine,2011,28(1):145-154.

[10]DENGL.Anoverviewofdeep-structuredlearningforinformationprocessing[C]//Asian-PacificSignalandInformationProcessing-AnnualSummitandConference(APSIPA-ASC),October18,2011,Xi’an,China.[S.l.:s.n.],2011.

[11]BENGIOY.LearningdeeparchitecturesforAI[J].FoundationsandTrends®inMachineLearning,2009,2(1):1-127.

[12]HINTONGE.Trainingproductsofexpertsbyminimizingcontrastivedivergence[J].NeuralComputation,2002,14(8):1771-1800.

[13]BAKERJ,DENGL,GLASSJ,etal.Developmentsanddirectionsinspeechrecognitionandunderstanding[J].IEEESignalProcessingMagazine,2009,26(3):75-80.

[14]MOHAMEDAR,DAHLG,HINTONG.Deepbeliefnetworksforphonerecognition[EB].2009.

[15]SAINATHTN,KINGSBURYB,RAMABHADRANB,etal.Makingdeepbeliefnetworkseffectiveforlargevocabularycontinuousspeechrecognition[EB].2011.

[16]MOHAMEDA,DAHLGE,HINTONG.Acousticmodelingusingdeepbeliefnetworks[J].IEEETransactionsonAudio,Speech,andLanguageProcessing,2012,20(1):14-22.

[17]DAHLGE,YUD,DENGL,etal.Context-dependentpre-traineddeepneuralnetworksforlargevocabularyspeechrecognition[J].IEEETransactionsonAudio,Speech,andLanguageProcessing,2012,20(1):30-42.

[18]HINTONG,DENGL,YUD,etal.Deepneuralnetworksforacousticmodelinginspeechrecognition:thesharedviewsoffourresearchgroups[J].IEEESignalProcessingMagazine,2012,29(6):82-97.

[19]HOCHREITERS,SCHMIDHUBERJ.Longshort-termmemory[J].NeuralComputation,1997,9(8):1735-1780.

[20]ZHANGY,CHENGG,YUD,etal.Highwaylongshort-termmemoryRNNSfordistantspeechrecognition[C]//2016IEEEInternationalConferenceonAcoustics,SpeechandSignalProcessing,March20-25,2016,Shanghai,China.Piscataway:IEEEPress,2016.

[21]ZHANGSL,LIUC,JIANGH,etal.Feedforwardsequentialmemorynetworks:anewstructuretolearnlong-termdependency[J].arXiv:1512.08301,2015.

[22]LECUNY,BENGIOY.Convolutionalnetworksforimages,speechandtime-series[M].Cambridge:MITPress,1995.

[23]ABDEL-HAMIDO,MOHAMEDAR,JIANGH,etal.ApplyingconvolutionalneuralnetworksconceptstohybridNN-HMMmodelforspeechrecognition[C]//2012IEEEInternationalConferenceonAcoustics,SpeechandSignalProcessing,March20,2012,Kyoto,Japan.Piscataway:IEEEPress,2012:4277-4280.

[24]ABDEL-HAMIDO,MOHAMEDAR,JIANGH,etal.Convolutionalneuralnetworksforspeechrecognition[J].IEEE/ACMTransactionsonAudioSpeech&LanguageProcessing,2014,22(10):1533-1545.

[25]ABDEL-HAMIDO,DENGL,YUD.Exploringconvolutionalneuralnetworkstructuresandoptimizationtechniquesforspeechrecognition[EB].2013.

[26]SAINATHTN,MOHAMEDAR,KINGSBURYB,etal.DeepconvolutionalneuralnetworksforLVCSR[C]//2013IEEEInternationalConferenceonAcoustics,SpeechandSignalProcessing,May26-30,2013,Vancouver,BC,Canada.Piscataway:IEEEPress,2013:8614-8618.

[27]SAINATHTN,VINYALSO,SENIORA,etal.Convolutional,longshort-termmemory,fullyconnecteddeepneuralnetworks[C]//2015IEEEInternationalConferenceonAcoustics,SpeechandSignalProcessing,April19-24,Brisbane,QLD,Australia.Piscataway:IEEEPress,2015:4580-4584.

[28]SEIDEF,LIG,YUD.Conversationalspeechtranscriptionusingcontext-dependentdeepneuralnetworks[C]//InternationalConferenceonMachineLearning,June28-July2,2011,Bellevue,Washington,USA.[S.l.:s.n.],2011:437-440.

[29]DAHLGE,YUD,DENGL,etal.Largevocabularycontinuousspeechrecognitionwithcontext-dependentDBN-HMMs[C]//ICASSP,May22-27,2011,Prague,CzechRepublic.[S.l.:s.n.],2011:4688-4691.

[30]YUD,SEIDEF,LIG,etal.Exploitingsparsenessindeepneuralnetworksforlargevocabularyspeechrecognition[C]//ICASSP,March25-30,2012,Kyoto,Japan.[S.l.:s.n.],2012:4409-4412.

[31]SAINATHTN,KINGSBURYB,SINDHWANIV,etal.Low-rankmatrixfactorizationfordeepneuralnetworktrainingwithhigh-dimensionaloutputtargets[C]//ICASSP,May26-31,2013,Vancouver,BC,Canada.[S.l.:s.n.],2013:6655-6659.

[32]KONTÁRS.Paralleltrainingofneuralnetworksforspeechrecognition[C]//13thInternationalConferenceonText,SpeechandDialogue,September6-10,2010,Brno,CzechRepublic.NewYork:ACMPress,2006:6-10.

[33]VESELÝK,BURGETL,GRÉZLF.Paralleltrainingofneuralnetworksforspeechrecognition[C]//13thInternationalConferenceonText,SpeechandDialogue,September6-10,2010,Brno,CzechRepublic.NewYork:ACMPress,2006:439-446.

[34]PARKJ,DIEHLF,GALESMJF,etal.EfficientgenerationanduseofMLPfeaturesforArabicspeechrecognition[C]//Interspeech,ConferenceoftheInternationalSpeechCommunicationAssociation,September6-10,2009,Brighton,UK.[S.l.:s.n.],2009:236-239.

[35]LEQV,RANZATOMA,MONGAR,etal.Buildinghigh-levelfeaturesusinglargescaleunsupervisedlearning[J].arXivpreprintarXiv:1112.6209,2011.

[36]ZHANGS,ZHANGC,YOUZ,etal.AsynchronousstochasticgradientdescentforDNNtraining[C]//IEEEInternationalConferenceonAcoustics,June27-July2,2013,SantaClaraMarriott,CA,USA.Piscataway:IEEEPress,2013:6660-6663.

[37]CHENX,EVERSOLEA,LIG,etal.Pipelinedback-propagationforcontext-dependentdeepneuralnetworks[C]//13thAnnualConferenceoftheInternationalSpeechCommunicationAssociation,September9-13,2012,Portland,OR,USA.[S.l:s.n.],2012:429-433.

[38]ZHOUP,LIUC,LIUQ,etal.Acluster-basedmultipledeepneuralnetworksmethodforlargevocabularycontinuousspeechrecognition[C]//ICASSP,May26-31,2013,Vancouver,BC,Canada.[S.l.:s.n.],2013:6650-6654.

[39]JELINEKF.Thedevelopmentofanexperimentaldiscretedictationrecognizer[J].ReadingsinSpeechRecognition,1990,73(11):1616-1624.

[40]BENGIOY,DUCHARMER,VINCENTP.Aneuralprobabilisticlanguagemodel[J].JournalofMachineLearningResearch,2003(3):1137-1155.

[41]SCHWENKH,GAUVAINJL.Trainingneuralnetworklanguagemodelsonverylargecorpora[C]//ConferenceonHumanLanguageTechnology&EmpiricalMethodsinNaturalLanguageProcessing,October6-8,2005,Vancouver,BC,Canada.NewYork:ACMPress,2005:201-208.

[42]ARıSOYE,SAINATHTN,KINGSBURYB,etal.Deepneuralnetworklanguagemodels[C]//NAACL-HLT2012Workshop,June8,2012,Montreal,Canada.NewYork:ACMPress,2012:20-28.

[43]MIKOLOVT,KARAFIATM,BURGETL,etal.Recurrentneuralnetworkbasedlanguagemodel[C]//11thAnnualConferenceoftheInternationalSpeechCommunicationAssociation,September26-30,2010,Makuhari,Chiba,Japan.[S.l.:s.n.],2010:1045-1048.

[44]CHENX,WANGY,LIUX,etal.EfficientGPU-basedtrainingofrecurrentneuralnetworklanguagemodelsusingsplicedsentencebunch[EB].2014.

[45]MIKOLOVT,KOMBRINKS,BURGETL,etal.Extensionsofrecurrentneuralnetworklanguagemodel[C]//IEEEInternationalConferenceonAcoustics,May22-27,2011,Prague,CzechRepublic.Piscataway:IEEEPress,2011:5528-5531.

[46]SUNDERMEYERM,SCHLUTERR,NEYH.LSTMneuralnetworksforlanguagemodeling[EB].2012.

[47]BENGIOY,SIMARDP,FRASCONIP.Learninglongtermdependencieswithgradientdescentisdifficult[J].IEEETransactionsonNeuralNetworks,1994,5(2):157.

[48]SAKH,SENIORA,RAOK.Learningacousticframelabelingforspeechrecognitionwithrecurrentneuralnetworks[C]//2015ICASSP,April19-24,2015,Brisbane,QLD,Australia.[S.l.:s.n.],2015:4280-4284.

[49]SAKH,SENIORA,RAOK,etal.Fastandaccuraterecurrentneuralnetworkacousticmodelsforspeechrecognition[J].arXiv:1507.06947,2015.

[50]SENIORA,SAKH,QUITRYFDC,etal.AcousticmodellingwithCD-CTC-SMBRLSTMRNNS[C]//2015IEEEWorkshoponAutomaticSpeechRecognitionandUnderstanding(ASRU),December13-17,2015,Scottsdale,AZ,USA.Piscataway:IEEEPress,2015:604-609.

[51]BAHDANAUD,CHOK,BENGIOY.Neuralmachinetranslationbyjointlylearningtoalignandtranslate[J].arXiv:1409.0473,2014.

[52]MNIHV,HEESSN,GRAVESA,etal.Recurrentmodelsofvisualattention[C]//28thAnnualConferenceonNeuralInformationProcessingSystems,December8-13,2014,Montreal,Canada.[S.l.:s.n.],2014:2204-2212.

[53]TUSKEZ,GOLIKP,SCHLUTERR,etal.AcousticmodelingwithdeepneuralnetworksusingrawtimesignalforLVCSR[EB].2014.

[54]SAINATHTN,WEISSRJ,SENIORAW,etal.Learningthespeechfront-endwithrawwaveform[EB].2015.

责任编辑:路明玉

分享到:版权声明:凡注明来源“流媒体网”的文章,版权均属流媒体网所有,转载需注明出处。非本站出处的文章为转载,观点供业内参考,不代表本站观点。文中图片均来源于网络收集整理,仅供学习交流,版权归原作者所有。如涉及侵权,请及时联系我们删除!

语音识别论文(优秀范文6篇),计算机应用技术论文

语音识别论文(优秀范文6篇)来源:未知作者:王老师发布于:2021-07-08共7940字   本篇论文目录导航:

【第1-2篇】语音识别论文(优秀范文6篇)【第3篇】基于语音识别的智能垃圾桶的系统设计方案【第4篇】4款主流变声软件的伪装语音进行对比研究【第5篇】声纹识别和语音识别在公安实战中的应用【第6篇】广播电视监测中语音识别技术的运用探析

多媒体应用时代的到来,各项新技术应运而生,一直在被研究的语音识别技术也被更加广泛地应用在实际生活中。下面是搜素整理的语音识别论文6篇,供大家参考阅读。

语音识别论文第一篇:基于语音识别的智慧分类垃圾桶研究

摘要:传统的智慧垃圾桶往往只采用红外传感器检测是否有人接近,当人体接近了垃圾桶,就会自动打开垃圾桶的翻盖,这样的垃圾桶不仅无法完成垃圾分类功能,也无法有效防止病毒传播。因此,旨在实现一个可以自动垃圾分类的智慧垃圾桶,该垃圾桶基于微控制器和语音识别技术,其工作过程为:首先,非特定人语音识别芯片LD3320不断检测外界语音输入并进行语音识别,接着Arduino微控制器再根据识别结果判断该垃圾所属的分类,最后指挥舵机打开相应垃圾桶的盖子。智慧分类垃圾桶不仅可以助力垃圾分类政策的实施,解决人们困扰的垃圾分类问题,而且可为疫情期间无接触式垃圾投放提供技术保障。

关键词:物联网;语音识别;智慧分类垃圾桶;Arduino;单片机;垃圾分类;舵机;

Abstract:Thepurposeofthispaperistoimplementagarbageclassificationofwisdomcanautomatically,thetrashbinisbasedonmicrocontrollerandvoicerecognitiontechnology,itsworkingprocessis:first,speaker-independentspeechrecognitionchipLD3320continuouslydetecttheoutsidevoiceinputandvoicerecognition,thentheArduinomicrocontrolleraccordingtoclassification,theresultconcludesthatthetrashbelongsthelastcommandsteeringgearopenthelidofthecorrespondingtrashcan.Intelligentgarbagecanscannotonlyhelptheimplementationofgarbageclassificationpolicies,solvetheproblemofgarbageclassificationthatpeoplearetroubledby,butalsoprovideasafetyguaranteeforthecontactlessgarbagedeliveryduringtheepidemic.

1智慧垃圾桶简介

2017年,我国颁布了《生活垃圾分类制度实施方案》,这一举措对维护生态系统平衡、改善城乡环境、促进资源回收利用都具有重要意义,该方案将垃圾分为厨余(易腐)垃圾、有害垃圾、可回收垃圾和其它垃圾四类。但是,居民常为繁杂的垃圾分类问题而犯难,为此,本项目旨在应用语音识别和单片机技术实现一个自动分类的智能感知垃圾桶,居民只需面对智慧垃圾桶,说出要扔垃圾的名称,智慧垃圾桶就可以识别语音输入并进行语音识别,进而区分出该垃圾所属的类别,最后自动打开该类垃圾的翻盖。

传统的智能垃圾桶大都基于人体红外感应传感器,它实现的基本原理是:微型控制芯片通过红外传感器的感应检测是否有人靠近,当有人接近时,微型控制芯片就指挥传动装置打开垃圾桶的桶盖,延时一段时间后,再自动关闭垃圾桶的桶盖。但是,由于红外传感器的传感检测距离往往不足1m,所以这种垃圾桶不但无法有效地解决垃圾分类投递问题,也不能有效地防止垃圾桶附近细菌和病毒的传播。

基于语音识别技术的智慧分类垃圾桶,不仅可以帮助居民方便快捷地完成垃圾分类,同时也能有效减少因交叉触摸引起的病毒传播,实现了疫情期间无接触式的垃圾投递,进而为疫情防控提供了更多安全保障。

智慧分类感知垃圾桶是一种以单片机技术为基础,运用微控制器、传动装置以及各种传感器技术的智能设备,相比传统的垃圾桶,智慧分类垃圾桶是一种新型智能产品,实现了无接触式垃圾投放与分类。此外,它还可以结合其它智能设备应用于各种场景,比如结合智慧灯、智慧窗帘、智慧加湿器等组成智能家居系统;结合智慧ETC设备、超声波测距仪等设备构成智慧停车场等。总之,智慧垃圾桶在构建智慧城市、创建文明城市等方面发挥着重要作用。

智慧分类感知垃圾桶的主要结构为:ArduinoUNO微控制芯片分别连接一块LD3320语音识别模块和四个舵机。首先,语音识别模块不断检测外界环境中居民说出的垃圾名称拼音串,比如,香蕉皮、电池、纸片、玻璃等,并进行语音识别,并把识别结果传给微控制器芯片,接着微控制器根据识别结果判断垃圾所属的分类,最后指挥舵机打开相应垃圾桶的翻盖,等待延时一定的时间(人投递垃圾需要的时间)后再指挥舵机自动关闭该垃圾桶的桶盖。

下面分别说明智慧分类垃圾桶四个模块及其功能:

1)ArduinoUNO开发板:智慧分类垃圾桶的核心模块,相当于智慧垃圾桶的大脑。ArduinoUNO微控制器可以脱机独立运行可执行文件,它指挥智慧垃圾桶有序地进行工作:即先调用语音识别模块不断监测外界的语音输入并识别结果,再根据输入的识别结果完成判断分类,最后指挥四个舵机之一打开垃圾桶的翻盖。

2)语音识别模块:智慧分类垃圾桶的AI(人工智能)模块,相当于智慧垃圾桶的感知耳朵。语音识别模块可以根据外界的自然语言输入进行语音识别,并将识别结果传给Arduino开发板。

3)舵机模块:智慧分类垃圾桶的动作执行模块,相当于智慧垃圾桶的手臂。本文使用四个舵机分别置于四种不同的垃圾桶上,它可以接收ArduinoUNO开发板的动作指令,自动打开垃圾桶的翻盖,当垃圾投递结束后,再关闭垃圾桶的翻盖。

4)垃圾桶外壳:智慧分类垃圾桶的载体。厨余垃圾、有害垃圾、可回收垃圾和其它垃圾,共四类垃圾分别对应四种不同的垃圾桶。

2ArduinoUNO微控制芯片

Arduino是一种开源的微控制处理单元,它是一个基于ATmega328P(也称为单片机)微控制器的开发板。Arduino单片机使用简单、且非常灵活,已成为众多物联网应用(诸如智慧交通、智能家居、智慧农业、智慧城市等)的首选微控制器。本文应用ArduinoUNO板实现了一个智慧垃圾桶,首先,单片机指挥非特定人语音识别芯片LD3320开始语音识别,再根据识别结果指挥舵机打开智慧分类垃圾桶的翻盖,从而完成垃圾分类投递的功能。

ArduinoIDE提供给用户两个主要函数,其中第一个函数setup()用来完成程序的初始化功能,它被首先执行且只执行一次,本文在setup()函数中完成的功能有:首先串口通信初始化,将波特率设置为9600bps;再初始化四个舵机对象,并指定其连接的ArduinoUNO板引脚;接着利用第三方类库实例出一个语音识别对象,调用其函数init()进行初始化,并利用函数addCommand()添加数条命令,最后,指挥语音识别对象开始语音识别。

ArduinoIDE提供给用户的第二个函数loop()是要被后执行的,且会被反复执行无数次。主要用来判断语音识别的结果,并利用之前添加的数条命令来判断垃圾所属的种类,最后指挥舵机打开或者关闭相应垃圾桶的翻盖。

3自动语音识别芯片LD3320

语音识别模块采用的是由ICRoute公司生产的非特定人语音识别芯片LD3320。LD3320芯片共48个引脚,是一款专用的语音识别芯片,该芯片集成了一块专用DSP(DigitalSignalProcessing)电路,即语音识别处理电路和一些外围电子电路,主要用于完成语音交互功能。非特定人语音识别芯片LD3320通过特有的快速而稳定的算法来完成语音识别功能,它不需要用户事先准备录音和训练,识别率高达95%。LD3320芯片既不需要外接加密芯片、存储芯片等辅助芯片,也不需要运行自然语言处理的相关软件。LD3320芯片可以结合现有产品来完成语音识别、语音合成以及人机对话等功能,另外它可以识别的关键词列表是可以动态编辑的,非常灵活。LD3320芯片可以集成到微控制器作为主控芯片的电子产品系统中,实现基于自然语言处理的各种各样的功能,帮助微控制芯片具备感知外界语音输入的能力,相当于赋给微控制器一个感知耳朵。

本文中,语音识别模块的功能是将自然语言中的词语拼音串转化成微控制器ArduinoUNO可读的输入内容,具体识别原理和过程如图1所示。

图1语音识别原理图  

非特定人语音识别芯片LD3320为Arduino提供了一个第三方类库Voice-Recognition,包含了众多的语音前端处理处理、语音识别等函数。其中,init()函数可以启用非特定人语音识别芯片LD3320并完成语音识别对象的初始化功能;start()函数用于控制开始进行语音识别;addCommand()函数有2个参数,分别用于添加识别命令和指令编号。此外,VoiceRecognition库还提供了很多其它函数,分别用于语音识别中调整增益、设置最长语音时段、调整端点检测起始和结束时间等。非特定人语音识别芯片LD3320使用SPI(SerialPeripheralInterface,串行外设接口)接口与ArduinoUNO板通信,SPI将引脚简化为4个,可以实现LD3320与ArduinoUNO单片机进行全双工的同步串行高速数据通信。

4舵机Servo

智慧分类垃圾桶的翻盖运动就是靠舵机来完成的,它位于垃圾桶的翻盖处,当智慧垃圾桶需要进行翻盖时,ArduinoUNO板指挥舵机旋转180°从而打开垃圾桶的盖子。

舵机是由电机、控制电路芯片和变速齿轮组成的传动装置,它是一种可以转动一定角度(0°到180°)并保持住的特殊电机。在其组成结构中,电机用于提供动力,变速齿轮用于减速以提供足够的力矩。舵机的控制信号属于PWM(PulseWidthModulation脉冲宽度调制)信号,因此可以根据方波脉冲的占空比来调节舵机旋转任意的角度。

ArduinoUNO板的PWM输出引脚共有6个,即3、5、6、9、10、11。本文实现的智慧分类垃圾桶共有4种垃圾,分别对应4个垃圾桶,因此需使用4个舵机分别置于4个垃圾桶上。接线时,可将ArduinoUNO板的6个模拟输入引脚中的任意4个分别连接到4个舵机上。然后,ArduinoIDE利用舵机自带的Servo库声明了4个舵机对象,分别用于控制4个垃圾桶的翻盖,当判断识别结果属于某一类垃圾时,再利用相应对象的write(180)函数指挥舵机旋转180°,打开垃圾桶的翻盖,最后经过一段时间的延时后(这段时间内人有充足的时间完成垃圾的投递动作,一般为2s),再利用相应对象的write(0)函数,指挥舵机旋转0°以自动关闭垃圾桶的翻盖。

5结束语

本文运用ArduinoUNO开发板作为微控制芯片,结合非特定人语音识别芯片LD3320,使用舵机作为传动装置,设计并实现了一个智慧分类垃圾桶。首先,该垃圾桶利用非特定人语音识别芯片LD3320接收1m外距离的语音输入拼音串,再利用ArduinoUNO来判断该拼音串所属的垃圾分类,最后,微控制器指挥舵机自动打开相应垃圾桶的翻盖。这样的垃圾桶为垃圾分类提供了人性化的服务,同时也为疫情防控期间减少交叉感染提供了帮助。

参考文献

[1]王和平.智能红外线自动垃圾桶设计[J].承德石油高等专科学校学报,2011(3):40-43

[2]刘遥生.红外感应自动翻盖垃圾桶[J].电子制作,2006(5):37-38

[3]郭建军,林丽君,等.于声音识别的智能声控垃圾桶[J].科学技术创新,2020(3):95-96

[4]孟稳粪凯洋.基于Arduino的家用智能垃圾桶设计[J].工业控制计算机,2020,33(4):121-122,135

[5]苏鹏,周风余,陈磊.基于STM32的嵌入式语音识别模块设计[J].单片机与嵌入式系统应用,2011,11(2):42-45

[6]潘朝,罗小巧,黄佳,等.基于GSM短信的智能家居控制系统的设计[J].电子测量技术,2013,36(6):121-124

[7]周艳萍.机器人嵌入式语音识别系统设计与开发[D].广州:华南理工大学,2012

[8]基于Arduino的嵌入式系统入门与实践[D].北京:人民邮电出版社,2020

[9]周宇辉,何志琴,胡娟,等.基于OpenMV垃圾分类的智能垃圾桶系统设计[J].智能计算机与应用,2020(10):71-75

[10]刘鹏,李进.基于LM3S811芯片的“应声而来智能家居垃圾桶[J].电子器件,2014(4):737-741

语音识别论文第二篇:基于云端处理的语音识别智能音响的设计与研究

摘要:本文设计与研究了基于云端处理的语音识别智能音箱,通过云端人工智能语音交互技术,采用SDK开发及功能界面,实现多场景下云端处理的语音识别,现有传统音响产品升级,推动智能音响在消费电子领域发展,在提供高品质音质的同时,进行独特化音响产品的设计。语音识别技术就是让智能设备听懂人类的语音。这项技术可以提供比如自动语音翻译、命令控制等多项应用。人工智能的兴起,语音识别技术在理论和应用方面都取得大突破,已逐渐走进我们的日常生活。语音识别技术的发展,准确率与响应时间将突破量变到质变的临界点,驱动语音交互产品渗透率迅速提升。

关键词:语音交互;云端处理;智能音响;

1概述

近年来,智能家居市场迎来了爆发期。公开数据显示,2020年中国智能家居市场规模达到了1820亿元左右,智能家居的设备出货量突破了2.15亿台。随着技术的变更,预测在2023年全球智能家居设备出货量将达到13.9亿台,中国智能家居市场为5亿台。

语音识别是解决机器“听懂”人类语言的一项技术。所谓听懂,有两层意思,一是直译,把用户所说的话直接转换成文本;二是义译,正确理解语音中所包含的要求,并作出正确的应答。无论是Siri、Echo,还是其他的智能语音助手都可以接触和管理消息。需要注意的是,智能音箱不再只是单一的智能硬件,它将在更多的应用层面与使用场景落地。

根据市场分析可知如今电视设计的趋势是超薄、窄边框、大尺寸屏幕,而内置喇叭和腔体容积却越来越小,因此搭配超薄平板电视的超薄、小体积及高保真条状电视音响系统必将成为今后主流的家庭音响,具有广阔的市场前景。

本文设计与研究了基于云端处理的语音识别智能音箱,在功能上支持模拟输入、S/PDIF输入、HDMI、HDMIARC、HDMIeARC、Bluetooth和Wi-Fi等功能,方便构建连接并使用。通过自主研发的声学采集处理系统,采用全新的心理声学音频信号处理技术(MAP-Audio),以及完整的DSP算法和DRC调控技术,通过对频率响应和动态范围缺陷的补偿,针对扬声器的声学限制、高噪音背景,线性人类感知做补偿,改善声音质量;从而彰显语音识别智能音响的声音优势。

2基于云端处理的语音识别智能音响设计

本文所设计的基于云端处理的智能音响如图1所示,对ATMOS的处理芯片、杜比数字实时编码(DolbyDigitalLive)技术,实现在无线智能音响、语音交互智能电视与机顶盒、语音控制装置、远程音频拾取、游戏控制台,智能家居和物联网模组、车载免提控制与通信上的应用。

2.1云端语音信号处理方案

人机对话系统共有六个主要部分,包括有语音识别器、自然语言解析器、问题求解器、语言生成器、语言合成器和对话管理器。

如图2所示的人机交互过程中,语音识别、语义理解、语音合成部分决定着用户体验,因此如何准确的识别并且自然的反馈,成为智能音箱语音交互设计的核心问题。

2.1.1语音识别ASR-AutomaticSpeechRecognition

是将声音转化成文字的过程,相当于耳朵。通常语音识别有两种方法:

图1:基于云端智能音箱设计框图  

图2:人机交互过程  

(1)隐马尔可夫模型(HMM-HiddenMarkovModel),“传统”的识别方法,一般采用较多;

(2)基于深度神经网络的“端到端”方法,使用相对较少。

2.1.2语义理解NLP-NaturalLanguageProcessing

NLP是语音交互中最核心,也是最难的模块。是实现智能语音交互的关键部分,决定着机器是否可以理解用户真实意图和实际需求。

NLP主要涉及的技术有:文本预处理、词法分析、语义理解、分词、文本分类、文本相似度处理、情感倾向分析、文本生成等等。举个例子,在处理文本时,会发现有大量的同音错别字,怎么样让机器知道这些错别字,并且改过来呢,也是NLP的一大难点。

图3:基于云端处理的语音识别智能音响  

2.1.3语音反馈TTS-TextToSpeech

实现TTS,目前比较成熟的有两种方法:“拼接法”和“参数法”。

2.2数字音频DSP处理方案

本方案采用CS49844音频DSP进行基于云端处理的一代环绕声的应用提供高容量处理。数字信号处理器(DSP)支持所有传统DVD音频编解码器和所有Blu-rayDisc?音频格式,并且拥有足够的数字信号处理器(DSP)容量,可在单个芯片中支持各种并发后处理算法,而无需从外部存储。当性能要求需要更多处理时,开发人员可轻松在拥有四核的CS49844引脚兼容器件之间分别切换。其主要特性有:适用于DolbyATMOS和DTS:X的单芯片解决方案、多声道解码和后处理、拥有四核(CS49844)32位DSP、I?S和S/PDIF、串行控制端口和CirrusLogicDSP工具支持。其中:

2.2.1音频信号输入AudioSource

AudioSource信号源既可输入模拟与数字信号,数字音频信号的格式分为两种传输方式:光纤与电缆传入方式,数字音频信号通过DigitalSelector的选通开关后传入到DSP,模拟音频信号经过ADC模数转换后输入到DSP进行处理。

2.2.2数字信号选择器DS-DigitalSelector

音频信号源AudioSource可能发送光纤同轴两种类型接口的数字音频,这两种信号要进行一组切换行为才能传入DSP进行解码,这组切换受控于MCU(MicrocontrollerUnit),这是更合理的设置搭配,需要在此处进行信号的选择。

2.2.3动态随机存取内存-SDRAM

SDRAM有同步Synchronization接口,在响应控制输入前会等待一个时钟信号,这使得SDRAM与DRAM相比,更优的操作模式,存储核心处理所需要各类参数,以及用作中间数据缓存。本次的系统设计中,涉及到的音频处理参数,多个模块的数据由于数据量巨大,无法保存在DSP内存中,需要写入SDRAM,实时同步读写。

2.3杜比数字实时编码(DolbyDigitalLive)技术应用

一种实时编码技术,它能将多种音频信号转成杜比数字的专用码流并通过家庭影院系统进行播放。其主要技术包括有:

2.3.1影音的环绕声技术

杜比数字实时编码(Dolby?DigitalLive)技术使你在看视频时沉浸在与影音空间相契合的5.1声道环绕声中,从而提供更好的综合游戏体验。

2.3.2无延迟或暂停技术

杜比数字实时编码(DolbyDigitalLive)技术已针对低延迟交互式应用进行优化,不会在视频与音频之间引入任何可感知的延迟,因而完美地适用于游戏。

2.3.3单电缆连接

通过使用单个数字连接,杜比数字实时编码(DolbyDigitalLive)技术确保音频信号的完整性并消除多个模拟和数字连接的混淆、干扰和染波。

杜比全景声结合了面向对象的概念,动态处理声道的混音、声音定向、增益等方式,令观众体验极佳的沉浸感。利用顶部扬声器和环绕扬声器创造出逼真而自然的音频体验。置顶声道采用了安置在声条音响顶部的两只斜向上的喇叭,通过大花板反射形成天空置顶声道。由安置在声条式音响两侧的喇叭通过左右墙面反射产生左右环绕声道。在一个狭小的声条式音响体积内要安置8个独立的声道。杜比全景声实现了硬件配置受限的情况下,尽可能重放原创者的设想效果。让声音可以精确的在三维空间内部署和流动,而减少声道的限制带来的影响。如图3所示。

基于云端处理的语音处理及现场观看和交谈,支持触发辅助信源选择拾取噪声抑制技术,实现了多通道声学回声消除,SSP噪声抑制,集成语音触发引擎,低功率70mW唤醒语音检测缓冲声音模式,集成片上32位的数字音频处理器芯片,具有106dB全路径动态范围的24位麦克风ADC,原始音频采样率:8~96kHz,0.125dB模拟前端增益分辨率,低串扰专用麦克风偏置,I2S串行数据接口,I2C控制接口,容量可选串行EEPROMFLASH,USB全速,兼容2.0UAC,异步数据传输异步SRC和同步缓冲区集成DC/DC电源管理,22Pin邮票孔焊盘设计。

3结语

在面对以新技术为主要驱动力的新一轮科技革命和产业变革蓬勃兴起的环境下,智能家居的崛起是历史的必然。

此外,在国家政策和巨大行业需求的双重助力下,中国智能家居行业市场规模将进一步扩大。权威调研机构StrategyAnalytics发布调研报告称,预计到2023年,消费者在智能家居硬件、服务、安装上的费用支出将达到1570亿美元(超1万亿元人民币)。

2020年中国智能家居设备市场出货量预计接近2.2亿台,至2024年出货量将增长至近5亿台,年复合增长率高达23%。“双11”期间,智能家居生态销售额2分钟内便已破亿。随着技术的进一步发展以及应用范围的拓宽,智能音响市场将迎来一轮爆发式的增长。

参考文献

[1]赵琳透析智能家居市场[J]中国安防,2007(03):75-79+7.

[2]吴翔.产品系统设计一产品设计(2)[M].北京中国轻工业出版社,2000.

[3]吴琼产品系统设计[M].化学I业出版社,2019.

[4]周永宏融入智能家居发展趋势的音响设计研究[D]武汉理工大学2016.

[5]吴翔.产品系统设计[M].中国轻I工业出版,2004.

[6]蔡嘉清.文化产业营销[M].北京清华大学出版社,2007.

[7]唐林.产品概念设计基本原理及方法[M].北京国防工业出版社2006.

返回本篇论文导航相关内容推荐1物联网的技术、层次构成及安全问题探讨2国内外物联网的发展现状3煤矿物联网研究中的问题及其方向4声纹识别和语音识别在公安实战中的应用5广播电视监测中语音识别技术的运用探析6物联网技术特征及其主要应用7设施农业物联网技术发展瓶颈与研究方向8基于语音识别的智能垃圾桶的系统设计方案9物联网垃圾回收站设计与实现10语音识别论文(优秀范文6篇)相关标签:返回>>计算机应用技术论文上一篇:基于语音识别的智能垃圾桶的系统设计方案下一篇:铁路客运使用人脸识别技术侵权的风险及对策

语音信号处理研究现状及参考文献

语音的产生包含心理和生理等一系列情感波动,它是我们人类最重要的交流工具,由我们的声带产生振动而发出,同时在语言社会中具有一定的特殊含义。人类的语言首先是以语音的形式形成,世界上有无文字的语言,但没有无语音的语言,在语言中语音起到了决定性的作用。它不再是单纯的自然物质而是一种声音形式的交际工具。75483

  对语音信号的研究长久以来都受到了科研工作者的重视。尤其在当今,随着社会的发展和人工智能计算机在各个领域的广泛应用,人们发现语音通信成为了人和机器之间的最快捷有效的沟通方式。几十年的语音识别和合成技术的研究表明,假如对人工智能之间的语音通信成为现实,人们可以随时随地通过语音完成一系列工作,从而推动社会全面发展。语音信号处理是一种新兴的边缘学科,它和一系列学科如语言学和生理心理学联系紧密[1]。对语音信号的处理技术的发展也会带动这些学术领域研究的进步,因此研究语音信号学科意义深远论文网。

  尽管对于语音研究已经有了几十年的历史,也获取了大大小小的成果,但阻挡在我们面前的问题还有许多。比如如何分割一连串词汇语音,如何让语音像指纹那样作为说话人独有的特征来识别说话人,这些问题并没有一个理想的方案来解决。同时语音算法上定性定量的评估结论也有待商榷,最后在打开语音文件方面,我们想要获取较高的语音质量的期望与语音文件的低提取速率相矛盾。这些难题都是我们在语音研究领域中需要突破的主要难点。

参考文献

[1]张雄伟,陈亮,杨吉斌。现代语音处理技术及应用[M]。北京:机械工业出版社,2009。

[2]赵力。语音信号处理(第2版)[M]。北京:机械工业出版社,2010。

[3]韩纪庆,张磊,郑铁然。语音信号处理[M]。北京:清华大学出版社,2004。

[4]谢平,王娜,林洪彬。信号处理原理及应用[M]。北京:机械工业出版社,2008。

[5]易克初,田斌,付强。语音信号处理(第一版)[M]。北京:国防工业出版社,2000。

[6]胡航。语音信号处理[M]。哈尔滨:哈尔滨工业大学出版社,2002。

[7]丁玉美,高西全。数字信号处理[M]。西安电子科技大学出版社,2006。

[8]樊昌信。通信原理[M]。北京:国防工业出版社,2005。

[9]靳济芳。VisualC++小波变换技术与工程实践[M]。北京:人民邮电出版社,2004。1。

[10]林福宗。多媒体技术基础[M]。北京:清华大学出版社,2000。

[11]LiuniM,RobelA,MatusiakE,RomitoM,RodetX。AutomaticAdaptationoftheTime-FrequencyResolutionforSoundAnalysisandRe-Synthesis,IEEEJournals&Magazines,PublicationYear:2013:959-970  

[12]韦晓东等。应用倒谱特征的带噪语音端点检测方法[J]。上海交通大学学报,2000,34(2):185-188。

[13]胡光锐,韦晓东。基于倒谱特征的带噪语音端点检测[J]。电子学报,2000,28(10):95-97。

[14]张刚,张雪英,马建芬。语音处理与编码[M]。北京:兵器工业出版社,2000。8。

[15]杨行峻,迟惠生。语音信号数字处理[M]。北京:电子工业出版社,1995。

[16]陶建华,蔡连红。计算机语音合成的关键技术及展望[N]。计算机世界,2000,(3):20。

[17]拉宾纳。语音识别的基本原理[M]。北京:清华大学出版社,2002。

[18]张敬怀,马道钧。WAV语音文件格式的分析与处理[J]。北京电子科技学院学报,2004,12(2):47-50。 

[19]张逊頔。基于VxWorks的VDR人声识别技术的改进研究[D]。哈尔滨工程大学,2006。语音信号处理研究现状及参考文献:http://www.youerw.com/yanjiu/lunwen_86422.html

版权声明:本文内容由互联网用户自发贡献,该文观点仅代表作者本人。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如发现本站有涉嫌抄袭侵权/违法违规的内容,一经查实,本站将立刻删除。

上一篇

下一篇