博舍

语音识别基本概念 语音识别的基本概念是什么呢

语音识别基本概念

说话人识别的基础知识1.语音的产生声门:两片声带之间的空间叫声门主声道:声带即声门以上,经过咽喉,口腔的通道鼻道:经过小舌和鼻的管道声道是分布参数系统,为谐振腔分布参数系统即系统状态变化不能只由有限个参数变化描述,而是用场(一维或多维空间变量的函数)

浊音:由声带振动并激励声道而得到的语音(气流通过绷紧的声带,冲激声带产生振动,使声门处产生准周期性的脉冲串,并激励声道)清音:气流高速冲击某处收缩的声道而得到的语音(声带松弛而不振动,气流通过声门直接进入声道)

声带每开启和闭合一次的时间为声带振动的周期(音调周期、基音周期)。它的倒数为基本频率(基音频率、基音)F0=1/T

音色:共振频率音调:基本频率

2.语音信号的数字模型语音信号是线性时不变系统(声道)在准周期脉冲序列和随机噪声激励下的输出

激励模型:浊音为一个以基音周期为周期的斜三角波脉冲串清音为随机白噪声(可使用均值为0,方差为1,并在时间或幅度上均匀分布的序列)

声道模型:声管模型把声道看做一个由多个不同截面积的管子串联而成的系统共振峰模型把声道看作一个谐振腔,共振峰就是这个腔体的谐振频率(共振峰:一般来说,语音段的波形重复率比较高,找出一个基本周期,这个基本周期形状和频率的大小分别代表着内容和音色,对它进行FFT,求得频率极大值点,称之为共振峰。共振峰也代表着声带震动后,经过声道这个谐振腔,得到的语言的频谱最大值点,因此也表示声道的谐振频率点,因此也可以通过求LPC间接求得。即先由LPC得到声道系统函数,再求声道频谱响应,接着用峰值检测法(或别的方法)检测峰值点,即为共振峰。人的发声器官(声道和口腔)肌肉较软,阻尼较大,会对较多的频率产生共鸣;把声道当作一个发音的谐振腔体来看,当发音的激励频率等于声道的谐振频率时,即两个频率相等,声道就会以最大的振幅来回振荡,也就是所谓的共鸣;共鸣起振了谐振腔体振动,接着声道会放大了某些频率成分和衰减了其他频率成分,从而产生某些谐振频率,在频率特性上被放大的谐振频率就会陆续峰起,一般把这些谐振频率称之为共振频率,这些峰称为共振峰formant

共振峰反映了声道的特征,一般多用来作为情感识别特征)级联型认为声道由一组串联的二阶谐振器构成。元音一般用全极点模型(级联的级数由声道长度决定)并联型对于非元音和大部分辅音用零极点模式混合型极联与并联混合

辐射模型:一阶高通滤波

话音信号数字模型=激励模型、声道模型、辐射模型的串联

3.语音信号的分帧截取语音信号进行傅里叶变换(弄清楚语音中各个频率成分的分布),即加窗加窗的目的是让一帧信号的幅度在两端渐变到0。渐变对傅里叶变换有好处,可以提高变换结果(即频谱)的分辨率,具体的数学就不讲了。加窗的代价是一帧信号两端的部分被削弱了,没有像中央的部分那样得到重视。弥补的办法是,帧不要背靠背地截取,而是相互重叠一部分。相邻两帧的起始位置的时间差叫做帧移,常见的取法是取为帧长的一半,或者固定取为10毫秒。

对一帧信号做傅里叶变换,得到的结果叫频谱

图中的横轴是频率,纵轴是幅度。频谱上就能看出这段语音在480和580赫兹附近的能量比较强。语音的频谱,常常呈现出「精细结构」和「包络」两种模式。「精细结构」就是蓝线上的一个个小峰,它们在横轴上的间距就是基频,它体现了语音的音高——峰越稀疏,基频越高,音高也越高。「包络」则是连接这些小峰峰顶的平滑曲线(红线),它代表了口型,即发的是哪个音。包络上的峰叫共振峰,图中能看出四个,分别在500、1700、2450、3800赫兹附近。有经验的人,根据共振峰的位置,就能看出发的是什么音。对每一帧信号都做这样的傅里叶变换,就可以知道音高和口型随时间的变化情况,也就能识别出一句话说的是什么了。

语谱图

语谱图中的花纹有横杠、乱纹和竖直条。横杠是与时间轴平行的几条深黑色带纹,它们是共振峰。从横杠对应的频率和宽度可以确定相应的共振峰频率和带宽。在一个语音段的语谱图中,有没有横杠出现是判断它是否是浊音的重要标志。竖直条是语谱图中出现于时间轴垂直的一条窄黑条。每个竖直条相当于一个基音,条纹的起点相当于声门脉冲的起点,条纹之间的距离表示基音周期,条纹越密表示基音频率越高。b,p……清音的语谱图为乱纹

宽带语谱图具有较好的时间分辨率,给出共振峰频率和清辅音的能量汇集区窄带语谱图具有较好的频率分辨率,其时间坐标方向表示基音及各次谐波

说话人识别系统过程一.预处理:数字化,预加重(在对信号取样后,插入一个一阶高通滤波器,这样只剩下声道部分,便于对声道参数进行分析),分帧,加窗,端点检测(从语音信号中确定语音的起点和终点)

二,特征参数提取1.时域参数:短时平均能量,短时平均过零率,基音周期等

mfcc特征参数提取:1、预处理(预加重,分帧,加窗)2、FFT:对每一帧信号进行快速傅里叶变换。从时域数据转变为频域数据3、计算谱线能量:4、计算通过Mel滤波器的能量5、计算DCT倒谱人的耳朵实质上可以等效于为一组滤波器,而人说听到的声音高低和声音频率不成线性关系,MFCC参数就是将人耳的听觉感知特性和语音产生机制相结合,模拟人耳。1.将频域轴做变换,变成MEL频率轴,有个公式的你去看2.在MEL频率轴上设置L个三角形滤波器,信号经滤波器后得到输出,这里的L就是MFCC的维数3.得到的输出做DCT变换,得到MFCC参数。大概就这三步,得到静态的MFCC参数,HTK里面L取12,再加上1个能量特征,构成13维特征向量,再做2次差分,得到总共39维的特征向量。

信噪比:信噪比定义为信号能量与噪声能量的比值:(用于衡量带噪语音中噪音的量)信噪比是信号和噪声能量比值的对数值。你放到cooledit或者audition中可以看到波形,没语音的部分就是低噪可以看看电平大小,在看看有语音的地方电平多少,然后这两者间的差距就是信噪比的概念。我们如果要让信号更清晰就是要减小底噪,增加语音的音量才能提高信噪比。信噪比减小后语音信号差不多被噪声淹没了。p98

声波是一维的,它在每个时刻有一个基于高度的值。为了将声波转换成数字,我们只记录声波在等距点的高度,即采样。我们每秒读取数千次,并把声波在该时间点的高度用一个数字记录下来,就形成一个.wav文件对于语音识别而言,16khz(每秒采样16000次)由于采样定理(Nyquisttheorem),我们知道我们可以利用数学,从间隔的采样中完美重建原始声波——只要我们的采样频率比期望得到的最高频率快至少两倍就行。

语音信号处理的一个分支是从带噪语音中得到纯净语音带噪语音是由纯净语音和混叠的噪声一起形成的,噪声可以是加性的,也可以是非加性的。主要讨论加性噪声,也就是语音=纯净语音+噪声,语音和噪声互不相关。带噪语音的频谱等于语音频谱和噪音频谱的叠加。

语音端点检测是指从包含语音的一段信号中确定出语音的起始点和结束点位置。没有噪声情况下的语音端点检测用短时平均能量就可以检测出语音的端点。双门限法:基于短时平均能量和短时平均过零率提出的。原理是汉语中的韵母有元音,能量较大,所以可以从短时平均能量中找出韵母。而声母是辅音,频率较高,相应的短时过零率较大。

CTC:基于神经网络的时序类分类语音识别声学模型的训练属于监督学习,要知道每一帧对应的label才能进行训练。在训练的数据准备阶段必须要对语音强制对齐ctc放宽了这种一一对应的强制要求,只需要一个输入序列和一个输出序列就能训练。不需要对数据对齐和一一标注。直接输出序列预测的概率

输出状态引入了一个blank。多个输出序列可以映射到一个输出

语音识别技术简述(概念

               语音识别技术简述(概念->原理)目录

语音识别技术简述(概念->原理)

语音识别概念

语音识别原理

语音识别技术简介

  1.动态时间规整(DTW)

  2.支持向量机(SVM)

  3.矢量量化(VQ)

  4.隐马尔科夫模型(HMM)

  5.高斯混合模型(GMM)

  6.人工神经网络(ANN/BP)

 7.深度神经网络/深信度网络-隐马尔科夫(DNN/DBN-HMM)

 8.循环神经网络(RNN)

  9.长短时记忆模块(LSTM)

   10.卷积神经网络(CNN)

识别技术的发展方向

参考文献:

本内容部分原创,因作者才疏学浅,偶有纰漏,望不吝指出。本内容由灵声讯音频-语音算法实验室整理创作,转载和使用请与“灵声讯”联系,联系方式:音频/识别/合成算法QQ群(696554058)

语音识别概念

语音识别技术就是让智能设备听懂人类的语音。它是一门涉及数字信号处理、人工智能、语言学、数理统计学、声学、情感学及心理学等多学科交叉的科学。这项技术可以提供比如自动客服、自动语音翻译、命令控制、语音验证码等多项应用。近年来,随着人工智能的兴起,语音识别技术在理论和应用方面都取得大突破,开始从实验室走向市场,已逐渐走进我们的日常生活。现在语音识别己用于许多领域,主要包括语音识别听写器、语音寻呼和答疑平台、自主广告平台,智能客服等。

语音识别原理

语音识别的本质是一种基于语音特征参数的模式识别,即通过学习,系统能够把输入的语音按一定模式进行分类,进而依据判定准则找出最佳匹配结果。目前,模式匹配原理已经被应用于大多数语音识别系统中。如图1是基于模式匹配原理的语音识别系统框图。

 一般的模式识别包括预处理,特征提取,模式匹配等基本模块。如图所示首先对输入语音进行预处理,其中预处理包括分帧,加窗,预加重等。其次是特征提取,因此选择合适的特征参数尤为重要。常用的特征参数包括:基音周期,共振峰,短时平均能量或幅度,线性预测系数(LPC),感知加权预测系数(PLP),短时平均过零率,线性预测倒谱系数(LPCC),自相关函数,梅尔倒谱系数(MFCC),小波变换系数,经验模态分解系数(EMD),伽马通滤波器系数(GFCC)等。在进行实际识别时,要对测试语音按训练过程产生模板,最后根据失真判决准则进行识别。常用的失真判决准则有欧式距离,协方差矩阵与贝叶斯距离等。

                       

                                                 图1.语音识别原理架图

语音识别技术简介

从语音识别算法的发展来看,语音识别技术主要分为三大类,第一类是模型匹配法,包括矢量量化(VQ)、动态时间规整(DTW)等;第二类是概率统计方法,包括高斯混合模型(GMM)、隐马尔科夫模型(HMM)等;第三类是辨别器分类方法,如支持向量机(SVM)、人工神经网络(ANN)和深度神经网络(DNN)等以及多种组合方法。下面对主流的识别技术做简单介绍:

  1.动态时间规整(DTW)

语音识别中,由于语音信号的随机性,即使同一个人发的同一个音,只要说话环境和情绪不同,时间长度也不尽相同,因此时间规整是必不可少的。DTW是一种将时间规整与距离测度有机结合的非线性规整技术,在语音识别时,需要把测试模板与参考模板进行实际比对和非线性伸缩,并依照某种距离测度选取距离最小的模板作为识别结果输出。动态时间规整技术的引入,将测试语音映射到标准语音时间轴上,使长短不等的两个信号最后通过时间轴弯折达到一样的时间长度,进而使得匹配差别最小,结合距离测度,得到测试语音与标准语音之间的距离。

  2.支持向量机(SVM)

支持向量机是建立在VC维理论和结构风险最小理论基础上的分类方法,它是根据有限样本信息在模型复杂度与学习能力之间寻求最佳折中。从理论上说,SVM就是一个简单的寻优过程,它解决了神经网络算法中局部极值的问题,得到的是全局最优解。SVM已经成功地应用到语音识别中,并表现出良好的识别性能。

  3.矢量量化(VQ)

矢量量化是一种广泛应用于语音和图像压缩编码等领域的重要信号压缩技术,思想来自香农的率-失真理论。其基本原理是把每帧特征矢量参数在多维空间中进行整体量化,在信息量损失较小的情况下对数据进行压缩。因此,它不仅可以减小数据存储,而且还能提高系统运行速度,保证语音编码质量和压缩效率,一般应用于小词汇量的孤立词语音识别系统。

  4.隐马尔科夫模型(HMM)

隐马尔科夫模型是一种统计模型,目前多应用于语音信号处理领域。在该模型中,马尔科夫(Markov)链中的一个状态是否转移到另一个状态取决于状态转移概率,而某一状态产生的观察值取决于状态生成概率。在进行语音识别时,HMM首先为每个识别单元建立发声模型,通过长时间训练得到状态转移概率矩阵和输出概率矩阵,在识别时根据状态转移过程中的最大概率进行判决。

  5.高斯混合模型(GMM)

高斯混合模型是单一高斯概率密度函数的延伸,GMM能够平滑地近似任意形状的密度分布。高斯混合模型种类有单高斯模型(SingleGaussianModel,SGM)和高斯混合模型(GaussianMixtureModel,GMM)两类。类似于聚类,根据高斯概率密度函数(ProbabilityDensityFunction,PDF)参数不同,每一个高斯模型可以看作一种类别,输入一个样本x,即可通过PDF计算其值,然后通过一个阈值来判断该样本是否属于高斯模型。很明显,SGM适合于仅有两类别问题的划分,而GMM由于具有多个模型,划分更为精细,适用于多类别的划分,可以应用于复杂对象建模。目前在语音识别领域,GMM需要和HMM一起构建完整的语音识别系统。

  6.人工神经网络(ANN/BP)

人工神经网络由20世纪80年代末提出,其本质是一个基于生物神经系统的自适应非线性动力学系统,它旨在充分模拟神经系统执行任务的方式。如同人的大脑一样,神经网络是由相互联系、相互影响各自行为的神经元构成,这些神经元也称为节点或处理单元。神经网络通过大量节点来模仿人类神经元活动,并将所有节点连接成信息处理系统,以此来反映人脑功能的基本特性。尽管ANN模拟和抽象人脑功能很精准,但它毕竟是人工神经网络,只是一种模拟生物感知特性的分布式并行处理模型。ANN的独特优点及其强大的分类能力和输入输出映射能力促成在许多领域被广泛应用,特别在语音识别、图像处理、指纹识别、计算机智能控制及专家系统等领域。但从当前语音识别系统来看,由于ANN对语音信号的时间动态特性描述不够充分,大部分采用ANN与传统识别算法相结合的系统。

 7.深度神经网络/深信度网络-隐马尔科夫(DNN/DBN-HMM)

当前诸如ANN,BP等多数分类的学习方法都是浅层结构算法,与深层算法相比存在局限。尤其当样本数据有限时,它们表征复杂函数的能力明显不足。深度学习可通过学习深层非线性网络结构,实现复杂函数逼近,表征输入数据分布式,并展现从少数样本集中学习本质特征的强大能力。在深度结构非凸目标代价函数中普遍存在的局部最小问题是训练效果不理想的主要根源。为了解决以上问题,提出基于深度神经网络(DNN)的非监督贪心逐层训练算法,它利用空间相对关系减少参数数目以提高神经网络的训练性能。相比传统的基于GMM-HMM的语音识别系统,其最大的改变是采用深度神经网络替换GMM模型对语音的观察概率进行建模。最初主流的深度神经网络是最简单的前馈型深度神经网络(FeedforwardDeepNeuralNetwork,FDNN)。DNN相比GMM的优势在于:1.使用DNN估计HMM的状态的后验概率分布不需要对语音数据分布进行假设;2.DNN的输入特征可以是多种特征的融合,包括离散或者连续的;3.DNN可以利用相邻的语音帧所包含的结构信息。基于DNN-HMM识别系统的模型如图2所示。

                                    

                                          图2基于深度神经网络的语音识别系统

 8.循环神经网络(RNN)

语音识别需要对波形进行加窗、分帧、提取特征等预处理。训练GMM时候,输入特征一般只能是单帧的信号,而对于DNN可以采用拼接帧作为输入,这些是DNN相比GMM可以获得很大性能提升的关键因素。然而,语音是一种各帧之间具有很强相关性的复杂时变信号,这种相关性主要体现在说话时的协同发音现象上,往往前后好几个字对我们正要说的字都有影响,也就是语音的各帧之间具有长时相关性。采用拼接帧的方式可以学到一定程度的上下文信息。但是由于DNN输入的窗长是固定的,学习到的是固定输入到输入的映射关系,从而导致DNN对于时序信息的长时相关性的建模是较弱的。

                             

 

                                                  图3DNN和RNN示意图

考虑到语音信号的长时相关性,一个自然而然的想法是选用具有更强长时建模能力的神经网络模型。于是,循环神经网络(RecurrentNeuralNetwork,RNN)近年来逐渐替代传统的DNN成为主流的语音识别建模方案。如图3,相比前馈型神经网络DNN,循环神经网络在隐层上增加了一个反馈连接,也就是说,RNN隐层当前时刻的输入有一部分是前一时刻的隐层输出,这使得RNN可以通过循环反馈连接看到前面所有时刻的信息,这赋予了RNN记忆功能。这些特点使得RNN非常适合用于对时序信号的建模。

  9.长短时记忆模块(LSTM)

长短时记忆模块(Long-ShortTermMemory,LSTM)的引入解决了传统简单RNN梯度消失等问题,使得RNN框架可以在语音识别领域实用化并获得了超越DNN的效果,目前已经使用在业界一些比较先进的语音系统中。除此之外,研究人员还在RNN的基础上做了进一步改进工作,如图4是当前语音识别中的主流RNN声学模型框架,主要包含两部分:深层双向RNN和序列短时分类(ConnectionistTemporalClassification,CTC)输出层。其中双向RNN对当前语音帧进行判断时,不仅可以利用历史的语音信息,还可以利用未来的语音信息,从而进行更加准确的决策;CTC使得训练过程无需帧级别的标注,实现有效的“端对端”训练。

                           

 

                                           图4基于RNN-CTC的主流语音识别系统框架

   10.卷积神经网络(CNN)

CNN早在2012年就被用于语音识别系统,并且一直以来都有很多研究人员积极投身于基于CNN的语音识别系统的研究,但始终没有大的突破。最主要的原因是他们没有突破传统前馈神经网络采用固定长度的帧拼接作为输入的思维定式,从而无法看到足够长的语音上下文信息。另外一个缺陷是他们只是将CNN视作一种特征提取器,因此所用的卷积层数很少,一般只有一到二层,这样的卷积网络表达能力十分有限。针对这些问题,提出了一种名为深度全序列卷积神经网络(DeepFullyConvolutionalNeuralNetwork,DFCNN)的语音识别框架,使用大量的卷积层直接对整句语音信号进行建模,更好地表达了语音的长时相关性。

DFCNN的结构如图5所示,它直接将一句语音转化成一张图像作为输入,即先对每帧语音进行傅里叶变换,再将时间和频率作为图像的两个维度,然后通过非常多的卷积层和池化(pooling)层的组合,对整句语音进行建模,输出单元直接与最终的识别结果比如音节或者汉字相对应。

                                 

                                                     图5DFCNN示意图

识别技术的发展方向更有效的序列到序列直接转换的模型。序列到序列直接转换的模型目前来讲主要有两个方向,一是CTC模型;二是Attention模型。鸡尾酒会问题(远场识别)。这个问题在近场麦克风并不明显,这是因为人声的能量对比噪声非常大,而在远场识别系统上,信噪比下降得很厉害,所以这个问题就变得非常突出,成为了一个非常关键、比较难解决的问题。鸡尾酒会问题的主要困难在于标签置换(LabelPermutation),目前较好的解决方案有二,一是深度聚类(DeepClustering);二是置换不变训练(PermutationinvariantTraining)。持续预测与自适应模型。能否建造一个持续做预测并自适应的系统。它需要的特点一个是能够非常快地做自适应并优化接下来的期望识别率。另一个是能发现频度高的规律并把这些变成模型默认的一部分,不需要再做训练。前后端联合优化。前端注重音频质量提升,后端注重识别性能和效率提升。参考文献:

《解析深度学习:语音识别实践》-------俞栋,邓力著

《实用语音识别基础》-------王炳锡,屈丹,彭煊著

《语音信号处理》--------赵力著

本内容部分原创,因作者才疏学浅,偶有纰漏,望不吝指出。本内容由灵声讯音频-语音算法实验室整理创作,转载和使用请与“灵声讯”联系,联系方式:音频/识别/合成算法QQ群(696554058)

                                  

 

福利小贴士:

理科只是为自己插上腾飞的翅膀,文科才能让你飞黄腾达,同意的点赞,谢谢!

赠送原创诗歌公众号“天一色”,以飨读者!

版权声明:本文内容由互联网用户自发贡献,该文观点仅代表作者本人。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如发现本站有涉嫌抄袭侵权/违法违规的内容,一经查实,本站将立刻删除。

上一篇

下一篇