语音识别技术论文阅读笔记
2021.03.24
论文:语音识别技术人工智能毕业论文(作者:)
笔记:
1.语音识别技术应用领域:声控电话交换、信息网络查询、家庭服务、医疗服务、银行服务、工业控制、语音助手、语音通信系统等。
2.语音识别的基本方法:(1)基于声道模型和语音知识的方法。最早。
(2)模板匹配的方法。
动态时间规整(DTW)、隐马尔可夫(HMM)理论、矢量量化(VQ)技术。
(3)神经网络的方法。
3.语音识别系统的结构:(1)语音信号预处理与特征提取
(2)声学模型与模式匹配
(3)语音模型与语言处理
4.语音识别主要问题:(1)自然语言的识别和理解。(2)语音信息量大。(3)语音的模糊性。(4)语音具体含义受上下文的影响大。(5)环境噪声干扰大。
论文:语音识别技术的发展及应用(作者:于晓明)
笔记:
1.发展历程:
20世纪50年代我国语音技术出现国外也只是贝尔实验室简单的英语单词发音装置---->20世纪70年代语音识别实质性进展 主流隐士马尔科夫模型技术(HMM) 从传统目标匹配方式向基于统计数学化方向发展------>20世纪80年代 语音识别技术进一步发展 模式识别出现人工神经网络 从简单词语识别到连续语音识别和大量词语的识别 我国863计划与国外同步发展------->20世纪90年代 语音识别技术成熟 基于BP神经网络 语音识别产品出现。
2.语音识别构建模型:
预处理 、特征提取 模式匹配、判决
语音信号------------------------------------------->模式库---------------------------------------->判决结果
语音信号预处理:1.语音信号预加重。目的提高信号和噪声信号的比度,很好的对语音信号进行滤波。
2.加窗分帧。(汉明窗)为得到语音信号的分析频谱,将持续的语音信号分成多段信号。
3.端点监测。很好的区分正常的语音信息、有间断的信息、有无声信息。排除其他选取正常的语音信息。
语音信号的特征提取:(特定的倒谱特征)经典的LPCC和MFCC两个参数。
模式匹配判决: 声学模型(发音)
语言模型(语法结构)
3.语音识别应用领域: 智能家居、公安、购物、银行、车载、门禁、身份识别。
4.技术突破:噪声问题(难题)提高鲁棒性。
5.发展前景:语音识别系统将说话方的语言通过语音识别技术显示给听力受限的人群 作用类似助听器。经济有效。
论文:简单语音识别的实现过(作者:陆昱方)
笔记:
1.语音识别定义:就是指让机器通过识别和理解过程把语音信号转变为相应的文本信息或命令信息的高科技技术。
2.语音识别应用领域:工业、通信、智能家居、汽车、医疗、电子产品、公安系统等。
3.语音识别功能:
(1)语音输入系统:声音信号转化为电信号输入到计算机中。
(2)语音控制系统:语音信息以电流的形式输入计算机后,计算机根据数据库里的内容进行匹配。
3.语音识别实现过程:
预处理--->传感器(声音信号到电信号)---->加工成二进制。
语音识别方法:HMM、ANN
特征参数:线性预测编码系数、短时频谱、短时平均幅度、短时平均能量。
贝叶斯原理:P(B|A)=P(AB)/[P(AB)+P(AB(上划线))]
定理是关于随机事件A和B的条件概率的。能找出频率最高的断句方式。
4.语音分析:就是语音识别分词断句的过程。
4.优势:高效性、迅速性、便捷性。
5.问题:(1)技术不成熟 因口音识别出错
(2)噪音
(3)语音歧义,要求语音识别的词组库要有更快的更新速度。叠词。
智能语音信息处理团队18篇论文被语音技术顶会ICASSP 2023接收
近日,ICASSP2023会议发出了审稿结果通知,语音及语言信息处理国家工程研究中心智能语音信息处理团队共18篇论文被会议接收,论文方向涵盖语音识别、语音合成、话者识别、语音增强、情感识别、声音事件检测等,各接收论文简介见后文。
ICASSP(InternationalConferenceonAcoustics,Speech,andSignalProcessing)是IEEE信号处理学会(SignalProcessingSociety)的学术年会,是全世界规模最大、最全面的声学、语音和信号处理及其应用方面的国际会议,也是语音技术领域最具影响力的顶级国际会议。本届会议以“SignalProcessingintheArtificialIntelligenceera”为主题,内容涵盖语音识别、语音合成、语音增强、自然语言处理、机器学习等多个领域。
语音及语言信息处理国家工程实验室于2011年由国家发改委正式批准成立,由中国科学技术大学和科大讯飞股份有限公司联合共建,是我国语音产业界唯一的国家级研究开发平台。2021年底,实验室通过国家发改委的优化整合评估,成功纳入新序列,并转建为语音及语言信息处理国家工程中心。
1. NeuralSpeechPhasePredictionbasedonParallelEstimationArchitectureandAnti-WrappingLosses
论文作者:艾杨,凌震华
论文单位:中国科学技术大学
论文简介:
本文提出了一个全新的语音相位预测模型,通过神经网络实现从语音幅度谱到语音卷绕相位谱的直接预测。提出的模型由一个残差卷积网络和一个平行估计架构级联组成。其中,平行估计架构由两个平行的线性卷积层和一个相位计算公式组成,模拟从语音短时复数谱的实部和虚部到语音相位谱的计算过程并将预测的相位值严格限制在相位主值区间内。为了避免因相位卷绕特性造成的误差扩大问题,本文设计了抗卷绕损失训练模型,该损失定义在预测的卷绕相位谱和自然的卷绕相位谱之间,通过使用一个抗卷绕函数对瞬时相位误差、群延时误差和瞬时角频率误差激活得到。实验结果表明,综合考量重构语音质量和生成效率,本文提出的基于神经网络的语音相位预测模型的性能优于Griffin-Lim算法和其他基于神经网络的相位预测方法。
论文资源:论文预印版下载地址https://arxiv.org/abs/2211.15974
Demo语音网页https://yangai520.github.io/NSPP
开源代码下载地址https://github.com/yangai520/NSPP
2. SpeechReconstructionfromSilentTongueandLipArticulationbyPseudoTargetGenerationandDomainAdversarialTraining
论文作者:郑瑞晨,艾杨,凌震华
论文单位:中国科学技术大学
论文简介:
本文研究了从静默发声状态下的舌部超声图像和唇部视频中重构语音的任务。静默发声状态与正常发声状态相对应,指说话人在说话时只激活口内和口外发音器官,但不产生声音。我们采用了一种基于伪目标生成和域对抗训练的方法,采用迭代训练策略来提高静默发声状态下重构语音的清晰度和自然度。实验表明,与基线TaLNet模型相比,我们提出的方法显著提高了静默发声状态下重构语音的可懂度和自然度。当使用自动语音识别(ASR)模型测量语音可懂度时,我们提出的方法的单词错误率(WER)与基线相比降低了15%以上。此外,我们提出的方法在正常发声状态下重构语音的清晰度方面也优于基线,表现在将其WER降低了大约10%。
论文资源:Demo语音网页https://zhengrachel.github.io/ImprovedTaLNet-demo/
3. Zero-shotPersonalizedLip-to-SpeechSynthesiswithFaceImagebasedVoiceControl
论文作者:盛峥彦,艾杨,凌震华
论文单位:中国科学技术大学
论文简介:
Lip-to-Speech(Lip2Speech)Synthesis是指根据人脸视频来进行语音合成,本文提出了一种基于人脸音色控制的zero-shot个性化Lip2Speech合成方法。人脸视频包含语义信息和话者信息,目前方法对于训练集外话者Lip2Speech合成语音的音色常常与话者信息相违和,因此本文采用变分自编码器结构解耦输入人脸视频中的话者信息和语义表征,额外输入的基于人脸的话者编码控制未见话者的音色;此外,考虑到数据集的稀缺性,提出了关联跨模态表征学习来提升基于人脸的话者编码对于音色控制的能力。实验表明,提出方法在合成语音的自然度上取得了更好的主客观性能,合成语音的音色和未见话者人脸形象更匹配。
论文资源:Demo语音网页https://levent9.github.io/Lip2Speech-demo/
4. AMulti-scaleFeatureAggregationbasedLightweightNetworkforAudio-visualSpeechEnhancement
论文作者:徐海涛,魏亮发,张结,杨剑鸣,王燕南,高天,方昕,戴礼荣
论文单位:中国科学技术大学,腾讯天籁实验室,清华大学深圳国际研究生院,科大讯飞
论文简介:
在提高语音质量上,音视频语音增强(Audio-visualSpeechEnhancement,AVSE)方法已经被证明优于对应的纯音频语音增强(Audio-onlySpeechEnhancement,AOSE)方法。然而,当前的AVSE模型大多是重量级的,它们具有较大的参数量不利于模型的部署和实际的应用。在这项工作中,通过组合几种多模态、多尺度和多分支的策略,我们提出了一个轻量级的AVSE模型(M3Net)。对于视频和音频分支,我们设计了三种多尺度的方法,即多尺度平均池化(Multi-scaleaveragepooling,MSAP)、多尺度残差网络(Multi-scaleResNet,MSResNet)和多尺度短时傅里叶变换(Multi-scaleshorttimeFouriertransform,MSSTFT)。此外,对于音视频特征聚合,我们也设计了四种跳转连接(SkipConnection)方法。四种SkipConnections方法对上述的三种多尺度技术都有很好的补充效果。实验结果表明,这些技术可以灵活地与现有的方法结合使用。更重要的是,与重量级网络相比,以更小的模型大小获得了相当的性能。
5. RobustData2vec:Noise-robustSpeechRepresentationLearningforASRbyCombiningRegressionandImprovedContrastiveLearning
论文作者:朱秋实,周龙,张结,刘树杰,胡宇晨,戴礼荣
论文单位:中国科学技术大学
论文简介:
基于对比学习任务或回归任务的自监督预训练方法可以利用更多未标记的数据来提高语音识别(ASR)的性能。然而,将两个预训练任务结合起来并为对比学习构建不同的负样本能否提高模型的噪声鲁棒性仍然是未知的。在本文中,我们通过联合优化预训练阶段的对比学习任务和回归任务,提出了一种用于学习噪声鲁棒语音表征的模型:robustdata2vec。此外,我们提出了两种改进的方法来提升模型性能。具体而言,我们首先构建基于patch的非语义负样本以提高预训练模型的噪声鲁棒性,这是通过将特征划分为不同大小的块(即所谓的负样本)来实现的。其次,通过分析正负样本的分布,我们提出去除容易区分的负样本,以提高预训练模型的判别能力。在CHiME-4数据集上的实验结果表明,我们的方法能够提高预训练模型在噪声场景中的性能。此外我们发现,与仅采用回归任务相比,对比学习和回归任务的联合训练可以在一定程度上避免模型崩塌。
论文资源:论文预印版下载地址https://arxiv.org/abs/2210.15324
6. IncorporatingLipFeaturesintoAudio-visualMulti-speakerDOAEstimationbyGatedFusion
论文作者:姜娅,陈航,杜俊,王青,李锦辉
论文单位:中国科学技术大学,佐治亚理工学院
论文简介:
在本文中,我们提出了一种新的音视频多说话人DOA估计网络,该网络首次融合了多说话人的唇形特征,以适应复杂的多说话人重叠和背景噪声场景。首先,我们分别对多通道音频特征、视频中检测到的多说话人参考角度和唇型(RoI)进行编码。然后利用三模态门控融合模块将编码后的音频特征、多说话人的参考角度特征和唇形特征融合,以平衡它们对最终输出定位角度的贡献。融合后的特征被送入后端网络,通过联合网络预测的多说话人角度向量和活动概率来获得准确的DOA估计。实验结果表明,与之前在2021多模态信息语音处理(MISP)挑战赛数据集上所做的工作相比,该方法可以将定位误差减少73.48%,同时网络的定位精度相对提高了86.95%。定位结果的高精度和稳定性证明了所提出的模型在多说话人场景中的鲁棒性。
7. QuantumTansferLearningusingtheLarge-scaleUnsupervisedPre-trainedModelWavLM-LargeforSyntheticSpeechDetection
论文作者:王若愚,杜俊,高天
论文单位:中国科学技术大学,科大讯飞
论文简介:
量子机器学习的发展展示了其相对于传统深度学习的量子优势,有望在有监督的分类数据集上发现新模式。这项工作提出了一个基于大规模无监督预训练模型的经典到量子的转移学习系统,以证明量子转移学习在合成语音检测方面的竞争性能。我们使用预训练模型WavLM-Large从语音信号中提取特征图,通过经典网络组件获得低维嵌入向量,然后用变量子电路(VQC)联合微调预训练模型和经典网络组件。我们在ASVspoof2021DF任务上对我们的系统进行了评估。使用量子电路模拟的实验表明量子传递学习可以提高经典传递学习基线的性能。经典转移学习基线在该任务上的表现。
8. SuperDilatedNestedArrayswithIdealCriticalWeightsandIncreasedDegreesofFreedom
论文作者:AhmedM.A.Shaalan,杜俊
论文单位:中国科学技术大学,科大讯飞
论文简介:
在本文中,最近引入的扩张嵌套阵列(DNA)的两个进一步的扩张,它拥有一个与嵌套阵列相同的虚拟ULA部分,但拥有两个虚拟ULA。它拥有与嵌套阵列相同的虚拟ULA部分,但拥有两个临界间距(2×λ/2)的密集物理ULA。本文介绍了最近引入的扩张嵌套阵列(DNA)的两个进一步的扩张,它们拥有与嵌套阵列相同的虚拟ULA部分,但拥有两个具有临界间距(2×λ/2)的密集物理ULA。介绍。在统一的父阵列数量不变的情况下DOFs不变的情况下,在第一次扩张中,第一个密集的ULA可以被重新排列Qf次,这样,所有的传感器对与其中的临界传感器间的间距被完全在一个指定的Q阶扩张嵌套阵列中被完全处理,对于2≤Q≤Q_f+1,而在第二次扩张中,称为超级扩张嵌套阵列(SDNA)。而在被称为超级扩张嵌套阵列(SDNA)的第二次扩张中,Qth-阶DNA中的第二个密集的ULA也被重新排列。顺序的DNA也被重新排列,以便有固定的权重作为同质数组的那些。数值例子证明了这些阵列的优越性能。
9. IncorporatingVisualInformationReconstructionintoProgressiveLearningforOptimizingAudio-VisualSpeechEnhancement
论文作者:张辰悦,陈航,杜俊,殷保才,潘嘉,李锦辉
论文单位:中国科学技术大学,科大讯飞,佐治亚理工学院
论文简介:
传统的音视频语音增强网络将噪声语音和对应视频作为输入,直接学习干净语音的特征。为了减少学习目标和输入之间较大的信噪比差距,我们提出了一个基于mask的渐进式音视频语音增强框架(AVPL),同时结合视觉信息重建(VIR),逐步提升信噪比。AVPL的每一个阶段输入预训练的视觉嵌入(VE)和特定音频特征,预测提升一定信噪比后的mask。为提取更丰富的视觉特征,AVPL-VIR模型的每个阶段还将重建输入的视觉特征VE。在TCD-TIMIT数据集上的实验表明,无论是单音频还是音视频的渐进式学习,都明显优于传统的单步学习。此外,由于AVPL-VIR提取了更充分的视觉信息,因此在AVPL的基础上带来了进一步的提升。
10. AnExperimentalStudyonSoundEventLocalizationandDetectionunderRealisticTestingConditions
论文作者:牛树同,杜俊,王青,柴丽,吴华鑫,念朝旭,孙磊,方义,潘嘉,李锦辉
论文单位:中国科学技术大学,科大讯飞,佐治亚理工学院
论文简介:
针对真实场景中的声音事件检测和定位任务(SELD),我们探索了四种数据扩增的方法和两种模型结构。在SELD任务中,相比于仿真的数据,真实数据由于房间中的混响和声音重叠段的存在更难处理。在这种情况下,我们首先基于ResNet-Conformer结构,在真实的DCASE2022数据集上比较了四种数据扩增方法。实验表明,由于仿真测试集和真实测试集之间的不匹配,除了语音通道交换(ACS)方法外,其余的三种在仿真数据集上可行的数据扩增方法在真实测试集上效果不明显。此外,在使用ACS的情况下,我们提出的改进的ResNet-Conformer进一步提升了SELD任务的性能。通过结合上述的两项技术,我们最终的系统在DCASE2022挑战赛中取得了第一名的成绩。
11. LossFunctionDesignforDNN-BasedSoundEventLocalizationandDetectiononLow-ResourceRealisticData
论文作者:王青,杜俊,念朝旭,牛树同,柴丽,吴华鑫,潘嘉,李锦辉
论文单位:中国科学技术大学,科大讯飞,佐治亚理工学院
论文简介:
本研究重点关注基于深度神经网络(DNN)模型的损失函数设计,该模型由两个分支组成,用于解决低资源实际数据的声音事件定位与检测(SELD)。为此,我们提出了一个用于音频分类的辅助网络,为主网络提供全局事件信息,以使SELD预测结果更加稳健。此外,基于声音事件在时间维度上具有较强的连贯性,我们对到达方向(DOA)估计引入了一种动量策略,有效减少了定位误差。此外,我们在损失函数中添加了正则化项,以减轻小数据集上的模型过拟合问题。在声学场景和事件的检测与分类(DCASE)2022挑战赛任务3数据集上进行测试,实验表明这三种方法可以一致地提高SELD性能。与基线系统相比,所提出的损失函数在实际数据上的定位和检测精度都有显著改善。
12. TheMultimodalInformationbasedSpeechProcessing(Misp)2022Challenge:Audio-visualDiarizationandRecognition
论文作者:王喆,吴世龙,陈航,何茂奎,杜俊,李锦辉,陈景东,ShinjiWatanabe,SabatoSiniscalchi,OdetteScharenborg,刘迪源,殷保才,潘嘉,高建清,刘聪
论文单位:中国科学技术大学,佐治亚理工学院,西北工业大学,卡内基梅隆大学,恩纳大学,代尔夫特理工大学,科大讯飞
论文简介:
MISP(Multi-modalInformationbasedSpeechProcessing,多模态信息语音处理)挑战赛旨在通过促进唤醒词、说话人日志、语音识别等技术的研究,扩展信号处理技术在特定场景中的应用。MISP2022挑战赛包括两个赛道:1)音视频说话人日志(AVSD),旨在利用音频和视频数据解决“谁在什么时候说话”;2)全新的音视频日志和识别(AVDR)任务,重在利用音视频说话人日志结果解决“谁在什么时候说了什么”的问题。两个赛道均聚焦于中文,使用真实家庭电视场景(2-6个人在电视噪音的背景下相互交流)中的远场音频和视频。本文介绍了MISP2022挑战的数据集、赛道设置和基线。我们对实验和实例的分析表明,AVDR基线系统具有良好的性能,但由于远场视频质量、背景中存在电视噪声和难以区分的说话人等原因,这一挑战存在困难性。
论文资源:开源代码下载地址https://github.com/mispchallenge/misp2022_baseline
13. AnEffectiveAnomalousSoundDetectionMethodbasedonRepresentationLearningwithSimulatedAnomalies
论文作者:陈晗,宋彦,卓著,周瑜,李裕宏,薛晖,IanMcLoughlin
论文单位:中国科学技术大学,新加坡理工大学,阿里巴巴
论文简介:
本文提出了一种基于数据拟合方法的异常声学检测系统。最近,许多ASD系统根据异常曝露(OutlierExposure,OE)的策略在DCASE挑战赛中表现出不错的性能。这些方法将来自不同类别的正常样本视为伪异常样本并利用深度卷积神经网络来学习具有判别性的表征。然而,由于异常声音发生稀少,分布多样,并且在训练过程中不可利用,因此仅通过正常样本学习到的表征的能力可能是有限的。为了解决这个问题,我们提出了一种统计量变换(StatisticExchange,StEx)的方法,该方法通过模拟异常样本来提高OE过程中表征学习的有效性。具体而言,从输入时频图的时间或频率维度中提取一阶和二阶统计量,然后通过交换不同类别的时频图的静态信息来生成模拟的异常数据。此外,我们还引入了离群(Out-of-Distribution,OOD)指标作为定性分析OE能力的重要度量,从而能够为ASD系统选择合适的异常模拟样本。在DCASE2021Task2的开发数据集上进行的大量实验验证了基于OE的ASD模拟异常表征学习方法的有效性。
14. JointGenerative-ContrastiveRepresentationLearningforAnomalousSoundDetection
论文作者:曾晓敏,宋彦,卓著,周瑜,李裕宏,薛晖,戴礼荣,IanMcLoughlin
论文单位:中国科学技术大学,新加坡理工大学,阿里巴巴
论文简介:
本文提出了一种联合生成式和对比学习(Generative-Contrastive,GeCo)的异常声学检测表征学习方法。在GeCo方法中,具有自注意力机制的预测自编码器(PredictiveAutoEncoder,PAE)作为生成式模型,被用于实现帧级预测。同时,PAE的输出与原始正常样本共同用于多任务框架下的有监督对比表征学习。除类间交叉熵损失外,有监督对比学习损失被用于分离类内的原始正常样本和PAE的输出样本。基于PAE的自注意力机制,GeCo能够更好地捕获帧间上下文信息。此外,GeCo对生成式方法和对比学习的融合,使得模型提取的特征更有效且更具信息量。在DCASE2020Task2开发集上的实验结果证明了GeCo的有效性。
15. AST-SED:AnEffectiveSoundEventDetectionMethodbasedonAudioSpectrogramTransformer
论文作者:李康,宋彦,戴礼荣,IanMcLoughliln,方昕,柳林
论文单位:中国科学技术大学,新加坡理工大学,科大讯飞
论文简介:
大规模数据预训练的AST(AudioSpectrogramTransformer)模型在声音事件分类任务(AT)上取得了很好的性能,但是直接利用AST的输出特征做声音事件检测任务(SED)不是最优的,对此,本文提出了一种编码器-解码器(Encoder-Decoder)的下游任务模块来高效地微调AST模型,在频率方向编码器中(Frequency-wisetransformerencoder,FTE),采用了频率方向的多头自注意力机制来提高模型对一段音频中多种声音事件的辨别能力,在局部GRU解码器(LocalGRUDecoder,LGD)中,将最近邻插值(NNI)和GRU组合,沿时间方向解码出高时间分辨率特征用于检测任务。在DCASE2022Task4开发集上的结果表明,本文所提出的下游任务模块能大幅提高AST做检测任务的性能,且无需重新设计AST结构。
16. StarGAN-VCbasedCross-DomainDataAugmentationforSpeakerVerification
论文作者:胡航瑞,宋彦,张建涛,戴礼荣,IanMcLoughlin,卓著,周瑜,李裕宏,薛晖
论文单位:中国科学技术大学,新加坡理工大学,阿里巴巴
论文简介:
说话人识别系统(ASV)在实际应用时,往往面临复杂的域偏移问题(例如信道环境或说话风格等不同),从而出现显著的性能下降。由于单说话人多条件(SSMC)数据难以收集,现有的域自适应方法难以保证同类别特征的跨域一致性。为此,本文提出了一种基于StarGAN-VC的跨域数据增强方法。受语音转换(VC)任务的启发,我们首先从训练集的SSMC数据中学习通用的同说话人跨域转换规律;再用其对全体数据进行跨域数据增强,从而提升训练集的类内多样性。考虑到ASV任务和VC任务的侧重点不同,我们对生成模型的训练超参数以及模型结构进行了适当的调整。我们在CNCeleb数据集上进行了实验验证,所提方法取得了约5-8%的相对基线提升,且与传统数据增强方法互补。
17.Self-SupervisedAudio-VisualSpeechRepresentationsLearningbyMultimodalSelf-Distillation
论文作者:张景宣,万根顺,凌震华,潘嘉,高建清,刘聪
论文单位:中国科学技术大学,科大讯飞
论文简介:
本文提出了一种新的AV2vec模型,该模型基于多模态自蒸馏方法进行音视频语音表征学习。AV2vec模型采用了一个教师网络和一个学生网络。学生模型在训练中采用了掩码隐层特征回归的任务进行训练,而学生模型学习的目标特征是教师网络在线生成得到的。教师网络的模型参数是学生网络模型参数的指数平滑。因为本文提出的AV2vec模型的目标特征是在线生成的,AV2vec模型不需要像AV-HuBERT模型那样需要迭代训练,所以它的训练时间大幅度地减小到了AV-HuBERT模型的1/5。我们在本文中进一步提出了AV2vec-MLM模型,该模型基于类掩码语言模型的损失函数对AV2vec模型进行了进一步扩展。我们的实验结果表明,AV2vec模型的性能表现和AV-HuBERT基线相当。当进一步引入类掩码语言模型损失函数时,AV2vec-MLM在唇语识别、语音识别以及多模态语音识别的下游任务上都取得了最好的实验效果。
18. Reducingthegapbetweenstreamingandnon-streamingTransducer-basedASRbyadaptivetwo-stageknowledgedistillation
论文作者:唐海桃,付钰,孙磊,薛嘉宾,刘丹,李永超,马志强,吴明辉,潘嘉,万根顺,赵明恩
论文单位:科大讯飞,浙江大学,哈尔滨工业大学
论文简介:
Transducer是流式语音识别的主流框架之一。由于上下文受限,流式Transducer模型和非流式之间存在性能差距。为了减小这种差距,一种有效的方法是确保它们的隐藏层和输出分布是一致的,这可以通过分层知识蒸馏来实现。然而,由于输出分布的学习依赖于隐藏层,同时确保流式和非流式分布的一致性比较困难。本文提出了一种自适应两阶段知识蒸馏方法,包括隐藏层学习和输出层学习。在前一阶段,我们通过应用均方误差损失函数学习完整上下文的隐藏表示。在后一阶段,我们设计了一种基于幂变换的自适应平滑方法来学习稳定的输出分布。在LibriSpeech数据集上,相比于原始流式Transducer,WER相对降低19%和拥有更快首字响应。
智能语音信息处理团队14篇论文被语音技术顶会Interspeech 2023接收
近日,Interspeech2023会议发出了审稿结果通知,语音及语言信息处理国家工程研究中心智能语音信息处理团队共14篇论文被会议接收,论文方向涵盖语音识别、语音合成、话者识别、语音增强、情感识别、声音事件检测等,各接收论文简介见后文。
Interspeech是由国际语音通信协会(ISCA)组织的语音研究领域的顶级会议之一,是全球最大的综合性语音信号处理领域的科技盛会。本届会议以“InclusiveSpokenLanguageScienceandTechnology–BreakingDownBarriers”为主题,内容涵盖语音识别、语音合成、语音增强、自然语言处理等多个领域。
语音及语言信息处理国家工程实验室于2011年由国家发改委正式批准成立,由中国科学技术大学和科大讯飞股份有限公司联合共建,是我国语音产业界唯一的国家级研究开发平台。2021年底,实验室通过国家发改委的优化整合评估,成功纳入新序列,并转建为语音及语言信息处理国家工程研究中心。
1. IncorporatingUltrasoundTongueImagesforAudio-VisualSpeechEnhancementthroughKnowledgeDistillation
论文作者:郑瑞晨,艾杨,凌震华
论文单位:中国科学技术大学
论文简介:
音视频语音增强(Audio-VisualSpeechEnhancement,AV-SE)旨在结合额外的视觉信息(如唇部视频)对被噪声干扰的语音进行降噪。已有研究证明,与仅利用音频进行语音增强相比,音视频语音增强更加有效。本文提出进一步引入超声舌头图像以改善基于唇部视频的AV-SE系统的性能。然而与唇部视频相比,超声舌头图像的获取成本通常较高,在实际应用时通常难以获得。为了解决这一问题,我们提出可以在训练阶段采用知识蒸馏的方法,使音频-唇部语音增强的学生模型能够从一个预训练好的音频-唇部-舌头语音增强的教师模型中学习舌部知识。在推断时只需输入带噪语音和对应的唇部视频,无需输入超声舌头图像,也可以利用模型已学习到的舌部知识辅助语音增强。实验结果表明,与传统的音频-唇部语音增强相比,所提出的方法显著改善了语音的质量和可懂度。进一步使用自动语音识别引擎分析降噪后语音的音素错误率显示,与舌头相关的音素(如腭音和软腭音)从引入超声舌头图像中受益最大。
论文资源:论文预印版下载地址https://arxiv.org/abs/2305.14933(或扫描下方二维码)
Demo语音网页https://zhengrachel.github.io/UTIforAVSE-demo/(或扫描下方二维码)
2. MP-SENet:ASpeechEnhancementModelwithParallelDenoisingofMagnitudeandPhaseSpectra
论文作者:鲁叶欣,艾杨,凌震华
论文单位:中国科学技术大学
论文简介:
本文提出了一种基于幅度相位谱平行去噪的单通道语音增强方法。该方法提出的语音增强模型整体为编码-解码器结构,编码器将输入的带噪幅度谱和相位谱编码成时频域表征,而平行的幅度掩膜解码器和相位解码器分别从时频域表征中解码出干净的幅度谱和相位谱,再重构短时谱后通过逆短时傅里叶变换得到干净的语音波形。提出的方法设计了针对相位谱预测的平行估计架构并且使用抗卷绕损失对增强的相位谱进行优化,是首个实现对相位谱直接去噪的语音增强方法,相比于之前的语音增强方法成功缓解了幅度谱和相位谱之间的补偿效应并实现了更好的谐波恢复效果。实验结果表明,在通用的VoiceBank+DEMAND数据集上,我们的模型取得了3.50的PESQ得分,优于现阶段其他的语音增强方法。
论文资源:论文预印版下载地址https://arxiv.org/abs/2305.13686
Demo语音网页https://github.com/yxlu-0102/MP-SENet
3. BASEN:Time-DomainBrain-AssistedSpeechEnhancementNetworkwithConvolutionalCrossAttentioninMulti-talkerConditions
论文作者:张结,徐擎天,朱秋实,凌震华
论文单位:中国科学技术大学,四川大学
论文简介:
时域语音增强在多说话人场景下仍然是具有挑战性的任务,尤其在没有额外关于目标说话人信息的情况下。随着脑科学领域的不断发展,研究表明能够从听者的脑电EEG信号中重建出所听到的语音信息,证明了脑电信号与目标说话人语音信号之间的关联性。本文提出了一种新的时域基于EEG信号的语音增强模型(BASEN:Brain-AssistedSpeechEnhancementNetwork),来解决多说话人场景的语音增强问题。其中,我们提出了ConvolutionalMulti-LayerCrossAttention(CMCA)方法对语音特征和EEG特征进行融合。在公开数据集上的对比实验表明了所提出的BASEN方法相对于当前领域内最优U-BESD方法的优越性。
论文资源:论文预印版下载地址https://arxiv.org/abs/2305.09994
开源代码下载地址https://github.com/jzhangU/Basen
4. Variance-Preserving-BasedInterpolationDiffusionModelsforSpeechEnhancement
论文作者:郭子路,杜俊,李锦辉,高羽,张文彬
论文单位:中国科学技术大学,佐治亚理工学院,美的上海AI创新中心
论文简介:
本文的目的是分析语音增强任务中扩散模型的理论。首先我们给出连续条件下的方差保存—VP(VariancePreserving)的插值扩散模型的数学模型。然后提出一个更简洁的模型用以概述VP和VE(VarianceExploding)两种插值扩散模型。接着给出证明VP和VE插值模型是该统一模型的两种特例。随后,我们设计了一个VP插值扩散模型用于语音增强任务。针对扩散模型迁移到语音增强任务训练困难问题,我们分析了难收敛的原因,给出了如何设计超参的一种思路。最后我们在公开数据集上评估了所提算法的出色的性能。
5. SpeechSynthesiswithSelf-SupervisedlyLearntProsodicRepresentations
论文作者:刘朝辞,凌震华,胡亚军,潘嘉,伍芸荻,王瑾薇
论文单位:中国科学技术大学,科大讯飞
论文简介:
我们提出了一种基于自监督学习的韵律表示的语音合成模型S4LPR(SpeechSynthesiswithSelf-SupervisedlyLearntProsodicRepresentations)。该模型不使用原始声学特征(如F0和能量)作为表示韵律的中间变量,而是设计并比较了三种提取帧级韵律表示的自监督语音模型,自监督模型在大规模无标签数据上预训练,之后用于提取语音合成任务的韵律表征。除了原始wav2vec2.0模型,本文还采用了另外两种预训练模型,它们从LPC残差中学习韵律表征。同时,为了更好地关注语音中的韵律信息,本文采用了多任务学习策略。我们的语音合成声学模型基于FastSpeech2和PnGBERT,构建在所学习的韵律表示之上。实验结果表明,使用S4LPR合成的语音自然度明显优于FastSpeech2基线。
论文资源:Demo语音网页https://ttsbylzc.github.io/ttsdemo202303/(或扫描下方二维码)
6. CASA-ASR:Context-AwareSpeaker-AttributedASR
论文作者:史莫晗,杜志浩,陈谦,俞帆,李泱泽,张仕良,张结,戴礼荣
论文单位:中国科学技术大学,阿里巴巴达摩院
论文简介:
说话人相关语音识别(SpeakerAttributedAutomaticSpeechRecognition,SA-ASR)的目标是解决多说话人场景下“谁说了什么”的问题。原有的端到端(EndtoEnd,E2E)SA-ASR方法由于缺乏对上下文信息的感知而表现不佳,因此本文基于E2ESA-ASR提出了一种带有上下文感知的SA-ASR(Context-AwareSpeaker-AttributedASR,CASA-ASR)方法。具体而言,在CASA-ASR中,使用上下文文本编码器来整合整个语句的语义信息,并使用上下文相关打分器,通过与上下文的说话人进行对比来对说话人的可辨别性进行建模。此外,为了充分利用上下文建模能力,进一步提出了两阶段解码策略,从而获得更好的识别性能。在AliMeeting语料库上的实验结果表明,所提出的方法在说话人相关字错误率(SpeakerDependentCharacterErrorRate,SD-CER)指标优于E2ESA-ASR方法,达到了最佳性能。
论文资源:论文预印版下载地址https://arxiv.org/abs/2305.12459
7. Real-TimeCausalSpectro-TemporalVoiceActivityDetectionBasedonConvolutionalEncodingandResidualDecoding
论文作者:王景渊,张结,戴礼荣
论文单位:中国科学技术大学
论文简介:
语音活动检测(voiceactivitydetection,VAD)是许多语音应用中的关键前端,旨在确定音频帧中是否存在语音信号。然而,传统的VAD方法在低信噪比环境下往往表现出性能不佳或非因果关系。因此,在这项工作中,我们提出了一种实时因果VAD模型,主要包括频域特征生成模块、基于卷积的编码模块和基于残差块的解码模块。仅利用当前和过去的帧进行特征提取确保了因果性。在各种噪声条件下,我们验证了所提出模型的有效性。结果显示,所提出的方法可以达到与最先进的非因果模型相当甚至更好的性能。
8. SemanticVAD:Low-LatencyVoiceActivityDetectionforSpeechInteraction
论文作者:史莫晗,舒钰淳,左玲云,陈谦,张仕良,张结,戴礼荣
论文单位:中国科学技术大学,天津大学,阿里巴巴达摩院
论文简介:
在语音交互场景下,语音活动检测(VoiceActivityDetection,VAD)常被用作前端来对长音频进行切分。然而,传统的VAD算法通常需要等待的尾部静音达到预设的阈值时间后才进行分割,导致延迟较高,影响用户体验。因此,本文提出了一种语义VAD方法进行低延迟切分。与现有方法不同的是,在语义VAD中增加了帧级标点符号预测任务;另外,除了常用的语音和非语音二分类之外,还将人工设定的尾部端点纳入VAD分类的类别中;为了增强模型的语义建模能力,我们在还在损失函数中加入了语音识别(AutomaticSpeechRecognition,ASR)损失进行辅助训练。在内部数据集上的实验结果表明,与传统的VAD方法相比,该方法降低了53.3%的平均延迟,而对于下游的语音识别任务并没有显著的性能退化。
论文资源:论文预印版下载地址https://arxiv.org/abs/2305.12450
9. UnsupervisedAdaptationwithQuality-AwareMaskingtoImproveTarget-SpeakerVoiceActivityDetectionforSpeakerDiarization
论文作者:牛树同,杜俊,何茂奎,李锦辉,李宝祥,李家魁
论文单位:中国科学技术大学,佐治亚理工学院,商汤科技
论文简介:
在本文中,我们提出了一种基于质量相关动态掩膜的目标说话人语音活动检测方法(quality-awaremaskingTS-VAD,QM-TS-VAD)。该方法可以在目标说话人语音活动检测(TS-VAD)进行无监督自适应的过程中减少伪标签的错误所带来的负面影响。此外,通过知识蒸馏的方法,QM-TS-VAD还可以作为教师模型来优化学生模型,从而进一步减小过拟合的问题。我们在DIHARD-III挑战赛的八个场景中对所提出的方法进行了测试。实验结果表明,我们提出的QM-TS-VAD方法可以有效地提高说话人日志系统的性能,引入知识蒸馏的方法可以使得模型性能在其中的七个场景中得到进一步的提升。此外,我们提出的自适应方法相比于DIHARD-III挑战赛冠军的自适应方法取得了更好的性能。
10. Fine-tuningAudioSpectrogramTransformerwithTask-awareAdaptersforSoundEventDetection
论文作者:李康,宋彦,IanMcLoughlin,柳林,李晋,戴礼荣
论文单位:中国科学技术大学,新加坡理工大学,科大讯飞
论文简介:
大规模数据预训练的PaSST模型在音频分类(AT)任务上取得了优异的表现,如何将PaSST迁移到声音事件检测(SED)任务上有待研究。本文提出了一种任务感知微调(task-awarefine-tuning)策略,来充分利用PaSST模型的知识。具体而言,本文引入了两种任务适配器,SED适配器和AT适配器,前者利用PaSST的浅层局部信息解码出高时间分辨率特征,并进一步得到帧级预测,经过linear-softmax池化后,得到段级预测;后者利用PaSST深层的语义信息直接产生段级预测。在平均教师(meanteacher)半监督方法的框架下,教师模型集成两个适配器的段级预测,产生更精确的段级伪标签,并指导学生模型中两个适配器学习,从而提高模型的事件检测性能。此外,我们还提出自蒸馏平均教师(self-distillatedmeanteacher)半监督方法,减少噪声标签对训练的影响。我们的系统取得了在DCASE2022task4开发集上目前已知的最优结果。
11. RobustPrototypeLearningforAnomalousSoundDetection
论文作者:曾晓敏,宋彦,IanMcLoughlin,柳林,戴礼荣
论文单位:中国科学技术大学,新加坡理工大学,科大讯飞
论文简介:
本文提出了一种用于异常声学检测的鲁棒性原型学习框架,其中利用了原型损失来度量样本和原型之间的相似性。从原型学习的角度,异常声学检测中的生成式方法和区分式方法能够被统一到该框架中。针对最近DCASE挑战中的异常声学检测任务,我们提出了关于不平衡学习的多种扩展并应用到该框架中,以提高源域和目标域原型的鲁棒性。具体地,我们提出平衡采样和多原型扩展(Multi-PrototypeExpansion,MPE)来解决源域和目标域之间属性的不平衡问题。此外,为了学习更紧凑和有效的正常样本特征空间,负原型扩展(NegativePrototypeExpansion,NPE)被应用于构建异常样本的表示。在DCASE2022Task2开发集上的实验结果证明了原型学习框架的有效性。
12. IntroducingSelf-SupervisedPhoneticInformationforText-IndependentSpeakerVerification
论文作者:张子扬,郭武,古斌
论文单位:中国科学技术大学
论文简介:
本文提出了一种新颖的多任务学习框架,将自监督的语音信息引入深度说话人嵌入提取中。具体而言,主任务仍是对说话人进行分类,辅助任务是利用噪声对比估计原理识别语音信号中的音素边界。为了进一步利用自监督信息来辅助说话人特征学习,辅助任务中中间层的特征通过掩蔽和偏置操作细化了主任务中相应层的特征。实验在VoxCeleb1和CN-Celeb数据集上进行,结果表明,所提出的方法可以一致提升说话人验证系统的性能。
13. AMultiple-TeacherPruningBasedSelf-Distillation(MT-PSD)ApproachtoModelCompressionforAudio-VisualWakeWordSpotting
论文作者:王皓天,杜俊,周恒顺,李锦辉,赵江江,任玉玲
论文单位:中国科学技术大学,佐治亚理工学院,中移在线服务有限公司
论文简介:
引入视频信息的音视频唤醒词识别(Audio-VisualWakeWordSpotting,AVWWS)相对单音频效果更优,系统鲁棒性更强,但是处理视频信息的视频支路会引入大量的额外参数量,不利于音视频唤醒网络的实际落地。在本文中我们提出了一种新颖的模型压缩方法,使用基于多教师剪枝的自蒸馏框架构建了音视频唤醒词识别网络,在不牺牲系统性能的情况下实现了紧凑的神经网络结构设计。在所提出的框架中的每个阶段,我们对前一阶段获得的教师模型进行剪枝生成学生模型,然后根据师生学习的原则对其进行微调,并将其用作下一阶段的新教师模型。我们设计了一个归一化的类内损失来优化这种基于剪枝的自蒸馏(PruningBasedSelf-Distillation,PSD)过程。每个阶段的微调过程我们都分别采用了单教师指导PSD(ST-PSD)和多教师指导PSD(MT-PSD)两种模式。当在MISP2021挑战赛的音视频唤醒词识别基线网络上进行测试时,所提出的两种技术在系统性能和模型复杂度方面都优于最先进的方法。此外,利用不同阶段获得的多个教师的互补性的MT-PSD效果也优于ST-PSD。
14. AD-TUNING:AnAdaptiveCHILD-TUNINGApproachtoEfficientHyperparameterOptimizationofChildNetworksforSpeechProcessingTasksintheSUPERBBenchmark
论文作者:杨高斌,杜俊,何茂奎,牛树同,李宝祥,李家魁,李锦辉
论文单位:中国科学技术大学,佐治亚理工学院,商汤科技
论文简介:
本文提出了AD-TUNING,一种用于子网络超参数调整的自适应CHILD-TUNING方法。为了解决选择最佳超参数集P的问题,我们首先分析了参数重要性的分布,以确定P的范围。接下来,我们提出了一个简单而有效的早期停止算法,为各种语音任务从不同的规模中选择合适的子网络。在对SUPERB基准中的七项语音处理任务进行评估时,我们提出的框架只需要对每个任务的预训练模型参数进行小于0.1%∼10%的微调,就能在大多数任务中取得最先进的结果。
论文资源:开源代码下载地址https://github.com/liyunlongaaa/AD-TUNING
浅析语音识别技术的工作原理及发展
浅析语音识别技术的工作原理及发展
语音是人类最自然的交互方式。计算机发明之后,让机器能够“听懂”人类的语言,理解语言中的内在含义,并能做出正确的回答就成为了人们追求的目标。我们都希望像科幻电影中那些智能先进的机器人助手一样,在与人进行语音交流时,让它听明白你在说什么。语音识别技术将人类这一曾经的梦想变成了现实。语音识别就好比“机器的听觉系统”,该技术让机器通过识别和理解,把语音信号转变为相应的文本或命令。
语音识别技术,也被称为自动语音识别Automatic SpeechRecogniTIon,(ASR),其目标是将人类的语音中的词汇内容转换为计算机可读的输入,例如按键、二进制编码或者字符序列。语音识别就好比“机器的听觉系统”,它让机器通过识别和理解,把语音信号转变为相应的文本或命令。
语音识别是一门涉及面很广的交叉学科,它与声学、语音学、语言学、信息理论、模式识别理论以及神经生物学等学科都有非常密切的关系。语音识别技术正逐步成为计算机信息处理技术中的关键技术。
语音识别技术的发展
语音识别技术的研究最早开始于20世纪50年代,1952年贝尔实验室研发出了10个孤立数字的识别系统。从20世纪60年代开始,美国卡耐基梅隆大学的Reddy等开展了连续语音识别的研究,但是这段时间发展很缓慢。1969年贝尔实验室的 PierceJ甚至在一封公开信中将语音识别比作近几年不可能实现的事情。
20世纪80年代开始,以隐马尔可夫模型(hiddenMarkovmodel,HMM)方法为代表的基于统计模型方法逐渐在语音识别研究中占据了主导地位。HMM模型能够很好地描述语音信号的短时平稳特性,并且将声学、语言学、句法等知识集成到统一框架中。此后,HMM的研究和应用逐渐成为了主流。例如,第一个“非特定人连续语音识别系统”是当时还在卡耐基梅隆大学读书的李开复研发的SPHINX系统,其核心框架就是GMM-HMM框架,其中GMM(Gaussianmixturemodel,高斯混合模型)用来对语音的观察概率进行建模,HMM则对语音的时序进行建模。
20世纪80年代后期,深度神经网络(deepneuralnetwork,DNN)的前身——人工神经网络(artificialneuralnetwork,ANN)也成为了语音识别研究的一个方向。但这种浅层神经网络在语音识别任务上的效果一般,表现并不如GMM-HMM模型。
20世纪90年代开始,语音识别掀起了第一次研究和产业应用的小高潮,主要得益于基于GMM-HMM声学模型的区分性训练准则和模型自适应方法的提出。这时期剑桥发布的HTK开源工具包大幅度降低了语音识别研究的门槛。此后将近10年的时间里,语音识别的研究进展一直比较有限,基于GMM-HMM框架的语音识别系统整体效果还远远达不到实用化水平,语音识别的研究和应用陷入了瓶颈。
2006年Hinton]提出使用受限波尔兹曼机(restricted Boltzmannmachine,RBM)对神经网络的节点做初始化,即深度置信网络(deepbeliefnetwork,DBN)。DBN解决了深度神经网络训练过程中容易陷入局部最优的问题,自此深度学习的大潮正式拉开。
2009年,Hinton和他的学生MohamedD将DBN应用在语音识别声学建模中,并且在TIMIT这样的小词汇量连续语音识别数据库上获得成功。
2011年DNN在大词汇量连续语音识别上获得成功,语音识别效果取得了近10年来最大的突破。从此,基于深度神经网络的建模方式正式取代GMM-HMM,成为主流的语音识别建模方式。
语音识别的基本原理
所谓语音识别,就是将一段语音信号转换成相对应的文本信息,系统主要包含特征提取、声学模型,语言模型以及字典与解码四大部分,其中为了更有效地提取特征往往还需要对所采集到的声音信号进行滤波、分帧等预处理工作,把要分析的信号从原始信号中提取出来;之后,特征提取工作将声音信号从时域转换到频域,为声学模型提供合适的特征向量;声学模型中再根据声学特性计算每一个特征向量在声学特征上的得分;而语言模型则根据语言学相关的理论,计算该声音信号对应可能词组序列的概率;最后根据已有的字典,对词组序列进行解码,得到最后可能的文本表示。
声学信号预处理
作为语音识别的前提与基础,语音信号的预处理过程至关重要。在最终进行模板匹配的时候,是将输入语音信号的特征参数同模板库中的特征参数进行对比,因此,只有在预处理阶段得到能够表征语音信号本质特征的特征参数,才能够将这些特征参数进行匹配进行识别率高的语音识别。
首先需要对声音信号进行滤波与采样,此过程主要是为了排除非人体发声以外频率的信号与50Hz电流频率的干扰,该过程一般是用一个带通滤波器、设定上下戒指频率进行滤波,再将原有离散信号进行量化处理实现的;之后需要平滑信号的高频与低频部分的衔接段,从而可以在同一信噪比条件下对频谱进行求解,使得分析更为方便快捷;分帧加窗操作是为了将原有频域随时间变化的信号具有短时平稳特性,即将连续的信号用不同长度的采集窗口分成一个个独立的频域稳定的部分以便于分析,此过程主要是采用预加重技术;最后还需要进行端点检测工作,也就是对输入语音信号的起止点进行正确判断,这主要是通过短时能量(同一帧内信号变化的幅度)与短时平均过零率(同一帧内采样信号经过零的次数)来进行大致的判定。
声学特征提取
完成信号的预处理之后,随后进行的就是整个过程中极为关键的特征提取的操作。将原始波形进行识别并不能取得很好的识别效果,频域变换后提取的特征参数用于识别,而能用于语音识别的特征参数必须满足以下几点:
1、特征参数能够尽量描述语音的根本特征;
2、尽量降低参数分量之间的耦合,对数据进行压缩;
3、应使计算特征参数的过程更加简便,使算法更加高效。基音周期、共振峰值等参数都可以作为表征语音特性的特征参数。
目前主流研究机构最常用到的特征参数有:线性预测倒谱系数(LPCC)和Mel倒谱系数(MFCC)。两种特征参数在倒谱域上对语音信号进行操作,前者以发声模型作为出发点,利用LPC技术求倒谱系数。后者则模拟听觉模型,把语音经过滤波器组模型的输出做为声学特征,然后利用离散傅里叶变换(DFT)进行变换。
所谓基音周期,是指声带振动频率(基频)的振动周期,因其能够有效表征语音信号特征,因此从最初的语音识别研究开始,基音周期检测就是一个至关重要的研究点;所谓共振峰,是指语音信号中能量集中的区域,因其表征了声道的物理特征,并且是发音音质的主要决定条件,因此同样是十分重要的特征参数。此外,目前也有许多研究者开始将深度学习中一些方法应用在特征提取中,取得了较快的进展。
声学模型
声学模型是语音识别系统中非常重要的一个组件,对不同基本单元的区分能力直接关系到识别结果的好坏。语音识别本质上一个模式识别的过程,而模式识别的核心是分类器和分类决策的问题。
通常,在孤立词、中小词汇量识别中使用动态时间规整(DTW)分类器会有良好的识别效果,并且识别速度快,系统开销小,是语音识别中很成功的匹配算法。但是,在大词汇量、非特定人语音识别的时候,DTW识别效果就会急剧下降,这时候使用隐马尔科夫模型(HMM)进行训练识别效果就会有明显提升,由于在传统语音识别中一般采用连续的高斯混合模型GMM来对状态输出密度函数进行刻画,因此又称为GMM-HMM构架。
同时,随着深度学习的发展,通过深度神经网络来完成声学建模,形成所谓的DNN-HMM构架来取代传统的GMM-HMM构架,在语音识别上也取得了很好的效果。
高斯混合模型
对于一个随机向量x,如果它的联合概率密度函数符合公式2-9,则称它服从高斯分布,并记为x∼N(µ,Σ)。
其中,µ为分布的期望,Σ为分布的协方差矩阵。高斯分布有很强的近似真实世界数据的能力,同时又易于计算,因此被广泛地应用在各个学科之中。但是,仍然有很多类型的数据不好被一个高斯分布所描述。这时候我们可以使用多个高斯分布的混合分布来描述这些数据,由多个分量分别负责不同潜在的数据来源。此时,随机变量符合密度函数。
其中,M为分量的个数,通常由问题规模来确定。
我们称认为数据服从混合高斯分布所使用的模型为高斯混合模型。高斯混合模型被广泛的应用在很多语音识别系统的声学模型中。考虑到在语音识别中向量的维数相对较大,所以我们通常会假设混合高斯分布中的协方差矩阵Σm为对角矩阵。这样既大大减少了参数的数量,同时可以提高计算的效率。
使用高斯混合模型对短时特征向量建模有以下几个好处:首先,高斯混合模型的具有很强的建模能力,只要分量总数足够多,高斯混合模型就可以以任意精度来逼近一个概率分布函数;另外,使用EM算法可以很容易地使模型在训练数据上收敛。对于计算速度和过拟合等问题,人们还研究出了参数绑定的GMM和子空间高斯混合模型(subspaceGMM)来解决。除了使用EM算法作最大似然估计以外,我们还可以使用和词或音素错误率直接相关的区分性的误差函数来训练高斯混合模型,能够极大地提高系统性能。因此,直到在声学模型中使用深度神经网络的技术出现之前,高斯混合模型一直是短时特征向量建模的不二选择。
但是,高斯混合模型同样具有一个严重的缺点:高斯混合模型对于靠近向量空间上一个非线性流形(manifold)上的数据建模能力非常差。例如,假设一些数据分布在一个球面两侧,且距离球面非常近。如果使用一个合适的分类模型,我们可能只需要很少的参数就可以将球面两侧的数据区分开。但是,如果使用高斯混合模型描绘他们的实际分布情况,我们需要非常多的高斯分布分量才能足够精确地刻画。这驱使我们寻找一个能够更有效利用语音信息进行分类的模型。
隐马尔科夫模型
我们现在考虑一个离散的随机序列,若转移概率符合马尔可夫性质,即将来状态和过去状态独立,则称其为一条马尔可夫链(MarkovChain)。若转移概率和时间无关,则称其为齐次(homogeneous)马尔可夫链。马尔可夫链的输出和预先定义好的状态一一对应,对于任意给定的状态,输出是可观测的,没有随机性。如果我们对输出进行扩展,使马尔可夫链的每个状态输出为一个概率分布函数。这样的话马尔可夫链的状态不能被直接观测到,只能通过受状态变化影响的符合概率分布的其他变量来推测。我们称以这种以隐马尔可夫序列假设来建模数据的模型为隐马尔可夫模型。
对应到语音识别系统中,我们使用隐马尔可夫模型来刻画一个音素内部子状态变化,来解决特征序列到多个语音基本单元之间对应关系的问题。
在语音识别任务中使用隐马尔可夫模型需要计算模型在一段语音片段上的可能性。而在训练的时候,我们需要使用Baum-Welch算法[23]学习隐马尔可夫模型参数,进行最大似然估计(MaximumLikelihoodEstimation,MLE)。Baum-Welch算法是EM(Expectation-Maximization)算法的一种特例,利用前后项概率信息迭代地依次进行计算条件期望的E步骤和最大化条件期望的M步骤。
语言模型
语言模型主要是刻画人类语言表达的方式习惯,着重描述了词与词在排列结构上的内在联系。在语音识别解码的过程中,在词内转移参考发声词典、词间转移参考语言模型,好的语言模型不仅能够提高解码效率,还能在一定程度上提高识别率。语言模型分为规则模型和统计模型两类,统计语言模型用概率统计的方法来刻画语言单位内在的统计规律,其设计简单实用而且取得了很好的效果,已经被广泛用于语音识别、机器翻译、情感识别等领域。
最简单又却又最常用的语言模型是N元语言模型(N-gramLanguageModel,N-gramLM)。N元语言模型假设当前在给定上文环境下,当前词的概率只与前N-1个词相关。于是词序列w1,...,wm的概率P(w1,...,wm)可以近似为
为了得到公式中的每一个词在给定上文下的概率,我们需要一定数量的该语言文本来估算。可以直接使用包含上文的词对在全部上文词对中的比例来计算该概率,即
对于在文本中未出现的词对,我们需要使用平滑方法来进行近似,如Good-Turing估计或Kneser-Ney平滑等。
解码与字典
解码器是识别阶段的核心组件,通过训练好的模型对语音进行解码,获得最可能的词序列,或者根据识别中间结果生成识别网格(lattice)以供后续组件处理。解码器部分的核心算法是动态规划算法Viterbi。由于解码空间非常巨大,通常我们在实际应用中会使用限定搜索宽度的令牌传递方法(tokenpassing)。
传统解码器会完全动态生成解码图(decodegraph),如著名语音识别工具HTK(HMMToolKit)中的HVite和HDecode等。这样的实现内存占用较小,但考虑到各个组件的复杂性,整个系统的流程繁琐,不方便高效地将语言模型和声学模型结合起来,同时更加难以扩展。现在主流的解码器实现会一定程度上使用预生成的有限状态变换器(FiniteStateTransducer,FST)作为预加载的静态解码图。这里我们可以将语言模型(G),词汇表(L),上下文相关信息(C),隐马尔可夫模型(H)四个部分分别构建为标准的有限状态变换器,再通过标准的有限状态变换器操作将他们组合起来,构建一个从上下文相关音素子状态到词的变换器。这样的实现方法额外使用了一些内存空间,但让解码器的指令序列变得更加整齐,使得一个高效的解码器的构建更加容易。同时,我们可以对预先构建的有限状态变换器进行预优化,合并和剪掉不必要的部分,使得搜索空间变得更加合理
语音识别技术的工作原理
首先,我们知道声音实际上是一种波。常见的mp3等格式都是压缩格式,必须转成非压缩的纯波形文件来处理,比如WindowsPCM文件,也就是俗称的wav文件。wav文件里存储的除了一个文件头以外,就是声音波形的一个个点了。下图是一个波形的示例。
图中,每帧的长度为25毫秒,每两帧之间有25-10=15毫秒的交叠。我们称为以帧长25ms、帧移10ms分帧。
分帧后,语音就变成了很多小段。但波形在时域上几乎没有描述能力,因此必须将波形作变换。常见的一种变换方法是提取MFCC特征,根据人耳的生理特性,把每一帧波形变成一个多维向量,可以简单地理解为这个向量包含了这帧语音的内容信息。这个过程叫做声学特征提取。
至此,声音就成了一个12行(假设声学特征是12维)、N列的一个矩阵,称之为观察序列,这里N为总帧数。观察序列如下图所示,图中,每一帧都用一个12维的向量表示,色块的颜色深浅表示向量值的大小。
接下来就要介绍怎样把这个矩阵变成文本了。首先要介绍两个概念:
音素:单词的发音由音素构成。对英语,一种常用的音素集是卡内基梅隆大学的一套由39个音素构成的音素集。汉语一般直接用全部声母和韵母作为音素集,另外汉语识别还分有调无调,不详述。
状态:这里理解成比音素更细致的语音单位就行啦。通常把一个音素划分成3个状态。
语音识别是怎么工作的呢?实际上一点都不神秘,无非是:
第一步,把帧识别成状态。
第二步,把状态组合成音素。
第三步,把音素组合成单词。
如下图所示:
图中,每个小竖条代表一帧,若干帧语音对应一个状态,每三个状态组合成一个音素,若干个音素组合成一个单词。也就是说,只要知道每帧语音对应哪个状态了,语音识别的结果也就出来了。
那每帧音素对应哪个状态呢?有个容易想到的办法,看某帧对应哪个状态的概率最大,那这帧就属于哪个状态。比如下面的示意图,这帧在状态S3上的条件概率最大,因此就猜这帧属于状态S3。
那这些用到的概率从哪里读取呢?有个叫“声学模型”的东西,里面存了一大堆参数,通过这些参数,就可以知道帧和状态对应的概率。获取这一大堆参数的方法叫做“训练”,需要使用巨大数量的语音数据。
但这样做有一个问题:每一帧都会得到一个状态号,最后整个语音就会得到一堆乱七八糟的状态号,相邻两帧间的状态号基本都不相同。假设语音有1000帧,每帧对应1个状态,每3个状态组合成一个音素,那么大概会组合成300个音素,但这段语音其实根本没有这么多音素。如果真这么做,得到的状态号可能根本无法组合成音素。实际上,相邻帧的状态应该大多数都是相同的才合理,因为每帧很短。
解决这个问题的常用方法就是使用隐马尔可夫模型(HiddenMarkovModel,HMM)。这东西听起来好像很高深的样子,实际上用起来很简单:
第一步,构建一个状态网络。
第二步,从状态网络中寻找与声音最匹配的路径。
这样就把结果限制在预先设定的网络中,避免了刚才说到的问题,当然也带来一个局限,比如你设定的网络里只包含了“今天晴天”和“今天下雨”两个句子的状态路径,那么不管说些什么,识别出的结果必然是这两个句子中的一句。
那如果想识别任意文本呢?把这个网络搭得足够大,包含任意文本的路径就可以了。但这个网络越大,想要达到比较好的识别准确率就越难。所以要根据实际任务的需求,合理选择网络大小和结构。
搭建状态网络,是由单词级网络展开成音素网络,再展开成状态网络。语音识别过程其实就是在状态网络中搜索一条最佳路径,语音对应这条路径的概率最大,这称之为“解码”。路径搜索的算法是一种动态规划剪枝的算法,称之为Viterbi算法,用于寻找全局最优路径。
这里所说的累积概率,由三部分构成,分别是:
观察概率:每帧和每个状态对应的概率
转移概率:每个状态转移到自身或转移到下个状态的概率
语言概率:根据语言统计规律得到的概率
其中,前两种概率从声学模型中获取,最后一种概率从语言模型中获取。语言模型是使用大量的文本训练出来的,可以利用某门语言本身的统计规律来帮助提升识别正确率。语言模型很重要,如果不使用语言模型,当状态网络较大时,识别出的结果基本是一团乱麻。
这样基本上语音识别过程就完成了,这就是语音识别技术的工作原理。
语音识别技术的工作流程
一般来说,一套完整的语音识别系统其工作过程分为7步:
1、对语音信号进行分析和处理,除去冗余信息。
2、提取影响语音识别的关键信息和表达语言含义的特征信息。
3、紧扣特征信息,用最小单元识别字词。
4、按照不同语言的各自语法,依照先后次序识别字词。
5、把前后意思当作辅助识别条件,有利于分析和识别。
6、按照语义分析,给关键信息划分段落,取出所识别出的字词并连接起来,同时根据语句意思调整句子构成。
7、结合语义,仔细分析上下文的相互联系,对当前正在处理的语句进行适当修正。
语音识别原理有三点:
1、对语音信号中的语言信息编码是按照幅度谱的时间变化来进行;
2、由于语音是可以阅读的,也就是说声学信号可以在不考虑说话人说话传达的信息内容的前提下用多个具有区别性的、离散的符号来表示;
3、语音的交互是一个认知过程,所以绝对不能与语法、语义和用语规范等方面分裂开来。
预处理,其中就包括对语音信号进行采样、克服混叠滤波、去除部分由个体发音的差异和环境引起的噪声影响,此外还会考虑到语音识别基本单元的选取和端点检测问题。反复训练是在识别之前通过让说话人多次重复语音,从原始语音信号样本中去除冗余信息,保留关键信息,再按照一定规则对数据加以整理,构成模式库。再者是模式匹配,它是整个语音识别系统的核心部分,是根据一定规则以及计算输入特征与库存模式之间的相似度,进而判断出输入语音的意思。
前端处理,先对原始语音信号进行处理,再进行特征提取,消除噪声和不同说话人的发音差异带来的影响,使处理后的信号能够更完整地反映语音的本质特征提取,消除噪声和不同说话人的发音差异带来的影响,使处理后的信号能够更完整地反映语音的本质特征。
原文标题:语音识别技术概述
文章出处:【微信号:WW_CGQJS,微信公众号:传感器技术】欢迎添加关注!文章转载请注明出处。