单片机语音识别原理
语音识别是一门交叉学科。近二十年来,语音识别技术取得显著进步,开始从实验室走向市场。人们预计,未来10年内,语音识别技术将进入工业、家电、通信、汽车电子、医疗、家庭服务、消费电子产品等各个领域。语音识别听写机在一些领域的应用被美国新闻界评为1997年计算机发展十件大事之一。很多专家都认为语音识别技术是2000年至2010年间信息技术领域十大重要的科技发展技术之一。语音识别技术所涉及的领域包括:信号处理、模式识别、概率论和信息论、发声机理和听觉机理、人工智能等等。
语音识别原理:
语音识别系统本质上是一种多维模式识别系统。它与一般的模式识别系统类似,包括语音预处理、语音特征提取、语音模式库和语音模式匹配等基本单元,如图1所示。
1)语音预处理:包括预加重、反混叠滤波、端点检测、噪声滤波等处理过程,用以去除声门激励、口鼻辐射、高于1/2采样频率的高频和噪声信号的影响,实现语音信号的数字化。
2)语音特征提取:对经过预处理后的语音信号进行特征参数分析。该过程就是从原始语音信号中抽取出能够反映语音本质的特征参数,形成特征矢量序列。可选择的语音特征参数包括:时域参数、频域参数、声道的形状函数、随机模型的概率函数、量化矢量和超音段信息函数等。
3)语音模式库:即声学参数模板,它是用聚类分析等方法,从一个讲话者或多个讲话者多次重复的语音参数中经过长时间训练得到的。
4)语音模式匹配:将输入语音的特征参数同训练得到的语音模式库进行比较分析,从而得到识别结果。
随着信息技术的飞速发展,
语音识别入门
语音识别入门前期知识储备结构图语音特征提取各个模型的尝试ASRTDeepSpeechRecognitionend2end_chinese_speech_recognitionWenetwhisper语音纠错TTS文本转语音前期知识储备对语音识别是零基础,所以第一步语音特征提取也需要进行一些了解。本人有图像识别、深度学习基础,实习因为项目需要,需要对语音识别做一个整合梳理。论语音识别三大技术
结构图语音特征提取语音特征提取将普通的wav语音信号通过分帧加窗等操作转换为神经网络需要的二维频谱图像信号,即语谱图。有一份特别好的教程,很细节的说了一些基础相关知识。适合一样零基础的小白。jupyter教程地址更多细节
加窗:指的是构造汉明窗汉明窗
还有各种不是很明白的点可以自行查找。
各个模型的尝试就不在赘述环境配置问题,以下模型的环境配置和安装大多都在网上有解决方案。
ASRT基于深度学习的中文语音识别系统本项目声学模型通过采用卷积神经网络(CNN)和连接性时序分类(CTC)方法,使用大量中文语音数据集进行训练,将声音转录为中文拼音,并通过语言模型,将拼音序列转换为中文文本。算法模型在测试集上已经获得了80%的正确率。基于该模型,在Windows平台上实现了一个基于ASRT的语音识别应用软件,取得了较好应用效果。这个应用软件包含Windows10UWP商店应用和Windows版.Net平台桌面应用,也一起开源在GitHub上了。
DEMO预览模型原理
我使用这个模型中统计模型的声学模型效果很差,但是语言模型使用拼音转文本的效果还可以。我打算单独把单独的语言模型拿出来用,LanguageModel
DeepSpeechRecognition基于深度学习的中文语音识别系统同样是使用CNN+DNN+CNN模型原理论文通过这个框架模型的教程,我一步步大概了解了语音识别的结构。我使用了该模型的声学模型,使用清华大学THCHS30中文语音数据集有各种详细数据集介绍
end2end_chinese_speech_recognition这个开源小模型反而效果很好,在环境和发音都较为清楚的情况下,效果比一些复杂的大框架还要有用。ps:可能是我配置或者哪里不对,如果有大佬,可以留言一起讨论。
Wenetwenet工业开源落地做的比较成熟的部署和demo都很齐全,很大程度上降低了asrt的门槛!也由此了解到了西北工业大学,可以关注一下对应的公众号。很多科普和入门的知识点
whisperopenai的whisper看到openai就不用过多的赘述了吧
语音纠错pycorrector介绍的很明白了,就不再多赘述了。
TTS文本转语音pyttsx3
离线非APISDK的文本转语音Python库