语音识别:原理与应用
课程名称:语音识别
主讲人:洪青阳
1.语音识别概论.pdf
2.语音信号基础.pdf
3.语音特征提取.pdf
4.隐马尔可夫模型(HMM).pdf
5.GMM-HMM.pdf
6.基于HMM的语音识别.pdf
7.DNN-HMM.pdf
8.语言模型.pdf
9.WFST解码器.pdf
10.序列区分性训练.pdf
11.端到端语音识别.pdf
12.Kaldi实践.pdf
13.Espnet实践.pdf
14.WeNet实践.pdf
15.工业应用实践.pdf
打包下载:
语音课件pdf_202305.rar
语音课件ppt_202305.rar
第2版教材课后作业参考答案_202306.rar
《语音识别:原理与应用》(第2版)现已上架,可点击链接购买:https://item.jd.com/13785236.html
第2版视频介绍:https://www.bilibili.com/video/BV1od4y1n7vM
相关公开课回放视频链接:语音识别初探:基础理论与关键技术 https://appQTULvsIE4217.h5.xeknow.com/st/0rb43QK0W (可配套《1.语音识别概论.pdf》观看)
语音识别之WFST解码器:基于WFST的Viterbi解码过程 https://appQTULvsIE4217.h5.xeknow.com/st/7VsRnmQRj (可配套《9.WFSF解码器.pdf》观看)
端到端和实践部分(课堂录音):https://box.xmu.edu.cn/share/9d9865a7587821253f26911980(配套第11、12、14、15章)
《语音识别:原理与应用》(第1版)一书的勘误如下
书稿勘误0928-v2.docx
书稿勘误-v3.docx
《语音识别:原理与应用》(第2版)一书的勘误如下
第2版勘误-v1.docx
语音识别技术论文阅读笔记
2021.03.24
论文:语音识别技术人工智能毕业论文(作者:)
笔记:1.语音识别技术应用领域:声控电话交换、信息网络查询、家庭服务、医疗服务、银行服务、工业控制、语音助手、语音通信系统等。2.语音识别的基本方法:(1)基于声道模型和语音知识的方法。最早。(2)模板匹配的方法。动态时间规整(DTW)、隐马尔可夫(HMM)理论、矢量量化(VQ)技术。(3)神经网络的方法。3.语音识别系统的结构:(1)语音信号预处理与特征提取(2)声学模型与模式匹配(3)语音模型与语言处理4.语音识别主要问题:(1)自然语言的识别和理解。(2)语音信息量大。(3)语音的模糊性。(4)语音具体含义受上下文的影响大。(5)环境噪声干扰大。
论文:语音识别技术的发展及应用(作者:于晓明)笔记:1.发展历程:20世纪50年代我国语音技术出现国外也只是贝尔实验室简单的英语单词发音装置—->20世纪70年代语音识别实质性进展主流隐士马尔科夫模型技术(HMM)从传统目标匹配方式向基于统计数学化方向发展——>20世纪80年代语音识别技术进一步发展模式识别出现人工神经网络从简单词语识别到连续语音识别和大量词语的识别我国863计划与国外同步发展——->20世纪90年代语音识别技术成熟基于BP神经网络语音识别产品出现。2.语音识别构建模型:预处理、特征提取模式匹配、判决语音信号——————————————->模式库—————————————->判决结果语音信号预处理:1.语音信号预加重。目的提高信号和噪声信号的比度,很好的对语音信号进行滤波。2.加窗分帧。(汉明窗)为得到语音信号的分析频谱,将持续的语音信号分成多段信号。3.端点监测。很好的区分正常的语音信息、有间断的信息、有无声信息。排除其他选取正常的语音信息。语音信号的特征提取:(特定的倒谱特征)经典的LPCC和MFCC两个参数。模式匹配判决:声学模型(发音)语言模型(语法结构)3.语音识别应用领域:智能家居、公安、购物、银行、车载、门禁、身份识别。4.技术突破:噪声问题(难题)提高鲁棒性。5.发展前景:语音识别系统将说话方的语言通过语音识别技术显示给听力受限的人群作用类似助听器。经济有效。
论文:简单语音识别的实现过(作者:陆昱方)笔记:1.语音识别定义:就是指让机器通过识别和理解过程把语音信号转变为相应的文本信息或命令信息的高科技技术。2.语音识别应用领域:工业、通信、智能家居、汽车、医疗、电子产品、公安系统等。3.语音识别功能:(1)语音输入系统:声音信号转化为电信号输入到计算机中。(2)语音控制系统:语音信息以电流的形式输入计算机后,计算机根据数据库里的内容进行匹配。3.语音识别实现过程:预处理—>传感器(声音信号到电信号)—->加工成二进制。语音识别方法:HMM、ANN特征参数:线性预测编码系数、短时频谱、短时平均幅度、短时平均能量。
[En]Characteristicparameters:linearpredictivecodingcoefficient,short-termspectrum,short-termaverageamplitude,short-termaverageenergy.
贝叶斯原理:P(B|A)=P(AB)/[P(AB)+P(AB(上划线))]定理是关于随机事件A和B的条件概率的。能找出频率最高的断句方式。4.语音分析:就是语音识别分词断句的过程。4.优势:高效性、迅速性、便捷性。5.问题:(1)技术不成熟因口音识别出错(2)噪音(3)语音歧义,要求语音识别的词组库要有更快的更新速度。叠词。
Original:https://blog.csdn.net/m110708/article/details/115138621Author:喵小花的小不点Title:语音识别技术论文阅读笔记
原创文章受到原创版权保护。转载请注明出处:https://www.johngo689.com/524908/
转载文章受原作者版权保护。转载请注明原作者出处!