博舍

《语音识别:原理与应用》洪青阳著【摘要 书评 在线阅读】 语音识别原理与应用 pdf

《语音识别:原理与应用》洪青阳著【摘要 书评 在线阅读】

商品介绍作者:洪青阳著:洪青阳译装帧:简装定价:128.0ISBN:9787121385025出版社:电子工业出版社开本:16开语种:中文版次:1出版时间:2020-06-01页数:319外部编号:1202089315目录

章语音识别概论11.1语音的产生和感知11.2语音识别过程41.3语音识别发展历史81.4国内语音识别现状151.5语音识别建模方法191.5.1DTW191.5.2GMM-HMM201.5.3DNN-HMM201.5.4端到端221.6语音识别开源工具221.7语音识别常用数据库221.8语音识别评价指标241.9参考资料24第2章语音信号基础282.1声波的特性282.2声音的接收装置292.2.1麦克风阵列312.3声音的采样322.4声音的量化332.5语音的编码352.6WAV文件格式382.7WAV文件分析392.8本章小结42思考练习题43第3章语音特征提取443.1预处理443.2短时傅立叶变换483.3听觉特性513.4线性预测543.5倒谱分析553.6常用的声学特征563.6.1语谱图573.6.2FBank583.6.3MFCC593.6.4PLP613.6.5CQCC623.7本章小结65思考练习题66第4章HMM674.1HMM的基本概念694.1.1马尔可夫链704.1.2双重随机过程714.1.3HMM的定义724.2HMM的三个基本问题734.2.1模型评估问题744.2.2最佳路径问题774.2.3模型训练问题794.3本章小结814.4参考资料82思考练习题82第5章GMM-HMM835.1概率统计845.2高斯分布855.3GMM885.3.1初始化895.3.2重估计905.4GMM-HMM915.5GMM-HMM的训练975.6模型自适应995.6.1MAP995.6.2MLLR1005.6.3fMLLR1005.6.4SAT1015.7本章小结1015.8参考资料101思考练习题102课程实践:基于HTK搭建GMM-HMM系统103第6章基于HMM的语音识别1046.1建模单元1046.2发音过程与HMM状态1076.3串接HMM1086.4固定语法的识别1126.5随机语法的识别1176.6本章小结123思考练习题124第7章音素的上下文建模1257.1协同发音1257.2上下文建模1267.3决策树1287.4问题集1297.4.1手工设计1297.4.2自动生成1317.5三音子模型的训练1347.6本章小结135思考练习题135第8章语言模型1368.1n-gram模型1388.2评价指标――困惑度1428.3平滑技术1438.3.1Good-Turing折扣法1438.3.2Jelinek-Mercer插值法1448.3.3Kneser-Ney插值法1448.3.4Katz回退法1468.4语言模型的训练1488.5递归神经网络语言模型1518.6本章小结1568.7参考资料156思考练习题157第9章WFST解码器1589.1基于动态网络的Viterbi解码1599.2WFST理论1639.3HCLG构建1689.3.1H的构建1699.3.2C的构建1719.3.3L的构建1729.3.4G的构建1739.3.5HCLG合并1759.4WFST的Viterbi解码1779.4.1Token的定义1779.4.2Viterbi算法1789.5Lattice解码1859.5.1主要数据结构1859.5.2令牌传播过程1869.5.3剪枝策略1899.5.4Lattice1909.6本章小结1929.7参考资料192思考练习题1930章DNN-HMM19410.1深度学习19410.2DNN19510.2.1激活函数19610.2.2损失函数19810.2.3梯度下降算法19910.3DNN与HMM的结合20110.4不同的DNN结构20510.4.1CNN20510.4.2LSTM21010.4.3GRU21010.4.4TDNN21110.4.5TDNN-F21410.5本章小结21810.6参考资料219思考练习题2191章序列区分性训练22011.1区分性准则22111.1.1MMI22111.1.2BMMI22211.1.3MPE/sMBR22211.2MMI求导过程22311.3Lattice-basedMMI22511.4Lattice-freeMMI22711.5KaldiChain模型23011.6本章小结23111.7参考资料231思考练习题2322章端到端语音识别23312.1CTC23412.1.1损失函数23512.1.2前向算法23912.1.3后向算法24212.1.4求导过程24312.1.5CTC解码24512.2RNN-T24812.3Attention模型25112.4HybridCTC/Attention25412.5Transformer25612.6本章小结25912.7参考资料260思考练习题2613章Kaldi实践26213.1下载与安装Kaldi26313.1.1获取源代码26313.1.2编译26413.2创建与配置基本的工程目录26513.3aishell语音识别工程26613.3.1数据映射目录准备26713.3.2词典准备和lang目录生成26913.3.3语言模型训练27113.3.4声学特征提取与倒谱均值归一化27313.3.5声学模型训练与强制对齐27413.3.6解码测试与指标计算27713.4本章小结2794章Espnet实践28014.1数据准备28014.1.1映射文件准备28014.1.2特征提取28114.1.3数据增强28214.1.4词典生成28214.1.5数据打包28314.2Espnet配置文件28414.3语言模型训练28514.4声学模型训练28714.4.1声学模型训练脚本28714.4.2CTC声学模型训练28814.4.3Attention声学模型训练28914.4.4RNN-T模型训练29014.4.5Transformer模型训练29214.5语音识别解码29314.6Espnet训练解码可视化29414.6.1Espnet训练参数可视化29414.6.2Espnet中的Attention可视化29514.6.3Espnet解码结果可视化29614.7本章小结29714.8参考资料2975章工业应用实践29815.1动态库封装29815.1.1函数接口29815.1.2动态库编译30615.1.3动态库调用30915.2语音云平台31015.3识别引擎优化31515.3.1加快响应速度31515.3.2定制语言模型31615.3.3定制声学模型31615.4嵌入式移植31815.5本章小结319

作者简介

洪青阳,厦门大学副教授,语音识别方向,在靠前重要期刊和会议发表学术论文近50篇,已获得发明授权7项,并研发多款语音声纹产品,成功应用到智能手机、智能玩具、公安司法、市场调查等行业客户。2018年3月起,研发的声纹识别技术先后在华为P20、Mate20手机落地应用。

图书简介

本书系统地介绍了语音识别的原理和应用,全书共分15章,原理部分涵盖声学特征、隐马尔可夫模型(HMM)、高斯混合模型(GMM)、深度神经网络(DNN)、语言模型和加权有限状态转换器(WFST),重点描述了GMM-HMM、DNN-HMM和端到端(E2E)三种语音识别框架。本书应用部分包含Kaldi、Espnet、工业应用实践介绍,内容主要来自工程经验,极具实用性。本书可以作为普通高等学校人工智能、计算机科学与技术、电子信息工程、自动化等专业的本科生及研究生教材,也适合作为从事智能语音系统的科研和工程技术人员的参考用书。

一文看懂语音识别

语音识别是计算语言学的跨学科子领域,其开发方法和技术,使得能够通过计算机识别和翻译口语。它也被称为自动语音识别(ASR),计算机语音识别或语音到文本(STT)。它融合了语言学,计算机科学和电气工程领域的知识和研究。

一些语音识别系统需要“训练”(也称为“登记”),其中个体说话者将文本或孤立的词汇读入系统。系统分析人的特定声音并使用它来微调对该人的语音的识别,从而提高准确性。不使用训练的系统称为“说话者无关” 系统。使用训练的系统称为“说话者依赖”。

查看详情

【数字语音处理】语音识别基本原理与应用

语音识别基本原理与应用1.语音识别系统概述2.HMM基本原理及在语音识别中的应用3.支持向量机在语音识别中的应用1.语音识别系统概述

注意:声学前端的处理效果要非常纯净。

预处理——抗混叠滤波与预加重抗混叠滤波预加重——端点检测特征提取语音训练识别模型——模式匹配法:——统计模型方法——人工神经网络的方法2.HMM基本原理及在语音识别中的应用隐马尔可夫模型

——隐马尔可夫模型的三个基本问题

——隐马尔可夫模型用于语音识别注:现在面临问题是:现实环境中的影响

3.支持向量机在语音识别中的应用

支持向量机分类原理

语音识别技术的应用及发展

语音识别是以语音为研究对象,通过语音信号处理和模式识别让机器自动识别和理解人类口述的语言。语音识别技术就是让机器通过识别和理解过程把语音信号转变为相应的文本或命令的高技术。语音识别是一门涉及面很广的交叉学科,它与声学、语音学、语言学、信息理论、模式识别理论以及神经生物学等学科都有非常密切的关系。语音识别技术正逐步成为计算机信息处理技术中的关键技术,语音技术的应用已经成为一个具有竞争性的新兴高技术产业。本文引用地址:http://www.eepw.com.cn/article/201710/368484.htm

1、语音识别的基本原理

语音识别系统本质上是一种模式识别系统,包括特征提取、模式匹配、参考模式库等三个基本单元,它的基本结构如下图所示:

未知语音经过话筒变换成电信号后加在识别系统的输入端,首先经过预处理,再根据人的语音特点建立语音模型,对输入的语音信号进行分析,并抽取所需的特征,在此基础上建立语音识别所需的模板。而计算机在识别过程中要根据语音识别的模型,将计算机中存放的语音模板与输入的语音信号的特征进行比较,根据一定的搜索和匹配策略,找出一系列最优的与输入语音匹配的模板。然后根据此模板的定义,通过查表就可以给出计算机的识别结果。显然,这种最优的结果与特征的选择、语音模型的好坏、模板是否准确都有直接的关系。

2、语音识别技术的发展历史及现状

1952年,ATTBell实验室的Davis等人研制了第一个可十个英文数字的特定人语音增强系统一Audry系统1956年,美国普林斯顿大学RCA实验室的Olson和Belar等人研制出能10个单音节词的系统,该系统采用带通滤波器组获得的频谱参数作为语音增强特征。195

版权声明:本文内容由互联网用户自发贡献,该文观点仅代表作者本人。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如发现本站有涉嫌抄袭侵权/违法违规的内容,一经查实,本站将立刻删除。

上一篇

下一篇