博舍

中文语音识别数据集总结 语音识别 百度网盘

中文语音识别数据集总结

目录OpenSLR国内镜像1.FreeSTChineseMandarinCorpus2.PrimewordsChineseCorpusSet13.爱数智慧中文手机录音音频语料库(MandarinChineseReadSpeech)4.THCHS305.ST-CMDS6.MAGICDATAMandarinChineseReadSpeechCorpus7.AISHELL7.1AISHELL开源版17.2AISHELL-2开源中文语音数据库7.3AISHELL-翻译机录制语音数据库7.4AISHELL-家居环境近远讲同步语音数据库7.5AISHELL-语音唤醒词数据库7.6AISHELL-3语音合成数据集8.Aidatatang8.1aidatatang_1505zh(完整的1505小时中文普通话语音数据集)8.2Aidatatang_200zh(基于完整数据集精选的200小时中文普通话语音数据集)9.hkust10.Speechocean10小时中文普通话语音识别语料库11.cn-celeb12.HI-MIA13.MobvoiHotwords14.zhvoice:ChinesevoicecorpusOpenSLR国内镜像

http://openslr.magicdatatech.com/

1.FreeSTChineseMandarinCorpus

1)基本信息:参与者:855人这个语料库是用手机在室内安静的环境中录制的。它有855个speakers。每个演讲者有120个话语。所有的话语都经过人仔细的转录和核对。保证转录精度

语料库包含:1音频文件;2转录;3元数据;

2)链接

下载:(8.2G)

http://www.openslr.org/resources/38/ST-CMDS-20170001_1-OS.tar.gz

国内镜像:

http://cn-mirror.openslr.org/resources/38/ST-CMDS-20170001_1-OS.tar.gz

2.PrimewordsChineseCorpusSet1

1)基本信息参与人数:296人时长:178小时

这个免费的中文普通话语料库由上海普力信息技术有限公司发布。(www.primewords.cn)包含178个小时的数据。该语料由296名以中文为母语的人的智能手机录制。转录精度大于98%,置信度为95%。免费用于学术用途。转述和词句之间的映射以JSON格式提供。

2)链接

下载:(9.0G)

http://www.openslr.org/resources/47/primewords_md_2018_set1.tar.gz

国内镜像:

http://cn-mirror.openslr.org/resources/47/primewords_md_2018_set1.tar.gz

3.爱数智慧中文手机录音音频语料库(MandarinChineseReadSpeech)

1)基本信息

时长:755小时

参与人数:1000人

音频格式:PCM

MagicData中文手机录音音频语料库包含755小时的中文普通话朗读语音数据,其中分为训练集712.09小时、开发集14.84小时和测试集28.08小时。本语料库的录制文本覆盖多样化的使用场景,包括互动问答、音乐搜索、口语短信信息、家居命令控制等。采集方式为手机录音,涵盖多种类型的安卓手机;录音输出为PCM格式。1000名来自中国不同口音区域的发言人参与采集。MagicData中文手机录音音频语料库由MagicData有限公司开发,免费发布供非商业使用。

2)链接

数据包:

https://freedata.oss-cn-beijing.aliyuncs.com/MAGICDATA_Mandarin_Chinese_Speech.zip

下载地址

http://www.imagicdatatech.com/index.php/home/dataopensource/data_info/id/101

4.THCHS30

1)基本信息

时长:40余小时

THCHS30是一个经典的中文语音数据集,包含了1万余条语音文件,通过单个碳粒麦克风录取,大约40小时的中文语音数据,内容以文章诗句为主,全部为女声。它是由清华大学语音与语言技术中心(CSLT)出版的开放式中文语音数据库。原创录音于2002年由朱晓燕教授在清华大学计算机科学系智能与系统重点实验室监督下进行,原名“TCMSD”,代表“清华连续”普通话语音数据库’。13年后的出版由王东博士发起,并得到了朱晓燕教授的支持。他们希望为语音识别领域的新入门的研究人员提供玩具级别的数据库,因此,数据库对学术用户完全免费。

2)链接

国内镜像:

https://link.ailemon.me/?target=http://cn-mirror.openslr.org/resources/18/data_thchs30.tgz

国外镜像:

https://link.ailemon.me/?target=http://www.openslr.org/resources/18/data_thchs30.tgz

5.ST-CMDS

1)基本信息:

时长:100余小时

参与人数:855人

ST-CMDS是由一个AI数据公司发布的中文语音数据集,包含10万余条语音文件,大约100余小时的语音数据。数据内容以平时的网上语音聊天和智能语音控制语句为主,855个不同说话者,同时有男声和女声,适合多种场景下使用。

2)链接

下载地址:

国内镜像:

https://link.ailemon.me/?target=http://cn-mirror.openslr.org/resources/38/ST-CMDS-20170001_1-OS.tar.gz

国外镜像:

https://link.ailemon.me/?target=http://www.openslr.org/resources/38/ST-CMDS-20170001_1-OS.tar.gz

6.MAGICDATAMandarinChineseReadSpeechCorpus

1)基本信息

时长:755小时

参与人数:1080人

应用:语音识别,机器翻译,说话人识别和其他语音相关领域

MagicData技术有限公司的语料库,语料库包含755小时的语音数据,其主要是移动终端的录音数据。邀请来自中国不同重点区域的1080名演讲者参与录制。句子转录准确率高于98%。录音在安静的室内环境中进行。数据库分为训练集,验证集和测试集,比例为51:1:2。诸如语音数据编码和说话者信息的细节信息被保存在元数据文件中。录音文本领域多样化,包括互动问答,音乐搜索,SNS信息,家庭指挥和控制等。还提供了分段的成绩单。该语料库旨在支持语音识别,机器翻译,说话人识别和其他语音相关领域的研究人员。因此,语料库完全免费用于学术用途。

2)链接

下载地址见参考:https://blog.ailemon.me/2018/11/21/free-open-source-chinese-speech-datasets/镜像:http://www.openslr.org/68/

7.AISHELL7.1AISHELL开源版1

1)基本信息

时长:178小时

参与人数:400人

采样:44.1kHz&16kHz16bit

AISHELL是由北京希尔公司发布的一个中文语音数据集,其中包含约178小时的开源版数据。该数据集包含400个来自中国不同地区、具有不同的口音的人的声音。录音是在安静的室内环境中同时使用3种不同设备:高保真麦克风(44.1kHz,16-bit);Android系统手机(16kHz,16-bit);iOS系统手机(16kHz,16-bit)。进行录音,并采样降至16kHz,用于制作AISHELL-ASR0009-OS1。通过专业的语音注释和严格的质量检查,手动转录准确率达到95%以上。该数据免费供学术使用。他们希望为语音识别领域的新研究人员提供适量的数据。

2)链接

下载地址:

http://www.aishelltech.com/kysjcp

7.2AISHELL-2开源中文语音数据库

1)基本信息

时长:1000小时

参与人数:1991人

希尔贝壳中文普通话语音数据库AISHELL-2的语音时长为1000小时,其中718小时来自AISHELL-ASR0009-[ZH-CN],282小时来自AISHELL-ASR0010-[ZH-CN]。录音文本涉及唤醒词、语音控制词、智能家居、无人驾驶、工业生产等12个领域。录制过程在安静室内环境中,同时使用3种不同设备:高保真麦克风(44.1kHz,16bit);Android系统手机(16kHz,16bit);iOS系统手机(16kHz,16bit)。AISHELL-2采用iOS系统手机录制的语音数据。1991名来自中国不同口音区域的发言人参与录制。经过专业语音校对人员转写标注,并通过严格质量检验,此数据库文本正确率在96%以上。(支持学术研究,未经允许禁止商用。)

2)链接

下载地址:

http://www.aishelltech.com/aishell_2

7.3AISHELL-翻译机录制语音数据库

1)基本信息

时长:31.2小时

参与人数:12人

采样:44.1kHz&16kHz16bit

文件:wav

来自AISHELL的开源语音数据产品:翻译机录制语音数据库

2)链接

下载地址:

http://www.aishelltech.com/aishell_2019C_eval

7.4AISHELL-家居环境近远讲同步语音数据库

1)基本信息

时长:24.3小时

参与人数:50人

采样:44.1kHz&16kHz16bit

文件:wav

AISHELL-2019A-EVAL随机抽取50个发音人。每人从位置A(高保真44.1kHz,16bit)与位置F(Android系统手机16kHz,16bit)中,各选取232句到237句。此数据库经过专业语音校对人员转写标注,并通过严格质量检验,文本正确率100%。

AISHELL-2019A-EVAL是AISHELL-ASR0010的子库,共24.3小时。

2)链接

下载地址:

http://www.aishelltech.com/aishell_2019A_eval

7.5AISHELL-语音唤醒词数据库

1)基本信息

时长:437.67小时

参与人数:86人

采样:44.1kHz&16kHz16bit

文件:wav

来自希尔贝壳的语音唤醒词数据库

2)链接

下载地址:

http://www.aishelltech.com/aishell_2019B_eval

7.6AISHELL-3语音合成数据集

1)基本信息希尔贝壳中文普通话语音数据库AISHELL-3的语音时长为85小时88035句,可做为多说话人合成系统。录制过程在安静室内环境中,使用高保真麦克风(44.1kHz,16bit)。218名来自中国不同口音区域的发言人参与录制。专业语音校对人员进行拼音和韵律标注,并通过严格质量检验,此数据库音字确率在98%以上。(支持学术研究,未经允许禁止商用。)2)下载链接国内镜像:https://openslr.magicdatatech.com/resources/93/data_aishell3.tgz国外镜像:https://www.openslr.org/resources/93/data_aishell3.tgz

8.Aidatatang8.1aidatatang_1505zh(完整的1505小时中文普通话语音数据集)

1)基本信息

参与人数:6408人

时长:1505小时

包含6408位来自中国不同地区的说话人、总计1505小时时长共3万条语音、经过人工精心标注的中文普通话语料集可以对中文语音识别研究提供良好的数据支持。采集区域覆盖全国34个省级行政区域。经过专业语音校对人员转写标注,并通过严格质量检验,句标注准确率达98%以上,是行业内句准确率的最高标准。2)使用效果:3)链接

数据申请:

https://www.datatang.com/webfront/opensource.html

8.2Aidatatang_200zh(基于完整数据集精选的200小时中文普通话语音数据集)

1)基本信息时长:200小时

参与人数:600人

采样:16kHz16bit

Aidatatang_200zh是由北京数据科技有限公司(数据堂)提供的开放式中文普通话电话语音库。语料库长达200小时,由Android系统手机(16kHz,16位)和iOS系统手机(16kHz,16位)记录。邀请来自中国不同重点区域的600名演讲者参加录音,录音是在安静的室内环境或环境中进行,其中包含不影响语音识别的背景噪音。参与者的性别和年龄均匀分布。语料库的语言材料是设计为音素均衡的口语句子。每个句子的手动转录准确率大于98%。数据库按7:1:2的比例分为训练集、验证集和测试集。在元数据文件中保存诸如语音数据编码和扬声器信息等详细信息。还提供分段转录本。

2)特点

该语料库旨在为语音识别、机器翻译、声纹识别等语音相关领域的研究人员提供支持。因此,该语料库完全免费供学术使用。

数据堂精选了200小时中文普通话语音数据在OpenSLR发布,并在Kaldi平台提供了训练代码,对应的训练方法也在github平台发布。

3)链接

训练:

https://github.com/datatang-ailab/aidatatang_200zh/blob/master/README.md

国内镜像:

https://link.ailemon.me/?target=http://cn-mirror.openslr.org/resources/62/aidatatang_200zh.tgz

国外镜像:https://link.ailemon.me/?target=http://www.openslr.org/resources/62/aidatatang_200zh.tgz

9.hkust基本信息200h,16khz,16bit。中文电话数据集,电话对话,espnet,kaldi里面都有egs。2)链接下载链接:http://catalog.ldc.upenn.edu/LDC2005S1510.Speechocean10小时中文普通话语音识别语料库

1)基本信息这是一个10.33小时的语料库,它同时通过4个不同的麦克风收集。在安静的办公室中,由20位说话者(10位男性和10位女性)录制​​了该语料库。每个扬声器在一个通道中记录了大约120声。包括转录文件。句子的转录精度高于98%。它完全免费用于学术目的。2)下载链接百度云盘(提取码:sktk):https://pan.baidu.com/share/init?surl=1glZHlKIXjlPOOht6_yQXQ

11.cn-celeb

1)基本信息此数据是“在野外”收集的大规模说话人识别数据集。该数据集包含来自1000位中国名人的13万种语音,涵盖了现实世界中的11种不同流派。所有音频文件都编码为单通道,并以16位精度以16kHz采样。数据收集过程由清华大学语音与语言技术中心组织。它也由国家自然科学基金61633013和博士后科学基金2018M640133资助。2)下载链接

12.HI-MIA

1)基本信息内容为中文和英文的唤醒词“嗨,米娅”。使用麦克风阵列和Hi-Fi麦克风在实际家庭环境中收集数据。下文描述了基准系统的收集过程和开发。挑战中使用的数据是从1个高保真麦克风和1/3/5米的16通道圆形麦克风阵列中提取的。内容是中文唤醒词。整个集合分为火车(254人),开发(42人)和测试(44人)子集。测试子集提供了成对的目标/非目标答案,以评估验证结果。2)下载链接国内镜像(train):http://openslr.magicdatatech.com/resources/85/train.tar.gz国内镜像(dev):http://openslr.magicdatatech.com/resources/85/dev.tar.gz国内镜像(test):http://openslr.magicdatatech.com/resources/85/test_v2.tar.gz国内镜像(filename_mapping):http://openslr.magicdatatech.com/resources/85/filename_mapping.tar.gz

13.MobvoiHotwords

1)基本信息MobvoiHotwords是从Mobvoi的商业智能扬声器收集的唤醒单词的语料库。它由关键字和非关键字语音组成。对于关键字数据,将收集包含“Hixiaowen”或“NihaoWenwen”的关键字语音。对于每个关键字,大约有36k语音。所有关键字数据均收集自788名年龄在3-65岁之间的受试者,这些受试者与智能扬声器的距离(1、3和5米)不同。在采集过程中,具有不同声压级的不同噪声(例如音乐和电视等典型的家庭环境噪声)会在后台播放。

2)下载链接国内镜像:http://openslr.magicdatatech.com/resources/87/mobvoi_hotword_dataset.tgz国外镜像:http://www.openslr.org/resources/87/mobvoi_hotword_dataset.tgz

14.zhvoice:Chinesevoicecorpus

1)基本信息zhvoice语料由8个开源数据集,经过降噪和去除静音处理而成,说话人约3200个,音频约900小时,文本约113万条,共有约1300万字。

zhvoice语料比较原始数据而言,更加清晰和自然,减少了噪声的干扰,减少了因说话人说话不连贯造成的不自然。

zhvoice语料包含文本、语音和说话人3个方面的信息,可适用于多种语音相关的任务。

zhvoice语料由智浪淘沙清洗和处理。2)下载链接https://github.com/fighting41love/zhvoice

《语音识别:原理与应用》[82M]百度网盘pdf下载

第1章语音识别概论1

1.1语音的产生和感知1

1.2语音识别过程4

1.3语音识别发展历史8

1.4国内语音识别现状15

1.5语音识别建模方法19

1.5.1DTW19

1.5.2GMM-HMM20

1.5.3DNN-HMM20

1.5.4端到端22

1.6语音识别开源工具22

1.7语音识别常用数据库22

1.8语音识别评价指标24

第2章语音信号基础28

2.1声波的特性28

2.2声音的接收装置29

2.2.1麦克风阵列31

2.3声音的采样32

2.4声音的量化33

2.5语音的编码35

2.6WAV文件格式38

2.7WAV文件分析39

第3章语音特征提取44

3.1预处理44

3.2短时傅立叶变换48

3.3听觉特性51

3.4线性预测54

3.5倒谱分析55

3.6常用的声学特征56

3.6.1语谱图57

3.6.2FBank58

3.6.3MFCC59

3.6.4PLP61

3.6.5CQCC62

第4章HMM67

4.1HMM的基本概念69

4.1.1马尔可夫链70

4.1.2双重随机过程71

4.1.3HMM的定义72

4.2HMM的三个基本问题73

4.2.1模型评估问题74

4.2.2最佳路径问题77

4.2.3模型训练问题79

第5章GMM-HMM83

5.1概率统计84

5.2高斯分布85

5.3GMM88

5.3.1初始化89

5.3.2重估计90

5.4GMM-HMM91

5.5GMM-HMM的训练97

5.6模型自适应99

5.6.1MAP99

5.6.2MLLR100

5.6.3fMLLR100

5.6.4SAT101

课程实践:基于HTK搭建GMM-HMM系统103

第6章基于HMM的语音识别104

6.1建模单元104

6.2发音过程与HMM状态107

6.3串接HMM108

6.4固定语法的识别112

6.5随机语法的识别117

第7章音素的上下文建模125

7.1协同发音125

7.2上下文建模126

7.3决策树128

7.4问题集129

7.4.1手工设计129

7.4.2自动生成131

7.5三音子模型的训练134

第8章语言模型136

8.1n-gram模型138

8.2评价指标——困惑度142

8.3平滑技术143

8.3.1Good-Turing折扣法143

8.3.2Jelinek-Mercer插值法144

8.3.3Kneser-Ney插值法144

8.3.4Katz回退法146

8.4语言模型的训练148

8.5递归神经网络语言模型151

第9章WFST解码器158

9.1基于动态网络的Viterbi解码159

9.2WFST理论163

9.3HCLG构建168

9.3.1H的构建169

9.3.2C的构建171

9.3.3L的构建172

9.3.4G的构建173

9.3.5HCLG合并175

9.4WFST的Viterbi解码177

9.4.1Token的定义177

9.4.2Viterbi算法178

9.5Lattice解码185

9.5.1主要数据结构185

9.5.2令牌传播过程186

9.5.3剪枝策略189

9.5.4Lattice190

第10章DNN-HMM194

10.1深度学习194

10.2DNN195

10.2.1激活函数196

10.2.2损失函数198

10.2.3梯度下降算法199

10.3DNN与HMM的结合201

10.4不同的DNN结构205

10.4.1CNN205

10.4.2LSTM210

10.4.3GRU210

10.4.4TDNN211

10.4.5TDNN-F214

第11章序列区分性训练220

11.1区分性准则221

11.1.1MMI221

11.1.2BMMI222

11.1.3MPE/sMBR222

11.2MMI求导过程223

11.3Lattice-basedMMI225

11.4Lattice-freeMMI227

11.5KaldiChain模型230

第12章端到端语音识别233

12.1CTC234

12.1.1损失函数235

12.1.2前向算法239

12.1.3后向算法242

12.1.4求导过程243

12.1.5CTC解码245

12.2RNN-T248

12.3Attention模型251

12.4HybridCTC/Attention254

12.5Transformer256

第13章Kaldi实践262

13.1下载与安装Kaldi263

13.1.1获取源代码263

13.1.2编译264

13.2创建与配置基本的工程目录265

13.3aishell语音识别工程266

13.3.1数据映射目录准备267

13.3.2词典准备和lang目录生成269

13.3.3语言模型训练271

13.3.4声学特征提取与倒谱均值归一化273

13.3.5声学模型训练与强制对齐274

13.3.6解码测试与指标计算277

第14章Espnet实践280

14.1数据准备280

14.1.1映射文件准备280

14.1.2特征提取281

14.1.3数据增强282

14.1.4词典生成282

14.1.5数据打包283

14.2Espnet配置文件284

14.3语言模型训练285

14.4声学模型训练287

14.4.1声学模型训练脚本287

14.4.2CTC声学模型训练288

14.4.3Attention声学模型训练289

14.4.4RNN-T模型训练290

14.4.5Transformer模型训练292

14.5语音识别解码293

14.6Espnet训练解码可视化294

14.6.1Espnet训练参数可视化294

14.6.2Espnet中的Attention可视化295

14.6.3Espnet解码结果可视化296

第15章工业应用实践298

15.1动态库封装298

15.1.1函数接口298

15.1.2动态库编译306

15.1.3动态库调用309

15.2语音云平台310

15.3识别引擎优化315

15.3.1加快响应速度315

15.3.2定制语言模型316

15.3.3定制声学模型316

15.4嵌入式移植318

Kaldi 语音识别实战 pdf,mobi,epub,txt,百度云盘

刚刚过去的十年是语音技术发展的黄金十年。2010年前后,从谷歌公司发布第一个语音搜索应用、苹果公司发布第一个语音助手Siri开始,语音技术的发展转瞬进入了快车道。

语音技术的基础算法不断推陈出新,语音任务Benchmark持续被刷新;语音产品的应用也从一开始很小众的语音输入,逐渐渗透到人们生活的方方面面。

语音产业飞速发展,传统的语音技术教材已经满足不了该领域从业者的迫切需求。本书以目前流行的开源语音识别工具Kaldi为切入点,深入浅出地讲解了语音识别前沿的技术及它们的实践应用。本书的作者们拥有深厚的学术积累及丰富的工业界实战经验。

本书适合语音技术相关研究人员及互联网从业人员学习参考。

《Kaldi语音识别实战》[72M]百度网盘pdf下载

颜永红中国科学院语言声学与内容理解重点实验室主任

Kaldi开源软件对推动语音技术研究和产品落地做出了不可磨灭的贡献,本书作者是工作在语音研究和产业前沿的青年才俊,他们以第一手经验详细讲解了如何运用该软件构建实际系统,这对初学者迅速掌握相关知识和技能是非常有益的。

俞凯上海交通大学智能语音技术实验室主任,思必驰联合创始人、首席科学家

我和DanPovey博士十几年前在剑桥大学共事时,使用的是早期著名的语音识别开源软件之一:HTK。虽然后来Kaldi因其灵活的设计、开放的协议和丰富的功能而如日中天,却一直在系统教程方面远远落后于HTK。本书从理论和实践的角度对Kaldi做出了完整呈现,不仅有其实用价值,也为“知其所以然”给出了很好的注解,相信必然会对Kaldi的传播和语音识别技术的发展起到积极的作用。

崔宝秋小米集团副总裁、集团技术委员会主席

Kaldi是开源语音技术的一个典范,是高校同学们入门语音的启迪工具,也是人们快速提升语音技术的捷径。它消除了大家因为长期沉浸在语音教科书和论文里而产生的“手痒”,给人们带来快速上手实践、快速感受语音数据之美的快乐。本书作者们都有丰富的工业界(包括小米)实战经验和深厚的学术积累,他们把这些经验和积累无私地贡献出来,也真正体现了开源的共享精神。拥抱开源是小米的工程文化,衷心希望Kaldi及其社区在DanielPovey博士的领导下不断茁壮成长、引领语音技术的发展。

张锦懋美团首席科学家、基础研发平台负责人

Kaldi的诞生使得语音识别领域的研究和创新成本都显著降低,让整个行业都获益匪浅。这本书的几位作者非常全面地介绍了Kaldi的功能,包括数据处理、声学模型、解码器等相关的工具,同时对相关理论也做了详细的阐述,让读者不仅学会使用Kaldi,而且能够理解为什么这么使用。

雷欣出门问问首席技术官

Kaldi相比于经典的HTK工具包做了巨大的优化,譬如C++的采用、基于WFST的静态解码器、达到state-of-the-art性能的recipe脚本等。这些优势使得Kaldi开源库得到迅速的发展,极大地降低了语音技术的门槛,使得像出门问问这样的语音创业公司能在短时间内开发出优秀的语音技术产品。相比于经典的HTKBook,Kaldi在文档方面则显得落后很多。本书的作者们都是Kaldi社区的活跃开发者,对Kaldi及语音技术有着深刻的理解,他们的努力使得中国的语音技术爱好者们有了一本入门和提高的参考书,必将又一步推动语音技术的普及。

邹月娴北京大学教授、博士生导师,深圳市人工智能学会专家委主任

我在北京大学深圳研究生院开展教学和科研工作十四个整年头,其间为计算机应用技术专业的学生主讲“机器学习与模式识别”课程,带领一群优秀的研究生开展机器听觉技术研究。我们的教学和研究得益于众多的开源项目,深切体会到Kaldi作为主流的语音识别开源工具对同学们的帮助。Kaldi秉承其开源社区的传统特性,支持主流的机器学习框架和算法,受到众多业界和学界开发者的支持。我相信本书的作者们正是秉承这样的精神,以实际行动支持Kaldi开源社区。这本书不仅介绍了语音技术的发展简史、Kaldi的发展历史,也涵盖了新的基于深度学习的语音技术主流框架和语音识别应用实践案例,所呈现的内容和提供的实战技巧贴近产业需求,该书的出版将有益于学子们更加快速地了解主流的语音技术并迅速开展编程实践,推动语音技术提升和应用的发展。

李岚中软国际教育科技集团人工智能研究院执行院长

人工智能技术在近年被确立为国家战略后,高校和企业间深度合作,在人工智能的人才培养上形成了一致看法,即实践是学校和学生的一致需求。从产业界的实际发展来看,随着人工智能技术应用领域的扩展,“听”这一感知领域,已经是迫切需要得以提升和发展的。企业专家,特别是实际应用领域的专家联合推动的行业数据和技术开源,为这个领域的人才培养做出了贡献。而如何让更多的老师和学生们了解语音领域的发展现状及学习路径,需要和本书的作者们一样,分享自己的理解和系统梳理。我们也将在后续工作中,将本书作为我们的教材之一,希望能推动语音领域人才的培养。

《图解语音识别》[84M]百度网盘pdf下载

目录

第1章开篇1.1什么是语音识别21.2语音识别的历史41.3语音识别的用处61.4为什么很难81.5本书的目标101.6小结12第2章什么是语音2.1语音学162.2声音是如何产生的——发音语音学162.3声音的真面目——声学语音学232.4声音是如何被感知的——感知语音学292.5总结32第3章统计模式识别3.1什么是模式识别343.2统计模式识别的思路363.3生成模型的训练403.4判别模型的训练443.5统计语音识别的概要453.6总结48第4章有限状态自动机4.1什么是有限状态自动机504.2用有限状态自动机表达的语言534.3各种各样的有限状态自动机554.4有限状态自动机的性质584.5总结59

第5章语音特征的提取5.1特征提取的步骤625.2语音信号的数字化645.3人类听觉模拟——频谱分析675.4另一个精巧设计——倒谱分析695.5噪声去除725.6总结73第6章语音识别:基本声学模型6.1声学模型的单位766.2什么是隐马尔可夫模型786.3隐马尔可夫模型的概率计算816.4状态序列的估计836.5参数训练856.6总结89第7章语音识别:高级声学模型7.1实际的声学模型927.2判别训练947.3深度学习967.4总结98第8章语音识别:语言模型8.1基于语法规则的语言模型1008.2统计语言模型的思路1018.3统计语言模型的建立方法1038.4总结108第9章语音识别:搜索算法9.1填补声学模型和语言模型之间的空隙1129.2状态空间搜索1139.3用树形字典减少浪费1159.4用集束搜索缩小范围1169.5用多次搜索提高精度1189.6总结120第10章语音识别:WFST运算10.1WFST的合成运算12410.2确定化12910.3权重移动13310.4最小化13410.5总结135第11章语音识别:使用WFST进行语音识别11.1WFST转换13811.2声学模型的WFST转换13911.3发音字典的WFST转换14111.4语言模型的WFST转换14211.5WFST的搜索14411.6总结145第12章语义分析12.1什么是语义表示14812.2基于规则的语义分析处理15112.3基于统计的语义分析处理15312.4智能手机的语音服务15612.5总结159第13章语音对话系统的实现13.1对话系统的开发方法16213.2基于规则的对话管理16413.3针对对话管理的统计方法16613.4总结170第14章终篇14.1语音分析工具WaveSurfer17414.2HMM构建工具HTK17514.3大词汇量连续语音识别引擎Julius17714.4虚拟代理对话工具MMDAgent17914.5深入学习之路180

思考题的解答182参考文献188后记191

版权声明:本文内容由互联网用户自发贡献,该文观点仅代表作者本人。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如发现本站有涉嫌抄袭侵权/违法违规的内容,一经查实,本站将立刻删除。

上一篇

下一篇