走进语音识别中的WFST（一）语音识别的定义是什么意思啊

发表时间：2023-07-07 06:23:13

走进语音识别中的WFST（一）

本人最近在研究语音识别的生成Graph和Lattice的模块，其中用到了WFST这个概念，惊叹于它的神奇也被它的复杂搞得晕头转向。于是决定静下心来仔细研读了Mohri大牛的SpeechRecognitionwithWeightedFinite-stateTransducer这篇论文和一些相关资料，算是入门了其中的算法，有些体悟在这里和大家一起探讨，也算是对自己近期学习的一个总结。本系列会先引入WFST的概念，然后介绍它的三大算法：Composition、Determinization和Minimization，最后介绍WFST在语音识别中的应用，即HCLG的操作。

首先先明确几个概念。有限状态转换器FST(finite-statetransducer)和加权有限状态转换器WFST(weightedfinite-statetransducer)的不同就是后者转移路径上附有权重；而WFST和WFSA(weightedfinite-stateacceptor)的区别就是前者的状态转移上的label既有输入又有输出而后者只有一个label。我们用WFST来表征ASR中的模型（HCLG），可以更方便的对这些模型进行融合和优化，于是可以作为一个简单而灵活的ASR的解码器（simpleandflexibleASRdecoderdesign）。

WFST是基于半环代数理论的，在介绍半环之前我先简单的说一下群和半群。

群（Group）：G为非空集合，如果在G上定义的二元运算*&

语音识别中的 senone 是什么

有时候，音素会被放在上下文中考虑，这样就形成了三元音素或者多元音素。但它与亚音素不同，他们在波形中匹配时长度还是和单一音素一样。只是名字上的不同而已，所以我们更倾向于将这样的多元音素称为senone。一个senone的上下文依赖比单纯的左右上下文复杂得多，它是一个可以被决策树或者其他方式来定义的复杂函数。（英语的上下文相关建模通常以音素为基元，由于有些音素对其后音素的影响是相似的，因而可以通过音素解码状态的聚类进行模型参数的共享。聚类的结果称为senone。决策树用来实现高效的triphone对senone的对应，通过回答一系列前后音所属类别（元/辅音、清/浊音等等）的问题，最终确定其HMM状态应使用哪个senone。分类回归树CART模型用以进行词到音素的发音标注。）

模型：

模型是用来描述一些数学对象的。这些数学对象描述了一些口语的共同属性。在实际应用中，senone的音频模型就是三态高斯混合模型。简单的说，它就是一个最有可能的特征向量。对于模型，有几个问题需要考虑：模型到底多大程度上可以描述实际情况？在模型本身的局限情况下模型能表现得更优吗？自适应模型如何改变条件？

声学模型acousticmodel：

一个声学模型包含每个senone的声学属性，其包括不依赖于上下文的属性（每个音素phone最大可能的特征向量）和依赖于上下文的属性（根据上下文构建的senone）。

转载自：http://blog.csdn.net/zouxy09/article/details/7941055

走进语音识别中的WFST（一） 语音识别的定义是什么意思啊