走进语音识别中的WFST(一)
本人最近在研究语音识别的生成Graph和Lattice的模块,其中用到了WFST这个概念,惊叹于它的神奇也被它的复杂搞得晕头转向。于是决定静下心来仔细研读了Mohri大牛的SpeechRecognitionwithWeightedFinite-stateTransducer这篇论文和一些相关资料,算是入门了其中的算法,有些体悟在这里和大家一起探讨,也算是对自己近期学习的一个总结。本系列会先引入WFST的概念,然后介绍它的三大算法:Composition、Determinization和Minimization,最后介绍WFST在语音识别中的应用,即HCLG的操作。
首先先明确几个概念。有限状态转换器FST(finite-statetransducer)和加权有限状态转换器WFST(weightedfinite-statetransducer)的不同就是后者转移路径上附有权重;而WFST和WFSA(weightedfinite-stateacceptor)的区别就是前者的状态转移上的label既有输入又有输出而后者只有一个label。我们用WFST来表征ASR中的模型(HCLG),可以更方便的对这些模型进行融合和优化,于是可以作为一个简单而灵活的ASR的解码器(simpleandflexibleASRdecoderdesign)。
WFST是基于半环代数理论的,在介绍半环之前我先简单的说一下群和半群。
群(Group):G为非空集合,如果在G上定义的二元运算*&
语音识别中的 senone 是什么
有时候,音素会被放在上下文中考虑,这样就形成了三元音素或者多元音素。但它与亚音素不同,他们在波形中匹配时长度还是和单一音素一样。只是名字上的不同而已,所以我们更倾向于将这样的多元音素称为senone。一个senone的上下文依赖比单纯的左右上下文复杂得多,它是一个可以被决策树或者其他方式来定义的复杂函数。(英语的上下文相关建模通常以音素为基元,由于有些音素对其后音素的影响是相似的,因而可以通过音素解码状态的聚类进行模型参数的共享。聚类的结果称为senone。决策树用来实现高效的triphone对senone的对应,通过回答一系列前后音所属类别(元/辅音、清/浊音等等)的问题,最终确定其HMM状态应使用哪个senone。分类回归树CART模型用以进行词到音素的发音标注。)
模型:
模型是用来描述一些数学对象的。这些数学对象描述了一些口语的共同属性。在实际应用中,senone的音频模型就是三态高斯混合模型。简单的说,它就是一个最有可能的特征向量。对于模型,有几个问题需要考虑:模型到底多大程度上可以描述实际情况?在模型本身的局限情况下模型能表现得更优吗?自适应模型如何改变条件?
声学模型acousticmodel:
一个声学模型包含每个senone的声学属性,其包括不依赖于上下文的属性(每个音素phone最大可能的特征向量)和依赖于上下文的属性(根据上下文构建的senone)。
转载自:http://blog.csdn.net/zouxy09/article/details/7941055