语音识别(ASR)论文优选:WeNet之U2++
声明:平时看些文章做些笔记分享出来,文章中难免存在错误的地方,还望大家海涵。平时搜集一些资料,方便查阅学习:http://yqli.tech/page/speech.html。如转载,请标明出处。欢迎关注微信公众号:低调奋进以前阅读的是语音合成相关的代码,现在有机会做一些识别相关的工作,所以接下来也会整理识别相关的资料。
U2++:UnifiedTwo-passBidirectional End-to-endModelforSpeechRecognition
本文是出门问问联合西北工业大学在2021.06.10更新的文章,在统一streaming和non-streaming的u2基础提出u2++,使其错误率下降,具体文章链接https://arxiv.org/pdf/2106.05642.pdf
(关于u2和wenet可以参考我上一篇文章https://mp.weixin.qq.com/s/6_BIKrZ1I99NwITETiwISQ)
1 背景
端到端的ASR最近几年受到学术界和产业界的关注,诸如CTC,RNN-T,AED(attentionbasedencoder-decoder)等等。上篇文章Wenet和U2提出了一种统一streaming和non-streaming模式的方案,使其一个模型可以支持streaming和non-streaming模式,本文在U2的基础上提出U2++,使其错误率更低。
2具体设计
我们先回顾一下U2的设计。针对streaming和non-streaming的U2模型即为CTC/AED的混合模型。具体的系统架构如图1所示,CTC和AED使用共同的encoder,为了实现streaming方式,encoder就要实现增量式来编码,即使用部分context来编码。我们先看一下图2展示的encoder可采用的关注context的方案,(a)fullattention就是关注整句话语境,这种方式为non-streaming,效果当然很好;(b)的leftattention即只关注过去,是streaming的方式,当然效果较差。(c)即为本文的提出的chunkattention,它关注本chunk以及过去的语境,及引入少量未来信息。另外我们需要分清该系统如何进行训练和推理。在训练系统时,每个batch随机在fullattention和chunkattention之间进行选择,同时chunksize也随机选取,本方案即trainbydynamicchunksize,具体为公式2
以上为U2,那U2++的工作即添加了从右到左的attentiondecoder,具体如下图所示,相比于U2,U2++的attention存在L2R和R2L两个decoder,即Bi-directionalAttentionDecoder。该模型训练的loss为公式1和2,其中的超参选取大小由接下来的实验给出选择值。同时解码的score可参考公式3
另外本文优化了新的数据增广算法,可参考算法1.
3 实验
本文先在aishell-1进行试验,同时也对比使用transformer和conformer的结果。由table1显示无论ctcprefixbeamsearch和rescoring,u2++的cer低于u2。图2展示u2++的整体loss较低于u2。接下来在aishell-2的实验亦是如此,参考table3。table4展示本文的R2L和specSub对实验结果的影响。table 5展示了系统decoder层数和r2l l2R的效果。table 6展示了超参选取的效果。table 7展示r2l l2R层数的影响。
4 总结
U2提出了一种统一streaming和non-streaming模式的方案,使其一个模型可以支持streaming和non-streaming模式,本文在U2的基础上提出U2++,添加L2R和R2L两个attentiondecoder,使其错误率更低
论文的总结与展望写作技巧
论文总结就是将论文各部分得到的结论精炼罗列出来。展望则是说明你做的工作的未来发展方向,或者可能应用领域的期望。那么论文的总结与展望怎么写?下面我们就为大家介绍一下这两方面的写法。一、论文的总结与展望怎么写?它主要分两部分,第--部分写总结,说明你论文研究了哪些内容,有什么贡献和创新;第二部分写展望,说明你论文还存在什么不足,以后可以从哪些角度进行研究,来完善你的论文。要点一:篇幅要够长辛辛苦苦干了一年,业绩如何,关键就看这"总结";的分量。如有字数限制还好,可以照"封顶值";去写。如果没有字数限制可就有点麻烦了,要留心打听一下其它同级单位的篇幅有多长,如此有了参照物,才可"弹无虚发",.否则闷头傻写半天,洋洋洒洒15页,殊不知人家写了20页,在气势。上立马矮了一一截,岂不是前功尽弃?要想做到篇幅长,除了下苦工夫狠写一通外,还有一个捷径可走字大行稀。即把字号定位在"三号";以上,尽量拉大行间距,但不可太过,否则会给人一-种"注水肉";的感觉。要点二:套话不可少如开头必是"时光荏苒,2004年很快就要过去了,回首过去的一年,内心不禁感慨万千";结尾必是"新的--年意味着新的起点新的机遇新的挑战";、“决心再接再厉,更上一层楼”;或是"一定努力打开一个工作新局面";.中间赘述业绩的段落中,不时要有"收到了很好的效果";、“受到了领导职工的好评和欢迎”;、“迈上了一个新高度”;、“又上了一个新台阶”;等肯定性话语所谓"总结",不仅要总结优点,还要总结缺