实时语音识别C++SDK使用说明语音识别sdk开源失败

发表时间：2023-07-06 06:54:03

实时语音识别C++SDK使用说明

这种情况一般是由于当时网络拥堵造成的，建议您使用抓包工具查看分析实际发送的包是否重传了tcpretransmission，可以在客户端使用traceroute命令或者使用MTR工具到nls-gateway.cn-shanghai.aliyuncs.com进行链路测试，判断从客户端到接口服务之间网络是否不稳定。

语音识别开源项目汇总

语音识别技术随着神经网络的兴起和发展，准确率得到了很大的改善，在很多场景下都可以逐步商用落地了，很多公司也组建了语音团队。其实在github上，语音识别相关的项目也是层出不穷，其中的一些项目的质量很高，如果好好借鉴学习的话可以避免从头造轮子，毕竟造轮子也不是那么容易的==！。在这里，对一些比较流行的项目做一些汇总和简单介绍。

1.ASR1.1kaldi

https://github.com/kaldi-asr/kaldi

最流行的语音识别工具包，不过比较古老了，在神经网络时代有些落后，目前作者DanielPovey在小米在majorupdate，期待下一代kaldi

1.2 espnet

https://github.com/espnet/espnet

espnet是基于pytorch的端到端语音工具包，不仅包括ASR还包括了TTS。espnet使用kaldi进行特征提取等，espnet2不再依赖kaldi，不过espnet2下的recipe还不是很多。espnet和kaldi一样有很多egs，并且包括了各种主流的端到端方法，比如CTC，RNN-T, Transformer等。是学习试验端到端方法很好的工具。

1.3其他1.3.1wenet

https://github.com/mobvoi/wenet

出门问问开源的ASRtoolkit，实现了 UnifiedTwoPass(U2) 流式和非流式端到端模型，基于pytorch，可以同时部署在服务器和端上。有aishell-1的例子，中文语音识别可以学习借鉴

1.3.2wav2letter

https://github.com/facebookresearch/wav2letter

C++实现的语音识别框架，运行效率高

1.3.3pytorch-kaldi

https://github.com/mravanelli/pytorch-kaldi

用pytorch代替了kaldi中的神经网络部分，特征提取和解码等还是使用kaldi，没在维护了

1.3.4tf-seq2seq

https://github.com/google/seq2seq

tensorflow实现的一些端到端模型，没在维护了

1.3.5speech-transformer

https://github.com/kaituoxu/Speech-Transformer

pytorch实现的transformer中文语音识别（aishell）

2.KWS2.1ARM-KWS

https://github.com/ARM-software/ML-KWS-for-MCU

arm开源的在他们mcu上的kws，英文识别，输出的单元整个英文WORD

2.2kws（你好小瓜）

https://github.com/robin1001/kws_on_android

西工大张彬彬开源的中文唤醒(你好小瓜)，中文语音唤醒可以借鉴，采用fbank+dnn+fst的方案。

实时语音识别C++SDK使用说明 语音识别sdk开源失败