[声纹识别]语音识别的发展史
语音识别研究经历了知识积累、模板匹配、模式识别、统计模型、机器学习和深度学习等五个发展阶段[1]。
1.知识积累阶段。20世纪30-50年代,针对特定语音或小词表的孤立词,设计专门的语音识别算法或装置。
2.模板匹配阶段。50-60年代,基于声学和语音学知识设计语音识别系统,主要使用模板匹配方法识别音位、音素和数字。
3.模式识别阶段。60-80年代,使用模式识别方法进行中小规模的孤立词或连续词串语音识别。
4.统计模型阶段。1980-2000年,隐马尔可夫模型用以处理语音中的动态问题,并用于连续语音识别系统设计,基于统计模型的方法慢慢确立成为语音识别主流框架。
5.机器学习和深度学习阶段。2000-2010年,机器学习的发展,特别是2011年至今深度学习的崛起,大大促进了大规模连续语音识别系统的性能提升和实用化。
1879年,爱迪生发明第一台听写机;
1952年Bell实验室发布能识别0-9数字精度达到90%;
1962年IBMShoebox“鞋盒”能理解16个口语单词;
1971年,Harpy能理解1011个单词和一些短语;
1986年,IBM使用HMM模型可以预测下一个音素;
2008年,Google发布语音识别APP把语音识别代入移动设备;
2011年Apple发布语音助手Siri。
下图展示的是Swichboard语音识别国际会议上,使用电话语音库,训练和测试语音识别系统性能的发布会,2017年语音识别错误率达5.1%,已超过人类。
参考文献:
[1]王东.语音识别技术的现状与未来.2017年
语音识别技术的研究难点以及未来发展方向
(文章来源:钛媒体)
目前,语音识别研究工作进展缓慢,困难具体表现在:
(1)输入无法标准统一,比如各地方言的差异,每个人独有的发音习惯等,如下图所示,口腔中元音随着舌头部位的不同可以发出多种音调,如果组合变化多端的辅音,可以产生大量的、相似的发音,这对语音识别提出了挑战。除去口音参差不齐,输入设备不统一也导致了语音输入的不标准。
(2)噪声的困扰,噪声环境的各类声源处理是目前公认的技术难题,机器无法从各层次的背景噪音中分辨出人声,而且,背景噪声千差万别,训练的情况也不能完全匹配真实环境。因而,语音识别在噪声中比在安静的环境下要难得多。
目前主流的技术思路是,通过算法提升降低误差。首先,在收集的原始语音中,提取抗噪性较高的语音特征。然后,在模型训练的时候,结合噪声处理算法训练语音模型,使模型在噪声环境里的鲁棒性较高。最后,在语音解码的过程中进行多重选择,从而提高语音识别在噪声环境中的准确率。完全消除噪声的干扰,目前而言,还停留在理论层面。
(3)模型的有效性,识别系统中的语言模型、词法模型在大词汇量、连续语音识别中还不能完全正确的发挥作用,需要有效地结合语言学、心理学及生理学等其他学科的知识。并且,语音识别系统从实验室演示系统向商品的转化过程中还有许多具体细节技术问题需要解决。
许多用户已经能享受到语音识别技术带来的方便,比如智能手机的语音操作等。但是,这与实现真正的人机交流还有相当遥远的距离。目前,计算机对用户语音的识别程度不高,人机交互上还存在一定的问题,智能语音识别系统技术还有很长的一段路要走,必须取得突破性的进展,才能做到更好的商业应用,这也是未来语音识别技术的发展方向。
在语音识别的商业化落地中,需要内容、算法等各个方面的协同支撑,但是良好的用户体验是商业应用的第一要素,而识别算法是提升用户体验的核心因素。目前语音识别在智能家居、智能车载、智能客服机器人方面有广泛的应用,未来将会深入到学习、生活、工作的各个环节。许多科幻片中的场景正在逐步走入我们的平常生活。
(责任编辑:fqj)
打开APP阅读更多精彩内容
点击阅读全文