博舍

人工智能—语音识别技术发展史 智能语音的发展

人工智能—语音识别技术发展史

语音识别技术:也被称为自动语音识别AutomaticSpeechRecognition,(ASR),其目标是将人类的语音中的词汇内容转换为计算机可读的输入,例如按键、二进制编码或者字符序列。所涉及的领域包括:信号处理、模式识别、概率论和信息论、发声机理和听觉机理、人工智能等等。

从开始研究语音识别技术至今,语音识别技术的发展已经有半个多世纪的历史。

1952年贝尔研究所Davis等人研究成功了世界上第一个能识别10个英文数字发音的实验系统,能够理解口头数字的机器Audrey。

1960年英国的Denes等人研究成功了第一个计算机语音识别系统。

大规模的语音识别研究是在进入了70年代以后,在小词汇量、孤立词的识别方面取得了实质性的进展。1971年到1976年,DARPA投资了进行了五年的语音识别研究,目的是做成一台至少能理解1000个单词的机器。该计划使卡内基梅隆大学创造了一台能够理解1011个单词的机器

进入80年代以后,研究的重点逐渐转向大词汇量、非特定人连续语音识别。在研究思路上也发生了重大变化,即由传统的基于标准模板匹配的技术思路开始转向基于统计模型(HMM)的技术思路。此外,再次提出了将神经网络技术引入语音识别问题的技术思路。

进入90年代以后,在语音识别的系统框架方面并没有什么重大突破。但是,在语音识别技术的应用及产品化方面出现了很大的进展。

2010年,机器学习算法和计算机性能的进步带来了更有效的训练深层神经网络(DNN)的方法。因此,语音识别系统开始使用DNNs,更具体地说,是使用一种DNNs的特殊变体,即循环神经网络(RNNs)。此后,基于RNNs的模型表现出比传统模型更好的精度和性能。2016年的语音识别准确度达到了90%,Google在2017年6月声称已达到95%的准确率。

目前MECOOLKA1内置GoogleAssistant的智能音箱,内置两个线性麦克风阵列,支持远场语音。这可以增强用户的声音,为所有单词和错误命令创建一个固定的过滤器。

https://detail.1688.com/offer/670183498250.html?spm=a26286.8251493.description.2.221425b2zsyoJb

什么是智能语音交互

说明全新的智能语言交互2.0版本现已发布。您可以使用自学习平台等工具改善语音识别效果,而且我们为您提供了功能更丰富的管理控制台和更易用的SDK,欢迎开通体验。

从0到1入门视频一句话识别对时长较短(一分钟以内)的语音进行识别,适用于较短的语音交互场景,如语音搜索、语音指令、语音短消息等,可集成在各类App、智能家电、智能助手等产品中。更多信息,请参见一句话识别接口说明。

实时语音识别对不限时长的音频流做实时识别,达到“边说边出文字”的效果,内置智能断句,可提供每句话开始结束时间。可用于视频实时直播字幕、实时会议记录、实时法庭庭审记录、智能语音助手等场景。更多信息,请参见实时语音识别接口说明。

录音文件识别对用户上传的录音文件进行识别,可用于呼叫中心语音质检、庭审数据库录入、会议记录总结、医院病历录入等场景。更多信息,请参见录音文件识别接口说明。

重要针对免费用户,系统可在24小时内完成识别并返回识别文本;针对付费客户,系统可在3小时之内完成识别并返回识别文本,一次性上传大规模数据(半小时内上传超过500小时时长的录音)的除外。有大规模数据转写需求的客户,可与售前专家另行沟通。

语音合成通过先进的深度学习技术,将文本转换成自然流畅的语音。目前有多种音色可供选择,并提供调节语速、语调、音量等功能。适用于智能客服、语音交互、文学有声阅读和无障碍播报等场景。更多信息,请参见语音合成接口说明。

语音合成声音定制(企业版)为您提供深度定制的TTS(TexttoSpeech)声音功能:使用先进的深度学习技术,用更少的数据量,更快速高效地定制高表现力的TTS声音,将自然流畅的声音输出到服务或设备上。

如果您想体验定制的声音、了解定制流程,请查看语音合成声音定制(企业版)。如有任何需求和疑问,请联系:nls_support@service.aliyun.com。

灵积语音模型服务灵积模型服务平台中的语音服务——Paraformer语音识别API是基于达摩院新一代非自回归端到端模型,提供对输入的各类音视频文件进行语音识别的能力,可被应用于客服质检、内容理解分析、字幕生成等。

自学习平台您可以使用自学习平台提升识别效果,它提供了训练热词和自学习语言模型两种方式。语音识别服务中,通过添加热词和使用热词模型来改善识别结果。在司法、金融等领域,利用语言模型定制进行优化,提高该业务场景下的识别准确率,更多信息,请参见自学习平台。

学习路线快速入门:快速体验智能语音交互服务,掌握相关术语、获取AccessToken等内容。

产品计费:了解智能语音交互服务的计费情况。

接口参考选择需要的服务:一句话识别、实时语音识别、录音文件识别、语音合成等。

自学习平台:通过自学习平台的热词、语言模型定制提升识别效果。

最佳实践:了解智能语音交互服务的最佳实现方式。

常见问题:查询常见问题的解决方案。

版权声明:本文内容由互联网用户自发贡献,该文观点仅代表作者本人。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如发现本站有涉嫌抄袭侵权/违法违规的内容,一经查实,本站将立刻删除。

上一篇

下一篇