轻松秒杀键盘 搜狗输入法领军智能语音输入
原标题:轻松秒杀键盘搜狗输入法领军智能语音输入
近日,斯坦福大学和华盛顿大学完成了一项有关智能手机输入方式对比的实验,实验结果表明,相比于传统的键盘输入,语音输入方式在速度及准确率方面更具优势。利用语音输入英文和中文的速度分别是传统输入方式的3倍和2.8倍。
过去十多年里,语音识别技术被寄予厚望,但表现却一直差强人意。近两年,由于大数据和深度学习技术的不断发展,识别准确率、方言兼容度、噪音抗干扰等诸多难题都已得到解决,语音识别技术已达到实用水平。例如,中国语音输入功能使用量最大的手机产品——搜狗输入法,其语音输入功能的识别速度已达400字/min,识别准确率高于97%。
据了解,搜狗输入法中的语音识别在2012年11月份上线,目前搜狗输入法日均语音输入的请求次数超过1.4亿次,每天使用语音输入功能的用户比例已经达到8%,用户在输入法上每天产生的语料规模是11.7万小时。这个数字比目前国内任何语音公司使用的语料规模都要大。优质的数据训练量给搜狗语音带来了领先行业的识别准确率。
而与其他强调识别率的语音输入法不同的是,搜狗输入法更强调智能输入。识别率再高,语音输入依然会有错字现象,手工更改成为痛点——用语音输入就是因为不想动手。搜狗输入法推出了独家的语音修改功能,用户可以使用纯粹的自然语言进行改错,例如,用户可以说:“把‘张’修改为立早‘章’,或者把‘张’修改为文章的‘章’。这样的交互能实现,关键不在于语音识别,而在于语义理解。准确的语义理解,需要应用深度学习为基础的人工智能技术,这正是像搜狗这样的互联网公司尤其是搜索公司擅长的地方。据了解,目前该功能可以支持的文法数目达到3万以上,修改成功率达到80%,这也相当于语音识别的错误率进一步降低了80%。
AlphaGo掀起人工智能热潮之后,语音市场又迎来新的发展契机,正如互联网女皇所说:语音正成为人机交互的新范式。而输入则是语音最典型的应用场景,当人们在户外、走路、开车等不便打字、懒得打字,抑或打字效率不高的时候,语音都是一种更优选择。搜狗输入法的语音输入功能,凭借其领先行业的识别速度和准确率,给用户带来了更加智能和人性化的输入体验,同时对推动智能语音技术的进步与革新也具有深刻意义。未来随着语音技术在智能家居、汽车、教育、医疗等领域的应用不断深入,像搜狗这样以智能语音或者文本交互为切入点布局人工智能领域的优秀企业将会获得更多机会。
本稿件所含文字、图片和音视频资料,版权均属齐鲁晚报所有,任何媒体或个人未经授权不得转载,违者将依法追究责任。
智能语音识别解决方案配置方式
当前,智能语音识别解决方案支持综合配置和分布式配置。
集成智能语音识别解决方案适合户外、工厂等特殊环境的应用场景。综合语音识别方案中,客户端和语音处理引擎运行在联想微型桌面上。该系统支持语音识别、语音录音、语音转换等功能,无需联网。当用户恢复到网络接入能力后,可以将录制的语音文件和保存的文本文件迁移或备份到数据中心。
智能语音识别解决方案整合部署的配置方式。
对于大规模、高并发的应用,分布式语音识别方案非常适合。其中,用户端运行在安装了操作系统的电脑上,负责语音数据的采集和文字转换的初步处理。与此同时,客户端能将声波转换成脉冲编码调制数据,录制、播放语音文件、保存语音识别文本文件,并能实现语音文件和文本文件的快速映射。
话音处理引擎运行在服务器端,负责将语音转换成文本。在服务器端,系统通过语音处理引擎(包括信号处理、声学模型、语音模型、译码器),将脉冲编码调制的语音数据转换为文本。
智能语音识别解决方案在云中分布式部署终端的配置方式。
智能语音识别解决方案具有语音识别和文音匹配两大功能。
声像识别功能支持实时语音转换和语音文件转换两种模式。预设为实时语音识别模式。这种模式下,客户端实时输出用户语音识别文本,并在线编辑输出文本并添加标点。当语音识别完成后,系统可以以Word或TXT格式保存文本,以WAV格式保存语音文件,便于后期归档和查看。该系统支持实时识别长音频流,适用于直播审核等长流音频场景,可将庭审、采访等场景的音频信息转换成文本,降低人工记录成本,提高效率。
声音文件识别是指识别通过客户端提交的语音文件,将音、视频文件中的语音信息转换成文字信息,可以方便地查询相应的音视频文件。话音文件识别适用于字幕生成、音频数据转写等场景。
音标映射功能,可以方便地将实时语音转换所产生的文本和同步的录音文件映射到,从而方便了后期人员校对修改。另外,该系统还能根据特定的文字信息快速定位到具体的录音内容,并能在实时语音识别过程中对语音数据进行同步录音。
智能语音识别解决方案语言技术日臻成熟,准确率不断提高。
从技术成熟度曲线来看,智能语音识别解决方案已经处于成熟阶段,商业系统的准确率在某些情况下甚至可以超过专业速记员。更重要的是,语音识别在我们的生活中随处可见,比如把微信语音转换成文本、导航时语音输入目的地、使用智能音箱语音点歌等等。以用户为输入接口的语音识别成本较低,只需一次麦克风和网络连接即可。所以,可以预见,语音识别将越来越多地应用到不利于屏幕和按键设计的设备上。
然而,语音识别的准确率还不能达到100%,而且总有可能在某些设备、某些场景或特定任务上超过可用阈值。首先,语音识别技术在不断发展,新的算法不断出现,准确率不断提高;另一方面,语音识别引擎的定制优化非常重要,当识别性能不够理想时,需要对应用层、引擎层或模型层进行调整和优化。该方案不仅部署灵活,而且可进行深度定制优化,是企业级语音解决方案的可靠选择。