语音交互(初学)
一:寒假开始整一个机器人有关的项目,学习了语音方面的知识,下来做个总结。整个语音部分都用的是科大讯飞的平台,用的系统是ubuntu18.04二:功能分类1:语音听写:将语音转化为文字2:语音合成:将文字转语音3:语音唤醒:通过设置特定唤醒词来唤醒4:人声检测:检测到人声后开始语音识别5:语音录入:将语音存储三:功能详解1:语音录入;通过相应python程序调用麦克风实现一定时间语音录入;当然这个由于后面功能不够所以被舍弃,但前期可以学习;2:语音听写:下载科大讯飞的SDK实现,下载了要改动的内容请参考博客:https://zhiqianghe.blog.csdn.net/article/details/841351253:语音合成:这部分也是调用科大讯飞的SDK实现,但注意添加自己的账号密码的时候需要用双引号扩住,在一个就是实现语音文件的播放参考博客:https://blog.csdn.net/pengranxindong/article/details/906062794:语音唤醒:语音文件唤醒,需要配合人声检测来实现,具体过程就是,程序开始,麦克风一直监测环境声音,当大于一定分贝后开始录音,直到分贝小于特定值,然后对语音文件进行语音唤醒词鉴定,存在则唤醒,否则进行下一个循环5:人声检测:需要安装相应的功能包进行人声检测;四:实现一个完整指令比如我们要实现语音唤醒加播放一首歌曲这个功能;运行程序-语音唤醒-成功-采集环境声音存储-翻译成相关命令-如果命令存在(可以被识别)-进行相应功能;这就是大概的流程;
如有不足之处,请指教,如果这篇文章对你有帮助,请点个赞支持一下;
智能语音交互是怎么实现交互流程中的输入输出呢?
小爱同学是小米公司于2017年7月26日发布的收款人工智能(AI)音箱的唤醒词及二次元人物形象。小爱同学一经推入市场便受万千宠爱,网络上关于小爱同学的使用体验各式各样,无不是在称赞,他们对小爱同学的功能、特点无不熟悉,但是你知道小爱同学是怎么工作的吗?
智能语音交互是人工智能的分支,相当于语音助手,属于一款智能型的手机应用,通过智能对话与即时问答的智能交互,实现帮助用户解决问题的功能。
说起智能语音助手大家首先想起的是哪些呢?
1.Siri
苹果iOS系统中的人工智能助手软件
2.Cortana
微软开发的全球第一款人工智能助手,中文名小娜,横跨手机与PC两大平台。
3.Alexa
亚马逊推出的语音助手,主要搭载在AmazonFcho智能音箱上。
智能语音交互是怎么实现交互流程中的输入输出呢?
智能语音交互界面事实上包含了三个技术环节:
1.语音识别(ASR)
将人类的语音中的词汇转换为计算机可读的输入,一般包括了信号处理,尽可能的降低环境噪声、信道、说话人等因素对特征造成的影响。用户根据系统设计的口令密码与系统进行沟通。
比如:小爱同学的操作执行,每次发出指令的模式必须是“小爱同学+工作任务”,小爱同学接收后在把语音转化成文字,再结合文字做出指令回复。
2.语义处理(NLP)
自然语言的处理,就是把人的语言转化成机器能够理解的数字,分解开,并回复相应的语言。很多在购买智能音箱之后都会有觉得是“智障音箱”的主要原因就在这里,现在的技术条件下,只能做到固定的回答,无法像人类一样思考,再加上人类语言有大量的表达方式和歧义语句,理解错误的地方也非常多。语义处理的主要目的就是把人类语言与机器语言尽可能的相互接近,实现真正的用户正常对话。
3.语音合成(TTS)
是通过机械的、电子的方法产生人造语音的技术,将计算机自己产生的、或外部输入的文字信息转变为乐意听得懂的、流利的汉语口语输出的技术,可以让机器人像人一样开口说话,小爱同学就是通过这项技术跟你交流的。
语音交互发展的优势
1.解放双手、双眼、双腿,接触空间限制,远场可交互
2.指向明确,语义直达目标,缩短使用路径
3.自然简单人性化,学习门槛低
4.可以一对一,也可以一对多
5.对硬件的要求低
语音交互的劣势
1.不适合用户选择多、流程长,需要大量辅助信息决策的交互任务
2.远场语音交互对距离、噪音、混响、声源数量等有一定的要求
3.不适用于公共场合,需要安静的尝试
4.依赖嘴巴和耳朵,对语种、口音和发音有一定要求
5.输出信息单一,表达能力有限
从技术和时间上来说,现在的智能语音交互系统还是存在一定缺陷和局限的,但是我们相信任何技术都是在实践中成长的,你们的小爱同学也会越来越惹人爱的。