人工智能科普|语音唤醒技术的原理是什么
姓名:张璐
学号:19021210845
转载自:https://www.toutiao.com/a6644766450860950024/
【嵌牛导读】 不少同学家里都有AI智能音箱产品,例如天猫精灵、小爱同学、小度等等。这些智能音箱不仅便捷了我们的日常生活,也因为他们或机智或逗比的回答,给用户带来了不少欢乐。
【嵌牛鼻子】AI智能音箱、语音唤醒
【嵌牛提问】语音唤醒技术的原理是什么?
【嵌牛正文】
“天猫精灵。”“哎,在的,你说”
“小爱同学,定明天早上8点的闹钟。”“好的,已经帮你定好明天早上8点的闹钟”
不少同学家里都有AI智能音箱产品,例如天猫精灵、小爱同学、小度等等。这些智能音箱不仅便捷了我们的日常生活,也因为他们或机智或逗比的回答,给用户带来了不少欢乐。
这些智能产品中的一项重要的AI能力,就叫做语音唤醒。
首先,设备开启并自动加载好资源,这时它处于休眠状态。然后,当用户说出特定的唤醒词时,设备就会被唤醒,切换到工作状态等待用户接下来的指令。
这一过程中用户不需要用手接触,直接可以用语音进行操作,同时利用语音唤醒的机制,设备不用实时地处于工作的状态,从而节省能耗。
语音唤醒的应用领域比较广泛,例如机器人、手机、可穿戴设备、智能家居、车载等。几乎很多带有语音功能的设备,都会需要语音唤醒技术作为人和机器互动的一个开始或入口。不同的产品会有不同的唤醒词,当用户需要唤醒设备时需要说出特定的唤醒词。
定义
语音唤醒在学术上被称为keywordspotting(简称KWS),吴老师给它做了一个定义:在连续语流中实时检测出说话人特定片段。
这里要注意,检测的“实时性”是一个关键点,语音唤醒的目的就是将设备从休眠状态激活至运行状态,所以唤醒词说出之后,能立刻被检测出来,用户的体验才会更好。
那么,该怎样评价语音唤醒的效果呢?通行的指标有四个方面,即唤醒率、误唤醒、响应时间和功耗水平:
➤唤醒率,指用户交互的成功率,专业术语为召回率,即recall。
➤误唤醒,用户未进行交互而设备被唤醒的概率,一般按天计算,如最多一天一次。
➤响应时间,指从用户说完唤醒词后,到设备给出反馈的时间差。
➤功耗水平,即唤醒系统的耗电情况。很多智能设备是通过电池供电,需要满足长时续航,对功耗水平就比较在意。
语音唤醒的技术路线
经过长时间的发展,语音唤醒的技术路线大致可归纳为三代,特点如下:
第一代:基于模板匹配的KWS
训练和测试的步骤比较简单,训练就是依据注册语音或者说模板语音进行特征提取,构建模板。测试时,通过特征提取生成特征序列,计算测试的特征序列和模板序列的距离,基于此判断是否唤醒。
第二代:基于HMM-GMM的KWS
将唤醒任务转换为两类的识别任务,识别结果为keyword和non-keyword。
第三代:基于神经网络的方案
神经网络方案又可细分为几类,第一类是基于HMM的KWS,同第二代唤醒方案不同之处在于,声学模型建模从GMM转换为神经网络模型。第二类融入神经网络的模板匹配,采用神经网络作为特征提取器。第三类是基于端到端的方案,输入语音,输出为各唤醒的概率,一个模型解决。
语音唤醒的难点
语音唤醒的难点,主要是低功耗要求和高效果需求之间的矛盾。
一方面,目前很多智能设备采用的都是低端芯片,同时采用电池供电,这就要求唤醒所消耗的能源要尽可能的少。
另一方面,用户对体验效果的追求越来越高。目前语音唤醒主要应用于C端,用户群体广泛,且要进行大量远场交互,对唤醒能力提出了很高要求。
要解决两者之间的矛盾,对于低功耗需求,我们采用模型深度压缩策略,减少模型大小并保证效果下降幅度可控;而对于高效果需求,一般是通过模型闭环优化来实现。先提供一个效果可用的启动模型,随着用户的使用,进行闭环迭代更新,整个过程完成自动化,无需人工参与。
语音唤醒的典型应用
语音唤醒的应用领域十分广泛,主要是C端产品,比如机器人、音箱、汽车等。比较有代表性的应用模式有如下几种:
➤传统语音交互:先唤醒设备,等设备反馈后(提示音或亮灯),用户认为设备被唤醒了,再发出语音控制命令,缺点在于交互时间长。
➤One-shot:直接将唤醒词和工作命令一同说出,如“叮咚叮咚,我想听周杰伦的歌”,客户端会在唤醒后直接启动识别以及语义理解等服务,缩短交互时间。
➤Zero-shot:将常用用户指定设置为唤醒词,达到用户无感知唤醒,例如直接对车机说“导航到科大讯飞”,这里将一些高频前缀的说法设置成唤醒词。
➤多唤醒:主要满足用户个性化的需求,给设备起多个名字。
➤所见即所说:新型的AIUI交互方式,例如用户对车机发出“导航到海底捞”指令后,车机上会显示“之心城海底捞”“银泰城海底捞”等选项,用户只需说“之心城”或“银泰城”即可发出指令。
智能语音小助手
机器语言学习——语音智能小助手(图形化Mind+)前言一、项目介绍1.1项目名称1.2项目背景1.3项目设计思路1.4项目展示效果二、软件准备2.1Mind+软件三、项目实施四、项目总结注:本文系湛江市第十七中学星火创客团队及岭南师范学院物联网俱乐部原创部分参赛项目,转载请保留声明。前言继上次物联网的项目开发流程介绍以后,大家学习的激情比较高,同时也愿意去学习。好,作为一个物联网专业出身的大学生来说,只会物联网项目开发或者是嵌入式项目开发还是不够的,还是得自学一下与人工智能方面相关的,比如人脸识别,语音识别,口罩识别等等。在我以前发表的博客中,在人工智能方面曾教过大家做过人脸识别,但是那个项目是基于调用百度云API的,从实际意义上来说,这并不算得上人工智能开发,因为是调用了百度智能云那边已经搭建好的数据库和模型,所以我们只是在别人的研究基础上进行了应用开发。现在我将教大家进一步探索人工智能方面的学习,希望大家这次的学习中能有自己的收获。
一、项目介绍1.1项目名称基于Mind+的语音智能小助手
1.2项目背景目前市场上流行着很多的语音助手,比如说天猫精灵、小度和小爱同学等等,目前就生态链而言,属小米的小爱同学有着极强的代表性。那么对于爱好者的我们,是否也曾经想着做一个属于自己的语音智能小助手呢?下面请跟紧我的教学步伐。
1.3项目设计思路语音小助手有以下几个功能,语音问答,语音学习。前者指的是用户可以与语音智能小助手形成问答的形式,语音学习,后者语音学习的指的是采取机自我学习的形式,即语音智能小助手对我我们提出的问题进行学习,并且录取我们的答案,最后录入到内部的链表。
1.4项目展示效果下载链接:https://pan.baidu.com/s/1zObtX3pWJarkRMojqSPzDw密码:eixe
二、软件准备2.1Mind+软件下载链接:http://mindplus.cc/
三、项目实施a)打开Mind+,使用实时模式
b)点击拓展,选择文字朗读和语音识别c)烧写我已经写好的程序,但是得理解程序。下载链接:https://download.csdn.net/download/weixin_43271542/16798522
四、项目总结本次项目虽然不难,但是也还是花费了不少的时间和精力,希望能帮到大家。