手机智能语音交互技术的用户体验发展状况
在拟人程度上,Siri的说话连贯性比较好,但是语气语调上面,Siri的中文语音非常生硬,机器感很强,没有中文基本的抑扬顿挫和声调。这种机器人的交互体验很容易让用户产生距离感,因为人与人之间的谈话是具有情感的,而情感是通过语调和语气表现的。Siri在给予用户良好的情感交互方面并没有很优秀,其实就是没有让用户拥有谈话的真实感,不符合我们日常的交流体验习惯,产生别扭的感觉。
2.Bixby
这是由三星开发并在2017年公布的一款手机智能语音交互产品。在理解率和回答准确率上,Bixby与Siri旗鼓相当,基本可以满足用户的需求。但是在拟人程度上,Bixby略胜一筹。Bixby的与用户的交谈很流畅,几乎没有与机器人说话的感觉,而且可以很准确的捕捉到用户的语音信息并迅速回应。这种优秀的用户体验很接近真人交互,给予用户一种真实和舒服的感觉。
另外,当用户询问问题需要用到网页的内容时,Bixby不像Siri只是简单了将网页内容罗列出来,而是自动搜索准确的信息并朗读出来,极大地提升了用户的使用体验。
3.小爱同学
由于小爱同学是中国本土开发的一款智能语音交互产品,所以在中文的语音交互上,小爱同学的声音比较接近真人,能够实现自然的连续对话,机械感也不算很强。与Siri和Bixby相比,小爱同学柔和的声音更适合中国用户的体验习惯。同时小爱同学在理解率和回答准确率上做的也比较好,给予了用户良好的体验。
四.智能语音交互技术存在的问题1.数据的丰富度与逻辑处理
智能语音技术是人工智能领域的一个分支,所以它背后所依靠的技术是大数据的分析能力。想要满足用户各种各样的需求,就必须扩大智能语音背后的数据库,让人工智能分析出更多复杂繁多的问题。目前的很多智能语音交互产品并不具有强大的数据库支持,所以在遇到用户的特殊问题时,智能语音助手只能说一句“暂时解决不了您的问题”。这实际上严重影响了用户在使用时的情绪,给用户带来了不好的用户体验。
与此同时,智能语音技术在逻辑的处理上尚不成熟。当我们询问“帮我找一下附近的酒店”,智能语音助手会帮我们罗列出周围的酒店,但是当我们继续发问“XXX酒店怎么走”时,智能语音就无法认清上一个问题与现在的问题的逻辑性,从而不能识别出用户的意思。
2.智能语音交互的情感化
想象一下,我们平时喜欢和什么人交流呢?很明显,我们喜欢和能够理解自己情绪并照顾你心情的人,相反我们不会喜欢一个人采用冷漠的语气与你交谈。智能语音交互技术也是如此,要让用户拥有置身于富有情感交流的真实体验中,而不是用一个机器人的声音来与用户交谈,这样的用户体验必然是我们难以接受的。
现在的很多产品虽然很大程度上可以模拟人的交谈,但是依然具有机器人的声音特质,无法与人进行“理解你”的交流,也就是说语音助手没有办法根据你的状态给予你相对应的反馈。无论你开心还是愤怒,语音助手总是使用同一种语气和你交谈,这是我们难以接受的,这样造成的结果即使:人们不会在人工智能交互技术上获得良好的用户体验。
五.总结虽然现在的手机智能语音交互技术与之前相比已经取得了比较好的成绩了,但是还是存在着数据丰富度、逻辑处理和情感化表达的问题。手机智能语音交互技术想要在下一阶段获得用户体验质的提升的话,就必须解决上述问题。当然,欲速则不达,手机智能语音交互技术的发展是一个任重而道远的过程。
参考文献:
1.彭志康,基于用户体验的语音交互产品设计研究,《大众文艺》,2019:139
2.李真真、谢文娟、唐凌、徐旭玲,基于情感化的移动端语音交互设计研究,《行业前沿》,2019:352-357
3.柯若春、高东强,手机语音助手用户体验现状及发展,《内蒙古煤炭经济》,2019:216-218
4.吴勘、郭艳、张蒙,智能语音交互技术使用情况调查分析,《设计与传播》,2019:93-106返回搜狐,查看更多
人工智能科普|语音唤醒技术的原理是什么
姓名:张璐
学号:19021210845
转载自:https://www.toutiao.com/a6644766450860950024/
【嵌牛导读】 不少同学家里都有AI智能音箱产品,例如天猫精灵、小爱同学、小度等等。这些智能音箱不仅便捷了我们的日常生活,也因为他们或机智或逗比的回答,给用户带来了不少欢乐。
【嵌牛鼻子】AI智能音箱、语音唤醒
【嵌牛提问】语音唤醒技术的原理是什么?
【嵌牛正文】
“天猫精灵。”“哎,在的,你说”
“小爱同学,定明天早上8点的闹钟。”“好的,已经帮你定好明天早上8点的闹钟”
不少同学家里都有AI智能音箱产品,例如天猫精灵、小爱同学、小度等等。这些智能音箱不仅便捷了我们的日常生活,也因为他们或机智或逗比的回答,给用户带来了不少欢乐。
这些智能产品中的一项重要的AI能力,就叫做语音唤醒。
首先,设备开启并自动加载好资源,这时它处于休眠状态。然后,当用户说出特定的唤醒词时,设备就会被唤醒,切换到工作状态等待用户接下来的指令。
这一过程中用户不需要用手接触,直接可以用语音进行操作,同时利用语音唤醒的机制,设备不用实时地处于工作的状态,从而节省能耗。
语音唤醒的应用领域比较广泛,例如机器人、手机、可穿戴设备、智能家居、车载等。几乎很多带有语音功能的设备,都会需要语音唤醒技术作为人和机器互动的一个开始或入口。不同的产品会有不同的唤醒词,当用户需要唤醒设备时需要说出特定的唤醒词。
定义
语音唤醒在学术上被称为keywordspotting(简称KWS),吴老师给它做了一个定义:在连续语流中实时检测出说话人特定片段。
这里要注意,检测的“实时性”是一个关键点,语音唤醒的目的就是将设备从休眠状态激活至运行状态,所以唤醒词说出之后,能立刻被检测出来,用户的体验才会更好。
那么,该怎样评价语音唤醒的效果呢?通行的指标有四个方面,即唤醒率、误唤醒、响应时间和功耗水平:
➤唤醒率,指用户交互的成功率,专业术语为召回率,即recall。
➤误唤醒,用户未进行交互而设备被唤醒的概率,一般按天计算,如最多一天一次。
➤响应时间,指从用户说完唤醒词后,到设备给出反馈的时间差。
➤功耗水平,即唤醒系统的耗电情况。很多智能设备是通过电池供电,需要满足长时续航,对功耗水平就比较在意。
语音唤醒的技术路线
经过长时间的发展,语音唤醒的技术路线大致可归纳为三代,特点如下:
第一代:基于模板匹配的KWS
训练和测试的步骤比较简单,训练就是依据注册语音或者说模板语音进行特征提取,构建模板。测试时,通过特征提取生成特征序列,计算测试的特征序列和模板序列的距离,基于此判断是否唤醒。
第二代:基于HMM-GMM的KWS
将唤醒任务转换为两类的识别任务,识别结果为keyword和non-keyword。
第三代:基于神经网络的方案
神经网络方案又可细分为几类,第一类是基于HMM的KWS,同第二代唤醒方案不同之处在于,声学模型建模从GMM转换为神经网络模型。第二类融入神经网络的模板匹配,采用神经网络作为特征提取器。第三类是基于端到端的方案,输入语音,输出为各唤醒的概率,一个模型解决。
语音唤醒的难点
语音唤醒的难点,主要是低功耗要求和高效果需求之间的矛盾。
一方面,目前很多智能设备采用的都是低端芯片,同时采用电池供电,这就要求唤醒所消耗的能源要尽可能的少。
另一方面,用户对体验效果的追求越来越高。目前语音唤醒主要应用于C端,用户群体广泛,且要进行大量远场交互,对唤醒能力提出了很高要求。
要解决两者之间的矛盾,对于低功耗需求,我们采用模型深度压缩策略,减少模型大小并保证效果下降幅度可控;而对于高效果需求,一般是通过模型闭环优化来实现。先提供一个效果可用的启动模型,随着用户的使用,进行闭环迭代更新,整个过程完成自动化,无需人工参与。
语音唤醒的典型应用
语音唤醒的应用领域十分广泛,主要是C端产品,比如机器人、音箱、汽车等。比较有代表性的应用模式有如下几种:
➤传统语音交互:先唤醒设备,等设备反馈后(提示音或亮灯),用户认为设备被唤醒了,再发出语音控制命令,缺点在于交互时间长。
➤One-shot:直接将唤醒词和工作命令一同说出,如“叮咚叮咚,我想听周杰伦的歌”,客户端会在唤醒后直接启动识别以及语义理解等服务,缩短交互时间。
➤Zero-shot:将常用用户指定设置为唤醒词,达到用户无感知唤醒,例如直接对车机说“导航到科大讯飞”,这里将一些高频前缀的说法设置成唤醒词。
➤多唤醒:主要满足用户个性化的需求,给设备起多个名字。
➤所见即所说:新型的AIUI交互方式,例如用户对车机发出“导航到海底捞”指令后,车机上会显示“之心城海底捞”“银泰城海底捞”等选项,用户只需说“之心城”或“银泰城”即可发出指令。