博舍

语音助手——未来趋势 智能语音助手是什么意思啊苹果

语音助手——未来趋势

        这一章我们来一起探讨一下语音助手的未来发展趋势和规划,未来的语音助手应该是什么样子的呢?下面是我个人的一些思考。

1、场景的趋势:

        语音助手由于其使用特性,需要和机器面对面说话,这对于一些人来说其实是比较难接受的,尤其是在人多的地方,人们会感觉尴尬,所以我们很少在一些公共区域看到人们使用这些语音助手,比如银行大堂、购物商场等,当然,这也是由于语音助手的目前技术限制,效果还没有达到和真人沟通一样的效果。相对的,在一些私密性比较强的场景中,语音助手的优势就会变得很明显,比如居家场景、车载场景、电话助手、办公室场景等,这些场景中,由于其便捷性和快捷性,人们会更愿意和机器进行语音沟通,比如在家炒菜可以使用语音助手查菜谱,也可以使用语音助手陪伴小朋友玩耍,进行一些教育性质的小游戏,或者在车载场景中播放音乐,导航等。可以预见,在这些场景中挖掘用户的使用场景,并进行针对性的技术突破和创新,会是未来的一个趋势。

2、用户的趋势:

        不同的语音助手根据其使用场景不同,其针对的用户群体也不同,也就是所谓的产品定位不同,比如车载助手主要针对有车一族,对于手机上的语音助手,其主要用户群体为K12用户,也就是从1年级到高中这部分学生群体,主要也是由于这部分学生具有学习的需要(查资料)、娱乐的需要(聊天),以及探索欲、新鲜感,他们使用的技能也会更多。而对于成年人来说,其使用时目的性会更加明确,比如查资料、操作设备等,因此,要挖掘更多的用户,就需要从具体的应用场景出发,考虑用户在某个场景下真正需要的是什么,才可以获得更多的核心用户和转化率。随着应用场景的挖掘填充,用户群体也会覆盖更多。

3、技术的趋势:

        技术的趋势主要分为几点:话题式对话、自学习、端上模型。

        话题式对话:当前的语音助手中,主要的对话形式仍然是单轮对话为主,即一问一答的形式,即问即答,用完即走,这样的助手很难让人产生亲切感,用户没有和人一样交流的感觉,所以未来的语音助手应该具备更好的多轮对话的能力,可以围绕一个话题来聊天,或者主动开启话题,由任务型助手转型为话题型助手。同时,聊的多并不代表效率低,有效的沟通胜过冗余的操作,通过和用户沟通,深入了解用户需求,进行合理的引导和推荐,可以更高效的帮助用户。

        自学习:区别于普通机器,语音助手应该具备自学习的能力,即根据历史的对话和操作,以及周围的环境等,进行学习提升自己的能力,这看起来似乎匪夷所思,但进行场景拆解后也是可以实现的,比如:通过主动学习、伪标注、带噪学习、强化学习、蒸馏等方案,都可以实现模型的更新迭代,这其实就在一定程度上实现了自学习的目的。

        端上模型:考虑到隐私性和高效性,现在端上模型越来越火,当用户在网络信号不好时,或者有些隐私信息不方便上传到云端时,端上模型就可以大力发挥,因此离线学习和推理,也将是未来的一大趋势。

市场上的智能语音助理,主要的工作原理是什么

一个包括语音交互的chatbot的架构如下图所示:

一般chatbot由语音识别(ASR)、语音合成(TTS)、自然语言理解(NLU)、对话管理(DM)、自然语言生成(NLG)几个模块组成,其中:

语音识别:完成语音到文本的转换,将用户说话的声音转化为语音。

自然语言理解:完成对文本的语义解析,提取关键信息,进行意图识别与实体识别。

对话管理:负责对话状态维护、数据库查询、上下文管理等。

自然语言生成:生成相应的自然语言文本。

语音合成:将生成的文本转换为语音。

通常智能助理一个完整的交互流程是这样的:

首先:音频被记录在设备上,经过压缩传输到云端。通常会采用降噪算法来记录音频,以便云端“大脑”更容易理解用户的命令。然后使用“语音到文本”平台将音频转换成文本命令。通过指定的频率对模拟信号进行采样,将模拟声波转换为数字数据,分析数字数据以确定音素的出现位置。一旦识别出音素,就使用算法来确定对应的文本。

然后:使用自然语言理解技术来处理文本,首先使用词性标注来确定哪些词是形容词、动词和名词等,然后将这种标记与统计机器学习模型相结合起来,推断句子的含义。

最后:进入对话管理模块,确认用户提供的信息是否完整,否则进行多轮对话直至得到所需全部信息。根据得到的信息进行相应的业务处理,执行命令。同时将结果生成自然语言文本,并由语音合成模块将生成文本转换为语音。在这些模块中,对话管理(DM)模块的首要任务是要负责管理整个对话的流程。

通过对上下文的维护和解析,对话管理模块要决定用户提供的意图是否明确,以及实体槽的信息是否足够进行数据库查询或开始履行相应的任务。

当对话管理模块认为用户提供的信息不全或者模棱两可时,就要维护一个多轮对话的语境,不断引导式地去询问用户以得到更多的信息,或者提供不同的可能选项让用户选择。

对话管理模块要存储和维护当前对话的状态、用户的历史行为、系统的历史行为、知识库中的可能结果等。当认为已经清楚得到了全部需要的信息后,对话管理模块就要将用户的查询变成相应的数据库查询语句去知识库(如知识图谱)中查询相应资料,或者实现和完成相应的任务(如购物下单,或是类似Siri拨打xx的电话,或是智能家居去拉起窗帘等)。

实际实现中,对话管理模块因为肩负着大量杂活的任务,是跟使用需求强绑定的,大部分使用规则系统,实现和维护都比较繁琐。

规则的描述主要基于正则表达式或者类似正则表达式的pattern,用户的问题匹配到这样的pattern上,从而取得答案结果。

使用规则的好处是准确率高,但是缺点也很明显:用户的句式千变万化,规则只能覆盖比较少的部分。

而越写越多的规则也极其难维护,常常有可能会发生互相矛盾的规则,而往往一个业务逻辑的改动就要牵一发而动全身。另一个方法是维护一个庞大的问答数据库,对用户的问题通过计算句子之间的相似度来寻找数据库中已有的最相近的问题来给出相应答案。

目前任务导向chatbot也在逐渐使用基于深度学习的端到端来实现架构。

简要来说就是将用户输入的内容直接映射到系统的回答上,但是这种方式也存在需要大量的训练数据的问题,还不能完全取代传统规则系统。人工智能、大数据、云计算和物联网的未来发展值得重视,均为前沿产业,多智时代专注于人工智能和大数据的入门和科谱,在此为你推荐几篇优质好文:人工智能快速发展的今天,语音识别现在发展到什么阶段了?http://www.duozhishidai.com/article-2278-1.html智能语音技术,主要面临哪些挑战?http://www.duozhishidai.com/article-1927-1.html语音的识别过程主要分哪几步,常用的识别方法是什么?http://www.duozhishidai.com/article-1739-1.html

多智时代-人工智能和大数据学习入门网站|人工智能、大数据、物联网、云计算的学习交流网站

讯飞语音助手解决方案

尊敬的合作伙伴:

为贯彻落实国务院相关部署要求,着力整治骚扰电话扰民问题,工信部新发布《综合整治骚扰电话专项行动方案》、《关于推进综合整治骚扰电话专项行动的工作方案》等方案对整治骚扰电话进行相关指导。讯飞开放平台在此基础上更新服务协议,请各位合作伙伴认真阅读并遵守:《讯飞开放平台用户服务协议》。

科大讯飞坚持源头技术创新,智能语音技术持续处于先进地位,并且积极打造围绕讯飞智能语音技术的产业生态,通过讯飞开放平台将语音能力开放给第三方合作伙伴。为促进社会稳定和维护平台的可持续发展,对于利用讯飞技术进行违规运营和操作的任何合作伙伴,平台将严格依据服务协议进行终止合作并追究相关法律责任。讯飞开放平台期待与合作伙伴们携手共进,共同维护平台运营秩序,用人工智能建设美好世界。

讯飞开放平台

2018年11月9日

版权声明:本文内容由互联网用户自发贡献,该文观点仅代表作者本人。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如发现本站有涉嫌抄袭侵权/违法违规的内容,一经查实,本站将立刻删除。

上一篇

下一篇