博舍

智能语音在人机交互中的应用 智能语音交互系统原理图片高清

智能语音在人机交互中的应用

0分享至

人机交互是指人与计算机的信息交换,包括计算机通过输出或显示设备给人提供信息,以及人通过输入设备向计算机输入有关信息。

人机交互的目的就是讨论如何使设计的计算机能够帮助人们更加安全可靠,更加有效率地完成所要完成的任务。从以上概念可以看出,人机交互是指用户和机器之间相互交换信息。但尽管计算机的功能现在变的十分强大,用途也越来越广,但归根到底它仍是人类的工具,不能在没有人控制的情况下独立完成任务,因此它同样受到人的支配、控制。

人机语音交互的发展阶段包括以下几个方面:

语音识别是人机语音交互的第一步,主要作用是将用户的语音转换为文字,以便机器的结构化处理。

语音为模拟信号,需经过麦克风等设备采样处理后成为机器可处理的数字信号;然后经过特征提取,将信号从时域转换到频域;再利用提取到的特征向量,经过模式匹配最终转化为文本。其中模式匹配环节的声学模型和语言模型决定着最

终识别的效果,声学模型和语言模型均需要利用标注之后的数据进行训练得到,目前多采用监督学习算法实现,优点是准确率高,缺点是需要人工介入且工作量大。

在实际应用中,除了关注所采用的机器学习算法和软件处理外,还需要重视语音采集环节,尤其远场交互场景(例如智能音响)。语音采集是语音识别的前置条件,如果采集的语音质量不高,即使算力再充足、算法再精妙、数据量再大质量再高,最终的识别准确率也不理想。所以在一些场景下需要通过提升麦克风降噪效果、采用麦克风阵列等方式提升语音采集质量。

深度学习算法的应用,使语音识别成为人工智能最先突破的领域之一。当前,市场主流厂商的语音识别准确率超过了人类水平,手机、电脑、降噪麦克风(阵列)等场景优化后识别准确率高于95%,电话等场景优化后识别准确率高于85%,其他语音优化后识别准确率高于80%。

自然语言理解

自然语言理解是基于自然语言处理的相关技术实现的,两者之间的关系可表现为:

语音识别后的文本,经过分词、词性标注、命名实体识别、依存句法分析等处理,并结合情感分析等结果,对用户意图进行识别。

当前,自然语言理解是人机语音交互中较弱的一环,暂时还无法应用到全场景交互中,但是在垂直领域(金融、医疗、教育等)可用,并且可解决部分客服、销售业务。在闲聊场景中,目前智能音响的应用比较深入,多个厂商的智能音响可支持百科问答、导购交互、日常聊天等功能。

对话管理

对话管理接收来自于自然语言理解的语义结果,并结合当前的语义环境,基于预设的对话状态,决策接下来的动作,并对语义环境进行更新,然后循环往复,直到结束交互。预设的对话状态即对话规则,例如对话流程、动作判断等多种形式的结合。

由于语音交互的复杂性和随机性,导致对话管理难度很大。具体表现为预设对话状态的主观性、多轮对话的容错性、偏离对话状态的合理化处理、多场景切换与恢复等。和自然语言理解类似,当前对话管理在垂直领域和闲聊的部分场景应用较好,但是要应用到全场景交互中,挑战同样非常大。

自然语言生成

自然语言生成可视作语言理解的逆过程,将向用户传达的概念、知识、数据、意图等信息转化为语言,自然语言生成一般包括6个步骤。

内容确定作用是决定哪些信息需包含在正在构建的文本中,文本结构作用是决定合理的组织文本顺序,句子聚合作用是决定在单个句子中呈现的信息,语法化作用是找到合适的单词和短语来表达信息,参考表达式生成作用是识别需表达内容的领域并使用该领域词汇,语言实现作用是将所有的单词和短语组成格式良好的句子。

当前,人机语音交互中还未实现完全自动化的自然语言生成,在实际应用中多采用预先设计的文本模板来生成文本输出,例如在查询银行卡余额时,预设文本“您查询的银行卡余额为【金额】元”。

语音合成

语音合成是人机语音交互的出口,目的是将自然语言生成后的文本或预设文本转换为语音,播报给用户。合成语音的自然度直接关系到交互体验。

语音合成的原理比较复杂,但是目前的技术和应用都很成熟。市场主流厂商中英文的语音合成效果超过了人类水平,中文自然度MOS值可达到4.5左右,英文自然度MOS值可达到4.2左右。

在实际使用过程中,为了达到比较好的效果,也采用人工录音和语音合成结合的方式,预设的固定文本部分采用人工录音方式,动态变化部分采用语音合成方式。例如上述的“您查询的银行卡余额为【余额】元”,其中动态变化的“【余额】”采用语音合成方式,其余部分采用人工录音方式。

其他技术

除了以上技术,还有一些技术也广泛应用于人机语音交互中,例如声纹识别、知识图谱等。

声纹识别是一种根据说话人语音波形识别说话人身份的生物识别技术。相比于人脸识别、虹膜识别、指纹识别等技术,声纹识别可以进行远程身份识别,用户不必和生物特征采集设备接触,即可完成识别过程。声纹识别的应用可分为身份确认和身份辨识,身份确认是指根据一段语音确认是否为目标用户,是1:1比对的过程;身份辨识是指根据一段语音从一个集合中选取最匹配的用户,是1:N判别的过程。在智能音响中,可采用声纹识别进行用户身份识别,针对不同用户提供个性化服务。

知识图谱是一种描述知识实体、实体与实体之间关联的结构化知识管理技术。知识图谱相比于传统的知识管理技术,能够将零散的知识有效聚合起来,方便检索、提取、调用、管理。知识图谱在人机语音交互中的应用,可以有效提升知识检索、知识生成的速度和准确度,如果结合自然语言生成技术,提供给用户的结果也更接近于人类表达。

中天智领是国内领先的智慧交互信息化系统整体解决方案服务商,通过多年潜心研发,创造出一系列智慧人机交互系统产品,集智慧人机交互产品、智慧人机交互终端、智慧交互平台、智慧交互云于一体,重点研发出精准远距离激光遥控、光感手触、触摸笔、指挥教鞭、智能指挥台、移动可视化交互、实物交互、智能语音等多种交互系统。

中天智领智能语音交互,让交互“说”出来无论将来指挥中心增加多少信号,多少业务场景,不再需要后台人员使用电脑操作,只需说出名字,即可快速大屏展示。面对成千上万的监控图像,不再需要眼花缭乱的寻找,只需要说出想看到的监控场景,大屏即可全屏显示。

中天智领智能语音交互系统将设备连接到网络的能力,与现代语音识别服务相结合,实现了强大的新

用户界面。一种以用户内心意图为中心的人机交互方式,以语音命令为核心的智能人机交互体验。

系统用人类最自然的语言(开口说话)给设备下达指令,达成自己的目的。用户按下遥控器上的语音

键,下达清晰和直接的单向预设语音指令,传输到网络中的语音识别引擎,达到对应的控制效果。独有的

语音压缩算法,将语音压缩以实现抗干扰及较远距离的语音实时传输,30米范围内精准遥控,360°无死角

声源定向。对话模型本地运行,数据本地存储和处理,保障数据的私密性。

特别声明:以上内容(如有图片或视频亦包括在内)为自媒体平台“网易号”用户上传并发布,本平台仅提供信息存储服务。

Notice:Thecontentabove(includingthepicturesandvideosifany)isuploadedandpostedbyauserofNetEaseHao,whichisasocialmediaplatformandonlyprovidesinformationstorageservices.

/阅读下一篇/返回网易首页下载网易新闻客户端

智能交互——给生活不一样的精彩

(图片来源:新华网)

走到家门口,门会自动打开;想喝一杯不加糖的咖啡,咖啡机会自动为你制成;在沙发上坐下,你喜爱的电视节目会自动播放……这或许就是人们未来的生活——基于智能交互技术的生活。

现阶段较为流行的智能交互主要是智能语音交互。比如,美国苹果公司研发的Siri能够使人们通过语音完成对手机的控制。智能语音交互能够解放人类的双手,人们通过下达语音指令即可完成原本需要手动操作的事情,例如,应用于车载系统中的智能语音交互,能让人们在开车的同时轻松了解路况、规划路线。除了苹果的Siri,其它互联网巨头也纷纷占据了智能语音交互市场的一隅,例如Google的Now和Nest,微软的Cortana,亚马逊的Echo以及Facebook的M。智能语音交互在高科技住宅中也得到了广泛运用——通过这项技术,用户能实现对电视、空调、厨房的直接声控,进而实现操作智能化。

除了智能语音交互,目前较为成熟也最为广泛应用的是触屏交互,几乎所有的可视化、数字化操作都可以摆脱鼠标键盘而依赖触屏实现,如触屏手机、公共场所大厅内的信息查询终端、全息交互屏幕等等。这些触屏交互依赖交互式物理触摸屏实现,这种触摸屏根据其介质及工作原理可分为电阻式、电容式、红外线式和表面声波式等多个种类。随着科技的进步,其介质可能会更为简单,如空气、墙体,从而实现真正的全息触摸交互。

人从自然界获取信息,需依赖三种基本的感觉:触觉、听觉和视觉。继触摸交互和语音交互产业出现后,人与外界信息交互最为重要的方式——视觉交互的相关产业已经快速发展起来。视觉是人类探索和认知自然、发现和获取信息的主要途径,它不仅包括对光信号的感知,也包括对信息的获取、处理和理解的全过程。目前,智能视觉交互产业涉及人机控制、虚拟运动、虚拟现实应用等领域,它将成为智能交互领域市场容量最大的产业,也将在未来成为产业投资热点。目前,最令人感兴趣的虚拟现实技术(VR)将与应用在触觉、听觉、视觉甚至味觉方面的智能交互技术广泛结合。

智能交互正在迅速走进人们的生活。相信在不久的将来,智能交互将会成为人们日常生活的一部分,为人们的生活带来别样的精彩。(程珺洁)

(责编:余悦(实习生)、肖玲)

车载导航人机语音交互系统的原理及实现

引言

      语音作为自然的人机接口,可以使车载导航系统实现更安全、更人性化的操作。通过国内外车载导航系统的功能对比可知,支持语音交互是车载导航系统的一个发展趋势。另外,市场信息服务公司J.DPowerandAssociates的调研数据也表明,56%的消费者更倾向于选择声控的导航系统。因此,开发车载语音导航系统是很有意义的。目前,国内已经具备开发车载语音导航系统的技术基础,特别是文语转换TTS技术和基于中小词汇量的语音命令识别技术已经达到比较实用的程度。本文在课题组的车载导航系统和国内两款语音引擎的基础上,开发了一套支持语音交互的车载导航系统。

车载语音导航系统结构

      车载语音导航系统从功能上分为车载导航和导航语音交互两方面。其中车载导航功能包括GPS卫星导航定位、电子地图浏览查询、智能的路径规划、车辆地理位置和速度等导航信息的实时显示;导航语音交互功能分为语音操作和语音提示两部分。在系统的设计中,根据人机交互的需求,设计语音导航系统的硬件框架如图1所示。

      语音导航系统和用户之间的人机交互接口由触摸屏、按钮、话筒、显示屏和扩音器等五个交互设备组成。该硬件框架可实现常规的手动交互方式,也可以实现语音交互方式。整个系统划分为三个子系统:导航子系统、语音识别子系统和语音合成子系统,各子系统间通过接口进行通信,协调完成语音导航任务。车载导航人机语音交互系统对话模式设计

导航系统的状态转换网络

      整个导航系统是一个复杂的人机交互系统,为便于语音交互对话模式的设计,首先对系统作状态划分,然后从人机交互的角度描述整个系统的状态转换网络。将系统划分为地图浏览、功能选择等六个功能状态和一个退出状态。图2描述了这些状态之间的状态转换网络。

      图中的节点代表系统的各个状态,带箭头的连线代表从源状态到目标状态的转换。状态转换网络接收用户的操作作为驱动事件,完成从一个状态到另一状态的转换,网络中的一条路径便代表着特定的交互过程。

导航系统各状态节点对话模式设计

      为便于描述各状态节点内部的对话模式,将状态节点按图2所示编号为S1~S7,用Tmn表示状态节点Sm到状态节点Sn的转换。另外,借鉴状态流stateflow模型的表示方法,提出用于描述车载导航人机语音交互系统中的对话模型。重新定义转换的描述方式,用四个属性来描述状态节点内的一次转换:

T={P1,P2,P3,P4}                         (1)

      其中,t用于表示一个转换,P1~P4为转换的属性:P1为语音事件;P2为语音输出;P3为附加条件;P4为转换动作。

      这样,一个转换t便描述了一次对话中用户的语音输入、系统的语音输出、对话受到的限制条件以及系统执行的动作。

      以地图浏览状态为例,说明对话模式设计的过程。地图浏览状态由两个互斥的子状态组成:地图漫游状态和车辆引导状态(参见图2)。这两种子状态的人机交互大部分相同,所以将二者统一划分在地图浏览状态下。对于区分对待这两个子状态的交互过程,可以通过附加条件来判断当前子状态,再作不同的处理。地图浏览状态节点的对话模式设计如图3所示。

 

人机语音交互系统的实现

语音控制命令的实现

      语音控制命令的实现方案如图4所示。图中左边方框代表整个语音导航系统对话模式的状态转换网络STN。根据对话模式的设计,将系统分为地图浏览状态、功能选择状态、路径规划状态等7个状态节点,每个状态节点内部均存在各自的语音对话模式,对话模式由若干内部转换组成。因此,整个语音导航系统是一个两层结构的状态转换网络,其内部转换由语音事件驱动。语音事件由导航子系统的接口模块根据语音识别子系统发送的用户意图而产生。

 

语音控制命令的实现过程分为以下四个步骤:

*语音识别引擎根据当前命令词表识别用户语音,得到识别结果。

*管理窗口获取到识别结果,通过查询“识别词-控制命令”映射,得到识别结果对应的控制命令,并将控制命令作为用户意图发送至导航子系统的接口模块。

*接口模块响应用户意图,通过语音事件改变语音导航系统的状态。

*接口模块根据语音导航系统的状态判断是否需要更改当前命令词表,若需要则通过管理窗口更改当前命令词表。

POI名称的识别方法

      识别子系统除了要识别控制命令以外,还需要识别POI(兴趣点、标志点)名称。POI名称识别与控制命令识别最大的区别在于其候选集合在规模上的差异。在本系统中,进行控制命令识别时候选集合的规模最大约为30个,但进行POI名称识别时,以所用的北京电子地图为例,其POI点的个数为20,172个,此时其候选集合的规模比控制命令识别时大几个数量级。

      利用命令词识别引擎进行识别时,必须为引擎提供一个当前词表,需要先将候选集合中的词条转化为词表,才能真正地进行识别。同时,基于中小词表的ASR识别引擎不能生成规模达2万多的词表,所以对于POI名称识别,采取了不同于控制命令识别的方案。在对控制命令进行识别时,因为候选集合可以用一个词表来表示,采取了在线识别的方法。而对POI名称进行识别时,单个词表无法容纳所有的POI名称,由此提出了利用识别引擎离线识别功能的离线遍历识别方案。该方案利用多个词表来描述整个候选集合。实现的具体流程如图5所示。

      该方案将候选POI集合划分为n个子集,并生成各子集的词表,然后以各词表为当前词表进行离线识别,并将这些局部的识别结果汇总形成一个临时词表,最后在这个临时词表中进行识别,得出全局的最优识别结果。该过程遍历了各个子集,相当于在整个候选集合中匹配出最优识别结果,所以识别正确率得到了保证。同时由于识别次数的增加,导致识别时间相应地变长。

导航系统语音提示的实现方案

      导航系统的语音提示由专门的语音合成子系统完成。将语音提示的实现过程分为提出请求和执行请求两步。请求的提出方和执行方构成客户/服务器(C/S)模型,其中,语音合成子系统充当服务器。由于语音合成引擎通常不能同时输出多线合成的语音,所以会遇到请求冲突的情况。发生请求冲突时,最直接的处理策略是:中止正在进行的合成转而进行下一个合成,或者维持正在进行的合成而忽略新的合成请求。为此在语音合成子系统中设计了管理模块用于决定发生合成冲突时的处理方式。

      对于语音合成子系统,合成请求的提出是一个随机事件,将这类随机事件记为Qi。每个合成请求Qi都具有优先级的属性,其优先级的高低取决于请求的提示信息的重要程度,见表1。管理模块的处理流程见图6。如果下一请求Qi+1的优先级高于当前请求Qi,则优先合成Qi+1。

车载语音导航系统的试验验证

      图7为本文的车载语音导航系统的实物照片。对本系统进行了语音导航的验证试验,通过语音交互完成了表2中所示的车载导航功能。试验表明,系统的状态能够完全正确地按照设计的对话模式进行转换,并能正确完成各种导航功能的人机对话过程;同时,系统的语音提示也能正确工作。

      另外测试了系统正确响应语音控制命令的能力。测试中,用清晰平稳的语音,对地图浏览状态所有语音控制命令的49个识别词进行了测试,共测试49×3=147次,成功132次,失败15次,成功率为89.8%。可见,系统语音控制命令的有效性较好。

      在海量POI名称识别的试验中,对字数为2至10的POI名称进行了测试。对于每一长度的POI名称,分别取10个进行测试。其中每个POI名称最多做两次测试,当且仅当第一次测试失败才继续第二次测试。试验结果如表3所示。

      可见,离线遍历识别方案的一次识别正确率为86.7%,二次识别正确率为93.3%。其正确识别的平均耗时为6.1s至10.4s之间,按POI名称的字数统计分布计算加权的平均耗时为8.3s。以上数据说明,该方案能够利用小词汇量的关键词识别引擎实现大词汇量POI名称的识别,并且获得了满意的识别正确率,但是耗时较长。结语

本文主要完成了车载导航人机语音交互系统的设计和实现,并在实验室环境中对系统进行了实验验证。

      证明利用合成的语音,可以实现丰富灵活的语音提示,使用户可以在不分散过多精力的前提下使用导航系统。进一步的工作是提高识别正确率和降低正确识别的平均耗时。

参考文献:

1.丁捷.车载GPS自主导航方法的研究:[硕士学位论文].北京:清华大学汽车工程系,2003

2.孟祥旭,李学庆.人机交互技术—原理与应用.北京:清华大学出版社,2004.131~136

3.刘加,刘润生.语音识别技术.北京:清华大学电子工程系,2001  

版权声明:本文内容由互联网用户自发贡献,该文观点仅代表作者本人。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如发现本站有涉嫌抄袭侵权/违法违规的内容,一经查实,本站将立刻删除。

上一篇

下一篇