语音交互产品的认知语音交互产品的特色和缺点有哪些

发表时间：2023-08-06 09:59:42

语音交互产品的认知

因为用户是结果导向的，无论我们怎么吹嘘自己的产品有多智能，响应速度有多快，理解能力有多强，什么网络神经中枢、神经网络引擎，只要用户在使用过程中没感觉到它的智能点，一切貌似都白搭。

在目前的AI产品体系中，广为人知的主要是三大方向，分别是：图像（即人脸识别）、智能推荐（类似于各种推荐引擎产品，如今日头条等）以及语音交互。

图像很好理解，去年很火的FaceID就是基于此而设计，早期的话像是很多公司会采用的“面部识别打卡”、脸部识别登录设备等也都是相关的应用。而智能推荐则是通过分析用户的日常行为、操作等获得用户画像，从而分析出用户的喜好，为用户生成并推荐其感兴趣的内容。说“抖音”一刷就停不下来，很重要的一个原因就是因为它推荐的内容多半都是用户感兴趣的内容，这就依赖于其智能的算法。

那至于“语音交互”，它究竟是什么？

语音交互是基于语音输入的新一代交互模式，通过说话就可以得到反馈结果。生活中最常见的就是手机内置的各种“语音助手”：魅族的小溪、IPhone的siri以及小米的小爱等，都是相关的产品或者功能。

一.“语音交互”的定义

“语音交互”可以这么来理解：人类与设备通过自然语言完成了信息的传递。

在这里我们把它分成了简单的四个内容：

1.人类与设备

语音交互，属于“人机交互”的一种，是人类与机器之间的沟通、联系，比如和手机，和电脑，甚至“智能家居”概念中的和电器。“语音交互”的对象是人与设备，而非人与人，如微信，其实就是用户通过微信与另一个用户形成沟通，这自然就不属于“人类与设备”的范畴。

2.自然语言

是指一种自然地随文化演化的语言，如汉语、英语、法语等，但如为计算机而设置的语言，即为“人造语言”。自然语言是人类交流和思维的主要工具，对于自然语言的处理也是人工智能中最为困难的问题之一。

“语音交互”是需要人发出声音从而与设备产生互动，比如设闹钟，我们喊“Siri，给我设置一个明天早上八点的闹钟”，这就是通过自然语言与设备完成了一次互动，而不是传统的“打开闹钟-设置时间”这样的手动操作。因此很重要的一点就是“自然语言”，我们通过设备定了闹钟，然后它发出了声音，看起来我们是和设备完成了一次互动，但它发出的不是自然语言，而是铃声，即使你是用“人声”来充当闹铃，那也不是我们在“语音交互”中所定义的“自然语言”。

3.信息的传递

即我们通过自然语言与设备完成了某次互动，比如定闹钟、查导航等，这之间一定是发生了某次信息从我们这边流转到了设备，之后再又回到我们这边，一个双向传递的过程。只是有时候设备给的回应也许是语言，也许是执行任务。

二.交互方式的发展

人与设备的交互方式大致经历了三个阶段的演变：PC时代、移动时代以及AI时代。

在PC时代，我们主要靠鼠标、键盘的外接设备进行输入，比如鼠标双击某个图标打开对应的软件，要打字也需要敲击键盘才能一个一个字符的实现，这样子的模式很笨重，不灵便。

之后过渡到了移动时代，现在几乎人手一台手机，想要点开什么app，主要手指轻轻一点即可开启，此时我们进行交互的方式变成了触摸。所以为什么手机发展到如今，十余年的时间过去了，依旧停留在“触摸”上，那是因为与传统的外接设备来实现输入相比，它本身已经做到了跨越，而其下一个阶段又还在伊始阶段，因此也无法完全被取代。

等什么时候“手机”变成“嘴机”了，也许就发生变革了。

下一个时代也就是“AI时代”，也就是我们所在讨论的“语音交互”时代。科幻电影大家看得不少，很多科幻电影之所以精彩就是因为它展现了未来科技可能的面貌。比如“钢铁侠”中，Tony与其研制的人工智能“J.A.R.V.I.S”就存在着及其精彩的交互。（感兴趣的自行搜索视频呦~）

但目前“语音交互”时代，其实还是主要停留在“语音输入”这一内容上，即我们对设备发出一个指令：给我定闹钟、告诉我怎么去等等，然后设备通过执行再输出相应的内容，这个是死板的，或者说是程序化的。设备只会给你定你所选择的时间点的闹钟，它也只会告诉你怎么去，诚然，这是我们想要的，但不够人性化。

当真正地实现“交互”时，我们所期待的场景应该是：我说我要去XX地，设备读取指令，经过分析之后反馈：那个地方不远，平时走路过去就行，但现在外面下着大雨，我可以为你叫一辆出租车，估计8分钟左右就能到达。

顺着这个思路，我们再聊聊“语音交互”的一个发展历史。

三.“语音交互”的发展历史

主要也是三个阶段：单向收听、单向输入、双向交流。

1.单向收听

人人都经历过，如10086的电子助手。我们在拨打10086时，给我们回应的肯定不是人工客服，而是电子语音：“查询话费请按1，套餐及流量办理请按2”。只有在电子语音无法解决用户的需求时，才会在最后说：“如需人工帮助请按0”。

这种是被动的，用户只能被动地接受已经预先设置好的服务，它无法更改，更无法对用户在电话那头的话语做出任何回应，唯一能够令它产生变化的就是用户按动相应的数字键。

2.单向输入

最常见的应用就是各种输入法的“语音识别转文字”，也就是通常所说的“语音输入法”。通过说话让应用识别，之后以文字的形式转出。很多时候可能一段长对话需要我们敲键盘敲好久，随着这一技术的成熟发展，我们直接说出这段话，之后往往只需要修改几个标点符合与错别字就能很快地完成一段文字的输入。

但其最大的缺点依然是无法形成互动，仍旧是单向的，只不过是从输出者变成了输入者。这种时候它更像是一种工具，当我们不想打字的时候才会用，毕竟当我们用设备进行语音转文字处理时，它不会自动反馈说：我觉得你这边说的不好，需要进行修改。

3.双向交流

顾名思义，人与设备开始形成互动，即所谓的语音助手，它能帮你处理部分任务、设定某些事项，同时也能进行一些简单的聊天沟通。你输入的同时，也能得到来自设备的输出，从而形成一定的互动。

当然，它还远远不成熟，或者说，还没那么智能，就像一个孩子，ta也会对你哭对你笑，但当你讲一些它听不明白的话时，ta也只会睁着眼睛看着你，因为它所涉及到的技术也相对最复杂。

举个例子：“单向收听”就像是听收音机，你在收音机前的喜怒哀乐电台主播并不知道，你只是在听；“单向输入”就像是在KTV唱歌，你唱完这首要么继续下一首要么机器显示没歌了，并不会有任何人性化的反馈（除去那些有评分功能的KTV系统）；“双向交流”，就真的是接近人与人之间的沟通交流，就像是两个人在打电话，互相说着喜怒哀乐。

最后我们来讨论一下相关的实现原理，这也是“语音交互”技术中最核心的一部分。

四.“语音交互”的实现原理

在网上看了徐嘉南老师的视频，获益匪浅，他目前是百度的高级产品经理，他将“语音交互”的实现原理简单地概括为一个过程，即：用户说话，系统识别并理解，之后再转换成声音反馈出来。

接下来我对相关的过程进行一个简单的概述。

Talk：用户发出声音——也就是前面所提及的“自然语言”，无论是哪国的，用户通过说话来与设备形成信息的传递。只有这样，才会有后续一系列的步骤产生。毕竟我们讨论的是“语音交互产品”，用户必须发声才能形成互动，而不是用户坐在沙发上设备就能说“你想要茶还是咖啡？”。

ASR（AutomaticSpeechRecognition）：自动语音识别——在这个时候，机器通过听取用户发出的声音，将其转化为“文字”供机器读取，也就是俗称的“语音听写机”，是实现“声音”到“文字”转换的技术。在这一环节我们比较常见的就是各种“语音输入法”的功能了。

这一环节也是比较容易出错的环节，有时候用户说话有口音，或者说话比较快，设备就很容易转化出错误的文字。

NLU（NaturalLanguageUnderstanding）：自然语言理解——此时机器尝试理解文字，这也是目前在“语音交互产品”中较难突破的一点，也是核心的一点。很简单，交互如何实现完美，很重要的就是建立在“互相理解”的基础上。或者说一场对话如何得以成功进行，很重要的一点就是互相理解对方所说的话的含义。

比如用户说“我觉得今天天气不错，适合出去游玩”，潜台词就是“我想在这样美好的日子里出去转转，你能给我一点建议吗？”，但机器却错误理解成“他想在出去玩之前吃点饭”，于是推荐了各种外卖的联系方式。如此这样一次的“交互”就是失败的，因为机器没用理解用户的意思，也就是我们老话常说的“对牛弹琴”。

DST（DialogueStateTracker）：对话状态控制&DM（DialogueManager）：对话管理——这两个可以放在一起进行讨论。举例来说，比如用户说“给我订张机票”，很显然，这个对话所对应的信息是不完整的，因为没有时间，没有目的地与出发地。这个时候系统判断相应的指令存在信息缺失，或者说它作出判断，接下来是不是该我说话了，于是它就会问：“请问你想从哪里出发？要去哪里？什么时候出发？”。

因此在这两个阶段，机器主要进行的判断就是这个对话进行到哪一步了，该用户说话还是机器说话了。因为如果对话完整，机器就可以执行相应的命令，如果不完整，它就需要再问一次用户，以将内容补完。

Action：命令执行——很好理解，为什么它会单独分出一条并与DM形成双向，也就是我们前面所说的，如果这次命令是完整的，用户说的是“给我定明早8:00的闹钟”，那么系统只需依照指令设置好闹钟，再给出反馈“闹钟已设置好”，那么这么一次的互动就算完成了。但如果用户说的是“给我定闹钟”，显然设备无法执行相关命令，于是需要生成相应的对话来提示用户补充完整时间，之后再执行命令。

因此一定程度上也可以理解为Action，是独立于“语音交互”过程外的，只有在这么一次交互的信息是完整的时候，它才会执行命令。

NLG（NaturalLanguageGeneration）：自然语言生成——这时候系统经过语义的理解+对话状态控制，对用户发出的自然语言已经进行了解析，知道自己该做出怎样的回应了，此时就会生成相对应的自然语言。比如用户选择的模式是汉语，那他说的是汉语，机器同样也应该以汉语的形式进行回答。这时候就是设备开始给出回应的时候了。

TTS（TextToSpeech）：从文本到语音——很简单来说，就是把“文字”转换成“声音”，算是ASR技术的逆推，只是在这一过程中，就很容易反映出其“人性化”的一面，需要设计师在其中添加多种丰富的话术，甚至于对音调、音色乃至断句等都有要求，不然就会显得“机械化”，不够“拟人化”。

比如用户说“我想吃外卖”，机器回答“好的，已为你找到附近的十家外卖店，其中沙县小吃离你最近”；还有一种回答是“好的，这边已经找到距离你最近的一家饭店，是沙县小吃，网上评价还不错，据说那边的馄饨面很不错，建议可以尝试”。很显然，最终推荐的都是那家沙县小吃，但是后者稍显人性。同样的，一模一样的句子，如果用不同的语调、音色来发出，给人的感觉同样不同。

五.总结

在这一系列过程中，ASR主要发生在“识别前”，这里着重的就是对用户发出声音的“识别灵敏度”，因为要先听清楚，才有机会听懂。这里所需要攻克的点就是“声音信号的识别与优化”。

NLU发生在“识别中”，也是在整个语音交互过程中最难的一部分，因为需要机器去理解人类发出的语言，而机器没有感情，就像用户说了一句脏话，而不知道其实用户是在说脏话。这一环节着重于“机器对声音信号的理解”，机器人性化与否从这里开始产生改变。

TTS发生在“识别后”，也是用户能真正直观感受到的方面，因为在这一阶段设备才算是与用户形成互动。用户不理解什么机器语言，他们只想感受到机器能不能在听完我说的之后给我我想听到的回答。有时候即使机器没理解到位，但它反馈出的内容却能令用户耳目一新，同样能够凸显产品的价值。这一环节需要注意的点是“信息的反馈与播报”。

打个比喻，我们把读书时候的考试前的准备过程理解为是“ASR”，我们要去记知识点；考试过程为“NLU”，我们把记到的知识点实际应用到试卷的问题当中去；考试结果公布的过程即为“TTS”，只要结果是差的，无论前两个过程再努力也很难得到认可，反之只要最后反馈的结果是好的，哪怕之前的工作都不到位，貌似也能让人称赞一句。（当然，世上没有不劳而获的事，前期的准备才能在最后获得好的结果）

因此在设计一款“语音交互产品”的过程中，每一环节都很重要。目前最大的语音交互平台是“亚马逊”，在其平台上有超过两万个语音交互类产品，而国内却不超过300个，连其零头都未触及。“语音交互产品”潜力巨大，尤其是近年来“物联网”的势头正足，5G网络宣告展开，我想未来的浪潮中一定会有“语音交互产品”的一席之地。

本文由@二十一弦原创发布于人人都是产品经理。未经许可，禁止转载。

题图来自Pixabay，基于CC0协议

语音交互设计的流程及方法

本文结合参与的项目，将语音交互设计的发展、特征、流程、设计方法和大家进行分享。

随着移动智能终端和云计算的快速发展，人工智能的浪潮正在悄然颠覆着我们生活的点点滴滴，VUI（VoiceUserInterface，语音用户界面）作为一个新的领域也在快速发展，并对用户体验提出了更多关于语言学、情感塑造、逻辑搭建等方面的新要求。

本文结合参与的项目，将语音交互设计的发展、特征、流程、设计方法和大家进行分享。

一、VUI的发展

那么首先来说一下，在原有GUI（GraphicalUserInterface，图形用户界面）如此丰富的情况下，为什么要新增加一种交互方式呢？

它们两者之间最大的差异就是：输入方式不同。

最显著特性就是「解放了双手」，在获取我们关注的信息时，可以用最自然的语言进行沟通，眼睛和手可以同时处理其他的事情。

1.VUI的第一个时期

20世纪90年代，诞生了第一个可行的、非特定的（每个人都可以对他说话）的语音识别系统，交互式语音应答（InteractiveVoiceResponse，IVR）系统的出现代表了VUI的第一个重要时期。

人通过电话线路进行交互并执行任务，如机票预订、银行转帐、业务查询等。相信大家都用12306电话订票订过火车票，我们通过输入数字命令，与系统进行语音交互。

它的主要特点如下：

优点：擅长识别和播报长字符。缺点：用户很少有机会暂停系统，系统占主动地位。

回想一下那个过程，我们必须不断地与系统进行交互，如果中间出现错误，只能挂断重来，因此整个交互过程会容易让用户处在谨慎、局促的状态下。

2.VUI的第二个时期

我们现在所处第二时期的初期，目前很多像siri、Google这类集成了视觉和语音信息的APP，以及AmazonEcho这类纯语音的设计产品，逐步发展并成为主流。

二、VUI与GUI相比的优势与劣势

以目前我们TXD团队沉淀的GUI设计原则为检验标准，进行横向切割，纵向对比VUI的优势劣势。

1.主要的优势

2.主要的劣势

因此，通过对比我们发现：GUI在清晰、高效、通用方面更具优势，这也恰恰是人们获取信息的关键，能够准确给用户提供帮助，且具有很好的延展性和通用性，相对于「一问一答」点状获取信息的方式，更为高效。

VUI则是设计所要追求的一种最自然、最亲切的交互方式，是「带有情感、温度的交互体验」，真正的从用户角度出发。

从我个人角度来看，在目前技术发展的阶段，VUI更多是一种辅助，至少短时间内不会完全取代GUI。

三、设计流程

日常设计工作中，大家都会按照一定的设计流程开展工作，通用的流程一般有：探索调研>分析聚焦>设计策略>测试验证。

同样，这个流程可以复用到语音交互设计中，只是设计对象的媒介和我们产出的设计原型发生了改变，但我们发现问题、解决问题的思路应该是类似且可复用的。

具体的设计流程与环节如下图：

1.探索调研

（1）明确需求

笔者所参与的项目是「公司机房服务的工业机器人」的语音设计，这类产品的功能比家用设备的更为强大，除了语音外，它支持：行走、人脸识别、任务解析、数据采集等，同时场景也更为复杂。

首先机房环境声音嘈杂、环境复杂；它的性质又决定对人员的安全要求极高，需要准确的识别与判断，这些在了解需求阶段是必须明确的环节。

机器人的主要功能就是辅助参观人员、维修人员、驻场工程师更好的完成机房工作，实现机房业务管理智能化，提高运维管理效率和准确率。那么作为体验设计方，则是通过各场景、各环节的体验设计，让人与机器人、与系统的交互高效、自然、流畅，让智能化的机房日常运维管理更加完善。

（2）了解业务场景及目标用户

不同的场景，意味着用户不同的需求和目的，对语音交互的要求也不相同。下面就针对机房环境进行场景分析与设计难点的介绍。

通过团队的调研，收集到在整个数据中心有5类用户，其中会进入机房与机器人直接发生交互的主要有三类：访客、厂商、数据中心驻场。

（3）技术水平

硬件。目前的语音产品包括：纯语音（天猫精灵）和语音及界面结合（iphone的siri）两种配置。

在设计之初，我们需要了解语音产品的基本硬件配置，这其中也包括麦克风、摄像头、听筒、设备联网程度等，因为，产品的配置会影响我们后期的设计策略与体验。

例如：问语音产品：「世界十大旅游胜地都是哪些？中国56个名族都有什么？」，即便语音助手可以准确的告诉我们答案，但无疑是一个沉重的认知与记忆负担，如果配合屏幕来显示，情况会好很多。

最好的人机交互形式是混合型的，即GUI+VUI。（图像交互+语音交互）如图echoshow，如果你所设计的是纯语音产品，那么在设计时则需要考虑更多的引导、容错、提示等。

本次项目中所涉及的机器人不带显示屏幕，并且语音不联网，这就意味着所有对话都需要提前预设好，设计师需要根据可能出现的情况，将对话内容完善，并且做必要引导，让用户按照系统期望的流程进行，确保工作顺利、安全的开展。

如下图：通过设计去尽量规避机器人硬件的缺陷，减少「答非所问」的错误发生率和用户回答的发散，提高语音交互流程的顺畅。

算法。算法方面，则需要通过机器「深度学习」，不断完善语音识别、语音理解及语音合成的水平。

目前，语音识别方面还面临很多技术挑战，如：

噪音：恒定噪音（公路上、机房中）和突发噪音（突然异常大声）。多人讲话：多人讲话，设备能否识别其中一条信息；同样多设备时，如何辨别自己的主人在说话。儿童：儿童说话逻辑性较弱，容易出现口吃、长时间停顿等现象。短句：「是」、「不」这种短句提供的数据信息较少，会造成识别率低。多音字：比如人名，同样的音会有多种书写文字「清」「轻」，会影响语音识别的准确性。

更多关于机器人「深度学习」的内容大家可以自行了解，这里不展开讨论。

2.分析聚焦

具体在分析聚焦阶段，围绕与机器人相关的机房工作人员，洞察并提升他们在工作中的服务体验，确保顺畅、安全、高效的工作流程。

（1）用户画像

针对定位的三类用户，我们通过问卷，进⾏用户访谈，旨在了解各个不同角⾊的用户他们工作的内容、需求，以及有哪些痛点可以抽取出来由机器人替代。

共计访问10位用户，包含各个角色。访问之后，我们对用户访谈的结果进行整理，在此基础上，完成用户角色建模。

以驻场工程师为例，具体的用户角色卡如下图所示：

根据用户画像和调研中收集的问题进行聚类分析，得到用户诉求，即对机器人应用场景下的机房服务的「服务主张」，围绕「安全」、「规范」、「高效」三个方面。这三个机房服务的体验目标，也是作为后续机器人语音设计所要达到的基本要求。

（2）体验地图

与机器人交互的环节涉及到线上、线下，从线上任务的提交到线下与机器人真实交互，再到过程中机器人收集信息的回传，整个闭环链路构成机房机器人服务体验的核心。

以其中导览场景为例，介绍整体流程，线上的主要触点：任务申请>任务生成>任务确认>任务存档；线下的主要触点：任务下发>机器人唤醒及用户身份验证>任务执行>任务结束。

具体的触点详情及语音流程见下图：

经过体验地图的梳理与流程规划，去构建合理、有序的流程，在任务执行过程中保证人机交互「自然、亲切、可靠」的体验。在语音交互设计中也会利用适当的引导与必要的提示，以更自然的方式消除异常时的尴尬，快速做到工作衔接。

3.设计策略

（1）定义角色人格

VUI产品是一个虚拟的人与用户直接沟通，因此，沟通对象的语气风格、性格等则是用户接触的第一感受，为了提升真实性，定义一个符合自己产品调性的角色至关重要，也是着手真正语音设计的第一步。

这里的角色，是通过应用程序的语音及语言选择，塑造一个符合品牌服务特征，并且具有人格或心理的形象。

角色人格包含：

公司所传达的态度；产品的个性特征；期望别人如何看待它。

在设计时，我们可以用「真实的人物」来定义声音特征与沟通基调，分析、了解真实人物模型的个性特征。例如：儿童早教类语音产品，可以以大家熟知的「金龟子」为人格原型进行定义，沟通中模仿她的语气、用词，让儿童感到亲切并符合服务对象的特征喜好。

但这里值得注意的是，现在很多语音助手支持语音选择，如男声、女声、少年等。我们要知道，「改变声音的同时，就意味着换了不同的人格」，他们的语音交互特征、形式等应该发生相应变化。

（2）语音交互设计

语音设计的原型更像是「剧本设计」，需要考虑在哪个场景下，包含什么角色、他们如何对话、如何过度衔接、具体的语言如何等。如下图：就是在此次项目中输出的语音设计原型，具体内容涉及到信息隐私，这里就不展开了。但是整个语音交互脚本中，对场景、角色、对话脚本备注图例、脚本正文等都做了明确定义与设计。

（3）语音交互引导

在设计语音脚本内容时，需要特别考虑VUI与人对话过程的语言衔接、对话内容的顺畅，并且能够自然的完成设想的任务。例如：当询问用户信息时，最好给出一些示例，而不是说明。

以下两句话大家可以明显感受到体验的差异，对于用户来说，参照示例填写信息，比理解一个通用指令更加容易。

「请告诉我你的出生日期，如2017年12月12日」；「请告诉我你的出生日期，包括年月日」；

（4）语音交互反馈

在GUI界面中，「确认反馈」随处可见，点击一个按钮、进行一个编辑操作，设计师会设计不同重要程度的交互反馈；在VUI中，同样有不同程度的「确认反馈」，本文主要将他们分为三种：显性确认、隐形确认、视觉确认。

（5）语音交互异常处理

语音可能存在的异常情况主要有以下四种：

未检测到语音（明确告诉用户「我没听清」）；检测到语音，但没有识别（「我不明白你的意思」）；语音被正确识别，但系统无法处理（「出现异常」）；部分语音识别错误（答非所问）。

在设计中，我们可以按照不同的异常情况，设计多种播报脚本，提高产品容错性，缓解异常时候的尴尬，在此例举些常见的用户语音输入错误的回答，如下图。

4.测试验证

（1）语音原型测试

以项目中团队采用的两种脚本测试方式为例，分别是：剧本朗读和语音转换工具。通过剧本朗读，体验对话的流畅程度，确认是否存在对话呆板、重复、不自然的情况；通过文字转语音工具，如QQ语音转化，可以较真实的感受机器将对话说出来的效果。

（2）设备测试调优

设计交付后，功能开发完成，进入语音设备可运行阶段，这时系统具备测试功能。

测试调优的方法同样给大家列举两个：

一是可以通过开发、设计人员，进行实际人机测试，了解语音功能是否稳定、任务完成率如何、整个体验流程是否自然顺畅；二是可以通过用户观察的方法进行调研，找到符合特征的目标测试用户，利用机房的监控摄像头，观察「自然状态下」的用户如何工作，这样不会干扰用户，更贴近真实的使用情景。

四、总结

语音交互设计仅靠书本上的知识是不够的，需要设计师在实际项目中不断的探索与学习，除了要像GUI了解需求、业务场景、目标用户以外，还要了解语音设备的技术水平、设备配置等，从而有的放矢的展开设计。

以上是笔者首次接触语音交互设计的设计经过，对VUI设计中的知识点、流程、方法进行的总结，仍有很多不全面之处，后续随着项目的迭代和设计的深入，逐步去完善体验，总结沉淀。

本文由@阿里TXD原创发布于人人都是产品经理。未经许可，禁止转载

题图来自Unsplash，基于CC0协议

什么是智能语音交互技术应用于哪些领域优缺点介绍

1、智能语音交互技术

目前，智能语音交互技术缺乏权威的定义。无论是学界的研究成果，还是业界对智能语音交互技术的称谓，都没有明文确定的规范。比较主流的认知有两种：一是胡郁、严峻，在《智能语音交互技术及其标准化》一文中，将智能语音交互技术概括为：就是让机器像人一样“能听会说”并进而“能理解会思考”的技术，主要包括语音合成(让机器开口说话)、语音识别(让机器听懂人说话)、自然语言理解(让机器理解人的意图)等核心技术。二是在小米公司王斌，王育军等研究者的《智能语音交互技术进展》对于智能语音交互技术的概述部分，将语音识别技术、自然语言处理技术、人机对话技术、语音合成技术。

2、智能语音交互技术应用领域

从市场应用级别来看，智能语音交互技术的应用可从消费级应用、企业级应用、工业级应用三方面进行区分：

(1)消费级应用

智能家居：智能电视、智能音箱、智能机顶盒……

智能教育：智能故事机、智能学习机、儿童机器人……

智能商务：智能翻译机、录音转写器、智能办公本……

(2)企业级应用

智能客服：智能电话营销、人工客服服务、电话质量检验……

新闻媒体：ai合成主播、自动播发稿件、智能字幕匹配……

公检法领域：智慧庭审、声纹研判、声纹终端采集……

(3)工业级应用

安防系统：智能报警系统、双模对讲机、安防机器人……

智慧城市：智慧政务服务、超级应用、智慧旅游……

AI新基建：AI通用平台、AI定制服务、AI训练能力……

3、智能语音交互技术优缺点

智能语音交互技术优点：

(1)语音输入效率高

百度统计数据显示，智能语音交互技术的输入效率是普通键盘输入、文字输入的3倍左右。

(2)解放双手，适应场景多

除常见的车载场景外，医疗场景、政务服务场景都能搭载智能语音交互技术。

(3)使用门槛低

语音交互技术使用门槛低，对视觉障碍的人群、老龄人群及小孩来说，都是易上手的技术。

智能语音交互技术缺点：

(1)接受效率低

从技术角度来说，语音的输出其实是一个线性的输出，如果想掌握输入者的本意，需耐心等待语音播放，而普通的文字则不一样，人们能从部分文字中提取关键信息，无需将整段文字尽数阅读。

(2)环境复杂

受制于当前技术的影响，语音交互技术并不能消除使用者周围的杂音，当声音交叠在一起的时候，就会对我们的交互体验产生非常大的影响。

推荐阅读：《IEEEDigitalReality：人类向多界面进化的报告-语音交互、触摸交互、脑机接口交互(英文版)(17页).pdf》

本文标签智能语音交互技术智能语音交互技术应用领域智能语音交互技术优缺点语音交互技术

语音交互产品的认知 语音交互产品的特色和缺点有哪些