机器人是如何实现对话的机器人对话是怎么做到的呢

发表时间：2023-06-20 00:46:55

机器人是如何实现对话的

对话机器人作为近年来愈发普遍的产品，以各种各样的形态出现我们的生活中：电话客服、文本客服、超市里的导购机器人等；那这些机器人如何实现和我们人类的智能对话的呢？本文将用显浅易懂的文字讲述机器人的对话原理与产品设计要点。

一、你都见过什么样的对话机器人

在正式开始接受设计原理前，我们一下来回顾下生活中，常见的对话机器人包括哪些类型：

1.文本型智能客服

这种类型的对话机器人大多出现在app中或者网站上，以文字为主要的交互方式，旨在为顾客提供常见的问题解答与简单任务的处理（如退货，换货等）；常见的有：

阿里小蜜京东JIMI唯品客服2.话务型智能客服

这种类型的对话机器人常见于银行与大型企业（如家电）的话务咨询上，以语音为交互方式，同样也是为了解答顾客的常见问题与处理简单任务（如查询余额、充值等）；常见的有：

工行工小智中行智能客服海尔智能客服3.个人助手

这种的对话机器人现阶段基本已经渗透到了每一台智能手机，进入大多数人的日常生活，旨在为用户提供一种语音交互的手段来提高操作的效率（如闹钟设置，日程提醒）；常见的有：

SiriGoogleAssistantAlexa小爱同学4.工作助手

这种类型的对话机器人主要用于以文本或者语音对话的形式帮助员工进行假期申请，事务提醒等日常工作事项，起到办公事项的整合（各种办公事项都可以通过工作助手对话来实现）与效率的提高；常见的有：

slack钉钉二、对话机器人的价值1.售后接待

在这个场景下，对话机器人最大的价值在于问题的拦截，即100个顾客来咨询，最终需要人工客服解答的顾客只有10个——大大降低客服成本。

2.售前接待

这种场景下，对话机器人最大的价值在于接待的及时性；想象下，淘宝里询问掌柜问题，若是掌柜隔了五分钟再回复，那基本就不会在这家店买东西了。因此，这类机器人在顾客到来的第一时间由机器人接待，同时机器人也在通知掌柜的抓紧上线，接管会话。

对于企业服务来说，这类机器人还会判断顾客的意向程度，针对高意向的顾客会引导留下联系方式，方便后续客户经理的跟进。

3.个人助手

这种场景下的机器人，最大的价值在于以语音交互的方式提高用户操作效率。例如在晚上在床上准备睡了，忘了设闹钟，而手机在桌子上，这时候一句话就能完成闹钟设置想必是一个很爽的体验。

三、问答型文本对话机器人

这类型最典型的代表就是文本智能客服，这类客服常见于各种app中，以文本的形式为用户排忧解惑。

1.工作流程

下面我们来看下一个文本型智能客服的完整工作流程：

1）用户发送消息：用户以文本的形式输入自己的问题。

2）NLU：NLU单元收到用户的文本消息后，进行自然语言理解，识别用户的问题，输出识别结果

3）对话管理：对话管理单元收到NLU的识别结果后，找到该识别结果对应的回复内容，进而以文本的形式输出回复内容给到用户

2.NLU到底做了什么

在整个工作流程中，NLU作为核心环节之一，想必是许多朋友们希望能够了解的，那我们接下来就讲讲，在这一个环节里面，机器到底是如何理解人类的语言的。

如果用一句话来概括NLU的工作的话：根据用户的问题，在知识库中寻找对应的问题。

这里涉及了一个概念，知识库：所有用户常见问题的集合（包含同一个问题的多种问法与回答）。

这就好比一个行军打仗的将领，面临大敌的时候，拿出仙人给的锦囊，从锦囊里掏出一条退敌的妙计。知识库在这里就好比是锦囊，而挑选出锦囊中的妙计这一过程就好比NLU的工作。

2.1基于统计学的自然语言理解

实际应用中，NLU常用的技术是基于统计学的自然语言理解，即：通俗的说就是把用户的问题经过简单处理后，和知识库中的所有问题进行相似度计算，找到相似度最高的问题，然后把该问题的答案返还给用户。

用一句话来概括就是：找相似。

而在这个过程中，又可以详细的拆分为以下几个环节：

分词：顾名思义，把一句话，进行分词处理，这也是中文自然语言理解领域最痛的一点，一旦分错，后面的工作都白费了。而英文不一样，英文本就是每个词都用空格隔开的，不存在这个问题。去除停用词：把一些没有用的词去掉，例如【的】【呢】语气词、副词等，精简句子，输出最简表达。词性标注与命名实体识别（时间，货币）：针对最简表达中的词性进行标注，同时针对一些专有名词名次进行识别，我们叫命名实体识别，如时间、货币、楼盘名称、人名等领域知识的识别。向量化（word2vec）：想要计算机处理这些数据，向量化是一个不错的方法，利用word2vec等算法把文本向量化。计算相似度（BM25算法，TFIDF，分类与检索）：完成了文本向量化之后，我们就需要计算用户的这个问题和知识库中每一个问题的相似度了，并从中找出相似度最高的一个知识库问题，并把该问题对应的答案返还给到用户。其实整个过程又可以分为两个过程：召回与排序；通过分类算法（如Bert）找出知识库中用户最有可能问的几个问题，进而通过检索算法（如BM25）计算这几个候选问题的相似度。

2.2其他NLU技术

1）基于模版标注的语言理解

基于模版标注的自然语言理解也是常用一种技术，人工标注知识库每个问题的最简表达、关键实体、同义词标注。这样做的最大好处就是识别的准确率高，因为系统通过标注数据，已经知道了知识库问题的最简表达，以及每个问题的关键词，以及同义词；进而利用这部分数据去解析用户的问题，往往能够得到更加准确的识别结果。但是，缺点也是同样明显，需要针对每一个问题的每一个文法进行标注，典型的有多少人工，就有多少智能的做法。

2）基于知识图谱的问答（KBQA）

另外的话，基于知识图谱的知识问答也逐渐走上舞台。通过知识图谱来对问题进行语义解析。例如姚明的老婆的国籍这样一个问题，知识图谱先找到姚明，然后找到姚明的老婆叶莉，最后找到叶莉的国籍中国。这项技术的准确率一般很高，但是能够覆盖多少问题，就要看这个知识图谱建设的好不好，够不够广；而知识图谱的搭建，本身就是有多少人工，有多少智能的工作。

3.知识库的构建

讲了NLU之后，不得不讲的就是知识库了，顾名思义，就是【知识的宝库】，里面收集了所有希望机器人能够回答的问题，对应问题的N种文法（如价格这个问题：多少钱？怎么卖？价格怎样？），以及问题的对应答案。

构建一个知识库的步骤也很简单（简单，但不代表很快，它需要多次调整和补充）：

收集问题：收集我们希望机器人能够回答的所有问题，一般客服中心都有这种知识库，没有的话可通过相关部门人员结合日常工作内容进行总结整合。填写问法：即一个问题对应的多个文法，这个需要穷举（如价格这个问题，问法可能有：怎么卖？多少钱？等），可利用同义词和句式的改变来进行思考，一般这是传统客服知识库没有的内容，需要重新整理。补充答案：即该问题对应的答案，这块内容也是传统的客服知识库就会有的内容，但是一般建议对每一个问题最少填写两个答案，为的就是在用户提出同一个问题的时候，可以对同一个问题有不同的回答方式（但意思相同），让用户体验更好。知识库模型发布：每一个知识库就是一个NLU模型，因此每一次的知识库更新也就意味着NLU模型的更新：系统把知识库中的内容（问题与问法）输入到模型中进行训练，得到一个专门针对该知识库的NLU模型。四、闲聊机器人：做个有温度的机器人

除却问答型的机器人外，市面上常见的还有闲聊机器人，最典型的代表就是微软小冰：无聊了，寂寞了，都可以找小冰说说话，而小冰一般也能给出不错的对话内容。

要满足机器人的闲聊场景，做法和问答型机器人大同小异，就是加入一个闲聊的语料库，这个语料库一般都可以从网上找到，但语料的覆盖范围和提供者所从事的服务有很大的关系，例如阿里云小蜜的闲聊就满满的都是淘宝味，毕竟那些训练的语料大都来自于淘宝体系内用户和掌柜的聊天内容。

而一般的智能客服厂商，为了更好的衔接对话，也为了让用户有一个更好的对话体验，一般也会加入一定量级的闲聊语料库，但这个库一般却是不允许编辑的，里面涉及一些敏感词的管理，以及运营成本的考虑。

而这个闲聊语料库，厂商必定也是在服务客户的过程中，根据对话记录去不断丰富和完善的。

五、任务型机器人：做一个能够解决问题的机器人

图片中是一个物业报修机器人的对话截图，一个用户通过和机器人的多轮对话，完成了问题的描述并成功报修。

类似的场景逐渐得到了越来越多的应用，例如海尔的家电安装预约已经实现了全量的机器人接待和预约，一方面大大的节省了企业的人力成本，另一方面也解决了及时响应消费者的问题。

1.什么是任务型对话机器人

在开始讲任务型对话机器人设计之前，我们先明确下任务型对话机器人的定义：

任务型机器人指特定条件下提供信息或服务的机器人场景案例：查天气，设闹钟，订餐，订票，播歌通常需分多轮互动，用户在对话过程中不断修改与完善需求，任务型机器人通过询问、澄清和确认来帮助用户明确目的

结合以上定义，我们就不难理解，完成一个任务型对话，需要进行以下三个关键点的设置：

意图识别设置：即设置一个意图（一个意图一般对应一个任务与操作），以及用户如何发问才能触发该意图，如示例中的物业维修就是一个意图。词槽设置：即需要执行该意图任务所需收集的关键信息，如示例中的物业报修，需要知道用户具体是什么问题才能生成物业维修工单。回复设置：即当机器人完成了所有关键信息的收集且执行了意图任务之后，对用户的回复，可能是一句话，如示例中的【收到，回头会有物业维修的师傅联系您】；也可能是一个执行结果，如示例中的工单接受通知。2.意图设置

意图，就是用户想要达到的目标。上图的示例讲的是一个早餐预定的例子。

对于机器人来说，我们得先告诉它，用户输入了哪些内容之后，即可认为用户想要达成的就是该意图。而这个设置，一般有以下几种常见的方法：

1）对话样本集

例如示例这里的意图是早餐预定，那么当用户输入：预定早餐、订一份早餐等语句的时候，即可认为用户想要达成的就是早餐预定这个意图。

而这个设置的基本原理和方法与知识库中的问题设置基本一样，就是把用户表达该意图时常用的对话样本进行收集和录入。后续用户只要表达了相近的输入后，系统就会按照该意图来执行对话。

2）关键词

这个很好理解，就是对用户表达某个意图时的关键词进行识别，只要用户的表达中含有这些关键词，系统就会按照该意图执行对话。例如订火车票这个意图，只要用户提及【订火车票】这个词时，即可让机器人进入订火车票这个意图的多轮对话。

3）句式模版

句式模版这种方法，其实就是把某个意图的语言表达进行规则化的抽象。例如订火车票这个意图，一般的表达就有：订一下从广州到长沙的火车票。像这种表达就可以抽象成这样的句式模版：【发起预定】+【出发城市】+【到大城市】+【票类】

3.词槽设置

词槽是多轮对话过程中将初步用户意图转化为明确用户指令所需要补全的信息。例如说，示例中的早餐预定，我们识别到了这个意图之后，还需要知道顾客想要吃什么，什么时候来拿——这两个关键信息就是机器人在执行这个意图前需要完成收集的。

而词槽设置一般包含以下几个关键环节：

词槽设置词典设置澄清话术设置

1）词槽设置

词槽设置的核心在于明确执行该意图过程中，需要明晰哪些关键信息。例如示例的早餐预定，那【时间】和【吃什么】则是两个必须明确的信息。

当然，除了必须要明晰的信息外，我们也可以让机器人去记录一些非必要因素（例如是否加辣），如果用户有表达这个信息，机器人则会记录相关信息；若用户没有表达该信息，机器人也不回去追问。

2）词典

词典，即告诉机器人，那些关键信息都有哪些枚举值。例如示例的早餐预定，【吃什么】这个词槽的词典，就包含了：饺子、牛肉丸、萝卜糕等词。

而机器人只要能够完成这些词的识别，即可完成【吃什么】这个词槽的填写。

至于词典的设置，一般分为两部分：

系统预置词典：对于像时间、货币、地点、城市这些信息，系统一般会提供预置词典，用户只需要自己选择即可。用户自定义词典：而对于一些特定领域的专有名词，则需要用户自己去定义，例如楼盘的名称，菜单的名称等；只有设置了这些词典，机器人在遇到这些特殊领域的专有名词时才能够更好的识别和完成关键信息的提取。

3）澄清话术

既然一个意图中设置了若干的关键信息（词槽）需要用户填写，自然就会存在用户在表达意图过程中没有一次性表达清楚所有的关键信息，这时候机器人就需要针对一些必要的关键信息做追问，并根据用户的回答完成关键信息的识别和提取。

而这个追问的话术，正是这里的澄清话术，即我们告诉机器人关于某个具体的关键信息，机器人应该如何发问。且一般针对同一个关键信息，会设置多个澄清话术，为的是在追问用户同一个关键信息的时候，机器人能够用不同的化询问同一个信息，让用户能有更好的体验。

4、回复设置

当机器人完成用户意图的识别，且完成了关键信息的收集后，即可进行意图的执行。而意图的执行后，机器人需要给用户一个回复（总得告诉人家做得怎么样嘛），这个回复可以是一句话，也可以是一个操作的执行入口，又或者是意图执行之后的模版消息，也可是一个h5页面等等，这个要具体场景，具体而论，没有太多的限制。

六、综合型对话机器人

当前市面上的机器人，更多的是综合型的对话机器人，即同一个机器人，挂载了问答知识库、闲聊语料库以及多个任务技能。只是每个机器人根据自身具体的服务场景，在知识问答、闲聊、任务对话三者上面有所倾向罢了。

也正是因为综合型对话机器人的出现，让我们现在的生活更加多彩，我们才可以在深夜十二点进行物业报修预约，才可以夜深人静的时候有个倾诉的对象，才可以在懒癌发作的时候通过一把声音控制家里的电器。

那是不是只要一个综合型对话机器人做到了以上的内容，就可以高枕无忧，和我们人类畅通对话了呢？显然不是的！上面这些内容如果形容为游戏中的核心装备的话，那要做好一个对话机器人，还需要针对不同的服务场景增加不同的辅助装备——这方面我们下回分解！

本文由@王掌柜原创发布于人人都是产品经理。未经许可，禁止转载

题图来自Unsplash，基于CC0协议

机器人对话设计一定需考虑关键8个要点

编辑导读：随着人工智能的发展，机器人对话是最为常见的功能之一。笔者作为对话机器人的AIPM，在对话平台的从0-1产品搭建、对话机器人的从1-100的产品运营上，遇到了诸多坑，也走了不少弯路。深感在对话机器人中，对话设计对于机器人整体效果而言至关重要。本文将重点阐述，在对话设计中重要关键的8个点，希望对你的机器人设计有帮助。

一、对话设计的重要性

1.对话设计是什么？

对话机器人，主要由几个部分组成：语义识别、信息采集/使用、对话设计、知识库。

语义识别：

通常由AI算法模型进行（NLU，自然语言理解），这也是对话机器人中，AI技术应用最多的部分。当然，算法也有识别不到位的情况，通常会使用规则做矫正/补充。

信息采集/使用：

即对语义识别的结果做收集、更新、使用。对话的本质是信息的交换，对于机器人来说，获取访客的需求信息至关重要。信息决定了后续机器人采取的策略与动作。

知识库：

知识库是应用于单轮对话的机器人知识储备库，可以为访客提供答疑服务。由于知识库的FAQ特性使然，知识库侧重于一问一答的“知识解答”。

对话设计：

对话设计是对话机器人的核心部分，相当于机器人的“大脑”。即：面对什么样的信息，需要做什么样的动作，从而让对话可以顺利地进行，并满足访客的需求与机器人本身所需达到的目的。对话设计就是机器人对话逻辑处理的设计。

2.对话设计为什么重要？

可想而知，如果对话机器人没有了对话设计，那么机器人基本失去了多轮问答的能力。相当于访客问一个问题，机器人回答一个问题。这在较为简易的机器人中应用较为常见，但是一旦业务变得复杂一些，机器人就很难处理，应付不来。在人看来，就像“智障”一样。

那为什么不使用AI算法来解决对话逻辑的问题呢？

因为AI技术发展到现在，还无法做到通过会话级的学习，达到应答自如的对话效果。这就需要AIPM与AI训练师，通过对话逻辑的设计，让机器人变得智能，处理业务问题，从而实现预定目标。

二、对话设计关键8个要点

对话设计在功能形式上，表现为对话流程。通常流程与对话场景相对应，即一个流程处理一个对话场景。当然如果场景较大，可能一个场景需多个流程处理，流程间会协作配合，分别处理不同的任务。

流程的设计，即机器人“大脑”的设计。一般通过设定流程逻辑规则，让机器人具有处理不同问题的能力。以下为流程设计的关键点，提炼为8个。

1.流程间执行优先级

一个机器人中，有多个流程，数量可达几十个。比较通常的情况是在30-40个左右。当然，流程的多少，跟场景划分颗粒度粗细有关。一般而言，一个流程会对应一个意图。意图即为流程的准入条件。

流程间是需要设定执行的优先级顺序的。为什么？

因为访客的同一句表述，可能会同时满足多个流程进入的条件。此时应该进入哪个流程，就需要人为地划分优先级。

你可能会说，这样划分科学吗？有效吗？是的，这样并不能保证是最客观最科学的，但是只能在可能的情况下，尽可能考虑访客的各种情况下做出最优解。

在所有的流程中，我们一般做的设计就是，将所有的流程排优先级。从第一个流程开始匹配，命中则进入流程；未命中则执行下一个流程，直至命中流程为止。若未有流程命中，则不进入流程。

所以，在做对话设计时，做好流程间的执行优先级，就可让机器人在面对访客表述识别模棱两可时，做出优先级选择，从而进入欲进入的流程。当然，也会出现未考虑到的情况，毕竟语言表达在不同的访客、不同的场景中，可能千变万化。故只能说，在已有条件下找到最优解。

2.流程内执行、流程间跳转优先级

当进入流程后，机器人可能会面临，在同一句访客表述前，是应该在该流程继续执行，还是应该跳转到另外一个流程。

这个时候你可能会说，如果访客说到另一个场景/话题，就跳到那个流程；如果是继续当前的话题，那就应该继续原有的流程。思路是这样的没错，但是实际情况往往会比我们预想的复杂。对于场景清晰界限明确的流程间，比如“播放音乐”和“订火车票”这两种泾渭分明的场景，就很容易处理。但是当出现场景间的界限较为模糊的情况，就较难通过简单的准则区分。比如在医疗领域“咨询牙齿种植”和“咨询补牙”，由于场景相近，访客描述的内容可能很相近，机器人做意图识别时，在一些表述上很难做到区分。

所以，我们一般会制定一套跳转规则。比如，当流程间界限分明/机器人应答策略更希望流程尽量不做跳转时，设置当前流程执行有限；当流程间界限不太分明/机器人应答策略更希望在不同流程间跳转时，设置流程跳转优先。

再次地，这样的设置是通过人为地制定一套规则，让机器人可处理不同的业务问题，从而让机器人对话“智能”。

3.流程间跳转限制

多个流程间，有诸多的流程是并列的关系。但是也有流程间是“父子”关系、“只进不出”关系。

举个例子，比如流程A和流程B：

在某些情况下，流程B的准入条件，必须是进入了流程A后，满足一定条件，如访客说了某个关键字，才可进入流程B。这种关系即“父子”关系，A流程是父流程；B流程是子流程。不进入A流程，就不能进入B流程。

在某些情况下，流程A可跳转到流程B，但是流程B不可跳转到流程A。常见的情形是，流程A是“无意图”流程，流程B是有意图的流程。一般而言，在识别了访客意图后，当访客当前轮次的表述是无意图，也不会跳转回“无意图”流程。

通常，我们会通过流程关系的设置，来确定流程间的跳转关系和限制。在GoogleDialogflow中，Context的概念，就是为了设置流程间的“父子关系”。不仅是流程间的跳转关系，流程中传递的信息（词槽信息）也会被传递/继承。故称之为Context语境。

4.流程问句重复/不重复发送

行业中有一部分场景，是需要把机器人做成“仿真”的。即：让访客无感知/较弱感知到与自己对话的是一个机器人。这些情况下，就需要将机器人做拟人化设计。

流程问句的重复/不重复发送设计，是其中很重要的一步。试想，如果在一个对话中（特别是客服等提供业务服务的对话），对方反复发送同一句话，你会不会很容易质疑对方就是一个机器人，很生气地结束对话，或者要求转人工？

那么，如何让机器人避免流程话术重复发送呢？

我们的处理是，在设计流程的问句时，再配置上该问句要收集的信息。通过对上文该信息的识别、获取、存储与判断，来避免下文重复发送相同/类似的问句。比如：

【流程A】机器人问：“您多大年纪呢？”，配置“年龄”的信息

【流程B】机器人问：“您今年几岁呢？”，配置“年龄”的信息

当上文执行了流程A的上述问题，并获取保存了访客的“年龄”信息，则在下文执行流程B时，再次询问“年龄”的问句将被跳过，不会再触发。从而实现避免重复发同类问句的目的。

当然，如果机器人是“非仿真”的机器人，则无需做这一重判断处理。因为用户对于对话的认知就是在跟机器人对话，无所谓是否重复话术。但是，AI不就是通过智能让生活更加便捷美好吗？仿真化对应的智能，势必会是以后的大趋势。

5.流程重复/不重复执行

执行过的流程，当访客表述又再次满足其准入的条件时，流程还可以重复执行吗？

其实这一点和上面一点的思路有点类似。流程重复执行，意味着发过了的问句/话术再次发送一遍。对于“仿真”的机器人来说，一般是需要做避免重复执行的设计。

比如：

流程A中执行到第3轮话术，由于访客表述跳转到了流程B

当流程B执行后，又满足流程A的条件从而回到流程A

那么此时，应该

从流程A的第4轮继续执行（接着刚才执行到的第3轮）

同样的，如果是“非仿真”的机器人，可容忍流程重复执行，则无需做此设计。

6.流程被打断后恢复/不恢复

当流程发生跳转的，一般会伴随流程的打断。可能的情形是，在原有流程中聊得挺好，访客突然说了个与该流程不相干的内容，或是另起一个话题，导致跳转到了另一个流程。

比如：

流程A中执行到第3轮话术，由于访客表述跳转到了流程B

当流程B执行完

此时，由于A流程是被打断的主要场景，访客更倾向于继续将A流程话题继续至结束。故需恢复至A流程并执行完

这种情况一般是在A流程是主要场景/流程的情况下，在A流程中做的设置。而对于那些较为次要的流程，则较无需做“打断后恢复”的设置。因为有可能其跳转的是主要的流程，便无需做恢复动作。

7.信息采集与追问

对话的本质是对话双方信息的交流。在对话流程进行中，信息的采集尤为重要。信息不仅可作为机器人话术的组成部分、作为访客信息记录/传递，还可作为条件判断的来源、第三方接口的传递内容。所以信息采集对于对话流程来说很重要。

所以，一般我们在设计流程的问句时，会设置相应的信息采集内容。还是上面的例子：

机器人问：“您多大年纪呢？”，一般会设置“年龄”的信息采集。可通过算法的实体识别（NER）技术，获取访客表述的年龄信息。

当信息未获取时，也可通过“信息追问”的方式，追加询问，以获取欲获得的信息。

当然，信息追问也许根据具体场景来设计，设计过多也会让访客觉得反感。一般来说，信息追问的话术连续不应超过2次。

8.流程与知识库的协作配合

以上说的都是流程内部的设计点。在流程之外，知识库是机器人另一重要组成部分。知识库主要进行单轮一问一答的知识答疑。那么流程和知识库如何协作配合，对于对话来说也是很重要的一环。

一般而言有以下4种策略：

策略1：针对访客的表述，先进行知识库答疑，后执行流程话术；

策略2：针对访客的表述，先进行流程内判断，若不满足流程执行的条件则进行知识库答疑；若满足流程执行条件则执行流程话术

策略3：只使用知识库答疑，不执行流程话术

策略4：只执行流程话术，不使用知识库答疑

四种策略，侧重点不同。

策略1，是种综合的方式，结合了知识库与流程话术的优点，在较大限度上限制二者的缺点；

策略2，是侧重流程话术的方式。知识库作为流程的补充使用；

策略3，一般适用于问答机器人，业务较为简单，无需较复杂的对话逻辑处理

策略4，一般适用于强引导型的机器人，可以基本不做访客的知识答疑

一般根据客户的实际场景，去设计不同的协作策略。一句话，可达到业务目标即可，没有优劣之分，只有侧重点之分。

三、总结

对话机器人是一个系统，对话设计作为这个系统的“大脑”，需设定不同功能模块，来处理应对不同的业务场景访客问题。其中，对话设计中的这8个关键要点，是对话设计的核心。做好了这8个关键要点的设计，可以说基本上覆盖了流程设计的避坑要点。

当然，机器人对话设计，还有很多其他的细节点设计，同时需侧重考虑与这8个要点之间的关系与协作模式。希望这些要点阐述与总结，对你的设计有帮助。

作者：咖喱鱼丸，5年PM经验，2年AIPM经验

本文由@咖喱鱼蛋egg原创发布于人人都是产品经理。未经许可，禁止转载

题图来自Unsplash，基于CC0协议

人机对话的场景革命

以下文章来源于经济观察报观察家，作者吴晨

经济观察报观察家.

理性，建设性

我们在人机对话的未来可以畅想的场景：如果可以让我们有更多时间陪伴家人，凝聚社区和社群的力量，机器就是美好的。

作者：吴晨

封图：图虫创意

导读

壹||新闻与出版是同一件事，为消费者提供优质的内容。人机互动的场景给新闻业带来的改变会与出版业类似，这也是霍夫曼在《Impromptu》中开的比较大的一个脑洞。

贰||对话将不仅会发生在数字分身和粉丝之间，也可能发生在数字分身之间，甚至穿越时空，构成一幅新时代“关公战秦琼”的场景。

叁||我们也可以从解放生产力的角度来理解人和机器的区别，其实这是创意与效率的区别。

肆||如果机器将取代大多数入门级的白领工作，年轻人又将如何积累经验？GPT的解答中规中矩：以咨询业为例，虽然机器会替代刚入行的分析师，但AI可以创建出更加真实的虚拟场景为年轻的分析师提供培训。

《Impromptu》（即兴）是第一本人与GPT-4合作撰写的书，全书至少有三分之一的篇幅是作者里德·霍夫曼与“合作者”GPT-4的对话，其中既有GPT给出的书稿提纲，也有GPT帮助霍夫曼准备播客对话的问题列表，还有GPT根据霍夫曼的提示写出的剧本……

恰如书名，“即兴”点出了GPT的特点。它的反馈是即兴的，既迅捷，又具备一定的广度，而且时不时还能给人意想不到的惊喜。“即兴”同时也是霍夫曼的行事方式，突然有一个好的想法，马上就去做，如和机器一起去写一本研究AI应用和未来的书。当然，“即兴”也凸显了这一波生成式AI的来势凶猛。在AIGC的冲击之下，许多领域会发生剧变，而理解乃至前瞻这种剧变，需要运用“解构”的思维方式。

《Impromptu》解构了我们所理解的书的形态，是一种基于人机互动的解构。

首先是动态的书的出现，书会不断处于更新状态。霍夫曼在书中让GPT-4写了一篇AI如何改变未来的大纲，很详细，也很实用。在技术进化如此迅捷的世界，这会是一个演进中的议题，书自然需要不断更新，因为GPT-4自身的认知会在互动中升级，而作者也会在互动中不断碰撞出新的想法。

其次它展示出互动阅读的全新场景。因为书本质上是开源的，GPT可以调用全球出版过的各种书籍，其搜索能力、整合能力和涉猎的广度都是惊人的。如果在阅读的过程中加入人与GPT引擎的互动，比如人机一问一答的形式，会让阅读在双向互动的过程中变得越来越深入。在这种互动的解构中，书的使用方式将会发生改变。比如“拆书”就会变成一种读者主导的AI服务，而“30分钟帮你读懂一本书”的商业模式则会消亡。

第一种场景让可更新版电子书成为常态，第二种场景则会完全重构出版业的生态。两个场景之间又会产生互动。未来出书将不再是一次性的，而是一种进行时，读者阅读书籍的互动也随之会发生本质的改变。

从这一解构的思路出发，我们可以再进一步开脑洞延伸，想象一下两大行业可能被颠覆的形式。

首先是阅读商业场景的进化。微信读书是最近几年出现的订阅式阅读服务，只要支付年费，就能畅读书库里的书，出版商也会因为某本书的阅读量获得一定程度的分润（虽然并不可观）。类似订阅制的读书服务未来将被重塑。阅读的起始点将不再是首页上推荐的某本畅销书，而是读者的一个困惑或者一个想法。在与AI小助手的互动过程中，读者可以就一个话题越挖越深，让GPT概括一些书的观点，或者推荐某本书的特定章节。从这一意义来讲，GPT会扮演强大的“守门人”（Gate-Keeper）角色，读者与特定书的关联会更弱，读者与整合的知识的关联会更强。

这种变化优劣互现。优势在于，阅读变成了一个可以不断深入的启发式的过程，一个问题会衍生出十个问题，甚至更多，在这一过程中，电子书库中的长尾——一些不大为人问津的书——会被挖掘，而不是像现在因为“流量逻辑”的霸权，只有畅销书才可能被展现在大多数读者面前。因为流量掌握在平台、KOL（KeyOpinionLeader,意见领袖）和KOC（KeyOpinionConsumer，意见消费者）手中，书籍的马太效应明显。劣势则是书会被拆解为观点，读者与书的关联度、与作者的关联度可能会进一步弱化，出版本身的商业模式也需要重新探讨。

沿着同样的思路也可以畅想一下图书馆的进化。图书馆与支付年费的付费在线书库有两大区别：第一，它的藏书更丰富，涵盖的领域更广，藏书的长尾也更长；第二，因为公益性质，它的学习和研究导向更明确。GPT可以成为互动高效的图书馆员。它不仅能帮助读者找到所需要的书，在互动过程中精准推荐与读者研究方向相关的书籍，还能充分调用图书馆的图书资源，帮助读者深入一个领域内的学习，或者强化一个领域内的研究。当然，现代论文的引经据典、检索服务也可以由GPT来完成。

人机互动如何颠覆新闻行业

未来被解构的不仅仅是书、出版业或者图书馆，还有许多行业也可能被解构，比如新闻业。本质而言，新闻与出版是同一件事，为消费者提供优质的内容。人机互动的场景给新闻业带来的改变会与出版业类似，这也是霍夫曼在《Impromptu》中开的比较大的一个脑洞。

首先，记者和编辑的岗位不会改变，甚至需要加强，因为他们是重要的资讯产出者。理由很简单，GPT还无法完成现场报道，或从事深入调查的工作。

其次，记者的产出将成为GPT与读者互动的基础，有公信力的旧闻数据库会成为GPT不断挖掘的金矿，与图书的长尾效应类似。

第三，新闻作为产品将经历与一种全新的解构和重组。前数字时代，报纸和杂志是以捆绑销售（Bundle）的形式呈现的，即使读者只感兴趣某几个特定版面，仍然需要订阅整本杂志/报纸，换句话说，他可能在为一份报纸涵盖数十个版面买单。

数字时代的做法是去捆绑，千人千面，根据读者阅读的喜好推荐更多类似的文章。数字订阅也可以阶梯定价，按照阅读量来收费。显然，去捆绑比捆绑销售要亲民得多，读者不用补贴不感兴趣的内容，好的推荐也能让读者更快看到自己感兴趣的内容。

当然去捆绑也带来了一系列的问题：捆绑销售中所隐含的对内容创作的补贴没有了，新闻机构可调用的内部资源相应变少；而定制化的内容也局限了读者的视野。内容捆绑的一个很少被人提及的假设是人的需求会随着时间和场景的变化而变化，捆绑而不是精准推荐可以让用户有机会发现自己惯常视野之外的内容，前数字时代翻阅报纸和杂志的动作本身就创造了这种偶遇新知的机会。

数字时代的定制把推荐的主动权交给了算法，而AI时代则会把主动权再次交回给读者，因为读者阅读新闻的场景会以互动式为主。比如一个场景是节约时间，用户可以让GPT将报纸的头条内容做一个简单总结。另一个场景则是不断挖掘式的，比如用户会提出一连串的问题：硅谷银行为什么暴雷？第一共和银行暴雷与硅谷银行有什么关联？与最近几年美国对小银行的监管改革有关系么？与美联储最近一年快速加息的关系是什么？对全球金融市场会产生什么影响？读者在问问题互动的过程中会不断加深对特定问题的理解。当然这种互动一方面会训练GPT，另一方面也会将读者感兴趣的话题、读者的好问题整理传递到编辑室，推动“参与经济”的发展。

KOL的数字分身

与新时代的“关公战秦琼”

解构的同时也会有建构，建构全新的人机互动的场景。比如，可以让GPT仔细阅读一位KOL的作品，无论是文字、音频还是视频，然后形成定制化的数字分身。作为KOL的延伸，这个数字分身可以在虚拟世界与粉丝互动，在一定范围内替代KOL回答粉丝的问题。

前媒体时代，KOL通过著书立说成为有影响力的人。传媒时代，报纸、杂志、广播和电视的出现，让KOL有更多的载体和媒介去展示自己，也让更多人可以成为KOL。

进入数字经济时代，社交媒体成为KOL最重要的传播阵地。从博客（社区）到微博，从脸书到推特，再到最近播客（音频）和视频（长视频和短视频）的兴起，都为KOL提供了影响粉丝的新工具。这些平台和工具更加具有及时性和互动性，KOL通过不同载体展现自己的想法、价值观、个性和创造力。

当一个人的粉丝快速增长之后，与粉丝的互动、需要回答的问题也会呈现几何级的增长。生成式AI会把这种问题转换成为KOL的优势，进一步赋能。KOL的数字分身可以传达KOL的想法，同时搜集用户的问题和兴趣点。

对话将不仅会发生在数字分身和粉丝之间，也可能发生在数字分身之间，甚至穿越时空，构成一幅新时代“关公战秦琼”的场景。

对话能产生更多的互动价值，顺着这一思路延展，我们也可以创造出一系列全新的对话形式。其实无论是东方还是西方，语录体都是古代哲人记录思考最重要的方式，而语录体的根本就是对话，两个人哲人之间的对谈，或是弟子记录与老师沟通交流的文字。

训练有素的GPT可以做到清晰和深入地理解每一位重要作者的著作，梳理他们的观点，了解他们说话和写作的习惯和特点，知道他们生平中的主要事迹和各种奇闻逸事。在对这些数据梳理的基础上，我们可以做出每个历史上和现代的思想者的数字分身，然后让这些数字分身之间展开对谈。

在梳理历史的时候，我们经常会问某某两个同时代的人之间是否有交集，我们没有证据证明两人见面，但我们推测或许他们的人生曲线上有过碰撞，在他们的著作中留下了蛛丝马迹。在阅读的时候，我们也常常会引古人为挚友，相见恨晚，却无从进一步沟通交流。而不同时代的思想者的碰撞不仅会满足我们的好奇心，也可能碰撞出新的火花。

霍夫曼在《Impromptu》的最后篇章中已经开启了一些“关公战秦琼”式的跨越古今的对话，未来只可能会更精彩。

人机对话背后所展现的

人与机器的本质区别

从一系列人机对话的场景革命中不难看出人与机器的三大本质区别——

首先，人擅长问问题——人机对话的发起者通常是人类，而机器可以很好地把问题延展开。未来，对人而言，需要训练的是如何问出好问题，这就需要从小培养好奇心、创造力和质疑精神。

其次，生成式AI所基于的大语言模型依赖的是历史积累下来的大数据训练库，人与机器的区别在于人可以更快学习和探索新的技能，形成新的洞察。数据库是过去时，而人需要面向未来，拥抱未来，探索新知。机器替代不了探索、实验和发现，人要花更多时间和精力去探索和实验。

第三，相比机器，人有更强的行动力。人的优势是将想法和洞见付诸实践，这就需要培养判断力、沟通力和领导力。

在新书《5000天后的世界》中，凯文·凯利（KK）同样指出，人和机器最大的区别是人会不断提问。KK认为，不断提问必然会成为人类最基本也最有价值的行为之一。可以马上得到答案的问题应该扔给机器，人的价值在于在面对不知道答案的问题（未知的未知）时，可以不断思考，不断提问。学会提问题，问好问题，最切实的做法是质疑人们习以为常的事情，学会推翻常理进行思考。

我们也可以从解放生产力的角度来理解人和机器的区别，其实这是创意与效率的区别。未来，机器将去完成那些提升效率的事情，而人则会专注于创意这样多元而低效、很多时候充满不确定的事情。科学和创新这些很难标准化、需要不断寻求突破的活动，恰恰是效率低下的，也是需要充分发挥人的想象力的领域。

当然我们也不能忽略现阶段生成式AI带来的问题：一方面会出现大量平庸的产品，对原创的、高质量的创作产生冲击；另一方面则可能出现大量同质化的作品。改变这两点需要更有创意的人机互动，因为人仍然掌握着巨大的主动权。

霍夫曼提出了当下人机互动的两个信条：第一，将它视为在读大学阶段的研究助理，霍夫曼建议换位思考，想象一下大学生的状态，就能摆正自己与机器互动时的期待值，同时不断强调检验事实的重要性；其次，将自己定位为导演/指挥，把握方向，但给机器一定的延展空间，这样会不时遇到惊喜。

展望未来的姿势——

倾听科技，前瞻“二阶效应”

对于AI的高歌猛进，KK和霍夫曼都是乐观主义者。KK还据此创造出一个新词进托邦（Protopia）。他认为技术的正面效应与负面冲击分别占51%和49%，因此在5000天（超过13年）这样长时间尺度，根据复利原则，技术的正面效应仍然会带来持续不断的进步。我们所要做的是学会“倾听科技”，同时要努力对新技术带来的“二阶效应”做出预判。

科幻作家克拉克这样解读“二阶效应”，巨大变化发生之后，你很难预知它的影响会波及哪里。重大改变之后可能产生意想不到的场景，想象马车进化到汽车比较容易，但想象汽车大规模出现后的堵车则很难。

比如预测无人驾驶的未来，KK最担心人类驾驶员和机器抢夺道路上优势地位所带来的混乱。他畅想到了2040年，当人和机器同时在街上开车时可能是最为混乱的，因为道路的改变正在从人类驾驶员的视角转换到机器的视角，同时他也担心机器堵车时会出现死机、宕机，或者狂飙的场景。

GPT可能带来哪些“二阶效应”呢？霍夫曼在书中对此并没有开出巨大脑洞，他询问GPT怎么解决从新手到熟手的转变，换句话说，如果机器将取代大多数入门级的白领工作，年轻人又将如何积累经验？GPT的解答中规中矩：以咨询业为例，虽然机器会替代刚入行的分析师，但AI可以创建出更加真实的虚拟场景为年轻的分析师提供培训。

显然，GPT还没有能够理解什么是“二阶效应”，技术带来的真正深远的改变会在技术之外。以咨询业为例，如果其商业模式是依靠品牌价值，著名咨询公司的品牌积累了大量价值，这些公司还可以扮演“好念经的外来和尚”，技术可以让他们把工作做得更快更好，暂时不会颠覆他们的商业本质；但如果其商业模式是“合伙人打单，年轻的分析师996干活，赚取中间的工资差价”，那么机器的高效率就会带来彻底的颠覆。

面对变革，KK提出阿米什人评判科技的标准值得我们思考。作为定居在美国中西部德裔居民的后代，阿米什人以拒绝使用新科技、坚持传统农耕做法著称。但实际上，他们并不是完全拒绝新科技，他们衡量哪些科技可以使用基于两大标准：第一，新科技是否可以让生活变得更轻松，让他们有更多时间陪伴家人；第二他们以社区和社群作为整体，强调科技服务社区。

或许这也可以成为我们在人机对话的未来可以畅想的场景：如果可以让我们有更多时间陪伴家人，凝聚社区和社群的力量，机器就是美好的。

（作者为《经济学人·商论》执行总编辑）

经观头条|厌恶风险的年轻人，选择跨城存钱赚利息

龙头股价下坠，巨额扩产密聚，千亿光伏战打响！

当一款降糖药成为减肥神药

原标题：《人机对话的场景革命》

阅读原文

机器人是如何实现对话的 机器人对话是怎么做到的呢