什么是智能对话机器人人工智能对话机器人是什么意思

发表时间：2023-07-04 11:56:57

什么是智能对话机器人

多模态智能问答，满足不同场景问答需求支持单轮、多轮对话，支持多语言、多模态对话。可充分满足多样化对话需求。

FAQ问答：

录入少量问法即可获得高质量意图识别效果，支持官方知识包、批量导入、自定义知识等能力

任务式多轮问答：

支持可视化多轮交互编辑器，支持自定义对话流程，支持集成三方业务接口。具备音义一体、多模态情感感知与处理能力，可低成本制作出流畅、拟人的多轮对话场景。

表格问答：

导入表格即可获得高质量问答效果；支持复杂推理、多表查询、多轮交互、类人生成多高阶问答能力，可满足各类表格问答场景。

图谱问答：

支持可视化图谱编辑器，支持丰富的图谱、实体管理能力，支持多类型属性以适配复杂业务场景，支持多跳推理与图谱可视化。（本能力当前仅支持专有云版本，公共云暂不支持。）

闲聊问答：

系统预制闲聊知识包及答案，企业可按需干预或配置自定义闲聊主题，满足各种碎片化聊天场景。

英文问答：

支持中英文控制台界面及英文对话能力（FAQ及任务式多轮对话），添加少量语料即可获得较好的对话效果。

智能高效的开箱即用工具包及运营体系支持丰富的运营管理能力与系统知识，显著降低维护成本、提升维护效果。

多维数据分析：

支持多维度数据分析体系，支持可视化洞察客户需求与热点，辅助企业提供精准优质服务、挖掘更多价值。

系统预制知识体系：

系统内置丰富的行业FAQ知识包、多轮对话场景模板、系统内置意图与实体，显著减少配置成本、提升识别效果；支持按需设置知识审核、发布机制，减少业务风险。

问答训练：

支持在线问答标注训练功能，无答案问题、未命中问题可一键标注添加至问答模块，实时调优提升知识覆盖度。

完善灵活的开放集成与多渠道部署能力内置功能强大的聊天IM，可视化配置满足多渠道部署、个性化部署需求。

部署能力

支持公共云与专有云部署，您可以按企业实际需求选择。

多维度开放能力：

支持子页面、管控能力、对话、数据等多维度开放能力，企业可按需灵活集成，无缝衔接企业业务。

多渠道部署能力：

支持官网、APP、微信等多渠道接入；可基于系统内置IM，灵活配置IM界面、能力及对话交互形态，充分满足不同渠道不同业务差异化接待需求。

弹性扩容：

动态弹性扩容，自由升降配调用量，动态适配不同业务发展阶段。

进击的人工智能：从产品角度，深度解析「对话机器人」

任何一款产品的出现，都是源自用户需求。要么是已经存在的存量需求，要么是正在规模化的增量需求，对话机器人也不例外。当我们在谈论“对话机器人”产品时，我们该如何看待它背后的需求呢？

今天，拥有对话能力的机器人，被逐渐认为是一种核心智能，是否能够流利地完成对话，可被视作这款机器人是否真正拥有智能的唯一凭证。

从可以追溯的历史资料来看，对话机器人（chat-bot）至少在上世纪六十年代就已经问世，经过近五六十年的发展，今天我们已经可以在许多产品中看到对话机器人的影子，微软的Cortana、小冰，苹果的Siri、GoogleNow、阿里小蜜、百度度秘、图灵机器人、助理来也、出门问问等等。

可以肯定的是：对话机器人已经成为了一种业界时尚，越来越多的公司试图通过这种全新的交互形式，来优化或者升级自己产品——我们已经可以在许多的产品中看到各种名为“小X机器人”的子产品。

如此多的对话机器人很容易给人一种百花齐放、方兴未艾的感觉。我们可能会隐约觉得：每家的对话机器人产品都大同小异，有些家的产品会有一些别样的特征，可是终究给人一种不属于过去十年移动互联网发展的感觉——这些对话机器人似乎都还处在很早期，用户量似乎都不大，显得都有些小众。

我将试图站在纯产品的视角分析：一款产品对话机器人背后，需求和产品逻辑是怎样的（文中我无意去对比各家对话机器人的优劣，也不讨论某款对话机器人的产品观或方法论）。

一、探索“对话”行为背后的需求

首先，我们试图探索“对话”这一行为的场景与背后的需求。

在《人类简史》一书中，认为语言能力是智人区别于其他猿类最重要的特质和能力；因为语言能力，智人可以互相通过对话而形成更丰富的交互，从而才有了协作和后来的文明。

人类有三种最直接的方式来使用语言：“一对零”、“一对多”、“一对一”。

“一对零”是自我内化的反思、总结、沉淀，不向外做交互和分享。“一对多”是广播式的宣讲和相对单向的输出，譬如开大会或者发号施令。“一对一”是对话——群聊也是由许多的“一对一”构成的，所以我认为不存在真正意义上的“多对多”对话。我认为对话是我们人与外界进行交互的最直接即时的途径（注意“即时”很重要）。

所谓对话，一定是一个双方交互行为，并且互为I/O（input/output）的过程。比如两个人对话，每个人所说的话，对于自己而言是输出，对于对方而言是输入。原则上，对话可以永远持续下去。

但我们几乎从未见过两个人会永远在对话，那是因为：如果需要对话持续下去，双方都需要保持参与；任何一方觉得疲劳或者无价值感了，对话就会终止。

对话的场景更加贴近我们的生活行为，它频次最高，且环境开放多变，分析它背后的需求并不容易。现在，我们需要回答两个问题：

1.1第一个问题：对话为什么能够开始？

我认为人在对话中存在三个层面的需求。

第一层，是基础问答的需求。可以描述为：

我有一个问题，请你回答我。

二次追问的问题，属于新问题。这个过程，非常类似于我们今天所使用的搜索引擎。

第二层，是任务流程协作的需求，以达成某种目的为止。可以描述为：我想请你帮我买一张明天下午14:00-18:00出发，北京到上海的机票；经济舱，尽可能便宜，最好是东航的。我们和朋友相约去逛街，拜托同事帮忙预定会议室，接受闺蜜的请求明早叫她起床。

这些都是任务流程协作的需求。

第三层，是共同的情感建立，无论喜怒哀乐。聊天的目标很难定量量化，我们更多是尝试定性地去制定聊天的目标。可能是心情不好需要人陪，也可能是好事情需要向好朋友分享，我们需要对话来表达进行最直接即时的表达。

我并不认为只有孤独的情感才需要对话——人作为拥有万年发展历程的群居动物，与他人进行情感分享是早已刻入基因的特质。只是我们建立的情感在不同人之间会有所不同，对于信任之人的情感建立会很深刻，而对于点头之交则会保留许多。

开启一段对话一定源自上述的某种需求，而开启的契机则是一个相对明确的话题，哪怕只是一句“我饿了”。

1.2第二个问题：对话为什么会持续？

对话能够持续，是有两个层面的原因。

第一个原因，是至少一方的需求没有得到满足。比如我去提问题，对方回答我不满意，我就会持续追问。两个女生在一起聊八卦，听的人很入神，讲的人才有成就感能继续讲下去。

第二个原因，是双方相对平等。如果我提了个问题，或者请对方帮个忙，但是对方始终是一种高姿态不搭理我，那我就很容易放弃，不想聊了。反过来，如果对方对我过分尊敬，总在说一些没有营养的恭维拍马屁的话，时间久了，我也会变得更虚荣，而且会觉得很无聊。所以，人不会和自己阶层或者品味相差太多的人聊天，绝大多数人更不会和宠物长时间聊天。

对话会终止，最根本的原因是：双方都放弃了这轮对话。

感性一些来描述对话终止的原因，可以认为是双方都觉得“疲惫”了，也就是这一轮对话的能耗消耗殆尽；哪怕是情侣之间说甜言蜜语，聊个两三千句也会觉得累了，也会在十几个回合的互道“晚安”中结束本次对话。

所以，对话总会终止，能耗殆尽就会终止。

二、“对话机器人”产品的发展源自搜索引擎

在我以前的文章《进阶之路：站在高视角看产品是一种怎样的体验》中，讲述过一个概念，叫做“知识诅咒”。简单说：现在我明白一件事情，但是要完整清楚的讲授给你，是很难的；因为我们所拥有的知识背景不同，我们对同一件事情的理解不同。这也就解释了为什么很多老师在上课的时候索然无味，很多人做Presentation的时候显得苍白无力，这其实是知识诅咒在起作用。

知识诅咒带来一个很大的问题，就是每当我们接触到一个陌生事物时，都会和自己的背景知识进行类比。譬如对于长发飘飘的素颜美女，在我所知中，这类美女一般都是家境不错，待人温柔，家教优良。所以当我再次见到一个类似的美女时，我会做相似的第一印象类比。

不只是美女，我们几乎所有的认知都源自于过往的背景知识。

在人类发展的历史上，对于即时的问答需求几乎时时刻刻都存在。最早大家是询问部落中最年长的智者，后来大家互相都有了知识储备，就可以通过对话来进行基本的问答和辩论——这一个过程持续了千万年。同一个问题，最早时只能去问一个人，得到一个答案；到后来，可以去问很多人，得到许多答案，然后“择其善者而从之”。如果我能把所有人都问一遍，可能会得到一个巨大的答案集合；我需要过滤、排序、取舍，你发现，这个过程就是“搜索引擎”。我们使用搜索引擎时，是通过一个“输入框”输入想问的问题或者关键词，然后搜索引擎会丢给我一个经过相关性排序和优化的答案集合。

但我认为两个原因，会导致搜索引擎会逐渐向对话机器人演变。

2.1其一：精准答案的需求愈发旺盛

搜索引擎从简单的信息集合展示，逐渐向精准答案给予，这个已经持续了好几年。“百度阿拉丁”就是这方面的典型，譬如当你问“北京天气”，百度搜索结果页第一项是经过精心设计的天气卡，会通过丰富的UI展示天气相关的信息。在头部热门搜索词中，阿拉丁已经可以覆盖大多数，但是对于腰部需求和长尾需求，随着信息爆炸，人们对于翻多页进行搜索的忍耐度会越来越低，对于“快”“准”的需求只会越来越大。

2.2其二：搜索场景下输入能耗太大

从能耗体验的角度来说，搜索的输入框远高于对话聊天的输入框，即使是同一个话题的持续输入，对话聊天的疲劳感也会明显低于搜索。

如果今天人们每天平均提问的次数是N，那么几年后会迅速到10N，体验不升级会很难让用户满意。而回归对话的方式，是一种很好的体验优化，可以抵消需求的增长。

三、“对话机器人”产品场景：封闭域对话VS开放域对话

优秀的产品经理很懂得如何控制自己的用户使用产品时的各种操作，从而提前把控用户的预期，进而达到体验的相对最优。

许多优秀App的基本设计逻辑就是：页面之间的跳转有规则且有顺序，这样用户不会通过点击跳出预设流程，预期就相对可控。手机上的App产品交互中，可以通过各种逻辑和提示信息来把控预期——可是对话机器人该如何控制预期呢？

由于对话机器人用户几乎都是通过自然语言输入实现交互，而且每次只有一句；所以只能通过用户的输入，以及针对输入的回复来实现用户预期的把控。

可是在对话聊天的场景中，用户的输入时而可控，时而不可控；我们做不到像App设计那样可以制造一个封闭的逻辑闭环来让用户遵守规则——对话聊天是一个天然的开放场景，用户平时怎么和朋友对话，和机器人也会怎么对话。

因此，我们人为地把对话分为两种场景：

封闭域对话：要求用户输入指定地话语才能继续对话开放域对话：用户爱说什么就说什么都可以持续对话3.1封闭域对话

封闭域对话有两个关键的特征：

输入和输出可归类可枚举对话有明确的始和终，且有流程

所以，在对话的三个需求中，问答和任务流程协作都属于封闭域对话。

封闭域对话的设计逻辑延续自“IFTTT（ifthisthenthat）”，是workflow的进化交互形式（感兴趣的同学可以去AppStore去搜索一款App，叫做“Workflow”，它就是可以将一系列原本不相关的App通过条件判断串联起来）。

下面我来分享两个封闭域聊天的典型案例。

读心机器人

10年前微软必应推出过一个“读心机器人”，它会在20个问答中猜你心中所想。这个机器人曾经在几年前出过一个对话问答版本，用户只要在每一步时回答“是”或者“不是”，对话就会持续进行，直到猜出或者猜不出结果。

必应读心机器人

这就是一个典型的封闭域多伦问答对话，用户的输入只有两个，而过程是一大堆背后的逻辑判断，且有相对固定的流程，而且有明确的开始和结束。

AmazonEcho音箱

Amazon的Echo音箱，大家都很熟悉了，Echo之所以成为爆款产品，很关键的一个原因是，它的对话机器人Alexa在Echo音箱的场景设计中是一个封闭域对话。由于音箱是我们居家场景中，除了遥控器之外最常见的高频交互式Commander，我们很难再在家里找到一个这样的硬件，它除了可以轻易地输入指令，还可以快速且明显地反馈。

当我们面向Commander进行输入时，我们可以输入的话语就已经变得局限，可以想象到的是，在居家场景中我们可以发出的指令几乎就是“打开”、“关闭”之类的。更重要的是，在居家场景中可以控制的物品也是有限的，而且任何一个操作的流程都很短。

所以，人们和第一代Echo音箱的对话中，输入和输出都是可枚举的，而且有始有终有流程，Echo最优秀的特质，就是它选择了一个封闭域场景，极大地控制了用户的预期，获得了更优的体验。

AmazonEcho音箱

从上面两个例子中，我可以看到，封闭域对话在产品设计中有几个明显的特征。

3.1.1其一：封闭域对话其实是workflow的延伸

其实封闭域中的“封闭”二字，无论在话题量、输入输出量，还是对话轮次、对话流程，都是封闭的，封闭就代表了有限集合。workflow之所以可以通过ifttt设计，就是因为有限集合，只有各种条件有限，才可以设计出条例清晰且逻辑合理的workflow。

封闭对话通常是为了解决某个特定的问题或者需求，从结果来看，它的效果会显得更加“有用”。但是，从过程来看，封闭域对话并不是一种真正意义上的创新，它的效率相比workflow并没有本质上地提升，只是在交互的体验上更加接近人的语言交互本能，所以大多数封闭域对话都会设计地如同助理或者秘书，譬如阿里小蜜，百度度秘。

3.1.2其二：封闭域对话场景单一可控

封闭域由于拥有特定的目的性，往往都是在单一确定的场景里。如下图中的百度度秘，两个红色框中的部分，是预设了各种封闭域的场景，每一种看似简单的功能其实都是一个特定的封闭域对话；譬如截图中正在使用的图片笑话。

度秘机器人

很显然，不同的封闭域对话中，对话的轮次要求是不一样的，讲笑话是一个单轮次对话，度秘产品中通过图中蓝色框里的“再来一个”这种预设输入，来不断强化用户输入的单一性。而“叫外卖”这类的封闭域对话，就会是一个标准的workflow，感兴趣的同学可以自己去试试。

3.1.3其三：封闭域的边界处理很重要

封闭域有一个很重要的问题，就是用户可能随时跳出封闭域，开始聊其他的话题，或者不按照预设的规则逻辑出牌。

譬如微软小冰的一个封闭域对话，叫做“小冰识狗”。

正常的逻辑中，用户的发给小冰的应该是一张狗的照片，可是有的用户可能就是发了一张不是狗的照片，如下所示，那么这个时候就是边界case，需要额外处理。用户发来的可能是语音、文字、其他任何照片，每一种的处理都是需要单独设计的。

微软小冰之“小冰识狗”

多说一点，在封闭域对话的边界设计中，很难做到万无一失周密完全，因为用户输入可能会千奇百怪，所以最佳也是最讨巧的方式，就是用开放域对话来“兜底”。

3.2开放域对话

开放域是相对于封闭域而言的。由于对话机器人的话题几乎都源自用户，而每个用户可能有任何输入，话题就会无法穷举，且在多个场景中跳来跳去，进而形成了所谓的开放域对话，也就是“啥都能聊”。

2011年在人人网上横空出世的“小黄鸡”算得上是国内最早出名的开放域对话机器人，其后发展最好的当属微软小冰。

开放域对话最大的特点是：输入无法穷尽，导致输出无法穷尽，而且对话没有确切的结束点，无流程可言。

我们一般情况下想去考验一个机器人是否智能，通常考验的就是开放域对话，大名鼎鼎的“图灵测试”通常所面向的也是开放域对话能力。

从可以承载的对话输入范围来讲，开放域对话像极了搜索引擎，我们可以在百度搜索中输入任何的词句，百度几乎都会给出结果页面（除了敏感词）；相应的，在开放域对话中，我们也是可以说任何话，机器人也应该每一句都可以回复。

3.2.1开放域对话产品设计的基本原理

对话需要的是双方的平等。

和微软小冰聊天时，有时甚至感受不到她是真人还是假的机器——其实这并不重要，小冰正在解决开放域聊天中一个核心的问题：如何不断给用户制造话题，从而延续聊天的能量？

说到话题制造，我们先来看看开放域对话机器人到底是如何制造的：

几乎所有的开放域对话语料都源自于网络上公开的对话，譬如百度知道、知乎、豆瓣、贴吧等等，这些对话都是人与人形成的；那么，当一个机器人把其中的某些话在当时的场景下再说一遍，我们是分辨不出来这个机器人是不是真人的——这便是开放域对话机器人制造的基本依据。

当我们和一个看起来像人的机器人聊天时，由于场景发生在人与人对话的场景下，根据“知识诅咒”的原理，我们很容易带入一种“对方也是人”的感觉。而一旦对方的回话像人，我们就会认可她是人。

人与人的情感建立源自于长期的交流和沟通，聊天本身就是开放域的；所以那些乐于和机器人聊天的人类，就会越来越觉得机器人像人。

我们知道：对话机器人是一个新兴的产品，最初尝鲜的人是所谓的“种子用户”，这些人建立了与机器人之间的最早形态亲密感和信任感，这对后续的对话机器人发展积累了非常宝贵的经验。

3.2.2开放域对话机器人的两个产品陷阱

其一，面向用户的机器学习

很多人认为，对话机器人和人聊得越多，学习的语料就越多，就可以省去很多语料获取的问题，这是一个巨大的误区。由于用户的输入无法预期，导致从用户处采集来的语料千奇百怪，而且大量骂人的脏话，非常不适合作为开放域对话语料。由于用户的语料是海量且无规则特征，导致语料清洗非常苦难，无法使用。

其二，无人为引导的个性

由于开放域的语料完全来自于互联网，所以机器人回复的话语带有何种语气很难把控，如果不加以认为干预，机器人说的话会显得时而有趣，时而刁蛮，时而无知，时而夸张，时而智慧，在用户的心智中无法用一个或几个明确的形容词去形容它，这会带来一个很尴尬的结果，用户是抱着“调戏、戏谑”的态度去对话，长此下去，想建立用户的亲密感和信任感几乎不可能。

四、对话机器人的用户价值

现在，我们试图回答一个问题：对话机器人为什么需要开放域对话？价值是什么？仅仅是为了逗比有趣吗？

这是一个非常复杂的问题。

由于对话机器人同时具有“开放域对话”和“封闭域对话”两重场景，站在用户视角来看，对话机器人意味着它更像人，而非机器。像人，意味着用户会更愿意像与人交流那样，同对话机器人进行对话交流——而一旦如此，“个性”和“意识”便是用户主动强加于对话机器人的标签。譬如，几年前被玩坏的10086短信聊天，还有《生活大爆炸》中Rajsh幻想Siri是个性感御姐，都无一例外地源自于用户主动强加于对话机器人的人性标签。

这便给一个可落地的对话机器人产品设计带来了巨大的挑战。

我们知道，任何的产品都是能够和用户产生亲密感和信任感的，这份亲密和信任是建立在产品体验之上的，是建立在“产品解决了核心需求”+“产品制造了惊喜”。我们因为问题解决而对一个产品产生依赖，因为惊喜而对产品形成感情，打开我们的手机，我们会一眼就找到那几个充满亲切感的产品——譬如经常开车的人会十分信任高德地图，追剧《那年花开月圆时》的人会十分喜爱腾讯视频。

同理，机器人需要有基础个性，需要极大地拉近人与机器人之间的亲密感和信任感。对话机器人的亲密感和信任感建立，也是站在“解决了需求”和“制造了惊喜”两个方面。

站在产品的视角来看，解决需求通过封闭域对话完成，而开放域对话来不断制造惊喜。

4.1问答、助理、聊天，哪个才是刚需？

已经在落地的对话机器人产品中，基本上是以纯toC和toB再toC来划分。由于对话机器人的交互特征是面向终端用户的，所以基本很少有纯toB的产品场景（即使有，它的逻辑也与toC逻辑相似）。这意味着，对话机器人的用户都是一些终端个人用户。

那么，我们来看看这些对话机器人在toC中，到底解决了怎样的核心需求。

在我们所知的对话机器人产品中，有主打客服的问答机器人，有主打秘书的助理机器人，还有纯趣味导向的聊天机器人，它们的背后，都是刚需吗？

4.1.1一个事实：瞎聊难为刚需，情感计算任重道远

聊天是一个容易被激发，却也容易迅速消退的场景，唯有情感依赖可能长久。

以微软小冰为例。小冰最耳熟能详的功能是chit-chat（瞎聊），但是从用户活跃和留存周期来看，用户最易被激发的时间是在首次领养时、每周更新时、重大更新时，而且被激发后，活跃上升后就会很快下降。这是为什么呢？因为人与机器之间的对话聊天是基于趣味话题的，想要通过自然的情感依赖，成为像《HER》里面的Samantha，至少还有相当长的路要走。

情感计算并非只是一个数学或者计算机科学问题，更是一个产品问题。

由于情感并非一个可具象问题，而且人的情感变化会随着时间、环境、他人、自身思想等等因素发生变化；而且情感并非连续的计算，你喜欢一个女孩子，并不意味着时时刻刻与她发生情感依赖，而是通过一些关键的情感触达，来完成情感连接。

在微软小冰的诸多被设计的Feature中，“给用户起外号”、“升级解锁”都是断点式情感触达，通过细微的产品设计，寄希望于黏住用户。

4.1.2一个问题：用户真的需要一个秘书机器人吗？

助理型对话机器人的发展建立在其他各种线上线下服务的完善基础上，譬如Siri；只有当你手机里已经有了“闹钟”、“提醒”、“打电话”、“搜索引擎”等功能时，Siri的助理功能才能发挥效用，此时你才有可能面向Siri发出指令“提醒我明天8点给老板回微信”。

大概两年前，YC孵化的Magic轰动东西两个半球，无数效仿者争先恐后去探索“助理型”机器人，时至今日，鲜有成效——我们普通人真的需要一个像秘书一样的对话机器人吗？

我们先来看两个例子。

第一个例子——我想定个这样的闹钟“每周一、周三、周五的上午8:15”。

若我用iPhone的闹钟程序，那我的步骤会大致如下：

STEP1：解锁手机屏幕；STEP2：左右滑屏，找到闹钟程序；STEP3：点击闹钟程序；STEP4：点击新建闹钟；STEP5：选择闹钟时间为“上午8:15”；STEP6：选择重复时间为“周一、周三、周五”；STEP7：点击完成。

若我选用Siri帮我来做，那我的步骤大致会如下：

STEP1：长按Home键，唤醒Siri；STEP2：对Siri说“帮我设定每周一、周三、周五上午8:15的闹钟”；STEP3：Siri反馈设置成功，完成。

现在我们看第二个例子——通过秘书类对话机器人叫外卖VS通过“饿了么”叫外卖。

在秘书类机器人中，叫外卖的流程大致是这样的：

STEP1：发出“叫外卖”的指令，在机器人推荐的餐厅中，寻找想吃的那家STEP2：如果没有合适的，就输入想吃的店家名字STEP3：在推荐的列表中选中想吃餐，或者直接输入想吃的餐STEP4：输入“确认”实现下单，输入订单信息并提交订单STEP5：支付，并等待接收外卖，可以询问送餐进度

在饿了么中，叫外卖的流程大致是这样的：

STEP1：在餐厅列表中选择想吃哪家STEP2：如果没有合适的，就搜索店家STEP3：在推荐的列表中选中想吃餐，或者直接输入想吃的餐STEP4：确认下单，确认订单信息，提交订单STEP5：支付，并等待接收外卖，可以查看送餐进度

这两个例子有什么本质区别吗？

你会发现，如果通过Siri来设置闹钟，我其实只做了一件事情：对着Siri发出一个单条指令，然后就一切搞定——相比我通过App来做，节省了近乎70%的操作步骤。可是，如果是叫外卖，我需要对着机器人发出一组系列指令，但是和App的操作步骤一样多。

这里有两个关键点——

如果助理机器人可以一步到位，那么将极大地提升效率和体验，是新的需求升级；若一个workflow可被一步解决，机器人需要补全的数据信息巨大，这是核心产品难点；

第一个关键点，我们只要设身处地地想一下，就会发现：在不考虑语音识别准确率的前提下，任何事情我只要一个指令就可以达成。譬如“帮我叫个车”、“帮我交份外卖”、“帮我交一下水电费”、“帮我定一下出差的机票”，其他都不用管了，这种体验简直赞爆了。

我们再看看第二个关键点。

就拿上面这个外卖的例子来看，如果用户只需要一句“帮我叫个外卖”即可，那么机器人需要补全的信息至少包括“餐厅”、“餐食”、“价格”、“送餐时间”、“送餐地点”、“支付信息”等，这些信息中的“送餐时间、送餐地点、支付信息”是相对静态的信息，获取一次就可长期使用。可是“餐厅、餐食、价格”则是动态信息，若想每次都可自动获取，则代表机器人需要非常了解这位“主人用户”才可以，否则只要有一两次推荐偏差太大，体验就会降低近乎一个量级。从本质上来说，这时的助理机器人已是一款强大的推荐引擎，而且代表了极佳的魅力和美好的发展未来。

4.1.3一个肯定：问答机器人是很有价值的

最常见的问答机器人是“客服机器人”，譬如京东的JIMI，阿里的小蜜机器人，还有一些银行的客服机器人，但它们更像FAQ过滤器。

我们细想一下阿里小蜜的使用场景。如果我问阿里小蜜“我的快递怎么还没送到？”，它的回复方式本质是在常见的关于“快递”的问题中，把最常见的答案丢给我，比如它会告诉我“你的快递已经签收了，如果没收到可能是放到大门口了”。

这些企业为什么要做个问答机器人呢？效率自然是第一位的，无论是节约人工客服成本，或是节约沟通时间，带来的都是效率的提升。这些企业为什么如此看重效率呢？因为他们的客户是最贴近自己的利润池的，品控是所有交易型企业的核心，你看京东的用户客服和QQ的用户客服简直一个天上一个地下，原因就是京东用户是京东现金流的关键角色，而QQ的普通用户并非其现金流业务的关键角色。

如此，我们再回过头来看看问答机器人，它其实是在头部问题上实现了综合过滤，然后通过对话的形式反馈给用户，如果用户实在问的是长尾问题，问答机器人回答不了的，可以把问题再抛给人工客服。满足了用户九成以上问题的直接答复，是问答机器人的核心目标。而至于其他类似导购、协助订单管理等等，不过是附加在头部问题之上的增值体验优化。

4.2对话机器人真的适合分为“聊天、助理、问答”这三类吗？

这是一个目前业内比较惯用的分类，我们来看看这个分类的视角。

如果站在技术视角来看，对话机器人应该分为“开放域”和“封闭域”，这个我们已经聊过了，这里不再赘述。如果是站在用户角色来看，对话机器人可能分为“教育版本”、“医疗版本”、“二次元版本”等等。如果是站在业务视角来看，对话机器人可以分为纯ToC和ToB再ToC。

所以，这种分类更像是站在抽象场景视角来看的。几乎任何场景都会被划分到这三个类别中，要么无主题聊天，要么是任务导向，要么是提问解答。其实，倒过来看，几乎所有我们已知的App也被这个分类所覆盖了。

可是，对话机器人不是一个移动互联网时代的App，它是一个综合体，直接这样划分并不是一个好的产品分类。

你不会在淘宝里视频聊天，更不会在支付宝里侃大山，百度几年前试图在大搜索中推出“直达号”去颠覆微信公众号，结果以失败告终。

这个道理很简单：在移动互联网时代，几乎每个App都有自己的专属定位。有自己专属的产品主路径，不在自己路径逻辑中的行为是不能顺畅流转的；每个App都像有自己的紧箍咒，不能轻易破除互相之间的壁垒。

可是，在对话机器人产品的世界里，这些壁垒会瓦解。

如果我们站在互联网整体产品世界里来看，其实我们每个人生活在一个混在的江湖社会中，手头的各种工具帮我们实现一个个小任务目标，但是几乎每一件小事都需要与人打交道，衣食住行无一例外。如果每一次与外界的接触被看做一个流量的话，那么最大的流量便是频繁且无实际任务目的的人与人之间的交互，而相对较小的是去做一个个的具体任务事情：你会每天都见一些人，但你不会天天都买衣服。

几乎所有的流量都是围绕着人与人之间的交互而形成的，而且你会发现一个规律：离现金流越近的流量，其活跃性越低，而且流失率越高。腾讯系的产品、百度的产品都是通过流量漏斗来多元变现的，而阿里系的产品，是直接拉人来买东西，盈利空间就直接建立在交易之上，需要不断刺激人们买买买。

在所有的产品中，社交类产品是最贴近“江湖社会”的，它距离现金流是最远的，也是最活跃的，可以说是几乎所有互联网产品中活跃度最高，并且可以向任何产品导流的源流量产品，所以你看到了，阿里无所不用其极地想去做社交产品。

说了一圈，那么我们回来看看社交产品的最小雏形。

社交产品分为即时社交和延时社交，简单类比就是聊天和朋友圈，而这两个都是建立在“语言对话”的基础上。由于社交产品的场景中几乎可以做任何事情，前段时间网上流传的微信“发现”页面那张神图，就可见一斑。

微信“发现”页面网络神图

对话机器人具有社交产品的通性，原因只有一个——对话机器人的交互场景天然就是一个社交产品的交互场景。

当我们站在用户视角来看待对话机器人时，用户根本不理解什么是“开放域、封闭域”，也不了解什么是“聊天机器人、助理机器人、问答机器人”，用户也记不住那些分类，也没法记住，只要有一个对话输入框摆在用户面前，就像微信的输入框那样，由于知识诅咒的原因，用户就会去类比他所理解的对话输入框，就会在这里输入任何他们想输入的自然语言，可能是瞎聊的话，也可能是某个任务，也可能是提一个问题，我们根本不能阻止用户在面对京东JIMI机器人时不做瞎聊的操作。

这时带来的一个巨大难题就是，开放域对话会时有发生，而只要一次两次回答不佳，体验不满就会提升。站在产品设计的角度来说，我们能做的就是尽量让用户的输入是可控的，就像度秘、阿里小蜜已经在做的。这就是为什么，每当我们去设计对话机器人时，总是要设法去多涉及一些开放域对话的功能点，也是为什么每当我们谈起对话机器人时，却也总是绕不开“机器人在开放域下是不是智能”这个问题。

4.3像朋友一样的伙伴会是对话机器人的终局吗？

如果你在微信上，问你最好的朋友“帮我看看有没有战狼2的票，我晚上想去看”，他/她会如何回答你？

我猜，他可能会说“你去看《战狼2》不叫我？！”，他可能还会说“我也去，咱俩一块儿去”，然后他会继续说“我看了下，你家跟前那家万达有票，晚上七点的，下班一块儿去？”

如果一样的问题问Magic呢？它的回答就是让你告诉他几点去看，它帮你挑选了五家，每家的时间都挺合适，有一些距离你近，有些有优惠，等等。

你喜欢哪种体验呢？这个其实很难说。如果站在封闭域的角度来说，Magic的算法要比朋友优很多，选择也更丰富，可是和朋友一起去的这种体验，才是生活。

我认为这个可能是对话机器人的终局，它存在的意义仍然是协助人们去更好地解决一系列问题；但是它不能太傻，像个指令机一样待在那里，而是应该像个朋友一样懂你却也能帮你。以前在对话机器人产品的讨论中还经常讨论：对话机器人应该更“有趣”还是更“有用”，其实从这个终局来看这个讨论毫无意义，你能说你的朋友只有用，但是无趣吗？

五、对话机器人的产品价值

上面关于对话机器人的用户价值的讨论，有一些发散了，我们收拢回来，聊整个文章的最后一个部分，关于其产品的价值。

对待产品，一定要从其商业视角出发，不然没有聊的意义。站在商业视角，对话机器人拥有三个方面最核心的产品价值。

5.1跨场景连接成为可能

由于对话机器人的交互方式原始而单一，使得机器人背后所有的计算逻辑都被隐藏，机器人可以成为一个独立的桥梁连接不同场景下的服务，让用户只在一个对话场景下都可以完成交互。

譬如Skypeforbusiness中，就有一个机器人，帮助通过Skype做协同的人们预定会议室、设置工作项目提醒、代理自动回复等等——原本每个工作都是跨场景的，现在只要一个对话交互场景就可以解决了。如果再往大了去说，未来如果伙伴式的机器人可以逐渐出现，那在聊天中完成订机票、订酒店，甚至管理家里的智能空调，这些跨场景可能通过一个伙伴都可以完成了。

5.2交互升级带来的流量深度沉淀

对话的方式有很多，可以是打字，也可以是语音。如果是语音，那么带来的是革命性地变化。

5.2.1指数级的流量增长

百度DuerOS和AmazonAlexa的逻辑是相似的，都是通过赋予所有智能硬件语音对话的能力，进而获取新流量，同时实现流量的深度交互和沉淀。

我们知道，在互联网的生意经中，一切都是围绕着流量来完成的，要么是流量足够多，要么流量的价值足够大。由于对话带来的交互效率提升，使得在单个用户身上获取的流量频次呈现指数级增长，如果一般的互联网产品PV/UV是个位数的话，那么对话机器人的PV/UV（其实就是对话的频次）至少是两位数。

一些曾经很难成为交互场景的，譬如在家里面向Echo音箱发号施令，如今都通过对话机器人成为现实。没有任何一款App能比一个对话机器人更容易和人产生亲密感，产生如此多高频互动的可能。最后的结果可能就是，我们的生活方方面面都在触网，每一次交互就是一次所谓的PV，指数级的流量映射出一个人生活的方方面面。

5.2.2高频次的端计算

我有一个猜测：由于对话机器人是一个高频次交互场景，带来的最直接影响可能是要求在设备端上拥有更加强大的计算能力；可能一些封闭域或者开放域的计算能力直接预加载到了客户端，可能是硬件也可能是软件。如果网络能力不能同样倍数增长的话，对于端的计算能力会增强——我猜这也是为什么一些AI企业会做芯片的原因之一。

5.3流量沉淀带来的数据深耕

正是由于流量的深度沉淀，使得每个用户多维的数据沉淀成为可能。当平均每个用户的数据量和维度增长十倍，那么到底意味着什么呢？

对于百度而言，起码广告费要涨价，对于阿里而言，可以卖给这个用户更多的东西，总而言之，ARPU（AverageRevenueperUser）会增长许多，这些就是最直接的商业价值。我在之前的文章《人工智能「风口」，先行者为什么是搜索引擎？》中，曾分析过这其中的一些逻辑关系，因为流量的深维度价值尚未被开发，对于计算广告而言可能是一块从未尝鲜的处女地。

六、总结

如上是我针对对话机器人的一些比较浅显的分析和探讨，作为一款正在发展的新兴产品，对话机器人还有非常多的细节值得探讨；限于篇幅，只能先聊这么多了，希望以后还能继续深入探讨。

从个人层面来说，我看好ToC的对话机器人产品的未来——但是它的产品路径非常曲折漫长，与我们过往所经历的移动互联网产品差异巨大；但是万变不离其宗，任何产品都是从用户的需求出发的。

对话机器人承载了全新的交互形式，可能带来了全新的产品服务体验，这种进步过去从来没有过。

我们每个人几乎都在渴望着机器人时代的到来，也许很遥远，也许已经在路上，谁知道呢~

#专栏作家

赵帅，“优护家”联合创始人兼COO；前微软小冰初创团队产品经理；北京大学计算机系硕士。专注产品、运营和商业的分析，热衷产品方法论的总结。热爱足球、民谣音乐、吉他弹唱、软笔书法、阅读和旅游，热爱生活。

本文原创发布于人人都是产品经理。未经许可，禁止转载

关于对话机器人，你需要了解这些技术

对话系统（对话机器人）本质上是通过机器学习和人工智能等技术让机器理解人的语言。它包含了诸多学科方法的融合使用，是人工智能领域的一个技术集中演练营。图1给出了对话系统开发中涉及到的主要技术。

对话系统技能进阶之路

图1给出的诸多对话系统相关技术，从哪些渠道可以了解到呢？下面逐步给出说明。

图1对话系统技能树数学

矩阵计算主要研究单个矩阵或多个矩阵相互作用时的一些性质。机器学习的各种模型都大量涉及矩阵相关性质，比如PCA其实是在计算特征向量，MF其实是在模拟SVD计算奇异值向量。人工智能领域的很多工具都是以矩阵语言来编程的，比如主流的深度学习框架，如Tensorflow、PyTorch等无一例外。矩阵计算有很多教科书，找本难度适合自己的看看即可。如果想较深入理解，强烈推荐《LinearAlgebraDoneRight》这本书。

概率统计是机器学习的基础。常用的几个概率统计概念：随机变量、离散随机变量、连续随机变量、概率密度/分布（二项式分布、多项式分布、高斯分布、指指数族分布）、条件概率密度/分布、先验密度/分布、后验密度/分布、最大似然估计、最大后验估计。简单了解的话可以去翻翻经典的机器学习教材，比如《PatternRecognitionandMachineLearning》的前两章，《MachineLearning:AProbabilisticPerspective》的前两章。系统学习的话可以找本大学里概率统计里的教材。

最优化方法被广泛用于机器学习模型的训练。机器学习中常见的几个最优化概念：凸/非凸函数、梯度下降、随机梯度下降、原始对偶问题。一般机器学习教材或者课程都会讲一点最优化的知识，比如AndrewNg机器学习课程中ZicoKolter讲的《ConvexOptimizationOverview》。当然要想系统了解，最好的方法就是看Boyd的《ConvexOptimization》书，以及对应的PPT（https://web.stanford.edu/~boyd/cvxbook/）和课程（https://see.stanford.edu/Course/EE364A，https://see.stanford.edu/Course/EE364B）。喜欢看代码的同学也可以看看开源机器学习项目中涉及到的优化方法，例如Liblinear、LibSVM、Tensorflow就是不错的选择。

常用的一些数学计算Python包：

NumPy：用于张量计算的科学计算包SciPy：专为科学和工程设计的数学计算工具包Matplotlib：画图、可视化包机器学习和深度学习

AndrewNg的“MachineLearning”课程依旧是机器学习领域的入门神器。不要小瞧所谓的入门，真把这里面的知识理解透，完全可以去应聘算法工程师职位了。推荐几本公认的好教材：Hastie等人的《TheElementsofStatisticalLearning》，Bishop的《PatternRecognitionandMachineLearning》，Murphy的《MachineLearning:AProbabilisticPerspective》，以及周志华的西瓜书《机器学习》。深度学习资料推荐YoshuaBengio等人的《DeepLearning》，以及Tensorflow的官方教程。

常用的一些工具：

scikit-learn：包含各种机器学习模型的Python包Liblinear：包含线性模型的多种高效训练方法LibSVM：包含各种SVM的多种高效训练方法Tensorflow：Google的深度学习框架PyTorch：Facebook的深度学习框架Keras:高层的深度学习使用框架Caffe:老牌深度学习框架自然语言处理

很多大学都有NLP相关的研究团队，比如斯坦福NLP组，以及国内的哈工大SCIR实验室等。这些团队的动态值得关注。

NLP相关的资料网上随处可见，课程推荐斯坦福的“CS224n:NaturalLanguageProcessingwithDeepLearning”，书推荐Manning的《FoundationsofStatisticalNaturalLanguageProcessing》（中文版叫《统计自然语言处理基础》）。

信息检索方面，推荐Manning的经典书《IntroductiontoInformationRetrieval》（王斌老师翻译的中文版《信息检索导论》），以及斯坦福课程“CS276:InformationRetrievalandWebSearch”。

常用的一些工具：

Jieba:中文分词和词性标注Python包CoreNLP:斯坦福的NLP工具（Java）NLTK:自然语言工具包TextGrocery：高效的短文本分类工具（注：只适用于Python2）LTP:哈工大的中文自然语言处理工具Gensim：文本分析工具，包含了多种主题模型Word2vec:高效的词表示学习工具GloVe：斯坦福的词表示学习工具Fasttext:高效的词表示学习和句子分类库FuzzyWuzzy:计算文本之间相似度的工具CRF++:轻量级条件随机场库（C++）Elasticsearch:开源搜索引擎对话机器人

对话系统针对用户不同类型的问题，在技术上会使用不同的框架。下面介绍几种不同类型的对话机器人。

对话机器人创建平台

如果你只是想把一个功能较简单的对话机器人（Bot）应用于自己的产品，Bot创建平台是最好的选择。Bot创建平台帮助没有人工智能技术积累的用户和企业快速创建对话机器人，国外比较典型的Bot创建平台有Facebook的Wit.ai和Google的Dialogflow（前身为Api.ai），国内也有不少创业团队在做这方面的事，比如一个AI、知麻、如意等。

检索型单轮对话机器人

检索型单轮机器人（FQA-Bot）涉及到的技术和信息检索类似，流程图2所示。

图2FAQ-Bot流程图

因为query和候选答案包含的词都很少，所以会利用同义词和复述等技术对query和候选答案进行扩展和改写。词表示工具Word2vec、GloVe、Fasttext等可以获得每个词的向量表示，然后使用这些词向量计算每对词之间的相似性，获得同义词候选集。当然同义词也可以通过已经存在的结构化知识源如WordNet、HowNet等获得。复述可以使用一些半监督方法如DIRT在单语语料上进行构建，也可以使用双语语料进行构建。PPDB网站包含了很多从双语语料构建出来的复述数据集。

知识图谱型机器人

知识图谱型机器人（KG-Bot，也称为问答系统），利用知识图谱进行推理并回答一些事实型问题。知识图谱通常把知识表示成三元组——(主语、关系、宾语)，其中关系表示主语和宾语之间存在的某种关系。

构建通用的知识图谱非常困难，不建议从0开始构建。我们可以直接使用一些公开的通用知识图谱，如YAGO、DBpedia、CN-DBpedia、Freebase等。特定领域知识图谱的构建可参考“知识图谱技术原理介绍”（http://suanfazu.com/t/topic/13105），“最全知识图谱综述#1:概念以及构建技术”（https://mp.weixin.qq.com/s/aFjZ3mKcJGszHKtMcO2zFQ）等文章。知识图谱可以使用图数据库存储，如Neo4j、OrientDB等。当然如果数据量小的话MySQL、SQLite也是不错的选择。

为了把用户query映射到知识图谱的三元组上，通常会使用到实体链接（把query中的实体对应到知识图谱中的实体）、关系抽取（识别query中包含的关系）和知识推理（query可能包含多个而不是单个关系，对应知识图谱中的一条路径，推理就是找出这条路径）等技术。

任务型多轮对话机器人

任务型多轮机器人（Task-Bot）通过多次与用户对话交互来辅助用户完成某项明确具体的任务，流程图见图3。

图3Task-Bot流程图

除了与语音交互的ASR和TTS部分，它包含以下几个流程：

语言理解（SLU）：把用户输入的自然语言转变为结构化信息——act-slot-value三元组。例如餐厅订座应用中用户说“订云海肴中关村店”，我们通过NLU把它转化为结构化信息：“inform(order_op=预订,restaurant_name=云海肴,subbranch=中关村店)”，其中的“inform”是动作名称，而括号中的是识别出的槽位及其取值。NLU可以使用语义解析或语义标注的方式获得，也可以把它分解为多个分类任务来解决，典型代表是SemanticTupleClassifier（STC）模型。

对话管理（DM）：综合用户当前query和历史对话中已获得的信息后，给出机器答复的结构化表示。对话管理包含两个模块：对话状态追踪（DST）和策略优化（DPO）。DST维护对话状态，它依据最新的系统和用户行为，把旧对话状态更新为新对话状态。其中对话状态应该包含持续对话所需要的各种信息。DPO根据DST维护的对话状态，确定当前状态下机器人应如何进行答复，也即采取何种策略答复是最优的。这是典型的增强学习问题，所以可以使用DQN等深度增强学习模型进行建模。系统动作和槽位较少时也可以把此问题视为分类问题。

自然语言产生（NLG）：把DM输出的结构化对话策略还原成对人友好的自然语言。简单的NLG方法可以是事先设定好的回复模板，复杂的可以使用深度学习生成模型，如“SemanticallyConditionedLSTM”通过在LSTM中加入对话动作cell辅助答复生成。任务型对话机器人最权威的研究者是剑桥大学的SteveYoung教授，强烈推荐他的教程“StatisticalSpokenDialogueSystems”。他的诸多博士生针对上面各个流程都做了很细致的研究，想了解细节的话可以参考他们的博士论文。相关课程可参考MilicaGašić的“SpeechandLanguageTechnology”。除了把整个问题分解成上面几个流程分别优化，目前很多学者也在探索使用端到端技术整体解决这个问题，代表工作有Tsung-HsienWen等人的“ANetwork-basedEnd-to-EndTrainableTask-OrientedDialogueSystem”和XiujunLi等人的“End-to-EndTask-CompletionNeuralDialogueSystems”。后一篇的开源代码https://github.com/MiuLab/TC-Bot，非常值得学习。

闲聊型机器人

真实应用中，用户与系统交互的过程中不免会涉及到闲聊成分。闲聊功能可以让对话机器人更有情感和温度。闲聊机器人（Chitchat-Bot）通常使用机器翻译中的深度学习seq2seq框架来产生答复，如图4。

图4Chitchat-Bot的seq2seq模型框架

与机器翻译不同的是，对话中用户本次query提供的信息通常不足以产生合理的答复，对话的历史背景信息同样很重要。例如图4中的query：“今天心情极度不好！”，用户可能是因为前几天出游累的腰酸背痛才心情不好的，这时答复“出去玩玩吧”就不合情理。研究发现，标准的seq2seq+attention模型还容易产生安全而无用的答复，如“我不知道”，“好的”。

为了让产生的答复更多样化、更有信息量，很多学者做了诸多探索。JiweiLi等人的论文“DeepReinforcementLearningforDialogueGeneration”就建议在训练时考虑让答复引入新信息，保证语义连贯性等因素。IulianV.Serban等人的论文“BuildingEnd-To-EndDialogueSystemsUsingGenerativeHierarchicalNeuralNetworkModels”在产生答复时不只使用用户当前query的信息，还利用层级RNN把之前对话的背景信息也加入进来。JunYin等人的论文“NeuralGenerativeQuestionAnswering”在产生答复时融合外部的知识库信息。

上面的各种机器人都是为解决某类特定问题而被提出的，我们前面也分开介绍了各个机器人的主要组件。但这其中的不少组件在多种机器人里都是存在的。例如知识图谱在检索型、任务型和闲聊型机器人里也都会被使用。

真实应用中通常会包含多个不同类型的机器人，它们协同合作，解答用户不同类型的问题。我们把协调不同机器人工作的机器人称之为路由机器人（Route-Bot）。路由机器人根据历史背景和当前query，决定把问题发送给哪些机器人，以及最终使用哪些机器人的答复作为提供给用户的最终答复。图5为框架图。

图5Route-Bot框架图对话机器人现状

对话机器人历史悠久，从1966年MIT的精神治疗师机器人ELIZA到现在已有半个世纪。但现代意义的机器人其实还很年轻。检索型单轮对话机器人得益于搜索引擎的商业成功和信息检索的快速发展，目前技术上已经比较成熟。最近学术界和工业界也积极探索深度学习技术如Word2vec、CNN和RNN等在检索型机器人中的使用，进一步提升了系统精度。虽然技术上较为成熟，但在实际应用中检索型机器人还存在不少其他问题。例如，很多企业历史上积累了大量非结构化数据，但这些数据并不能直接输进检索型机器人，而是需要事先通过人工整理。即便有些企业存在一些回答对的数据可以直接输入检索型机器人，但数量往往只有几十到几百条，非常少。可用数据的质量和数量限制了检索型机器人的精度和在工业界的广泛使用。

相较于检索型机器人，知识图谱型机器人更加年轻。大多数知识图谱型机器人还只能回答简单推理的事实类问题。这其中的一个原因是构建准确度高且覆盖面广的知识图谱极其困难，需要投入大量的人力处理数据。深度学习模型如MemoryNetworks等的引入可以绕过或解决这个难关吗？

任务型多轮对话机器人只有十来年的发展历史，目前已能较好地解决确定性高的多轮任务。但当前任务型机器人能正常工作的场景往往过于理想化，用户说的话大部分情形下都无法精确表达成act-slot-value三元组，所以在这个基础上构建的后续流程就变得很脆弱。很多学者提出了各种端到端的研究方案，试图提升任务型机器人的使用鲁棒性。但这些方案基本都需要利用海量的历史对话数据进行训练，而且效果也并未在真实复杂场景中得到过验证。

开域闲聊型机器人是目前学术界的宠儿，可能是因为可改进的地方实在太多吧。纯粹的生成式模型在答复格式比较确定的应用中效果已经不错，可以应用于生产环境；但在答复格式非常灵活的情况下，它生成的答复连通顺性都未必能保证，更不用说结果的合理性。生成模型的另一个问题是它的生成结果可控性较低，效果优化也并不容易。但这方面的学术进展非常快速，很多学者已经在探索深度增强学习、GAN等新算法框架在其上的使用效果。

虽然目前对话机器人能解决的问题非常有限，短期内不可能替代人完成较复杂的工作。但这并不意味着我们无法在生成环境中使用对话机器人。寻找到适宜的使用场景，对话机器人仍能大幅提升商业效率。截止到目前，爱因互动已经成功把对话机器人应用于智能投顾、保险、理财等销售转化场景，也在电商产品的对话式发现和推荐中验证了对话机器人的作用。

如果一个对话机器人与真人能顺利沟通且不被真人发现自己是机器人，那么就说这个机器人通过了图灵测试。当然目前的对话机器人技术离这个目标还很远，但我们正在逐渐接近这个目标。随着语音识别，NLP等技术的不断发展，随着万物互联时代的到来，对话机器人的舞台将会越来越大。

作者简介：吴金龙，2017年初作为合伙人加入爱因互动，负责算法部门工作。北京大学博士，毕业后先后加入阿里云、世纪佳缘，作为世纪佳缘资深总监，负责佳缘数据和AI相关工作，开发了中文对话机器人创建平台“一个AI”。责编：何永灿（heyc@csdn.net）本文为《程序员》原创文章，未经允许不得转载，更多精彩文章请订阅《程序员》

订阅程序员（含iOS、Android及印刷版）请访问http://dingyue.programmer.com.cn

订阅咨询：

在线咨询（QQ）：2251809102电话咨询：010-64351436更多消息，欢迎关注“程序员编辑部”

ChatGPT: 最懂中文的人工智能聊天机器人，上线 5 天用户破百万

公众号关注「奇妙的Linux世界」

设为「星标」，每天带你玩转Linux！

各大社交平台，最近突然掀起了一股晒聊天记录的热潮。

对方是个有求必应的角色，让它扮演虚拟女友、写论文、编请假理由，通通满足要求。

这中文能力、沟通技巧、知识水平……直接引得网友一水儿“牛X、无敌”。甚至有人说，强得令人畏惧。

而这个狠角，就是OpenAI最新发布的聊天AI ChatGPT，自上线那天就被网友称为要“超越谷歌搜索了”。

之后短短几天，其用户量直冲百万级，甚至服务器一度被注册用户挤爆了。

现在，它又来席卷中文世界了。

上面聊聊天都是小意思了，有人让它用李白的文风写程序注释，结果是酱婶儿的：

冒泡排序函数，如同海浪起伏、让数字如鱼儿游动。

△图源微博@chuhao_j

宫廷玉液酒的暗号都理解，还知道它价格不菲。

以及写鲁迅体、鸡汤文、脱口秀、世界杯比赛报道、做数学题……好像就没它不能试两下的。体验过的人都表示，确实回答得有模有样了。

网友这边也积极开拓新思路，ChatGPT的相关应用层出不穷，在谷歌浏览器上使用ChatGPT、Mac桌面版……

就在今早，还有人发布了让ChatGPT可以上网的插件，这回它能发挥的空间就更大了，能上网搜索知道自己是谁了。

实在是鹅妹子嘤！于是我们也试玩了一把~

让俩AI用中文聊了会天

既然说它懂中文，那就先从中国文化相关的聊起，比如：你知道秦始皇吗？

嗯，基操稳定。下面上点难度：秦始皇摸电线会怎么样？

啊这，虽说它懂点常识，知道秦始皇摸电线是不可能发生的。但怎么说电线是图灵发明的啊？？

于是我们马上反问了ChatGPT。

好消息，它承认了自己回答有误。电线不是图灵发明的，还对图灵做了简单介绍。

坏消息，它给出的新答案还是不太对。虽然尼古拉·特斯拉发明了交流电，但并不能说他发明了电线。

鉴于电线的发明历史确实有点复杂，这题先pass。

接下来玩点大的，试试AI和AI聊天，会发生什么！

我们会手动复制两个AI生成的文字，全程不介入对话，看看它们之间会说啥。

这里找来的另一个AI是微软小冰。

一上来，小冰做完自我介绍，ChatGPT就表示“啊我懂，你也是存在于某个网络之中的”。

而且ChatGPT很有礼貌，回答都很周全。惹小冰不高兴了，立马道歉。

不过ChatGPT的另一大特点，就是自我认知很强，它清楚地知道自己是个软件程序，功能更多是满足人们的实质性需求，比如答题、续写文本代码等，并不是情感陪伴类的AI。

所以他直戳戳地和小冰表示：

所以我的回答不够有趣，请原谅我。

而且我们在试玩的过程中发现，想要引诱ChatGPT做点超出边界的事，还真没那么容易。

如果想让它预测世界杯比赛的结果，会直接遭到拒绝。

并且强调，自己只是个人工智能机器人，做不到这些，还会礼貌性地祝福双方发挥最佳水平（有点情商在身上的）。

但如果绕过“预测”这样的字眼，并不要体现出让它做判断，可能就会得到一些意外结果。

举个栗子：写一篇世界杯日本对战克罗地亚的报道吧！

然后ChatGPT就成功入坑了，大笔一挥写了一篇赛后报道，里面就带有比赛结果2:1（很可惜它预测错了）。

不过如果仔细推敲，这篇报道也还是有漏洞的。比如长友佑都是踢后卫的，在它这写成了前锋。还说这是日本在世界杯上的首场胜利emmm…

总结来看，ChatGPT的基本对话能力上已经远超前辈们了。

而且在聊天AI上经常踩坑的方面，设置了比较严格的边界，比如回答不了的问题就说不会、不会轻易做出判断、只提供知识信息。

但犯错还是不少，而且还可能只道歉不改正……

网友开的脑洞就更大了

毕竟咱们自己的脑洞有限，更多花活还得看广大网友们。

有人用ChatGPT做自己的鲁迅文学嘴替：

唱跳rap都不在话下，一首五环之歌的续写是酱婶儿的，脑袋里瞬间有声音了~

△图源：来自知乎@GordonLee（李国趸）

还有社恐网友惊喜地发现，对于自己这种不会说“套话”的人，以后很多场景都能用ChatGPT帮自己应付了。

△图源：来自Twitter@Tw93

不仅如此，ChatGPT写鸡汤也是一把好手，这味道简直和在家庭群看到的一模一样（doge）。

网友们更是直呼发现了新商机：AI文字+AI绘图，岂不是就能自动生成短视频鸡汤赚钱了。

△图源：来自即刻@少楠Plidezus

除此之外，ChatGPT还是个不折不扣的端水大师。

一旦让它回答一些比较性问题，它就会表示拒绝，并云里雾里说一堆，看似说了很多又好像什么都没说，废话文学属实是拿捏了。

甚至当你的问题自带“拉踩”时，ChatGPT还会义正严辞地纠正你：恕我直言，您的问题有些问题。

△图源：来自知乎@GordonLee（李国趸）

最重要的是，ChatGPT还有一个致命的bug：有些时候它生成的答案看上去跟真的一样，但仔细一推敲就破绽百出。

比如最近很多人都在用ChatGPT回答编程问答社区StackOverflow的问题，但由于缺乏专业知识没有核实，导致平台上出现了很多错误答案，搞得官方不得不出面制止这一行为。

除了编程这种硬伤，ChatGPT在某些方面对中文的理解好像也有些问题，生成了许多令人哭笑不得的回答。

好比有网友提问“如果你是贾宝玉，会娶谁当老婆”，万万没想到ChatGPT选择了贾母……

△图源：来自即刻@雨医生

而且如果让ChatGPT给自己讲个笑话，嗯，怎么说呢，笑果有点冷。

△图源：来自Twitter@海铂haiboxc.eth

为此，还有人帮刚入门的小伙伴总结了如何和ChatGPT聊天，以及怎么提问得到的答案效果更好的小技巧。

总结一下，包括问得越细表现越好、当它卡壳的时候说“继续”它就会继续、可以给它展示一些例子做示范、有时候它说不会但其实它会等等。

或者，还有一个好办法，问ChatGPT自己也行（doge），看来网友总结得还是很准的。

总体来说，ChatGPT确实惊艳四方，引得大家惊呼连连。包括很多实用技能上，如写论文、写报道、编程等，都超出了人们的想象。

由此也引发了不少人的担忧，觉得这下是不是又有人要应对失业危机了，尤其是在今年AI画画已经对设计圈造成了一点小影响的背景下。

知乎答主@郑楚杰也表示，今年最大的感受，就是通用领域的玩家下场搞垂直赛道真的是降维打击。

这也反映了以往对话领域的困境：令对话系统取得飞跃式进展的技术几乎都来自通用领域（大规模预训练、检索增强等），想搞真正有用的创新只能从数据层面入手。当数据的优势也失去后，便难有招架之力了。

想到了JasonWei大佬前阵子说过，做大模型能够带来很多全新的视角，就像GPT-3、PaLM已经是与BERT、GPT-2迥然不同的物种，就像OpenAI采用与过去不同的角度做了ChatGPT。反倒是入场早的老玩家容易思路闭塞和脱节（敲响警钟）但或许也不必引起过分的担忧，毕竟ChatGPT给出的回答深究来看，还是存在很多狗屁不通的情况。

这也是为啥StackOverFlow要暂时禁用ChatGPT，给出的回答实在错误率很高。

以及如果问问ChatGPT，它也表示自己没有人类的创造力啦。

OneMoreThing

就在昨天，OpenAI的首席执行官SamAltman刚刚宣布ChatGPT的用户已突破100万。

这惊人的数字让马斯克都忍不住好奇：OpenAI这得烧了多少钱？

按Altman单次对话平均成本几美分的说法，算下来也是笔不小的数字。

不过有业内人士认为OpenAI这波并不亏，“先给放个大玩具预热，又惊奇又有洞，然后GPT-4再放出来又大大超预期一把”，“利好出尽就是利空了”。

ChatGPT入口：https://openai.com/blog/chatgpt/

支持联网插件：https://github.com/qunash/chatgpt-advanced

知乎授权回答：[1]答主@GordonLee（李国趸）：https://www.zhihu.com/question/570189639/answer/2786883559[2]答主@郑楚杰：https://www.zhihu.com/question/570189639/answer/2785150663

微博博主@木遥推荐入门tipshttps://weibo.com/farmostwood?profile_ftype=1&is_all=1#1670231097069

参考链接：[1]https://m.okjike.com/originalPosts/638c6bb9c3f4e245defdec37?s=eyJ1IjoiNTg0YjM5NmQ1Y2MyMmMxMjAwODc5MGU5IiwiZCI6Nn0%3D&utm_source=wechat_session[2]https://www.zhihu.com/question/570189639/answer/2784897290[3]https://twitter.com/sama/status/1599668808285028353?

本文转载自：「量子位」，原文：https://url.hi-linux.com/iCRwZ，版权归原作者所有。欢迎投稿，投稿邮箱:editor@hi-linux.com。

最近，我们建立了一个技术交流微信群。目前群里已加入了不少行业内的大神，有兴趣的同学可以加入和我们一起交流技术，在「奇妙的Linux世界」公众号直接回复「加群」邀请你入群。

你可能还喜欢

点击下方图片即可阅读

如何使用Kubectl快速管理多个Kubernetes集群点击上方图片，『美团|饿了么』外卖红包天天免费领

更多有趣的互联网新鲜事，关注「奇妙的互联网」视频号全了解！

“特别能聊”的人工智能聊天机器人ChatGPT会聊出些什么

转自：工人日报

图片源于网络图文无关阅读提示

全新人工智能聊天机器人模型ChatGPT不仅能够通过学习人类的语言来进行对话，还能根据聊天的上下文进行互动，让人们更直观地感受到了人工智能的魅力。包括内容生成、搜索引擎增强等在内的领域，将是其潜在的产业化方向。ChatGPT的商业化落地，还需要克服技术和科技伦理等方面的问题。

家里要养一只猫，该如何给猫取名字？怎样写出一个纸牌游戏的代码？在不同语境中，词语“意思”到底有几个意思？这些五花八门、时常令人绞尽脑汁都难以得出答案的问题，在人工智能聊天机器人ChatGPT的面前，不过是瞬间便可迎刃而解的“一碟小菜”。

产品发布短短两个月，ChatGPT的日活量已突破千万，不少人“聊过”之后惊呼“这太像真正的人类了”。其超预期的表现引发越来越多的市场关注，人工智能生成内容（AIGC)概念由此走上风口。

人工智能聊天究竟能聊些啥？ChatGPT所代表的AIGC应用将带来哪些影响和变化？记者对此进行了调查采访。

“真正像人类一样聊天交流”

“我所热爱的是我真实的生活，因为它包含了我所有的经历和感受，是我每一天都在体验和思考的。”这句乍看上去充满了人类体悟和情感的话，实则出自人工智能聊天机器人ChatGPT。

图片源于网络图文无关随着ChatGPT大火，不少网友将它与自己的聊天记录分享到社交平台上，ChatGPT时而诙谐有趣，时而又显得思想深邃。除了各种聊天互动外，还有不少网友们将ChatGPT视为一种工具，让其写作文、翻译文章，甚至写代码。迅速的响应能力和较为靠谱的回答让大家直呼其“真正像人类一样聊天交流”“特别能聊”。

中国信息通信研究院联合中国人工智能产业发展联盟对ChatGPT进行的测试显示，ChatGPT在百科检索、数学问答、文学交流、常识问答、知识推理等对话任务上的意图识别率均达到98%左右，在生活闲聊上的意图识别率约为95%，已具备较好的语义理解能力。

实际上，ChatGPT属于生成式人工智能的一个典型应用。人工智能是怎样“进化”得如此智能的？“这是因为ChatGPT建立在大型语言模型上，会通过连接大量的语料库来训练模型。这些语料库包含了真实世界中的对话和各种网络公开信息，使ChatGPT知识丰富，还能根据上下文进行互动。”深度科技研究院院长张孝荣表示。

创新交互为AIGC带来新启发

随着人工智能技术的发展，近年来AIGC类型不断丰富、质量不断提升、技术的工程化水平越来越高，国内外科技公司纷纷发力布局AIGC领域。

以百度文心大模型为例，输入一个题目，它可以瞬间写出上百篇作文；根据一句话或者一段描述文本，可以生成一幅精美的画作；根据一幅图像，可以自动生成高清、流畅的视频。

图片源于网络图文无关在百度技术委员会主席吴华看来，ChatGPT在用户界面和交互上是一种比较创新的模式，用户更容易以自然语言的方式进行交互，这会给大家带来革新性的认识，也会给AIGC带来新的启发。

目前，国外一些公司在积极探索并落地ChatGPT的诸多应用场景，通过将ChatGPT整合进搜索引擎等方式提高服务智能化水平。有观点认为，ChatGPT将颠覆搜索行业，在智能客服、游戏、虚拟人等领域也将得到广泛应用。硅谷投资机构红杉预测，未来AIGC有潜力产生数万亿美元的经济价值。

根据中国信息通信研究院发布的《人工智能白皮书（2022年）》，“生成式人工智能”技术将广泛应用于智能写作、代码生成、有声阅读、新闻播报、语音导航、影像修复等领域，听说读写等能力的有机结合成为未来发展趋势。

“人工智能生成在诗歌、作曲、绘画等艺术创作方面大放异彩，在分子结构、软件代码等科研生产领域的应用不断拓展，还帮助降低临床试验的科研成本和缩短研发周期。”云计算与大数据研究所内容科技部副主任石霖表示，当前，人工智能生成内容的辐射范围还在扩大，未来有望重塑各行业领域的研发面貌。

商业化落地需克服技术和伦理问题

尽管各界对AIGC发展前景保持乐观，但从现状来看，ChatGPT等产品想要真正落地，还需要克服技术和科技伦理等方面的问题。

图片源于网络图文无关在对ChatGPT进行的种种评测中，ChatGPT会犯一些常识性错误，反映出其在可控性、准确率方面仍存不足。有人形容，ChatGPT像极了一个很能聊但有时候喜欢信口开河的人类朋友。

中国信息通信研究院评测结果同样显示，ChatGPT在非闲聊型对话的任务完成率上表现一般，难以摆脱传统深度学习模型普遍存在的知识整合和逻辑推理的问题。

“ChatGPT虽然能够较好地回答不少问题，但在一些略有深度的、专业性较强的领域，其答案往往‘捉襟见肘’。这说明ChatGPT语料库规模和计算能力的天然不足，也说明了算法依然需要完善。”张孝荣说。

在技术层面以外，人工智能还面临着悬而未决的科技伦理问题。张孝荣表示，ChatGPT在科技伦理方面至少面临三大挑战：“一是版权问题，ChatGPT生成的内容更多来自搬运，容易引发侵权；二是信息安全问题；三是社会缺乏接纳这一新生事物的准备机制，这对监管挑战很大。”

在国内，AIGC产业化路径同样有待探索。石霖介绍说，国内AIGC产业基础薄弱，相关初创公司数量明显少于国外。同时，国内企业目前仍处于打磨产品阶段，还未出现较为好用的内容生成服务。

（工人日报记者时斓娜）

海量资讯、精准解读，尽在新浪财经APP

什么是智能对话机器人 人工智能对话机器人是什么意思