博舍

如何评测一个智能对话系统(一) 智能对话产品

如何评测一个智能对话系统(一)

智能对话评测的考量条件对话情境-上下文内容

在对话系统中,回答内容的好坏与上文的内容有着直接的关联,在评价回答内容的时候,最主要的一个限制条件就是上文问题的内容。在评判一个对话系统生成答案好与坏的时候,测试者需要结合上文的内容才能对答案作出比较公正和正确的判断。这当中不仅需要判断当前对话内容的质量,还涉及到对话所表达内容逻辑的一致性与情感的合理性。上下文内容对于多轮对话的生成起着至关重要的影响。一组对话内容被放在不同的对话情境下会表现出皆然不同的效果。因此,在对一组对话内容进行评测时,有必要充分理解其所在的对话情境。

对话场景–机器人扮演的角色

在不同的应用场景下,对话系统需要扮演不同的角色以实现用户特定的需求和意愿。目前比较主流的应用场景包括家庭场景,早教场景,客服场景和车载场景。一个特定的场景下的对话内容,总是包含特定的术语或套路,以及相关领域的知识库或知识图谱。这一类的对话往往可以返回一些约定俗成的回答或解决方案。在对对话系统进行判定之前,测试人需要通过想象力将自己置身于该场景中。理解对话系统所尝试扮演的角色,能够帮助我们更加客观的对其进行评测。

对话目的–话题与意图

在现实生活中,人与人的自然语言对话可分为两大类,即有目的的对话和无目的的对话。有目的的对话可以根据提问者或主动发起对话者来引导当前对话的目的。在对话结束时,我们可以通过判断目是否达成而判断对话的质量。然而,在实际对话过程中,对话的目的并不总是能够被清晰的定义。在对话评测时,我们不能只关心有明确目的的对话,而忽略无目的的对话。在无目的的对话内容中依然会有信息的传递,和情感的交互。因此,无论对话内容是否有明确的话题和意图,我们都应该关注其传达的信息和情感。

对话系统的评测目标

这些对话系统通用的考量条件,就是我们评判一个智能对话系统的先觉条件。当明确了评判条件以后,我们就能给一组好的对话内容进行定义,以此来对一个智能对话系统进行评测。

首先好的对话内容应该是符合语义情境的,上下文内容应该是紧密关联的,并且是逻辑自洽的。接下来,好的对话内容应该可以满足特定的应用场景,对话的内容表达是清晰明确的,同时切合用户期待的。最后,无论话题是开放领域还是垂直领域的,无论意图是达成还是未达成,好的对话内容都应该是具备的信息和情感的。

总结

至此,我们把如何评价一个智能对话系统的问题转化如何定义一个好的智能对话系统,并通过实际对话类产品在真实场景中的应用情况,归纳出对话评测系统的考量条件与标准尺度。有了明确的尺度,智能对话评测的具体任务设计也就变得有章可循了。

一般来说,对话评估的工作主要从两个方面进行处理:自动评估和人工评估。我将在下一篇文章中介绍当前主流的自动机器对话评测任务,和人工标注方法。我将分析这些任务和方法的不足之处,并阐述我自己是如何结合自动评测与人工标注来设计智能对话评测方法的。

本文由@单师傅原创发布于人人都是产品经理,未经许可,禁止转载

题图来自Unsplash,基于CC0协议返回搜狐,查看更多

版权声明:本文内容由互联网用户自发贡献,该文观点仅代表作者本人。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如发现本站有涉嫌抄袭侵权/违法违规的内容,一经查实,本站将立刻删除。

上一篇

下一篇