博舍

SLAM+语音机器人DIY系列:(七)语音交互与自然语言处理——2机器人语音交互实现 智能机器人语音交互

SLAM+语音机器人DIY系列:(七)语音交互与自然语言处理——2机器人语音交互实现

摘要                          

这一章将进入机器人语音交互的学习,让机器人能跟人进行语音对话交流。这是一件很酷的事情,本章将涉及到语音识别、语音合成、自然语言处理方面的知识。本章内容:

1.语音交互相关技术

2.机器人语音交互实现

3.自然语言处理云计算引擎

2.机器人语音交互实现            

其实要自己做一款语音对话机器人还是很容易的,我们只需要选择好语音识别、语音合成、自然语言处理的技术,就可以在一款树莓派3开发板上实现了。由于语音交互系统的核心技术是云端自然语言处理技术,所以我们可以选择网上免费提供的语音识别、语音合成等现有方案,将主要精力用在云端自然语言处理技术的研发上。语音识别与语音合成SDK有:科大讯飞、百度语音、Google…,对于我们墙内玩家…(Google头疼)。经过我自己的实测,发现比较好用的免费SDK是科大讯飞家的,所以强烈推荐。为了测试方便,我先推荐图灵机器人API作为云端自然语言处理技术。等大家将整个语音交互系统的工作原理学会后,随时可以将图灵机器人API替换成自己的云端服务器,从而将主要精力转移到云端自然语言处理技术的研发上。说了这么多,我们先来看看咱们的机器人语音交互软硬件实现的真容吧,如图5。

(图5)机器人语音交互软硬件实现

USB麦克风拾取声音,USB声卡和音响播放声音,树莓派3开发板上运行语音识别、语音合成、QA及NLP请求。其中,语音识别和语音合成采用科大讯飞的SDK,QA及NLP请求调用图灵机器人的API接口。

这里特别说明一下,为什么选用USB声卡而不用树莓派自带AV声卡的原因。你可以直接将耳机插口插入树莓派的AV接口试试,肯定很酸爽!杂音太大。这里就需要硬件支持。杂音原因:因为树莓派3的AV接口是音频和视频合并输出的,这个接口是美标接口,而在中国是国标的,接口的接地和音频是相反的,这就导致根本不能用了。另外对播放器的支持并不完善。

2.1.获取科大讯飞的SDK                          

科大讯飞提供用于研究用途的语音识别、语音合成的免费SDK,科大讯飞分发该SDK的形式是库文件(libmsc.so)+库授权码(APPID),库文件libmsc.so与库授权码APPID是绑定在一起的,这也是大多说商业软件分发的方式。

注册科大讯飞账号:

首先,前往讯飞开放平台(https://www.xfyun.cn),注册科大讯飞账号,注册好后,就可以进入自己的控制台进行设置了,如图6。

(图6)注册科大讯飞账号及登录

创建应用:

我们要在科大讯飞的开放平台创建我们需要的应用,这样讯飞就根据应用类型给我们生成对应的SDK库。

进入讯飞开放平台的控制台后,找到左侧栏的[创建应用],按要求填写各个选项,注意[应用平台]一栏填Linux,因为我们用的树莓派3开发板装的是Linux系统,如图7。

(图7)创建应用

创建应用完成后,就要给该应用添加相应的AI技能了,由于我们需要讯飞的在线语音合成、在线语音识别(也就是语音听写),所以添加这两个服务就行了。如图8。

(图8)添加语音合成与识别服务

申请树莓派3平台对应的LinuxSDK库:

由于科大讯飞开放平台默认只提供PC端x86架构的Linux库,所以如果我们想在树莓派3(树莓派3为ARM架构)上使用科大讯飞的LinuxSDK库,就需要另外申请。其实申请方法也很简单,进入科大讯飞中我的语音云页面:

http://www.xfyun.cn/index.php/mycloud/app/linuxCrossCompile

进行树莓派Linux平台库文件交叉编译申请,选择应用(必须是linux平台的应用),按照默认勾选全部在线服务,平台架构ARM硬件型号BroadcomBCM2837(树莓派3代b型,即树莓派3的SOC,其余版本树莓派,树莓派2为BroadcomBCM2836,更早的版本为BroadcomBCM2835),处理器位数32,运行内存填了1GB。最后记得填上自己的邮箱,提交后,如填写无误正确,你的邮箱将收到可下载库的链接,下载解压后得到libmsc.so,这个库文件就是我们申请的树莓派3平台对应的LinuxSDK库了。如图9。关于交叉编译器和编译脚本,从这里http://pan.baidu.com/s/1pLFPTYr下载,具体交叉可以参考这一篇

http://bbs.xfyun.cn/forum.php?mod=viewthread&tid=32028&highlight=

(图9)申请树莓派3平台对应的LinuxSDK库

关于这个库文件对应的库授权码APPID,可以在[我的应用]界面查看,如图10。

(图10)查看库文件对应的库授权码APPID

2.2.编译安装讯飞语音交互实例ROS版DEMO

利用科大讯飞提供的SDK库文件和官方API说明文档,我们就可以开发出自己的语音交互实例程序,当然也可以开发对应的ROS程序。在我们的miiboo机器人上开发的语音交互ROS功能包叫miiboo_asr。miiboo_asr功能包文件组织结构,如图11。其中lib文件夹下存放科大讯飞提供的libmsc.so库文件,iat.cpp是语音识别节点源文件,tts.cpp是语音合成节点源文件,qa_nlp.cpp是QA&NLP逻辑处理节点源文件,其他的文件我们可以不用关心。

(图11)miiboo_asr功能包文件组织结构

了解了miiboo_asr功能包的基本情况后,我们就开始编译安装吧。首先,将miiboo_asr包拷贝到~/catkin_ws_apps/src/目录下。然后将上面申请到的树莓派3平台对应的LinuxSDK库libmsc.so文件拷贝到miiboo_asr/lib/中,并将miiboo_asr/CMakeLists.txt文件中有关libmsc.so的路径替换为你存放该libmsc.so的实际路径。如图12。

(图12)CMakeLists.txt文件中有关libmsc.so的路径修改

接着我们需要将miiboo_asr/launch/xf.launch文件中的各个appid、声卡硬件地址、麦克风硬件地址设置成自己实际的值。关于与libmsc.so库绑定的appid上面已经介绍了查看方法,而声卡硬件地址、麦克风硬件地址的查询也很简单。

麦克风硬件地址的查询直接使用命令arecord-l,如图13。

 

(图13)麦克风硬件地址的查询

在这里麦克风录制设备处于卡1,设备0,于是我们的麦克风硬件地址就是“plughw::CameraB409241”。

声卡硬件地址的查询直接使用命令aplay-l,如图14。

 

(图14)声卡硬件地址的查询

在这里声卡播放设备有三个,卡0中的设备0为3.5音频输出,卡0设备1为HDMI音频输出,卡2设备0为USB声卡输出。这里我推荐使用USB声卡输出,所以我们的声卡硬件地址就是“plughw:DAC”。

在编译miiboo_asr前,我们还需要安装一些依赖项,其实就是麦克风录音和音乐播放工具,安装命令如下:

sudoapt-getupdatesudoapt-getinstalllibasound2-devsudoapt-getinstallmplayer

现在可以编译miiboo_asr了,编译命令如下:

cd~/catkin_ws_apps/catkin_make-DCATKIN_WHITELIST_PACKAGES=”miiboo_asr”

编译完成后,就可以运行语音交互节点来实现语音对话了,温馨提醒,请确保树莓派已连接网络,因为语音交互节点运行时需要访问网络。启动语音交互各个节点很简单,直接一条命令:

roslaunchmiiboo_asrxf.launch

节点都运行起来后,会听到欢迎语句“你好,欢迎使用miiboo机器人语音控制系统”,之后就可以对着麦克风说出自己的指令,经语音识别被转换为文本,文本经图灵机器人得到应答,并通过语音合成使我们能听到回答的声音。这样一个语音交互的聊天机器人就诞生了,尽情享受和机器人聊天的乐趣吧^_^

这里说明一下,如果你使用我们的miiboo机器人,那么miiboo机器人上已经安装编译好了miiboo_asr功能包,所以只需要上面roslaunchmiiboo_asrxf.launch这条启动命令,就可以开始机器人聊天之旅。但是,miiboo机器人上安装的miiboo_asr功能包的libmsc.so的访问次数和频率是有限制的,只能供学习使用。如果大家需要将miiboo_asr功能包用来二次开发或实际应用,就需要按照上面的步骤去科大讯飞官网申请自己的SDK库了。

后记                           

------SLAM+语音机器人DIY系列【目录】快速导览------

第1章:Linux基础

1.Linux简介

2.安装Linux发行版ubuntu系统

3.Linux命令行基础操作

第2章:ROS入门

1.ROS是什么

2.ROS系统整体架构

3.在ubuntu16.04中安装ROSkinetic

4.如何编写ROS的第一个程序hello_world

5.编写简单的消息发布器和订阅器

6.编写简单的service和client

7.理解tf的原理

8.理解roslaunch在大型项目中的作用

9.熟练使用rviz

10.在实际机器人上运行ROS高级功能预览

第3章:感知与大脑

1.ydlidar-x4激光雷达

2.带自校准九轴数据融合IMU惯性传感器

3.轮式里程计与运动控制

4.音响麦克风与摄像头

5.机器人大脑嵌入式主板性能对比

6.做一个能走路和对话的机器人

第4章:差分底盘设计

1.stm32主控硬件设计

2.stm32主控软件设计

3.底盘通信协议

4.底盘ROS驱动开发

5.底盘PID控制参数整定

6.底盘里程计标

第5章:树莓派3开发环境搭建

1.安装系统ubuntu_mate_16.04

2.安装ros-kinetic

3.装机后一些实用软件安装和系统设置

4.PC端与robot端ROS网络通信

5.Android手机端与robot端ROS网络通信

6.树莓派USB与tty串口号绑定

7.开机自启动ROS节点

第6章:SLAM建图与自主避障导航

1.在机器人上使用传感器

2.google-cartographer机器人SLAM建图

3.ros-navigation机器人自主避障导航

4.多目标点导航及任务调度

5.机器人巡航与现场监控

第7章:语音交互与自然语言处理

1.语音交互相关技术

2.机器人语音交互实现

3.自然语言处理云计算引擎

第8章:高阶拓展

1.miiboo机器人安卓手机APP开发

2.centos7下部署Django(nginx+uwsgi+django+python3)

----------------文章将持续更新,敬请关注-----------------

 

 参考文献

[1]张虎,机器人SLAM导航核心技术与实战[M].机械工业出版社,2022.

购书链接:https://item.jd.com/13041503.html

下载更多资料:www.xiihoo.com

GitHub源码:https://github.com/xiihoo/Books_Robot_SLAM_Navigation

Gitee源码(国内访问速度快):https://gitee.com/xiihoo-robot/Books_Robot_SLAM_Navigation

知乎教程:https://www.zhihu.com/people/hiram_zhang

视频教程:https://space.bilibili.com/66815220

邮箱:robot4xiihoo@163.com

QQ群:117698356

 

一文看懂智能语音交互产业链及关键技术

1、人工智能机器人厂商

主要包括小i机器人等智能机器人厂商,以及清华、中科院等人工智能技术研究院校和科研院所。

2、人机交互技术或渠道提供商

包括Nuance、科大讯飞、捷通华声、车音网等语音技术提供商,以及短信(移动、电信、联通)、QQ、MSN等服务提供商。

3、基础平台支撑和关联技术提供商

包括IDC、云计算平台、数据挖掘等技术提供商。

二、知识库提供

主要是指数据和内容提供商,包括影视(百事通、优酷、土豆、奇异、华数等)、电影票(格瓦拉等)、音乐、餐饮(大众点评、订餐小秘书)、股票(新浪财经、东方财富网等)、天气(问天网)、航班(携程、去哪儿)、旅游(携程、驴妈妈)、导航(高德、凯立德等)、政府、行业知识库等。

三、应用、服务

1、智能电视提供商

包括长虹、创维等智能电视提供商、机顶盒提供商,以及东方有线、百事通、中国电信IPTV以及机顶盒生产厂商、服务运营商等,也可以包括费通、盛付通等支付渠道商。

2、智能车载设备提供商

包括各车厂、汽车安全信息服务提供商(如安吉星等)、车载信息服务提供商(如高德、凯立德等)等。

3、电话呼叫中心

包括移动、电信、联通各运营商,以及以金融为代表的大型现代服务企业,还有面向中小型企业的综合服务平台等。

4、智能移动终端厂商

包括以华为、联想、盛大、中兴等为代表的智能移动终端厂商。

5、智能家居厂商

包括以海尔、典众智能为代表的智能家居厂商。

智能语音人机交互产业竞争格局

随着人机交互技术对语音技术的强烈需求,除了传统的智能机器人厂商以外,语音技术提供商和传统的搜索厂商也纷纷推出自己的产品,进入智能语音人机交互行列,形成了智能机器人厂商、语音技术提供商、传统搜索厂商和移动客户端开发者四大阵营,产业竞争进一步加剧。

一、智能机器人厂商

智能机器人厂商是目前主要的智能交互技术提供商,是智能交互产业的重要组成部分。Gartner报告指出,截止2011年初,全球大约有36家智能客服系统服务商。如美国加州的eGain,主要为客户提供“云计算”交互中心方案或内部部署,客户超过上百家,遍及电信、金融、零售、公共事业、政府、制造、媒体、电子商务、旅游、汽车、外包、科技以及服务等行业。瑞典的ArtificialSolutions定位于为企业和政府机构开发客服机器人,他们已经成功的为欧洲近几十个政府部门提供客服机器人,从而减轻人工工作压力。

智能客服机器人在国内的发展应用于近几年呈现出了快速增长的势头,其中有代表性的是小i机器人推出的智能客服机器人系列产品。

二、语音技术提供商

语音技术提供商纷纷借助这次智能语音人机交互产业发展高潮,不断推出相关产品,提升自己提供智能机器人解决方案的能力。Nuance除了在北美市场拥有自己类似的解决方案Dragongo!,也在亚洲市场和一些当地合作伙伴合作,共推解决方案。国内语音技术引领者科大讯飞也推出了讯飞语点这样的产品。但语音厂商推出的智能机器人有明显的语音技术的痕迹,主要是命令格式的识别,而自然语言处理和智能交互性存在一定的不足。

三、搜索厂商

虽然Siri也整合多家搜索引擎,但在很多情况下,是直接给了用户答案,这种方式的易用性和效率以及用户体验远比传统的搜索引擎要强,也是对传统搜索的挑战。因此国际搜索巨头谷歌,以及国内的搜索公司百度、搜搜、搜狗等都在准备智能语音人机交互产品,提升自我竞争力。谷歌发布GoogleNow,能自动从互联网寻找知识,能回答的内容甚至比Siri更多。

四、移动客户端开发者

Siri出现和移动互联网的空前繁荣,引来的无数移动客户端开发者开发智能语音人机交互相关的应用。他们采用第三方免费的语音识别服务(如讯飞语音云和谷歌语音搜索等),用简单的关键词匹配或全文检索引擎实现文本交互功能,做了大量的控件在客户端上展示信息,整合了一些诸如指南针的实用小功能等。

智能语音人机交互关键技术分析

基于语音的智能人机交互是当前人机交互技术的主要表现形式,语音人机交互过程包括信息输入和输出的交互、语音处理、语义分析、智能逻辑处理以及知识和内容的整合。

图2智能语音人机交互过程

结合语音人机交互过程,可以看出智能语音人机交互关键技术主要如下:

(一)自然语言处理

包括中文分词、词性标注、实体识别、句法分析、自动文本分类等技术。

(二)语义分析和理解

包括知识表示、本体理论、分领域的语义网络、机器推理等。

(三)知识构建和学习体系

包括搜索技术、网络爬虫、数据挖掘、知识获取、机器学习等技术。

(四)语音技术

包括语音识别、语音合成和声纹识别等。

(五)整合通信技术

包括跨平台即时通讯整合技术、超大负载消息集群处理技术、移动客户端开发技术。

(六)云计算基础技术

包括海量数据分布式存储、统计和分析技术。

智能语音人机交互技术在典型行业的应用

语音交互方式替代文本交互方式,可以增强信息输入方式,能和更多的设备进行整合,市场前景广阔。目前,智能语音人机交互技术已经广泛应用到智能客服、智能终端等领域,切实深入到人们的生活。

1、智能客服

智能客服是以自然语言处理和智能人机交互等多种人工智能技术为基础,通过即时通讯、网页、短信等形式,以拟人化方式与用户进行实时交互的软件系统,能够实现智能客服咨询和产品营销推广等功能。如果在智能客服的交互前端接入经过领域语料训练的语音识别能力,智能客服机器人就可以顺利的接入到目前的电话呼叫中心。

传统的客户服务中心以电话呼叫中心为主,并且很多大型服务企业在不断拓展更为经济高效的电子渠道,如网上在线客服、短信、智能手机应用等。而以领域客户化知识库建设为核心工作,并通过文本或语音等方式交互的智能客服系统则可以有效地和多渠道的客户服务中心做整合。在大幅缩减客服成本的同时,能够有效减少人工成本,增强用户体验,从而提升服务的质量和企业创新的品牌形象。

图3客服系统技术和产业化路径

国外的智能客服系统市场发展较早,信息系统发展相对完善(尤其是CRM系统),人工服务的成本较高,促使企业有较大的动力采用智能客服系统,智能客服技术提供商和客户较多。

而在国内,由于企业的信息系统发展相对滞后,人力成本相对较低,企业采用智能客服系统的动力严重不足。近几年,随着大家对智能客服的认知的提高,对新技术采用相对比较积极的电信运营商、金融领域已有多家采用了智能客服系统。

随着人们对智能客服系统服务价值的认知度的提高,以及交互习惯的形成,智能客服系统的社会价值和经济价值将会进一步显现。以中国移动的客服机器人测算,目前移动集团在全国的人工客服坐席以10万计,一个坐席一年的运营平均成本为10万,采用智能客服可以节约20%的开销,仅移动行业一年就可以节约成本20亿。据Gartner预计,到2013年全球1000强公司中至少有15%会采用智能客服系统来提高服务水平。

2、智能终端

以智能手机、平板电脑、智能电视、智能车载为代表的智能终端是智能语音人机交互技术最广泛的应用。在苹果Siri的带动下,包括Android、WP以及采用这些操作系统的平板电脑,都有采用类似Siri的智能应用的强烈需求。谷歌预计目前大约有25%的Android设备通过语音进行搜索。Datamonitor预计到2014年语音识别系统在全球移动终端市场的份额将达到2009年的3倍,移动终端有望成为智能语音技术的一个快速增长市场。

在智能手机领域,随着苹果Siri的推出,三星、LG等一些国际手机厂商,也借助Nuance的DragonDictation接入了不错的语音识别能力。

表1国内外主要语音产品一览

产品公司名称应用终端语音技术提供商应用平台siri苹果智能手机、平板电脑、车载纽昂斯iOSVoiceAction谷歌智能手机、平板电脑、智能电视谷歌Android、iOS、winDragon纽昂斯智能手机、平板电脑、智能电视、车载纽昂斯iOSVlingoVlingo智能手机、平板电脑、智能电视、车载VlingoAndroid、iOS讯飞语点科大讯飞智能手机、平板电脑科大讯飞Android、iOS智能360上海聚熵智能手机、平板电脑智能手机、平板电脑Android百度语音助手百度智能手机捷通华声、百度Android、iOS搜狗语音助手搜狗智能手机捷通华声、云知声、科大讯飞Android、iOS快说语音助手快说网络智能手机捷通华声、云知声、科大讯飞Android小智TCL智能电视科大讯飞Android、winAppLink福特车载纽昂斯AndroidiVoka上汽车载科大讯飞AndroidCiri长虹智能电视科大讯飞Android

数据来源:工业和信息化部电子科学技术情报研究所

在智能电视领域,创维、长虹、康佳、TCL、联想、海信等等纷纷推出具有语音功能的智能电视。全新的语音技术也让电视屏幕菜单变得互动(如菜单、频道/音量调节、节目表)、智能操控变得更加有趣、生动和富有情感,真正意义上拉近了电视机与用户之间的距离。

语音技术的发展,为人机交互产业发展带来了新的跨越,极大的增加了人机交互的便捷性,为移动互联网、家电等行业发展带来新的契机。展望未来,随着语音技术和人机交互技术的逐渐成熟,以及高速无线网络(3G/4G/Wifi)、云计算、物联网以及移动互联网等基础技术的发展,以语音为主的人机交互技术的应用将会越来越广泛,并逐渐渗入到人们生活的方方面面。

来源:工业和信息化部电子科学技术情报研究所返回搜狐,查看更多

智能语音机器人底层系统设计逻辑

编辑导语:未来最大的交互,不是现在的人机交互,而是人与人工智能的交互。人工智能行业现今取得了不少的成就,也逐渐进入了千万家庭,陪伴在了很多人的身边,其中就包括智能语音机器人。本文笔者将以智能客服领域为出发点,结合自己的工作实践进行详细分析。

3月4日,中共中央政治局常务委员会召开会议,指出要加快推进包括5G网络、人工智能、数据中心等新型基础设施建设进度。

结合此前人工智能赋能技术在疫情防控中发挥的重要作用,加上新基建政策,可以预见的是未来人工智能必将迎来新一轮的发展。

据艾瑞网发布的《2019年中国人工智能产业研究报告》中显示,到2022年中国智能客服业务规模将突破160亿元,泛智能客服市场将突破600亿,也预示着这一领域依然拥有广阔的市场空间。

本篇笔者将着重就智能客服这一应用较为成熟的领域,结合自己的工作实践进行详细分析。

一、智能客服背景

智能语音客服机器人是在传统的客服系统基础上,集成了语音识别、语义理解、知识图谱、深度学习等多项智能交互技术,能准确理解用户的意图或提问,再根据丰富的内容和海量知识图谱,给予用户满意的回答,目前已广泛应用于金融、保险、汽车、房产、电商、政府等多个领域。

对比于传统客服,智能客服具有为企业降本增效,提升商机转化率,提升用户体验、更加方便简洁、移动性及时性社交性能一体化的优点。

智能客服机器人应用场景十分丰富,

从交互模式上来看:可以分为文本客服机器人、语音客服机器人两大类;从场景和功能类型来看:又可分为问答机器人、任务机器人、闲聊机器人三大类。

那么语音外呼机器人这个形态的产品在实际场景中如何应用的呢?

下面我会从语音外呼机器人工作流程、外呼系统搭建、应用案例,应用重难点等4个模块来做详细阐述。

二、智能外呼机器人工作流程

AI外呼机器人是集合了自动拨打电话、多轮语音交互、客户意向智能分级、外呼任务自定义等多功能于一体智能语音对话机器人。

以下是一个基本的智能外呼机器人工作流程:

如上图所示,一个完整的智能外呼流程(不涉及转人工)包含了四个环节,各环节会由外呼系统整体串联起来进行运作:

用户接听:外呼工作流程的开始,外呼系统需识别用户接听信号。客户机器人响应:这一环节关键在策略输出,外呼系统需根据用户应答,识别用户意图或动作,根据机器人预设任务流和策略给出响应话术。用户应答/动作:这一模块主要在外呼系统需对用户的意图和动作进行精准识别,做用户状态记录,以便一下步策略的实施。用户/客服机器人挂机:当机器人走完任务流会主动挂断,或用户提前自主挂断,外呼工作流结束。三、外呼系统设计

以上工作流的实现依赖于外呼系统同时涉及多方技术,下面整体来介绍下外呼系统的底层架构。

上图为笔者结合所学及所做机器人的实际业务逻辑梳理的呼叫系统架构,如图,整体上语音外呼系统可分为五大模块:

1.通讯管理模块

由通讯线路和FreeSwitch电话系统构成,通过SIP和RTP协议,实现进行各种信令和语音流的传输。其中,通讯线路包括三大运营商、各家集成线路商,用于提供线路资源将电话拨打出去。

电话系统采用的是开源的FreeSwitch,主要用于处理外呼请求和传输SIP信令和语音流。

2.语音模块

负责语音相关操作,包括语音识别(ASR)、语音合成(TTS)、录音播放等。

其中ASR和TTS这块,目前一般采用阿里云、科大讯飞等技术较为成熟的供应商服务,主要通过接口形式对接使用。

3.中控模块

主要任务是实现与其他模块之间的通信互联,负责将ASR识别后的文本传输给机器人模块,将机器人模块的指令策略转化为电话系统的执行指令,并将数据同步至Saas后台(中控模块命名各家公司都有所不同)。

4.后台管理模块

负责机器人外呼任务的发起和相关业务操作,主要包括外呼任务的创建,通话流水查询,客户管理,数据统计等功能。

5.机器人管理模块

此为整个外呼流程中的核心AI模块,通过自然语言处理(NLP)和对话管理(DM),进行用户意图理解,对话状态追踪,机器人应答策略匹配等,实现人机对话交互。

关于NLP和DM模块比较复杂,笔者将会在下一篇文章中单独对任务机器人对话系统的设计做详细阐述,这里就不过多补充了。

四、应用案例

下面以58同城二手车回访的业务场景,具体分析下外呼机器人是如何通过外呼系统进行作业的,外呼系统各模块间又是如何耦合实现业务需求的。

1.对话管理设计

正常情况下,外呼业务场景一旦确定,产品需先梳理出任务场景的主干流程,选定深度意图,设置匹配QA,设置槽位,准备话术,设计对话状态追踪,设计对话策略等一系列工作。

这里的对话管理的设计配置,涉及到外呼系统里机器人管理模块。

如:上图对话框中机器人话术均为事先根据二手车回访业务提前设计好的主干话术。

2.外呼任务创建

对话管理模块配置完善后,业务人员可在Saas后台创建外呼名单,通讯管理模块接受任务指令,拉取话单进行电话外呼。

3.拨打流程

拨打流程涉及模块较多,主要包括通讯管理模块,语音模块,中控模块,机器人管理模块。

运营商的通信线路根据业务人员创建的外呼任务,开始逐个拨打用户电话;用户接通电话后,开始进入对话处理循环流程;通讯管理模块的FS将用户语音流传输给语音模块进行ASR识别为文本信息,然后将动作/文本信息一起输送到中控模块;中控模块将用户文本/动作信息推送至机器人模块,并将机器人返回的策略指令转化成电话系统的执行指令;电话系统结合语音模块,进行语音合成后,执行话术播放或转人工、挂机等机器人动作策略,随后开始新一轮对话循环处理流程;机器人/用户挂机后,中控模块将相关录音文件、系统信息,状态信息等数据进行存储并同步至管理后台。五、智能外呼机器人应用重难点

我们考虑一个外呼机器人的外呼质量会从两方面去看,一个是能保证外呼流程的通畅性,另一个是保证外呼任务的完成率。

决定机器人外呼质量的影响因素有很多,笔者从产品的角度去理解,除去目标客户的精准度、客户接听电话的环境、客户状态等非可控因素外,主要还受限于以下几个方面:

1.电话线路的稳定性

在呼叫失败的原因中,很大部分是由于供应商提供的线路不稳定。

关于这一点的问题规避,更多的还是申请基础运营商的线路或寻找到正规渠道的认证供应商,以保证线路质量。

2.FreeSwitch的并发量

FreeSwitch的具体性能根据实际使用环境差异较大,如果因前期预估不足,设置的FS并发量过低,超过并发则会出现呼叫异常或语音卡顿等现象。

应从系统的实际业务需求去考虑并发数,保证FS的性能稳定。

3.ASR识别准确率

虽然目前很多供应商标明的语音识别率都达到了97%甚至98%,但此指标对环境的要求较高。

而实际环境在噪音较大,口音,语言混合等场景下,ASR识别准确率均有一定程度的下降。

4.语义理解

在对话机器人中语言理解(NLU)模块主要包括意图识别和槽位识别,这两点直接影响语义理解的效果。

语音场景下,经常出现用户回复单语气词的情况,如“嗯”,“啊”等,或语音特有意图,如“大点声”,“说快点”,要求“重说”等,在意图设计时需考虑到此类特殊场,以及其应答策略。

前面提到的ASR识别错误会导致语义理解部分受影响,目前可采用加入多模态学习的优化方案,同时融合音频特征,纠正语音识别结果,此方案经验证对意图识别模块准确率会有近2%的提升。

5.对话管理模块设计合理性

机器人对话管理模块设计的合理性,直接决定了整个呼叫任务流程的体验感和完成率。

对话管理模块的重点在于对话状态追踪(DST)和对话策略设计(DPL)的合理性,如:打断、无声等语音特有场景,如何在提升用户体验的同时确保外呼任务流的正常正常进行。

6.话术设计的合理性

话术设计也是语音任务机器人设计中非常重要的一个部分,为提升用户的体验。

话术设计可遵循以下几个原则:

话术设计更贴合应用场景;主干话术设计精简有吸引力;话术拟人化;不同状态下话术变化。六、结语

目前,随着AI技术的不断进步,市场需求的进一步扩大,智能语音机器人在实际应用场景中的表现也越来越好,逐渐能胜任更多的业务工作。

不过其难点仍然存在,期待未来在更多AI技术的赋能下,智能客服机器人能力有更大程度的提升,能让我们在生活中体验到更贴心智能的机器人服务。

以上内容基于笔者结合学习和工作实践的思考,若有理解不到位之处,还望大家指正,更希望通过这篇文章能与各位多多交流。

参考资料:

IDC《中国人工智能市场软件及应用半年度研究报告(2019H2)》艾瑞网《2019年中国人工智能产业研究报告》58同城《智能语音机器人助力企业提效增收》

 

本文由@岑为原创发布于人人都是产品经理,未经许可,禁止转载

题图来自Unsplash,基于CC0协议

版权声明:本文内容由互联网用户自发贡献,该文观点仅代表作者本人。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如发现本站有涉嫌抄袭侵权/违法违规的内容,一经查实,本站将立刻删除。

上一篇

下一篇