SLAM+语音机器人DIY系列:(七)语音交互与自然语言处理——2机器人语音交互实现
摘要这一章将进入机器人语音交互的学习,让机器人能跟人进行语音对话交流。这是一件很酷的事情,本章将涉及到语音识别、语音合成、自然语言处理方面的知识。本章内容:
1.语音交互相关技术
2.机器人语音交互实现
3.自然语言处理云计算引擎
2.机器人语音交互实现其实要自己做一款语音对话机器人还是很容易的,我们只需要选择好语音识别、语音合成、自然语言处理的技术,就可以在一款树莓派3开发板上实现了。由于语音交互系统的核心技术是云端自然语言处理技术,所以我们可以选择网上免费提供的语音识别、语音合成等现有方案,将主要精力用在云端自然语言处理技术的研发上。语音识别与语音合成SDK有:科大讯飞、百度语音、Google…,对于我们墙内玩家…(Google头疼)。经过我自己的实测,发现比较好用的免费SDK是科大讯飞家的,所以强烈推荐。为了测试方便,我先推荐图灵机器人API作为云端自然语言处理技术。等大家将整个语音交互系统的工作原理学会后,随时可以将图灵机器人API替换成自己的云端服务器,从而将主要精力转移到云端自然语言处理技术的研发上。说了这么多,我们先来看看咱们的机器人语音交互软硬件实现的真容吧,如图5。
(图5)机器人语音交互软硬件实现
USB麦克风拾取声音,USB声卡和音响播放声音,树莓派3开发板上运行语音识别、语音合成、QA及NLP请求。其中,语音识别和语音合成采用科大讯飞的SDK,QA及NLP请求调用图灵机器人的API接口。
这里特别说明一下,为什么选用USB声卡而不用树莓派自带AV声卡的原因。你可以直接将耳机插口插入树莓派的AV接口试试,肯定很酸爽!杂音太大。这里就需要硬件支持。杂音原因:因为树莓派3的AV接口是音频和视频合并输出的,这个接口是美标接口,而在中国是国标的,接口的接地和音频是相反的,这就导致根本不能用了。另外对播放器的支持并不完善。
2.1.获取科大讯飞的SDK科大讯飞提供用于研究用途的语音识别、语音合成的免费SDK,科大讯飞分发该SDK的形式是库文件(libmsc.so)+库授权码(APPID),库文件libmsc.so与库授权码APPID是绑定在一起的,这也是大多说商业软件分发的方式。
注册科大讯飞账号:
首先,前往讯飞开放平台(https://www.xfyun.cn),注册科大讯飞账号,注册好后,就可以进入自己的控制台进行设置了,如图6。
(图6)注册科大讯飞账号及登录
创建应用:
我们要在科大讯飞的开放平台创建我们需要的应用,这样讯飞就根据应用类型给我们生成对应的SDK库。
进入讯飞开放平台的控制台后,找到左侧栏的[创建应用],按要求填写各个选项,注意[应用平台]一栏填Linux,因为我们用的树莓派3开发板装的是Linux系统,如图7。
(图7)创建应用
创建应用完成后,就要给该应用添加相应的AI技能了,由于我们需要讯飞的在线语音合成、在线语音识别(也就是语音听写),所以添加这两个服务就行了。如图8。
(图8)添加语音合成与识别服务
申请树莓派3平台对应的LinuxSDK库:
由于科大讯飞开放平台默认只提供PC端x86架构的Linux库,所以如果我们想在树莓派3(树莓派3为ARM架构)上使用科大讯飞的LinuxSDK库,就需要另外申请。其实申请方法也很简单,进入科大讯飞中我的语音云页面:
http://www.xfyun.cn/index.php/mycloud/app/linuxCrossCompile
进行树莓派Linux平台库文件交叉编译申请,选择应用(必须是linux平台的应用),按照默认勾选全部在线服务,平台架构ARM硬件型号BroadcomBCM2837(树莓派3代b型,即树莓派3的SOC,其余版本树莓派,树莓派2为BroadcomBCM2836,更早的版本为BroadcomBCM2835),处理器位数32,运行内存填了1GB。最后记得填上自己的邮箱,提交后,如填写无误正确,你的邮箱将收到可下载库的链接,下载解压后得到libmsc.so,这个库文件就是我们申请的树莓派3平台对应的LinuxSDK库了。如图9。关于交叉编译器和编译脚本,从这里http://pan.baidu.com/s/1pLFPTYr下载,具体交叉可以参考这一篇
http://bbs.xfyun.cn/forum.php?mod=viewthread&tid=32028&highlight=
(图9)申请树莓派3平台对应的LinuxSDK库
关于这个库文件对应的库授权码APPID,可以在[我的应用]界面查看,如图10。
(图10)查看库文件对应的库授权码APPID
2.2.编译安装讯飞语音交互实例ROS版DEMO利用科大讯飞提供的SDK库文件和官方API说明文档,我们就可以开发出自己的语音交互实例程序,当然也可以开发对应的ROS程序。在我们的miiboo机器人上开发的语音交互ROS功能包叫miiboo_asr。miiboo_asr功能包文件组织结构,如图11。其中lib文件夹下存放科大讯飞提供的libmsc.so库文件,iat.cpp是语音识别节点源文件,tts.cpp是语音合成节点源文件,qa_nlp.cpp是QA&NLP逻辑处理节点源文件,其他的文件我们可以不用关心。
(图11)miiboo_asr功能包文件组织结构
了解了miiboo_asr功能包的基本情况后,我们就开始编译安装吧。首先,将miiboo_asr包拷贝到~/catkin_ws_apps/src/目录下。然后将上面申请到的树莓派3平台对应的LinuxSDK库libmsc.so文件拷贝到miiboo_asr/lib/中,并将miiboo_asr/CMakeLists.txt文件中有关libmsc.so的路径替换为你存放该libmsc.so的实际路径。如图12。
(图12)CMakeLists.txt文件中有关libmsc.so的路径修改
接着我们需要将miiboo_asr/launch/xf.launch文件中的各个appid、声卡硬件地址、麦克风硬件地址设置成自己实际的值。关于与libmsc.so库绑定的appid上面已经介绍了查看方法,而声卡硬件地址、麦克风硬件地址的查询也很简单。
麦克风硬件地址的查询直接使用命令arecord-l,如图13。
(图13)麦克风硬件地址的查询
在这里麦克风录制设备处于卡1,设备0,于是我们的麦克风硬件地址就是“plughw::CameraB409241”。
声卡硬件地址的查询直接使用命令aplay-l,如图14。
(图14)声卡硬件地址的查询
在这里声卡播放设备有三个,卡0中的设备0为3.5音频输出,卡0设备1为HDMI音频输出,卡2设备0为USB声卡输出。这里我推荐使用USB声卡输出,所以我们的声卡硬件地址就是“plughw:DAC”。
在编译miiboo_asr前,我们还需要安装一些依赖项,其实就是麦克风录音和音乐播放工具,安装命令如下:
sudoapt-getupdatesudoapt-getinstalllibasound2-devsudoapt-getinstallmplayer现在可以编译miiboo_asr了,编译命令如下:
cd~/catkin_ws_apps/catkin_make-DCATKIN_WHITELIST_PACKAGES=”miiboo_asr”编译完成后,就可以运行语音交互节点来实现语音对话了,温馨提醒,请确保树莓派已连接网络,因为语音交互节点运行时需要访问网络。启动语音交互各个节点很简单,直接一条命令:
roslaunchmiiboo_asrxf.launch节点都运行起来后,会听到欢迎语句“你好,欢迎使用miiboo机器人语音控制系统”,之后就可以对着麦克风说出自己的指令,经语音识别被转换为文本,文本经图灵机器人得到应答,并通过语音合成使我们能听到回答的声音。这样一个语音交互的聊天机器人就诞生了,尽情享受和机器人聊天的乐趣吧^_^
这里说明一下,如果你使用我们的miiboo机器人,那么miiboo机器人上已经安装编译好了miiboo_asr功能包,所以只需要上面roslaunchmiiboo_asrxf.launch这条启动命令,就可以开始机器人聊天之旅。但是,miiboo机器人上安装的miiboo_asr功能包的libmsc.so的访问次数和频率是有限制的,只能供学习使用。如果大家需要将miiboo_asr功能包用来二次开发或实际应用,就需要按照上面的步骤去科大讯飞官网申请自己的SDK库了。
后记------SLAM+语音机器人DIY系列【目录】快速导览------
第1章:Linux基础
1.Linux简介
2.安装Linux发行版ubuntu系统
3.Linux命令行基础操作
第2章:ROS入门
1.ROS是什么
2.ROS系统整体架构
3.在ubuntu16.04中安装ROSkinetic
4.如何编写ROS的第一个程序hello_world
5.编写简单的消息发布器和订阅器
6.编写简单的service和client
7.理解tf的原理
8.理解roslaunch在大型项目中的作用
9.熟练使用rviz
10.在实际机器人上运行ROS高级功能预览
第3章:感知与大脑
1.ydlidar-x4激光雷达
2.带自校准九轴数据融合IMU惯性传感器
3.轮式里程计与运动控制
4.音响麦克风与摄像头
5.机器人大脑嵌入式主板性能对比
6.做一个能走路和对话的机器人
第4章:差分底盘设计
1.stm32主控硬件设计
2.stm32主控软件设计
3.底盘通信协议
4.底盘ROS驱动开发
5.底盘PID控制参数整定
6.底盘里程计标
第5章:树莓派3开发环境搭建
1.安装系统ubuntu_mate_16.04
2.安装ros-kinetic
3.装机后一些实用软件安装和系统设置
4.PC端与robot端ROS网络通信
5.Android手机端与robot端ROS网络通信
6.树莓派USB与tty串口号绑定
7.开机自启动ROS节点
第6章:SLAM建图与自主避障导航
1.在机器人上使用传感器
2.google-cartographer机器人SLAM建图
3.ros-navigation机器人自主避障导航
4.多目标点导航及任务调度
5.机器人巡航与现场监控
第7章:语音交互与自然语言处理
1.语音交互相关技术
2.机器人语音交互实现
3.自然语言处理云计算引擎
第8章:高阶拓展
1.miiboo机器人安卓手机APP开发
2.centos7下部署Django(nginx+uwsgi+django+python3)
----------------文章将持续更新,敬请关注-----------------
参考文献
[1]张虎,机器人SLAM导航核心技术与实战[M].机械工业出版社,2022.
购书链接:https://item.jd.com/13041503.html
下载更多资料:www.xiihoo.com
GitHub源码:https://github.com/xiihoo/Books_Robot_SLAM_Navigation
Gitee源码(国内访问速度快):https://gitee.com/xiihoo-robot/Books_Robot_SLAM_Navigation
知乎教程:https://www.zhihu.com/people/hiram_zhang
视频教程:https://space.bilibili.com/66815220
邮箱:robot4xiihoo@163.com
QQ群:117698356
汽车语音交互技术发展趋势综述
【摘要】汽车网联化和智能化创造了汽车人机交互创新发展的机遇与前景,其中语音交互已经成为人机交互的主要方式。首先,综述了从早期的物理按键到触屏以及发展到现在的语音多模态交互模式等人机交互发展进程,进而分析了国内外语音交互技术研究和应用现状,最后,对语音交互技术发展趋势进行展望,总结出人机交互将围绕从“基本可用”到“好用易用”,从“主副驾交互”到“多乘客交互”,从“被动式执行机器人”到“拟人化贴心助理”,从“车内交互”到“跨场景交互”以及从“语音交互”到“多模态交互融合协同”等趋势发展。
0前言近年来随着车联网系统迅速发展,汽车人机交互越受车企重视,其中语音作为最便捷的交互入口,在人机交互中发挥至关重要的价值,分析汽车行业近百年发展史,从早期的物理按键到触屏以及发展到现在的语音多模态等交互模式,每次变革都是围绕如何提升人机交互的体验为目标。语音交互全链路包括语音增强、语音识别、语义理解等多个环,如果其中一环亮红灯则会导致整体交互失败,但近几年由于深度学习算法改进,在各个算法模块都进行了升级,语音交互在部分垂类场景达到可用门槛。从汽车市场分析报告得出2020年中国汽车保有量将超过2亿辆,其中网联化备受人们关注,人机交互也面临着重大挑战,用户不再满足于基础的功能可用,期望更智能的交互模式。因此,未来的人机交互模式发展是重要研究课题。
1汽车人机交互发展概述1.1汽车人机交互重要性智能化和网联化已经成为汽车行业发展的必然趋势,越来越多的汽车企业正在积极向人工智能、软件服务、生态平台等方向发展,在汽车安全、性能全面提升的同时,让驾驶更智能、更有趣[1]。在此过程中,汽车与人之间的交互变的更为重要,如何让人与汽车之间更便捷和更安全的交互一直是各大车企及相关研究机构的研发方向。
1.2汽车人机交互方式发展1.2.1物理按键
汽车在早期主要是以驾驶为目的,内饰也比较单一,主要集中在中控仪表盘上。车载收音机和CD机的出现,成为了第一代车机主要娱乐功能,人与汽车交互开启了物理按键时代。在上世纪90年代,车内主要靠大量的物理开关按键进行控制车载影音娱乐系统,并且这些物理开关和按钮在空间设计上进行了一系列优化,由最初全部集中在中控仪表,慢慢迁移到驾驶员方向盘上。这些设计优化使人机交互的安全性和便捷性得到提升。
物理按键虽然是最原始的交互模式,但是在车内是最可靠的方式,车内安全性较高的部位还是使用物理按键,如:发动机起动、驻车以及车门开关等。随着汽车电子技术的发展及大规模的应用,汽车功能越来越丰富,收音机、空调、音响及电子系统开关按键分区排列,单一的物理按键方式已经不能满足用户的驾驶体验,于是屏幕显示开始引入车机。
1.2.2触屏
在上世纪80年代触摸屏被大规模商用化,但是触摸屏根据材料不一样可分为:红外线式、电阻式、表面声波式和电容式触摸屏4种。1986年别克推出全触屏中控的量产车型Riviera,内部使用了一块带有触摸传感器的CRT(阴极射线显像管)显示屏,该屏幕在功能上集成了比传统物理按键更多的控制功能,包括:电台、空调、音量调节、汽车诊断、油量显示等功能,使得整个车内人机交互体验上升一个档次。2007年,iPhone手机将触摸屏做到了极致的交互体验,开创了手机正面无键盘触摸屏操作的时代。之后各家车企也着手中控屏幕的设计,以及相应的人机交互系统的设计。大屏支持音、视频播放,触屏操控的交互方式成为第2代车机的标配。
2013年,特斯拉全新推出了采用垂直定向搭载17英寸车载显示屏的电动车—MODELS,全面取消中控物理按键,几乎可利用屏幕操控所有的车载功能。2018年,比亚迪第2代唐推出了支持90°旋转功能大尺寸的悬浮式中控屏。中控屏也朝着大尺寸、可移动、多屏幕方向发展。
1.2.3语音交互
在互联网通信技术以及智能交通快速发展的环境下,汽车本身也逐渐演变成能集成各种信息源的载体,随着人工智能技术的突飞猛进和车联网应用的大范围普及,语音交互的准确率、响应速度、便利性上有了很大提高。
在国际上,宝马、奔驰、福特、大众等多家车企已经将语音交互技术整合到车机内,为用户提供方便、安全、高效的车内人机交互方案。而在2012年之前,中国汽车市场的语音交互几乎都是由国外公司定义的。随着2010年科大讯飞发布了全球首个智能语音云开放平台,自主语音技术占据市场主导。2011~2013年,云+端技术架构、全球首个车载麦克风阵列降噪模块的发布,标志着中国自主的车载语音交互产品效果已经反超国外,到2014年在行车高噪环境下识别率已经超过90%。吉利、长安、奇瑞、上汽等自主品牌积极与语音技术和产品公司合作,深度定制搭载语音交互技术的车载系统。
2015年,科大讯飞和奇瑞汽车联合打造的iCloudrive2.0智能车载系统上市发布,产品以高效的语音体验颠覆了人们对于交互场景的认知,以语音交互深度打通了车机功能和信息娱乐服务,成为了业内追捧的人车交互标杆产品。
2016年,上汽和阿里联合打造的斑马智行1.0搭载荣威RX5上市发布,通过集成丰富的互联网生态服务和内容,以语音交互的方式作为连接用户的桥梁,成了当时行业内公认的互联网汽车标杆。
2017年,蔚来ES8首次在车内搭载Nomi机器人,让人机交互更形象好,用户对人机交互助理的热度提升,定位开车旅途中的伙伴更拟人化。
随着技术的发展,第3代车机在往信息化、智能化发展,采用更好、兼容性更强的安卓等车机系统。通过快速集成免唤醒、语音增强、声源定位、声纹识别、自然语音交互、主动式交互、智能语音提示等新的技术,全面增强了驾驶空间的安全性、趣味性,互动性[2],打造了沉浸式交互体验的智能驾舱。
1.2.4多模态交互
人与人交流除听觉外,还有许多感官通道,为了提供更好的人机交互体验,需充分利用人的多种感知通道(听觉通道、视觉通道、触觉通道、嗅觉通道、意识通道等),以不同形式的输入组合(语音、图像、手势、触摸、姿势、表情、眼动、脑电波等)为人机交互通道提供多种选择,提高人机交互的自然度和效率。多模态并非多个模态的集合,而是各单一模态之间的有机协同和整合[3]。
机器利用电脑视觉技术,识别人类的姿势和动作,理解其传递的信息、指令,使得人机交互体验更加自然、高效。而识别人类的面部表情和目光,更重要的意义在于传递的情感,进而增强语言、手势传递的含义,这也解释了为什么我们在面对面交流时,会试图注视对方的表情和目光,就是为了准确判断对方的意图和情绪。因此,使机器从“能听会说”到“理解思考”再到“察言观色”,才能全面提高人机交互的智能化水平。
在2019年北美CES展上,奔驰CLA车型搭载的最新人机交互系统,支持复杂语音指令和手势识别。拜腾保留了48寸的车载大屏,同时将触摸屏、语音控制、手势控制、物理按键进行了充分的融合。日产展示了全新的车载AR概念,应用了无形可视化、I2V技术。丰田发布了搭载个性化、情感化感知的全新汽车驾舱。围绕语音识别、手势识别、图像识别等多模态融合交互方式必将成为新的制高点,成为下一代人机交互势不可挡的发展趋势。
2汽车语音交互技术发展现状2.1语音交互技术发展从语音交互整个处理链路来看(图1),可将其分为3部分:语音输入、语音处理和语音输出,其中语音输入包括:语音增强;语音处理包括:语音唤醒、语音识别、语义理解;语音输出包括:语音合成和音效增强。在2006年人工智能第3次浪潮推动下,利用深度学习理论框架将语音交互链路中各模块算法得到升级,并且配合大量数据持续迭代,语音交互成功率得到较大提升,达到可用的门槛,另外随着芯片算力的显著提升以及5G的普及,提高语音交互整体交互成功率。
图1语音交互全链路
2.2语音交互核心技术2.2.1语音增强
声音的信号特征提取的质量将直接影响语音识别的准确率。车内环境噪音源包含发动机噪声、胎噪、风噪、周围车辆噪声、转向灯噪声以及媒体播放声等,这些噪声源都会减弱人声的信号特征,从而加大识别难度。
图2语音增强处理流程
基于麦克风阵列的语音增强算法如图2、图3,包括:波束形成、语音分离、远场拾音与去混响、多通道降噪、声源定位和回声消除等技术,可有效抑制周围环境噪音,消除混响、回声干扰,判断声源的方向,保障输入较干净的音频,提高识别准确率,做到机器能“听得清”[4-5]。目前最新采用基于神经网络的降噪技术在高噪环境下取得较好效果[6]。
图3麦克风阵列结构
2.2.2语音唤醒
语音唤醒是现阶段语音交互的第一入口,通过指定的唤醒词来开启人机交互对话,其技术原理是指在连续语流中实时检测说话人特定语音片段,要求高时效性和低功耗。语音唤醒在技术发展上也经历3个阶段(图4):启蒙阶段、新技术探索阶段和大规模产业化阶段。从最初的模板规则到最新基于神经网络的方案[7]。另外,配合语音增强中声源定位技术,可实现车内主副驾、前后排等多音区唤醒。
图4语音唤醒技术发展史
2.2.3语音识别
语音识别是将人的语音内容转成文字,其技术原理主要包括2大模型(图5):声学模型和语言模型,在技术从最初的基于模板的孤立词识别,发展到基于统计模型的连续词识别,并且在近几年深度学习爆发,将语音识别率达到新水平[8-9]。当前语音识别中重点需解决如下3类问题。
(1)语音尾端点检测问题,能量VAD(VoiceActiveDetection)、语义VAD和多模态VAD;
(2)多语种和多方言统一建模问题;
(3)垂类场景和针对单独人群的个性化识别问题。
图5语音识别处理流程
2.2.4语义理解
语义理解是当前语音交互中最难的一环,将人类的表达抽象成统一表示形式以让机器能够理解,在语音交互对话系统中,主要包括:语义抽取、对话管理和语言生成;在技术方案上(图6),近几年随着词向量模型、端到端注意力模型以及谷歌最新BERT模型进步[10-11](图7),语义理解正确率在部分垂直领域达到基本可用,如汽车领域头部技能“导航、音乐、车控、收音机和电话”等[12]。但是,语义理解最核心的难点是语义表示问题和开放性说法等问题,导致在语义效果评判上很难统一,也是未来人机交互中最核心板块。
图6对话理解技术方案
2.2.5语音合成
语音合成是将文字信息转化为可听的声音信息,让机器会说话,其技术原理上将文字序列转换成音韵序列,再用语音合成器生成语音波形(图8)。语音合成的方法主要有共振峰合成、发音规则合成、波形拼接合成和基于HMM参数合成4种。前2种是基于规则驱动,后2种基于数据驱动,目前主要以数据驱动为主。近年来基于神经网络技术的语音合成,在主观体验MOS分达4.5分,接近播音员水平[13-14]。另外,当前在个性化合成、情感化合成以及方言小语种合成等方面继续探索。
图7自然语言处理[10-11]
图8语音合成处理流程
2.2.6音效增强
音效增强是语音交互全链路最后一环,在基于车内复杂噪声环境及扬声器位置造成的复杂声场环境,进行专业的声学系统设计与调教,还原出自然清晰舞台感明确的音响效果。未经过专业声学处理的音响系统,会丢失声音的定位信息,不能还原音乐的左右空间感和前后纵深感。声音出现杂乱无章,从各个地方出来并互相干扰。根据不同场景包括:3D沉浸环绕声、EOC(EngineOrderCancellation)、超重低音、高精度声场重建、声浪模拟、提示音播报优化、延时修正、声场重建、虚拟低音、限幅调整和车速补偿等音效算法技术[15]。通过加入高级环绕算法,音量随车速动态增益,主动降噪,引擎声优化,能为汽车打造音乐厅级的听感体验(图9)。
图9音效增强的优势
3汽车未来人机交互发展展望3.1汽车人机交互的市场价值从当前的市场和行业发展趋势可预测,到2020年中国汽车的保有量也将超过2亿辆,市场增长空间依然巨大。智能化、网联化、电动化、共享化已成为汽车产业发展的趋势,国家层面陆续发布一系列政策推动汽车产业变革。根据中国汽车流通协会发布的《2019中国汽车消费趋势报告》[16]得出,消费者正从基础功能满足延伸至科技智能追求,智能化、网联化越来越受到关注,2019年智能化关注度相比2018年同比增长30.8%,网联化关注度同比增长52.3%,其中网联化最关注语音和导航体验,另外消费者对语音识别的准确性和反应速度比较看重,而从具体配置上来看,消费者对CarLife、CarPlay和语音识别的需求上升趋势较为明显,这也说明消费者对汽车联网有诉求,但是对原生车机应用效果不满(图10)。
图10消费者对汽车网联化的需求[16]
目前,中国在汽车智能化网联方面处于领先水平,这涉及到“中国汽车市场规模全球最大”、“中国互联网和移动互联网发展迅速”、“国家政策倾向”和“自主车企进步较大”等众多因素影响。面对重大的机遇与挑战,车联网人机交互作为整个智能化的入口,如何给用户提供最便捷和安全的交互方式,对于其未来的发展至关重要。
在人机交互方面的升级将会为未来汽车产生革命性的消费体验,车云研究院发布的《2020智能汽车趋势洞察及消费者调研报告》[17]中,提到智能汽车3大体验革命:个性化体验、智能交互体验和车路协同体验,其中智能交互1.0基本围绕功能交互、触控交互和初级语音交互,智能汽车2.0应建立起以人为中心的个性化服务全新体验,多模、主动和情感交互将成为智能交互典型特征。
3.2汽车人机交互发展趋势3.2.1从“基本可用”到“好用易用”
语音交互的整个链条,包括了语音增强-语音唤醒-语音识别-语义理解-语音合成-音效增强。优秀的语音交互系统,需要全闭环的技术链条上每一个环节都是优秀的,如果过程中某一技术环节出问题,则会导致整个交互过程失败,用户体验效果不好。
图11消费者对汽车网联化具体配置需求[16]
图12智能汽车2.0未来发展典型特征[17]
当前语音交互已经达到基本可用状态,用户已经可以通过语音做垂类领域信息查询以及车辆控制等,但还有许多待解决的问题,主要体现如下3个方面。
(1)核心技术上需要继续突破,包括高噪环境、方言、口音、童声等因素下语音识别鲁棒性问题,语义理解的泛化性以及歧义性问题,个性化和情感化语音合成问题等;
(2)语音交互模式上的持续优化,从最初单轮one-shot模式到全双工免唤醒模式,需要在系统误触发方面技术突破;
(3)信源内容深度对接和打磨,语音交互只是入口,用户希望通过语音便捷的获取到更有价值以及更有趣的内容,则需要语音交互各模块能力与信源内容深度耦合。
3.2.2从“主副驾交互”到“多乘客交互”
目前智能汽车中应用场景交互主要考虑的是主驾驶方位和副驾驶方位2侧,而对于后排的乘车人员的交互过程和交互效果没有得到很好的保证,例如,在功能范围内,主驾驶和副驾驶人员基本可以自由的与车机对话,实现相应的功能,但是对于后排乘客,就有很多制约条件,后排人员距离麦克风位置较远,语音指令不能被很好的检测到,整体交互效果较差。
基于整车多乘客需求,未来将会在车内实现“多乘客交互”的目标,所谓“多乘客交互”就是说,将以往采用的双音区技术更改为四音区技术,在每一个位置前都装1个麦克风,可以让各自位置的乘客通过语音或者其他交互方式控制各自的交互设备,即使在同一时间说出指令也互不影响。例如,当后排右后座位乘客想要打开或者关闭自侧车窗时,可以直接语音指令说“打开车窗/关闭车窗”就可以打开右后侧车窗,其它方位不受影响,而驾驶员(主驾驶)语音指令说“打开车窗”时也只会打开主驾驶一侧的车窗,不会打开车内全部车窗,这也是未来智能汽车更智能更人性化的一种表现。
3.2.3从“被动式执行机器人”到“拟人化贴心助理”
随着智能化技术的不断进步,单纯的功能型产品已经不能满足用户的需求了,用户想要在保证功能的前提下也可以感受到更多的“以人为中心”的产品服务,真正实现让汽车越来越理解人,越来越有温度的理念。通过用户交互的历史数据生成用户的知识图谱和交流风格画像,生成一个针对用户的个性化人机交互策略,该策略具备调动车载系统各项服务(比如车控、音乐、导航、游戏等)的能力,以虚拟形象或实体机器人的方式生成符合用户个性化需求的外表和声音特性与用户主动或被动的进行交流。例如,用户在车上说“查找附近的餐馆”,机器会依据用户的口味和习惯自动推荐符合该用户餐馆;另外驾驶员在开车过程中,机器预测到驾驶途中天气情况恶劣,则主动告知驾驶员天气信息注意开车;车辆发生故障,机器主动告知车辆故障情况,并引导驾驶员到最近的4S店维修;心情不好时候,能够推荐一些喜欢的歌曲或者讲一些笑话等等。
3.2.4从“车内交互”到“跨场景交互”
物联网的出现可以让所有能行使独立功能的普通物体实现互联互通,借助于物联网的浪潮,汽车内跨场景交互也将是智能汽车未来发展的必然趋势。
当前,汽车人机交互的使用场景过于单一,车机系统放在车内只可以控制车内的设备,而对于车外其他场景的控制却无能为力。比如在车内控制自己家中的设备,在车内控制自己办公室的设备,在家中控制车内的设备,在公司控制自己车内的设备,未来“智能汽车-智能家居”、“智能汽车-智能公司”的跨场景交互的实现,不仅可以给车主提供一体化的车-家、车-公司的互联生活,也让智能汽车的发展达到了一个崭新的制高点。
3.2.5从“语音交互”到“多模态交互融合协同”
语音交互的方式已经成为汽车内人机交互的主流方式,但是当车内的噪音比较大时,单纯的语音交互方式就不能完全满足用户的需求,此时多模态融合的交互方式就显得尤为重要,此时用户的诉求就可以通过手势识别、表情识别等多模态相协作的方式来更好的完成交互过程。
多模态融合的交互方式可以根据用户当前所处的场景需要给用户提供不同的交互过程。当驾驶员正在行驶时,眼动跟踪技术会持续检测驾驶员的眼睛,表情识别会随时检测驾驶员脸部表情,当检测出现眼皮下垂、眨眼次数频繁或者驾驶员正在打哈欠时,就会对驾驶员执行语音提示,并自动打开空调设备或者是打开车窗,做一系列给车内通风的动作来帮助驾驶员恢复清醒的意识。如果在高速行驶会自动导航至附近的休息站或者是服务区,不在高速行驶时就会语音提示驾驶员临时靠边停车,以确保驾驶员的行车安全。表情识别可以实时检测驾驶员的面部表情,进而根据驾驶员当前所处的场景来判断其心理情绪,并根据其情绪自动语音打开合适类型的音乐,开启相对应的氛围灯,调节车内氛围以适应车内用户的当下心情,给用户更亲和、更智能化、更沉浸式的体验感受。
4结束语汽车领域在基于人工智能的人机交互整体还算刚起步阶段,语音交互虽然取得较大进步但是还不够稳定,许多场景下替代不了触摸和按键等操作,目前需要在语音、图像以及语义方面拥有技术上的突破,多模态融合和协同的交互模式将成为下一代汽车人机交互的重点。此外,随着无人驾驶和智能驾舱的发展,人们对人机交互的要求越来越高,需要在保障交互的安全性前提下,不断提升交互体验,使驾驶更安全、更便捷和更有趣。
参考文献
[1]林小新.汽车人机交互的前世今生[J].计算机与网络,2018,44(19):42.
[2]练艺,曾晓辉.智能语音在汽车中的应用[J].无线互联科技,2018,147(23):141-144.
[3]杨明浩,陶建华.多模态人机对话:交互式学习能力愈发重要[J].前沿科学,2019(2):41-45.
[4]WarsitzE,Haeb-UmbachMR.BlindAcousticBeamformingBasedonGeneralizedEigenvalueDecomposition[J].IEEETransactionsonAudioSpeech&LanguageProcessing,2007,15(5):1529-1539.
[5]王科攀,高勇.信号相位匹配算法的语音降噪及性能评估[J].声学技术,2010(06):615-619.
[6]ZhangS,LiuC,JiangH,etal.FeedforwardSequentialMemoryNetworks:ANewStructuretoLearnLong-termDependency[J].ComputerScience,2015.
[7]刘凯.基于深度学习的语音唤醒研究及其应用[D].厦门:厦门大学,2018.
[8]WangD,WangX,LvS.AnOverviewofEnd-to-EndAutomaticSpeechRecognition[J].Symmetry,2019,11(8):1018.
[9]冯志伟.自然语言处理综论(第二版)[M].电子工业出版社,2018.
[10]MikolovT,ChenK,CorradoG,etal.EfficientEstimationofWordRepresentationsinVectorSpace[J].ComputerScience,2013.
[11]DevlinJ,ChangMW,LeeK,etal.BERT:Pre-trainingofDeepBidirectionalTransformersforLanguageUnderstanding[EB/OL].[2018-10-11]https://arxiv.org/abs/1810.04805.
[12]李晓林,张懿,李霖.基于地址语义理解的中文地址识别方法[J].计算机工程与科学,2019,41(03):171-178.
[13]邱泽宇,屈丹,张连海.基于WaveNet的端到端语音合成方法[J].计算机应用,2019,39(05):1325-1329.
[14]JuvelaL,BollepalliB,TsiarasV,etal.GlotNet-ARawWaveformModelfortheGlottalExcitationinStatisticalParametricSpeechSynthesis[J].IEEE/ACMTransactionsonAudio,Speech,andLanguageProcessing,2019(6):1-1.
[15]GimmM,BullingP,SchmidtG.Energy-DecayBasedPostfilterforICCSystemswithFeedbackCancellation[C].ElectronicSpeechSignalProcessing,2018.
[16]佚名.2012中国汽车消费趋势报告[M]//中国汽车社会发展报告(2012~2013).北京:社会科学文献出版社,2013.
[17]车云网.2020智能汽车趋势洞察及消费者调研报告[R/OL].(2020-03-10)[2021-01-06].http://www.199it.com/archives/1023497.html.
AReviewonDevelopmentTrendsofAutomotiveVoiceInteractionTechnologies
WangXingbao,LeiQinhui,MeiLinhai,ZhangYa,XingMeng(IntelligentAutomobileBusinessUnit,iflytekCo.,Ltd.,Hefei230088)
【Abstract】Automotivenetworkingandintelligencecreateopportunitiesandprospectsforinnovativedevelopmentofautomotivehuman-computerinteraction,inwhichvoiceinteractionhasbecomethemainwayofhuman-computerinteraction.Firstly,thedevelopmentprocessofhuman-computerinteractionfromtheearlyphysicalbuttonstotouchscreenandvoicemultimodalinteractionmodeissummarized,andthentheresearchandapplicationstatusofvoiceinteractiontechnologyathomeandabroadisanalyzed.Finally,thedevelopmenttrendofvoiceinteractiontechnologyisprospected,anditisconcludedthathuman-computerinteractionwillfocuson“basicavailable”to“easytouse”,from“mainandauxiliarydriving”,from“interactive”to“multipassengerinteraction”,from“passiveexecutiverobot”to“personifiedintimateassistant”,from“incarinteraction”to“crosssceneinteraction”,andfrom“voiceinteraction”to“multimodalinteractionfusionandcooperation”.
Keywords:Voiceinteraction,HMI,Speechrecognition,Multi-modal
【欢迎引用】王兴宝,雷琴辉,梅林海,等.汽车语音交互技术发展趋势综述[J].汽车文摘,2021(2):9-15.
【Citethispaper】WangX,LeiQ,MeiL,etal.AReviewonDevelopmentTrendsofAutomotiveVoiceInteractionTechnologies[J].AutomotiveDigest(Chinese),2021(2):9-15.
中图分类号:U461.99
文献标识码:A
DOI:10.19822/j.cnki.1671-6329.20200187