一文读懂智能语音人机交互产业链及核心技术
包括人工智能机器人厂商、人机交互技术和渠道提供商,以及基础平台支撑和关联技术提供商。
1、人工智能机器人厂商
主要包括小i机器人等智能机器人厂商,以及清华、中科院等人工智能技术研究院校和科研院所。
2、人机交互技术或渠道提供商
包括Nuance、科大讯飞、捷通华声、车音网、思必驰等语音技术提供商,以及短信(移动、电信、联通)、QQ等服务提供商。
3、基础平台支撑和关联技术提供商
包括IDC、云计算平台、数据挖掘等技术提供商。
(二)知识库提供
主要是指数据和内容提供商,包括影视(百事通、优酷、土豆、奇异、华数等)、电影票(格瓦拉等)、音乐、餐饮(大众点评、订餐小秘书)、股票(新浪财经、东方财富网等)、天气(问天网)、航班(携程、去哪儿)、旅游(携程、驴妈妈)、导航(高德、凯立德等)、政府、行业知识库等。
(三)应用、服务
1、智能电视提供商
包括长虹、创维等智能电视提供商、机顶盒提供商,以及东方有线、百事通、中国电信IPTV以及机顶盒生产厂商、服务运营商等,也可以包括费通、盛付通等支付渠道商。
2、智能车载设备提供商
包括各车厂、汽车安全信息服务提供商(如安吉星等)、车载信息服务提供商(如高德、凯立德等)等。
3、电话呼叫中心
包括移动、电信、联通各运营商,以及以金融为代表的大型现代服务企业,还有面向中小型企业的综合服务平台等。
4、智能移动终端厂商
包括以华为、联想、盛大、中兴等为代表的智能移动终端厂商。
5、智能家居厂商
包括以海尔、典众智能为代表的智能家居厂商。
三、智能语音人机交互产业竞争格局
随着人机交互技术对语音技术的强烈需求,除了传统的智能机器人厂商以外,语音技术提供商和传统的搜索厂商也纷纷推出自己的产品,进入智能语音人机交互行列,形成了智能机器人厂商、语音技术提供商、传统搜索厂商和移动客户端开发者四大阵营,产业竞争进一步加剧。
(一)智能机器人厂商
智能机器人厂商是目前主要的智能交互技术提供商,是智能交互产业的重要组成部分。Gartner报告指出,截止2011年初,全球大约有36家智能客服系统服务商。如美国加州的eGain,主要为客户提供“云计算”交互中心方案或内部部署,客户超过上百家,遍及电信、金融、零售、公共事业、政府、制造、媒体、电子商务、旅游、汽车、外包、科技以及服务等行业。瑞典的ArtificialSolutions定位于为企业和政府机构开发客服机器人,他们已经成功的为欧洲近几十个政府部门提供客服机器人,从而减轻人工工作压力。
智能客服机器人在国内的发展应用于近几年呈现出了快速增长的势头,其中有代表性的是小i机器人推出的智能客服机器人系列产品。
(二)语音技术提供商
语音技术提供商纷纷借助这次智能语音人机交互产业发展高潮,不断推出相关产品,提升自己提供智能机器人解决方案的能力。Nuance除了在北美市场拥有自己类似的解决方案Dragongo!,也在亚洲市场和一些当地合作伙伴合作,共推解决方案。国内语音技术引领者科大讯飞也推出了讯飞语点这样的产品。但语音厂商推出的智能机器人有明显的语音技术的痕迹,主要是命令格式的识别,而自然语言处理和智能交互性存在一定的不足。
(三)搜索厂商
虽然Siri也整合多家搜索引擎,但在很多情况下,是直接给了用户答案,这种方式的易用性和效率以及用户体验远比传统的搜索引擎要强,也是对传统搜索的挑战。因此国际搜索巨头谷歌,以及国内的搜索公司百度、搜搜、搜狗等都在准备智能语音人机交互产品,提升自我竞争力。谷歌发布GoogleNow,能自动从互联网寻找知识,能回答的内容甚至比Siri更多。
(四)移动客户开发端
Siri出现和移动互联网的空前繁荣,引来的无数移动客户端开发者开发智能语音人机交互相关的应用。他们采用第三方免费的语音识别服务(如讯飞语音云和谷歌语音搜索等),用简单的关键词匹配或全文检索引擎实现文本交互功能,做了大量的控件在客户端上展示信息,整合了一些诸如指南针的实用小功能等。
四、智能语音人机交互关键技术分析
基于语音的智能人机交互是当前人机交互技术的主要表现形式,语音人机交互过程包括信息输入和输出的交互、语音处理、语义分析、智能逻辑处理以及知识和内容的整合。
图2智能语音人机交互过程
结合语音人机交互过程,可以看出智能语音人机交互关键技术主要如下:
(一)自然语音处理技术
包括中文分词、词性标注、实体识别、句法分析、自动文本分类等技术。
(二)语义分析和理解
包括知识表示、本体理论、分领域的语义网络、机器推理等。
(三)知识构建和学习体系
包括搜索技术、网络爬虫、数据挖掘、知识获取、机器学习等技术。
(四)语音技术
包括语音识别、语音合成和声纹识别等。
(五)整合通信技术
包括跨平台即时通讯整合技术、超大负载消息集群处理技术、移动客户端开发技术。
(六)云计算技术
包括海量数据分布式存储、统计和分析技术。
五、智能语音人机交互技术在典型行业的应用
语音交互方式替代文本交互方式,可以增强信息输入方式,能和更多的设备进行整合,市场前景广阔。目前,智能语音人机交互技术已经广泛应用到智能客服、智能终端等领域,切实深入到人们的生活。
(一)智能客服
智能客服是以自然语言处理和智能人机交互等多种人工智能技术为基础,通过即时通讯、网页、短信等形式,以拟人化方式与用户进行实时交互的软件系统,能够实现智能客服咨询和产品营销推广等功能。如果在智能客服的交互前端接入经过领域语料训练的语音识别能力,智能客服机器人就可以顺利的接入到目前的电话呼叫中心。
传统的客户服务中心以电话呼叫中心为主,并且很多大型服务企业在不断拓展更为经济高效的电子渠道,如网上在线客服、短信、智能手机应用等。而以领域客户化知识库建设为核心工作,并通过文本或语音等方式交互的智能客服系统则可以有效地和多渠道的客户服务中心做整合。在大幅缩减客服成本的同时,能够有效减少人工成本,增强用户体验,从而提升服务的质量和企业创新的品牌形象。
图3客服系统技术和产业化路径
国外的智能客服系统市场发展较早,信息系统发展相对完善(尤其是CRM系统),人工服务的成本较高,促使企业有较大的动力采用智能客服系统,智能客服技术提供商和客户较多。
而在国内,由于企业的信息系统发展相对滞后,人力成本相对较低,企业采用智能客服系统的动力严重不足。近几年,随着大家对智能客服的认知的提高,对新技术采用相对比较积极的电信运营商、金融领域已有多家采用了智能客服系统。
随着人们对智能客服系统服务价值的认知度的提高,以及交互习惯的形成,智能客服系统的社会价值和经济价值将会进一步显现。以中国移动的客服机器人测算,目前移动集团在全国的人工客服坐席以10万计,一个坐席一年的运营平均成本为10万,采用智能客服可以节约20%的开销,仅移动行业一年就可以节约成本20亿。据Gartner预计,到2013年全球1000强公司中至少有15%会采用智能客服系统来提高服务水平。
(二)智能终端
以智能手机、平板电脑、智能电视、智能车载为代表的智能终端是智能语音人机交互技术最广泛的应用。在苹果Siri的带动下,包括Android、WP以及采用这些操作系统的平板电脑,都有采用类似Siri的智能应用的强烈需求。谷歌预计目前大约有25%的Android设备通过语音进行搜索。Datamonitor预计到2014年语音识别系统在全球移动终端市场的份额将达到2009年的3倍,移动终端有望成为智能语音技术的一个快速增长市场。
附:盘点国内外语音交互公司
一、国外语音交互
Nuance
全球最大的语音技术公司,超1000项专利技术,一度雄霸天下。当然现在依然很牛啦。在中国,有9%的语音识别应用是采用Nuance的核心技术。它和电信、移动、联通、网通都有合作,cctv春晚的呼叫中心也应用此技术。
微软
提到微软在语音交互的布局,不得不说起微软两姐妹,小冰和小娜。小娜Cortana是微软发布的全球第一款个人智能助理。能够了解用户的喜好和习惯,帮助用户进行日程安排、问题回答等。小冰目前已发布第三代,听说读写技能都已解锁,从最初只能单纯的文字对话跨越至纯语音的互动聊天。
谷歌
Google一直致力于投资语音技术,此前收购多家语音识别技术公司及专利。2011年,收购语音通信技术公司SayNow和语音合成技术PhoneticArts。2014年收购SRTechGroup的多项语音识别相关的专利,其中包括“搜索引擎语音界面”和“修改、更新语音识别项目系统”的专利。
今年4月份Google还开放了自己的语音识别API,即Google语音搜索和语音输入的支持技术。GoogleCloudSPeechAPI包括了80多种语言,适用于各种实时语音识别与翻译应用。
苹果
苹果收购过Siri、Novauris、VocalIQ等语音技术公司,且请了不少牛B的人组建基于神经网络算法的语音识别团队。最近苹果正依靠语音助手Siri构建更大的生态系统,在最新的HomeKit的合作伙伴名单中,除了国内厂商海尔,还有照明厂商飞利浦、科锐(CREE),以及Marvell(美满电子)、Honeywell(霍尼韦尔)等全球顶级制造商。
初创公司VivLabs
提到苹果Siri还容易让人想到,Siri的两位创始人在离开苹果之后,他们另起炉灶,创办了一家名为VivLabs的初创企业,他们准备打造一位智能经过全新升级的助手:Viv,它能够理解复杂句子,在用户对它的使用中自主学习,并且帮助完成事情。这些简直就是iPhone用户当初对Siri的美好想象。
亚马逊
Echo音箱就是一个黑色的小柱子,相比起其他的智能语音助手比如Siri,它实物,不是Siri这样的虚拟语音助手。一年多下来,Echo已经成为了语音控制智能家居的入口。
二、国内语音交互
科大讯飞
成立于1999年底,依靠中科大的语音处理技术以及国家的大力扶持,很快就走上了正轨,是目前国内最有影响力的语音技术公司,08年的时候就已经挂牌上市了,目前市值接近500亿。
中科信利
中科信利是国内第一家具有大规模商用案例的语音技术公司,是专业的语音核心技术和解决方案提供商。公司专注于语音识别和音频信号处理相关技术和产品的研发,具有国际一流水平的语音识别/处理引擎、语音云系统和语音分析应用产品,产品涵盖互联网、电信平台、广电网、教育、音乐检索以及嵌入式终端等多个领域,是拥有全部核心技术自主知识产权。
捷通华声
捷通华声科技股份有限公司成立于2000年10月,是一家专注于智能语音、智能图像、语义理解等人工智能技术的研究与应用,全面发展人工智能云服务的高新技术企业。2001年,捷通华声推出代表国内最高水平的中文语音合成技术。2014年,灵云平台面向产业全面开放,并以“云+端”方式,为产业界提供语音合成(TTS)、语音识别(ASR)、声纹识别(VPR)、手写识别(HWR)、光学字符识别(OCR)、指纹识别(FPR)、机器翻译(MT)、自然语言理解(NLU)等全方位人工智能能力。
百度
语音交互其实很早就被百度确立为战略方向,2010年的时候百度就与中科院声学所合作研发语音识别技术,但是没搞好。直到14年,百度请来了人工智能领域的泰斗级大师吴恩达,正式组建了语音团队,专门研究语音相关技术,才得以咸鱼翻身。到目前为止,已斩获了近13%的市场份额,技术实力可与科大讯飞相提并论。
除了技术外,我们还看到百度积极地布局应用端,CarLife、MyCar以及在上个月CES上推出的CoDriver都是百度在车联网语音交互的生态布局。还有百度之前推出的度秘,之前也在KFC中实现了语音点餐这一功能。
搜狗
7月16日,奇点•极客公园创新者峰会上,王小川表示,目前搜狗一天有1.4亿的语音识别量,准确度超过97%,有7%的用户会使用语音识别。目前搜狗语音的技术已经不仅仅能够识别语音,更重要的是可以通过完全不依靠双手进行文字的修改。
搜狗输入法在语义理解方面的大数据积累、搜狗本身就在做的地图,再加上目前由搜狗自主开发的语音交互技术,这3者深度结合,在车联网应用领域的确也很具优势的。
思必驰
思必驰初创于07年,由剑桥大学团队创立于英国剑桥高新区,同科大讯飞一样,思必驰是国内为数不多的拥有全套语音类知识产权的公司。在语音识别、语音合成、语义理解、声纹识别、对话管理、音频分析等方面均有深厚技术积累。
目前思必驰把语音相关技术整合成AIOS人机对话操作系统,作为安卓系统之上的一层标准接口,提供给硬件合作伙伴。针对不同场景,AIOS又分成了ForCar,ForHome,ForRobot等版本,针对车载、家居、机器人等产品做垂直领域下的对话式交互。在15年年底,思必驰还获得了新一轮近2亿人民币的投资。
出门问问
2012年成立,至今已累计融资7500万美金。现有投资方包括红杉资本、真格基金,SIG海纳亚洲、圆美光电、及歌尔声学,最近还拿了Google投资的C轮融资。
出门问问基于语音识别、语义识别、垂直搜索引擎、语音合成以及智能推送几项自主研发的核心技术,已推出了不少产品。有Ticwear(语音操控的可穿戴设备)、魔法小问(语音操控,提供各类生活服务)、开车问问(智能语音车载APP)以及出门问问智能语音助手,语音识别比较红火的几个应用场景基本都有铺路。
云知声
云知声成立于2012年,主要团队来自于盛大研究院。语音识别技术更多源自于中科院自动化所。其语音识别技术有一定的独到之处,有一小段时期内语音识别率甚至超越科大讯飞。因此也受到了资本的热捧,B轮融资达到3亿人民币,主要瞄准智能家居市场,现在也有智能车载解决方案。
哦啦语音
哦啦语音于2013年初成立,是威盛电子内部孵化的创业项目。拥有在中文自然语言理解、语音识别、语音控制和语音交互系统等方面的20多项自主专利。目前已应用在智能家居、智能车载、可穿戴设备、语义和交互API服务、智能会议系统、手机语音助手几个方面。他们家最大的特色,是对于中文语义的理解,针对用户各种问题可以给出生动、活泼、幽默、精确的回答。
耀途资本是国内领先的中国-以色列跨境投资机构,合伙人团队拥有丰富的高科技产业和风险投资行业经验,耀途资本主要投资消费升级(中国)与中以技术创新(物联网、人工智能、企业级服务-金融科技+网络安全)领域PreA和A轮的优秀创业公司,基于行业深度研究与精准狙击,同时拥有广泛且深度的产业合作生态圈。
耀途资本管理两期人民币基金及一期美元基金,公司及基金股东包括高榕资本,大众点评联合创始人团队,中茵股份等6家A股上市公司高管团队,耀途资本I期基金超过50%的投资组合获得包括阿里巴巴,HTC,万得资讯,达晨创投、华映资本、盛大网络、水晶光电等一线投资机构及产业资本的后续投资。
文章来源:前沿技术研究
耀途之旅是耀途资本旗下专注于技术创新的产业分享与交流平台,也是针对以色列高科技行业进行深度行业调研考察活动的组织者,通过极具深度的产业,文化,历史等行程安排,帮助中国具有转型需求的企业家拓展全球视野,洞悉全球创新风口以及资本运作趋势,专注于智能硬件与物联网,人工智能,企业级服务(包括互联网金融Fintech以及网络安全)等行业,每年超过200位包括上市公司董事长及高管在内的企业家群体加入耀途之旅。
欢迎加入耀途之旅,共享国内最顶级的企业家圈层,打造最前沿的终生学习交流平台。
加入方式:
关注耀途会微信公众号,后台回复【真实姓名-机构-职位-联系方式】
关注耀途会微信公众号,后台回复【真实姓名-机构-职位-联系方式】返回搜狐,查看更多
汽车语音交互技术发展趋势综述
【摘要】汽车网联化和智能化创造了汽车人机交互创新发展的机遇与前景,其中语音交互已经成为人机交互的主要方式。首先,综述了从早期的物理按键到触屏以及发展到现在的语音多模态交互模式等人机交互发展进程,进而分析了国内外语音交互技术研究和应用现状,最后,对语音交互技术发展趋势进行展望,总结出人机交互将围绕从“基本可用”到“好用易用”,从“主副驾交互”到“多乘客交互”,从“被动式执行机器人”到“拟人化贴心助理”,从“车内交互”到“跨场景交互”以及从“语音交互”到“多模态交互融合协同”等趋势发展。
0前言近年来随着车联网系统迅速发展,汽车人机交互越受车企重视,其中语音作为最便捷的交互入口,在人机交互中发挥至关重要的价值,分析汽车行业近百年发展史,从早期的物理按键到触屏以及发展到现在的语音多模态等交互模式,每次变革都是围绕如何提升人机交互的体验为目标。语音交互全链路包括语音增强、语音识别、语义理解等多个环,如果其中一环亮红灯则会导致整体交互失败,但近几年由于深度学习算法改进,在各个算法模块都进行了升级,语音交互在部分垂类场景达到可用门槛。从汽车市场分析报告得出2020年中国汽车保有量将超过2亿辆,其中网联化备受人们关注,人机交互也面临着重大挑战,用户不再满足于基础的功能可用,期望更智能的交互模式。因此,未来的人机交互模式发展是重要研究课题。
1汽车人机交互发展概述1.1汽车人机交互重要性智能化和网联化已经成为汽车行业发展的必然趋势,越来越多的汽车企业正在积极向人工智能、软件服务、生态平台等方向发展,在汽车安全、性能全面提升的同时,让驾驶更智能、更有趣[1]。在此过程中,汽车与人之间的交互变的更为重要,如何让人与汽车之间更便捷和更安全的交互一直是各大车企及相关研究机构的研发方向。
1.2汽车人机交互方式发展1.2.1物理按键
汽车在早期主要是以驾驶为目的,内饰也比较单一,主要集中在中控仪表盘上。车载收音机和CD机的出现,成为了第一代车机主要娱乐功能,人与汽车交互开启了物理按键时代。在上世纪90年代,车内主要靠大量的物理开关按键进行控制车载影音娱乐系统,并且这些物理开关和按钮在空间设计上进行了一系列优化,由最初全部集中在中控仪表,慢慢迁移到驾驶员方向盘上。这些设计优化使人机交互的安全性和便捷性得到提升。
物理按键虽然是最原始的交互模式,但是在车内是最可靠的方式,车内安全性较高的部位还是使用物理按键,如:发动机起动、驻车以及车门开关等。随着汽车电子技术的发展及大规模的应用,汽车功能越来越丰富,收音机、空调、音响及电子系统开关按键分区排列,单一的物理按键方式已经不能满足用户的驾驶体验,于是屏幕显示开始引入车机。
1.2.2触屏
在上世纪80年代触摸屏被大规模商用化,但是触摸屏根据材料不一样可分为:红外线式、电阻式、表面声波式和电容式触摸屏4种。1986年别克推出全触屏中控的量产车型Riviera,内部使用了一块带有触摸传感器的CRT(阴极射线显像管)显示屏,该屏幕在功能上集成了比传统物理按键更多的控制功能,包括:电台、空调、音量调节、汽车诊断、油量显示等功能,使得整个车内人机交互体验上升一个档次。2007年,iPhone手机将触摸屏做到了极致的交互体验,开创了手机正面无键盘触摸屏操作的时代。之后各家车企也着手中控屏幕的设计,以及相应的人机交互系统的设计。大屏支持音、视频播放,触屏操控的交互方式成为第2代车机的标配。
2013年,特斯拉全新推出了采用垂直定向搭载17英寸车载显示屏的电动车—MODELS,全面取消中控物理按键,几乎可利用屏幕操控所有的车载功能。2018年,比亚迪第2代唐推出了支持90°旋转功能大尺寸的悬浮式中控屏。中控屏也朝着大尺寸、可移动、多屏幕方向发展。
1.2.3语音交互
在互联网通信技术以及智能交通快速发展的环境下,汽车本身也逐渐演变成能集成各种信息源的载体,随着人工智能技术的突飞猛进和车联网应用的大范围普及,语音交互的准确率、响应速度、便利性上有了很大提高。
在国际上,宝马、奔驰、福特、大众等多家车企已经将语音交互技术整合到车机内,为用户提供方便、安全、高效的车内人机交互方案。而在2012年之前,中国汽车市场的语音交互几乎都是由国外公司定义的。随着2010年科大讯飞发布了全球首个智能语音云开放平台,自主语音技术占据市场主导。2011~2013年,云+端技术架构、全球首个车载麦克风阵列降噪模块的发布,标志着中国自主的车载语音交互产品效果已经反超国外,到2014年在行车高噪环境下识别率已经超过90%。吉利、长安、奇瑞、上汽等自主品牌积极与语音技术和产品公司合作,深度定制搭载语音交互技术的车载系统。
2015年,科大讯飞和奇瑞汽车联合打造的iCloudrive2.0智能车载系统上市发布,产品以高效的语音体验颠覆了人们对于交互场景的认知,以语音交互深度打通了车机功能和信息娱乐服务,成为了业内追捧的人车交互标杆产品。
2016年,上汽和阿里联合打造的斑马智行1.0搭载荣威RX5上市发布,通过集成丰富的互联网生态服务和内容,以语音交互的方式作为连接用户的桥梁,成了当时行业内公认的互联网汽车标杆。
2017年,蔚来ES8首次在车内搭载Nomi机器人,让人机交互更形象好,用户对人机交互助理的热度提升,定位开车旅途中的伙伴更拟人化。
随着技术的发展,第3代车机在往信息化、智能化发展,采用更好、兼容性更强的安卓等车机系统。通过快速集成免唤醒、语音增强、声源定位、声纹识别、自然语音交互、主动式交互、智能语音提示等新的技术,全面增强了驾驶空间的安全性、趣味性,互动性[2],打造了沉浸式交互体验的智能驾舱。
1.2.4多模态交互
人与人交流除听觉外,还有许多感官通道,为了提供更好的人机交互体验,需充分利用人的多种感知通道(听觉通道、视觉通道、触觉通道、嗅觉通道、意识通道等),以不同形式的输入组合(语音、图像、手势、触摸、姿势、表情、眼动、脑电波等)为人机交互通道提供多种选择,提高人机交互的自然度和效率。多模态并非多个模态的集合,而是各单一模态之间的有机协同和整合[3]。
机器利用电脑视觉技术,识别人类的姿势和动作,理解其传递的信息、指令,使得人机交互体验更加自然、高效。而识别人类的面部表情和目光,更重要的意义在于传递的情感,进而增强语言、手势传递的含义,这也解释了为什么我们在面对面交流时,会试图注视对方的表情和目光,就是为了准确判断对方的意图和情绪。因此,使机器从“能听会说”到“理解思考”再到“察言观色”,才能全面提高人机交互的智能化水平。
在2019年北美CES展上,奔驰CLA车型搭载的最新人机交互系统,支持复杂语音指令和手势识别。拜腾保留了48寸的车载大屏,同时将触摸屏、语音控制、手势控制、物理按键进行了充分的融合。日产展示了全新的车载AR概念,应用了无形可视化、I2V技术。丰田发布了搭载个性化、情感化感知的全新汽车驾舱。围绕语音识别、手势识别、图像识别等多模态融合交互方式必将成为新的制高点,成为下一代人机交互势不可挡的发展趋势。
2汽车语音交互技术发展现状2.1语音交互技术发展从语音交互整个处理链路来看(图1),可将其分为3部分:语音输入、语音处理和语音输出,其中语音输入包括:语音增强;语音处理包括:语音唤醒、语音识别、语义理解;语音输出包括:语音合成和音效增强。在2006年人工智能第3次浪潮推动下,利用深度学习理论框架将语音交互链路中各模块算法得到升级,并且配合大量数据持续迭代,语音交互成功率得到较大提升,达到可用的门槛,另外随着芯片算力的显著提升以及5G的普及,提高语音交互整体交互成功率。
图1语音交互全链路
2.2语音交互核心技术2.2.1语音增强
声音的信号特征提取的质量将直接影响语音识别的准确率。车内环境噪音源包含发动机噪声、胎噪、风噪、周围车辆噪声、转向灯噪声以及媒体播放声等,这些噪声源都会减弱人声的信号特征,从而加大识别难度。
图2语音增强处理流程
基于麦克风阵列的语音增强算法如图2、图3,包括:波束形成、语音分离、远场拾音与去混响、多通道降噪、声源定位和回声消除等技术,可有效抑制周围环境噪音,消除混响、回声干扰,判断声源的方向,保障输入较干净的音频,提高识别准确率,做到机器能“听得清”[4-5]。目前最新采用基于神经网络的降噪技术在高噪环境下取得较好效果[6]。
图3麦克风阵列结构
2.2.2语音唤醒
语音唤醒是现阶段语音交互的第一入口,通过指定的唤醒词来开启人机交互对话,其技术原理是指在连续语流中实时检测说话人特定语音片段,要求高时效性和低功耗。语音唤醒在技术发展上也经历3个阶段(图4):启蒙阶段、新技术探索阶段和大规模产业化阶段。从最初的模板规则到最新基于神经网络的方案[7]。另外,配合语音增强中声源定位技术,可实现车内主副驾、前后排等多音区唤醒。
图4语音唤醒技术发展史
2.2.3语音识别
语音识别是将人的语音内容转成文字,其技术原理主要包括2大模型(图5):声学模型和语言模型,在技术从最初的基于模板的孤立词识别,发展到基于统计模型的连续词识别,并且在近几年深度学习爆发,将语音识别率达到新水平[8-9]。当前语音识别中重点需解决如下3类问题。
(1)语音尾端点检测问题,能量VAD(VoiceActiveDetection)、语义VAD和多模态VAD;
(2)多语种和多方言统一建模问题;
(3)垂类场景和针对单独人群的个性化识别问题。
图5语音识别处理流程
2.2.4语义理解
语义理解是当前语音交互中最难的一环,将人类的表达抽象成统一表示形式以让机器能够理解,在语音交互对话系统中,主要包括:语义抽取、对话管理和语言生成;在技术方案上(图6),近几年随着词向量模型、端到端注意力模型以及谷歌最新BERT模型进步[10-11](图7),语义理解正确率在部分垂直领域达到基本可用,如汽车领域头部技能“导航、音乐、车控、收音机和电话”等[12]。但是,语义理解最核心的难点是语义表示问题和开放性说法等问题,导致在语义效果评判上很难统一,也是未来人机交互中最核心板块。
图6对话理解技术方案
2.2.5语音合成
语音合成是将文字信息转化为可听的声音信息,让机器会说话,其技术原理上将文字序列转换成音韵序列,再用语音合成器生成语音波形(图8)。语音合成的方法主要有共振峰合成、发音规则合成、波形拼接合成和基于HMM参数合成4种。前2种是基于规则驱动,后2种基于数据驱动,目前主要以数据驱动为主。近年来基于神经网络技术的语音合成,在主观体验MOS分达4.5分,接近播音员水平[13-14]。另外,当前在个性化合成、情感化合成以及方言小语种合成等方面继续探索。
图7自然语言处理[10-11]
图8语音合成处理流程
2.2.6音效增强
音效增强是语音交互全链路最后一环,在基于车内复杂噪声环境及扬声器位置造成的复杂声场环境,进行专业的声学系统设计与调教,还原出自然清晰舞台感明确的音响效果。未经过专业声学处理的音响系统,会丢失声音的定位信息,不能还原音乐的左右空间感和前后纵深感。声音出现杂乱无章,从各个地方出来并互相干扰。根据不同场景包括:3D沉浸环绕声、EOC(EngineOrderCancellation)、超重低音、高精度声场重建、声浪模拟、提示音播报优化、延时修正、声场重建、虚拟低音、限幅调整和车速补偿等音效算法技术[15]。通过加入高级环绕算法,音量随车速动态增益,主动降噪,引擎声优化,能为汽车打造音乐厅级的听感体验(图9)。
图9音效增强的优势
3汽车未来人机交互发展展望3.1汽车人机交互的市场价值从当前的市场和行业发展趋势可预测,到2020年中国汽车的保有量也将超过2亿辆,市场增长空间依然巨大。智能化、网联化、电动化、共享化已成为汽车产业发展的趋势,国家层面陆续发布一系列政策推动汽车产业变革。根据中国汽车流通协会发布的《2019中国汽车消费趋势报告》[16]得出,消费者正从基础功能满足延伸至科技智能追求,智能化、网联化越来越受到关注,2019年智能化关注度相比2018年同比增长30.8%,网联化关注度同比增长52.3%,其中网联化最关注语音和导航体验,另外消费者对语音识别的准确性和反应速度比较看重,而从具体配置上来看,消费者对CarLife、CarPlay和语音识别的需求上升趋势较为明显,这也说明消费者对汽车联网有诉求,但是对原生车机应用效果不满(图10)。
图10消费者对汽车网联化的需求[16]
目前,中国在汽车智能化网联方面处于领先水平,这涉及到“中国汽车市场规模全球最大”、“中国互联网和移动互联网发展迅速”、“国家政策倾向”和“自主车企进步较大”等众多因素影响。面对重大的机遇与挑战,车联网人机交互作为整个智能化的入口,如何给用户提供最便捷和安全的交互方式,对于其未来的发展至关重要。
在人机交互方面的升级将会为未来汽车产生革命性的消费体验,车云研究院发布的《2020智能汽车趋势洞察及消费者调研报告》[17]中,提到智能汽车3大体验革命:个性化体验、智能交互体验和车路协同体验,其中智能交互1.0基本围绕功能交互、触控交互和初级语音交互,智能汽车2.0应建立起以人为中心的个性化服务全新体验,多模、主动和情感交互将成为智能交互典型特征。
3.2汽车人机交互发展趋势3.2.1从“基本可用”到“好用易用”
语音交互的整个链条,包括了语音增强-语音唤醒-语音识别-语义理解-语音合成-音效增强。优秀的语音交互系统,需要全闭环的技术链条上每一个环节都是优秀的,如果过程中某一技术环节出问题,则会导致整个交互过程失败,用户体验效果不好。
图11消费者对汽车网联化具体配置需求[16]
图12智能汽车2.0未来发展典型特征[17]
当前语音交互已经达到基本可用状态,用户已经可以通过语音做垂类领域信息查询以及车辆控制等,但还有许多待解决的问题,主要体现如下3个方面。
(1)核心技术上需要继续突破,包括高噪环境、方言、口音、童声等因素下语音识别鲁棒性问题,语义理解的泛化性以及歧义性问题,个性化和情感化语音合成问题等;
(2)语音交互模式上的持续优化,从最初单轮one-shot模式到全双工免唤醒模式,需要在系统误触发方面技术突破;
(3)信源内容深度对接和打磨,语音交互只是入口,用户希望通过语音便捷的获取到更有价值以及更有趣的内容,则需要语音交互各模块能力与信源内容深度耦合。
3.2.2从“主副驾交互”到“多乘客交互”
目前智能汽车中应用场景交互主要考虑的是主驾驶方位和副驾驶方位2侧,而对于后排的乘车人员的交互过程和交互效果没有得到很好的保证,例如,在功能范围内,主驾驶和副驾驶人员基本可以自由的与车机对话,实现相应的功能,但是对于后排乘客,就有很多制约条件,后排人员距离麦克风位置较远,语音指令不能被很好的检测到,整体交互效果较差。
基于整车多乘客需求,未来将会在车内实现“多乘客交互”的目标,所谓“多乘客交互”就是说,将以往采用的双音区技术更改为四音区技术,在每一个位置前都装1个麦克风,可以让各自位置的乘客通过语音或者其他交互方式控制各自的交互设备,即使在同一时间说出指令也互不影响。例如,当后排右后座位乘客想要打开或者关闭自侧车窗时,可以直接语音指令说“打开车窗/关闭车窗”就可以打开右后侧车窗,其它方位不受影响,而驾驶员(主驾驶)语音指令说“打开车窗”时也只会打开主驾驶一侧的车窗,不会打开车内全部车窗,这也是未来智能汽车更智能更人性化的一种表现。
3.2.3从“被动式执行机器人”到“拟人化贴心助理”
随着智能化技术的不断进步,单纯的功能型产品已经不能满足用户的需求了,用户想要在保证功能的前提下也可以感受到更多的“以人为中心”的产品服务,真正实现让汽车越来越理解人,越来越有温度的理念。通过用户交互的历史数据生成用户的知识图谱和交流风格画像,生成一个针对用户的个性化人机交互策略,该策略具备调动车载系统各项服务(比如车控、音乐、导航、游戏等)的能力,以虚拟形象或实体机器人的方式生成符合用户个性化需求的外表和声音特性与用户主动或被动的进行交流。例如,用户在车上说“查找附近的餐馆”,机器会依据用户的口味和习惯自动推荐符合该用户餐馆;另外驾驶员在开车过程中,机器预测到驾驶途中天气情况恶劣,则主动告知驾驶员天气信息注意开车;车辆发生故障,机器主动告知车辆故障情况,并引导驾驶员到最近的4S店维修;心情不好时候,能够推荐一些喜欢的歌曲或者讲一些笑话等等。
3.2.4从“车内交互”到“跨场景交互”
物联网的出现可以让所有能行使独立功能的普通物体实现互联互通,借助于物联网的浪潮,汽车内跨场景交互也将是智能汽车未来发展的必然趋势。
当前,汽车人机交互的使用场景过于单一,车机系统放在车内只可以控制车内的设备,而对于车外其他场景的控制却无能为力。比如在车内控制自己家中的设备,在车内控制自己办公室的设备,在家中控制车内的设备,在公司控制自己车内的设备,未来“智能汽车-智能家居”、“智能汽车-智能公司”的跨场景交互的实现,不仅可以给车主提供一体化的车-家、车-公司的互联生活,也让智能汽车的发展达到了一个崭新的制高点。
3.2.5从“语音交互”到“多模态交互融合协同”
语音交互的方式已经成为汽车内人机交互的主流方式,但是当车内的噪音比较大时,单纯的语音交互方式就不能完全满足用户的需求,此时多模态融合的交互方式就显得尤为重要,此时用户的诉求就可以通过手势识别、表情识别等多模态相协作的方式来更好的完成交互过程。
多模态融合的交互方式可以根据用户当前所处的场景需要给用户提供不同的交互过程。当驾驶员正在行驶时,眼动跟踪技术会持续检测驾驶员的眼睛,表情识别会随时检测驾驶员脸部表情,当检测出现眼皮下垂、眨眼次数频繁或者驾驶员正在打哈欠时,就会对驾驶员执行语音提示,并自动打开空调设备或者是打开车窗,做一系列给车内通风的动作来帮助驾驶员恢复清醒的意识。如果在高速行驶会自动导航至附近的休息站或者是服务区,不在高速行驶时就会语音提示驾驶员临时靠边停车,以确保驾驶员的行车安全。表情识别可以实时检测驾驶员的面部表情,进而根据驾驶员当前所处的场景来判断其心理情绪,并根据其情绪自动语音打开合适类型的音乐,开启相对应的氛围灯,调节车内氛围以适应车内用户的当下心情,给用户更亲和、更智能化、更沉浸式的体验感受。
4结束语汽车领域在基于人工智能的人机交互整体还算刚起步阶段,语音交互虽然取得较大进步但是还不够稳定,许多场景下替代不了触摸和按键等操作,目前需要在语音、图像以及语义方面拥有技术上的突破,多模态融合和协同的交互模式将成为下一代汽车人机交互的重点。此外,随着无人驾驶和智能驾舱的发展,人们对人机交互的要求越来越高,需要在保障交互的安全性前提下,不断提升交互体验,使驾驶更安全、更便捷和更有趣。
参考文献
[1]林小新.汽车人机交互的前世今生[J].计算机与网络,2018,44(19):42.
[2]练艺,曾晓辉.智能语音在汽车中的应用[J].无线互联科技,2018,147(23):141-144.
[3]杨明浩,陶建华.多模态人机对话:交互式学习能力愈发重要[J].前沿科学,2019(2):41-45.
[4]WarsitzE,Haeb-UmbachMR.BlindAcousticBeamformingBasedonGeneralizedEigenvalueDecomposition[J].IEEETransactionsonAudioSpeech&LanguageProcessing,2007,15(5):1529-1539.
[5]王科攀,高勇.信号相位匹配算法的语音降噪及性能评估[J].声学技术,2010(06):615-619.
[6]ZhangS,LiuC,JiangH,etal.FeedforwardSequentialMemoryNetworks:ANewStructuretoLearnLong-termDependency[J].ComputerScience,2015.
[7]刘凯.基于深度学习的语音唤醒研究及其应用[D].厦门:厦门大学,2018.
[8]WangD,WangX,LvS.AnOverviewofEnd-to-EndAutomaticSpeechRecognition[J].Symmetry,2019,11(8):1018.
[9]冯志伟.自然语言处理综论(第二版)[M].电子工业出版社,2018.
[10]MikolovT,ChenK,CorradoG,etal.EfficientEstimationofWordRepresentationsinVectorSpace[J].ComputerScience,2013.
[11]DevlinJ,ChangMW,LeeK,etal.BERT:Pre-trainingofDeepBidirectionalTransformersforLanguageUnderstanding[EB/OL].[2018-10-11]https://arxiv.org/abs/1810.04805.
[12]李晓林,张懿,李霖.基于地址语义理解的中文地址识别方法[J].计算机工程与科学,2019,41(03):171-178.
[13]邱泽宇,屈丹,张连海.基于WaveNet的端到端语音合成方法[J].计算机应用,2019,39(05):1325-1329.
[14]JuvelaL,BollepalliB,TsiarasV,etal.GlotNet-ARawWaveformModelfortheGlottalExcitationinStatisticalParametricSpeechSynthesis[J].IEEE/ACMTransactionsonAudio,Speech,andLanguageProcessing,2019(6):1-1.
[15]GimmM,BullingP,SchmidtG.Energy-DecayBasedPostfilterforICCSystemswithFeedbackCancellation[C].ElectronicSpeechSignalProcessing,2018.
[16]佚名.2012中国汽车消费趋势报告[M]//中国汽车社会发展报告(2012~2013).北京:社会科学文献出版社,2013.
[17]车云网.2020智能汽车趋势洞察及消费者调研报告[R/OL].(2020-03-10)[2021-01-06].http://www.199it.com/archives/1023497.html.
AReviewonDevelopmentTrendsofAutomotiveVoiceInteractionTechnologies
WangXingbao,LeiQinhui,MeiLinhai,ZhangYa,XingMeng(IntelligentAutomobileBusinessUnit,iflytekCo.,Ltd.,Hefei230088)
【Abstract】Automotivenetworkingandintelligencecreateopportunitiesandprospectsforinnovativedevelopmentofautomotivehuman-computerinteraction,inwhichvoiceinteractionhasbecomethemainwayofhuman-computerinteraction.Firstly,thedevelopmentprocessofhuman-computerinteractionfromtheearlyphysicalbuttonstotouchscreenandvoicemultimodalinteractionmodeissummarized,andthentheresearchandapplicationstatusofvoiceinteractiontechnologyathomeandabroadisanalyzed.Finally,thedevelopmenttrendofvoiceinteractiontechnologyisprospected,anditisconcludedthathuman-computerinteractionwillfocuson“basicavailable”to“easytouse”,from“mainandauxiliarydriving”,from“interactive”to“multipassengerinteraction”,from“passiveexecutiverobot”to“personifiedintimateassistant”,from“incarinteraction”to“crosssceneinteraction”,andfrom“voiceinteraction”to“multimodalinteractionfusionandcooperation”.
Keywords:Voiceinteraction,HMI,Speechrecognition,Multi-modal
【欢迎引用】王兴宝,雷琴辉,梅林海,等.汽车语音交互技术发展趋势综述[J].汽车文摘,2021(2):9-15.
【Citethispaper】WangX,LeiQ,MeiL,etal.AReviewonDevelopmentTrendsofAutomotiveVoiceInteractionTechnologies[J].AutomotiveDigest(Chinese),2021(2):9-15.
中图分类号:U461.99
文献标识码:A
DOI:10.19822/j.cnki.1671-6329.20200187
智能音箱的五大核心技术
在很多人眼里依旧是新潮玩意的智能音箱,往往具备智能家居声控中心和个人助理两大核心功能。通过智能音箱可以实现对家居中的智能电器进行联网和语音控制,同样也可完成日常安排、订餐厅、叫车、阅读、翻译、通话等类似个人助理的功能。智能音箱的优势在于其能够通过语音实现“隔空操作”,在人们不方便使用手机或其他电子设备时提供帮助。这么方便好用的智能音箱,究竟是用了什么技术来解放我们的双手的呢?
智能音箱的五大核心技术
1.芯片技术
芯片厂商主要为智能音箱提供主控芯片、内存芯片、处理器芯片、音频芯片、通信芯片、电源系统管理芯片等,其中主控芯片作为主板的核心组成部分,优质的主控芯片可有效提升智能音箱音质,发挥音效设备及麦克风的最佳性能。目前为智能音箱提供芯片技术的主要有联发科、全志科技、瑞芯微、紫光展锐、高通、晶晨等厂商,除了主控芯片以外,还有数字功放芯片、音频ADC芯片、内存芯片、电源系统管理芯片、WIFI蓝牙二合一芯片等。
2.麦克风阵列技术
麦克风阵列(以下简称麦列),是由一定数目的麦克风组成,用来对声场的空间特性进行采样并处理的系统。简单而言,使用麦列而非单个麦克风,是为了在用户距离音箱较远时,依然能够正常的收听用户的语音指令。
3.语音识别技术
语音识别的目的是将语音信号转化为文本。语音识别技术相对成熟。目前,基于近场信号的、受控环境(低噪声、低混响)下的标准音语音识别能够达到很的水平。该技术现阶段相对成熟,普遍近场识别率可以达到90%以上。行业技术龙头是科大讯飞,目前识别率可以达到97%。此外,腾讯、百度、思必驰等公司在识别率和技术实力上也都处于领先地位。
4.语义识别技术
智能音箱光能识别语音还不够,关键是要识别语义,能理解用户的意思才能提供更好的交互体验。语义识别技术发展的关键是数据量的收集与算法模型的构建,当收集到的数据量足够时,就能通过算法模型构建更复杂精确的建模,从而正确辨析语境和语义。目前该技术普遍存在误唤醒率高、连续对话功能不稳定、语义理解能力差等缺点,还存在很大的进步空间。
5.内容推荐算法
智能音箱的智能化还体现在能根据用户需求推荐内容,提高用户满意度。
一篇看懂服务机器人语音交互与“三大技术”的因果关系
随着时代的发展和人工智能技术的愈加完善,智能服务机器人已越来越广泛地应用于各行业、各领域当中,如我们随处可见的迎宾机器人、智能讲解机器人、会场机器人等,为缓解劳动力短缺和工作人员的压力起到了重要作用。当我们与服务机器人进行语音对话时,是否想过,它是依靠什么技术接收到我们的声音,并给予及时、准确地回复的呢?比如说:“今天天气怎么样”?服务机器人马上会说:“今天天气晴朗,气温为10℃-22℃”,伴随有4-5级的东南风……其实,服务机器人的语音交互原理与我们人类是相似的,实现正常的互动必须满足三个条件:用耳朵听、用大脑理解、用嘴巴回答。服务机器人实现智能交互的“三大技术”分别为语音识别技术(ASR),相当于它的“耳朵”;自然语言处理技术(NLP),相当于它的“大脑”;语音合成技术(TTS),相当于它的“嘴巴”。当我们提出问题后,智能服务机器人将通过麦克风接收声音,声音将通过语音识别技术(ASR),把声学语音转换为服务机器人能够识别的文字、字母信息。如上图所示,在宁夏博物馆嘈杂的环境中,小笨智能服务机器人可通过语音识别技术(ASR)准确“倾听”游客声音,并转换为其能够识别的语言,为下一步对语义的分析、理解做准备。小笨智能服务机器人语音识别技术(ASR)采用国际先进算法,通过编码,把语音转换为小笨智能服务机器人可以识别的样式(即数字向量表示),因为声音信号是服务机器人没有办法直接识别的,需要将声音切割成一小段一小段音频,然后每一小段都按一定规则的数字向量来表示。然后就是解码的过程,即将数字向量拼接为文字、字母的过程。将编码好的向量放置于声学模型和语言模型中,就可得到每一小段对应的文字、字母,然后把翻译出来的文字、字母再经过语言模型,就可组成小笨可识别的单词。当然,声学模型和语言模型也是个神经网络,是小笨智能服务机器人通过大量的语音和语言数据训练出来的,这也是小笨智能服务机器人可以准确识别各种复杂语音的原因之一……解码完成后,可识别的单词信息将通过服务机器人的自然语言处理技术(NLP)来准确理解客户意图、情感倾向等信息,此为语音交互中的核心之一,也是最难的模块之一。自然语言处理技术(NLP)通过语法分析、句法分析、语义理解文本相似度处理、情感倾向分析等技术,具备衡量人们观点和倾向的能力,可精准区分出哪些话属于这个意图,哪些表达不是这一类意图。小笨智能自主研发的自然语言处理技术(NLP)可将接收到的信息进行分析、理解,上图为小笨智能服务机器人在济南能源集团办事大厅,前来办理业务的群众只需要说出需求,即可准确理解群众意图,并从“5G云端大脑”中提取出相对应答案,发出准确的回复指令。小笨智能服务机器人“5G云端大脑”储存着海量知识库,可支持生活常识、天气、机票等信息查询,并同步企业各类形式的信息,使企业信息通过语音、视频、动图等形式展现出来,满足访客98%以上的日常闲聊或企业业务问答。当服务机器人发出回复指令后,还需要用“嘴巴”说出来,这就需要使用语音合成技术(TTS),即把回复指令转换为人类能够听懂的声音。如下图,在济南长途汽车总站小笨智能服务机器人“理解”完游客的问题后,于“5G云端大脑”中提取出准确的回复指令,并转换为游客能够理解的语音、视频、图片等形式,让游客轻松掌握出行信息。语音合成技术(TTS)的工作流程可分为两步,第一步为文本处理,这一步做的事情是把文字或字母指令转化成音素序列,并标出每个音素的起止时间、频率变化等信息,这一步的作用不可小觑,比如拼写相同但读音不同的词的区分、缩写的处理、停顿位置的确定等。第二步为语音合成,这一步是指根据已经标注好的音素起止时间、频率变化等生成语音,最终通过扬声器准确表达出来。小笨智能语音合成技术(TTS)技术可对文本实现实时转换,转换时间可以按秒计算,文本输出的语音音律流畅,让听者在听取信息时感觉自然,几乎没有机器语音输出的冷漠与生涩感。小笨智能强大的自然语言处理能力,可满足在不同应用场景中高效、准确服务,针对不同的应用场景,同步不同的样本数据,所以,小笨智能已服务过的6000+客户中,覆盖政务大厅、法院、商场、机场等全行业场景,满足了不同企业的差异化需求。从语音识别到智能问答,从意图识别到情感分析,无不显示小笨智能服务机器人在当代对场景深层次服务的执着追求。未来,小笨智能将继续坚持为企业、为社会提供有价值的见解,使传统行业焕发新生力,让我们的生活更方便、更高效。什么是人机交互技术
原标题:什么是人机交互技术随着人工智能在近两年的不断兴起,技术上的发展进步,在很多行业领域,有越来越多的人工智能产品慢慢的出现在行业服务当中。其中,人工智能电话机器人迅速发展也让企业的选择丰富了许多,为企业的销售业绩“赋能”。
什么是人机交互技术?
在人工智能电话机器人中,最为重要的技术当然是人机交互,什么是人机交互技术呢?百度词条上给出的解释:人机交互技术(Human-ComputerInteractionTechniques)是指通过计算机输入、输出设备,以有效的方式实现人与计算机对话的技术。这是百度百科给的人机交互技术的解释,足以说明人机交互在人工智能语音机器人的发展中占据着一定的地位。
人机交互关键技术分析
基于语音的智能人机交互是当前人机交互技术的主要表现形式,语音人机交互过程包括信息输入和输出的交互、语音处理、语义分析、智能逻辑处理以及知识和内容的整合。
结合语音人机交互过程,可以看出智能语音人机交互关键技术主要如下:
1.自然语音处理技术
包括中文分词、词性标注、实体识别、句法分析、自动文本分类等技术。
2.语义分析和理解
包括知识表示、本体理论、分领域的语义网络、机器推理等。
3.知识构建和学习体系
包括搜索技术、网络爬虫、数据挖掘、知识获取、机器学习等技术。
4.语音技术
包括语音识别、语音合成和声纹识别等。
5.整合通信技术
包括跨平台即时通讯整合技术、超大负载消息集群处理技术、移动客户端开发技术。
6.云计算技术
包括海量数据分布式存储、统计和分析技术。
智能语音人机交互技术在典型行业的应用
语音交互方式替代文本交互方式,可以增强信息输入方式,能和更多的设备进行整合,市场前景广阔。目前,智能语音人机交互技术已经广泛应用到电话销售、智能客服、智能终端等领域,切实深入到人们的生活。
据了解,言通智能电话机器人已经支持几乎所有的人机交互渠道,包括短信、WEB、微信、电话等,通过语音或文本的方式与用户进行智能自然的交互。返回搜狐,查看更多
责任编辑: