人工智能 浅析语音助手的现状及未来发展
【PConline杂谈】自2011年苹果将Siri带进手机市场之后,语音助手类应用可谓火的一塌糊涂。还记得当年上至生活大爆炸里的谢耳朵,下至无数的果粉,纷纷以调戏Siri为乐。先不说Siri到底是否为消费者带来极致的便利,但就影响力来说,Siri一定是苹果的一个代表作品。苹果几乎以一己之力打开了一个全新的市场,再大的厂家也无法淡定,谷歌微软纷纷入局,使出浑身解数,誓要为消费者在手机上打造一名“私人管家”。那么今天,我们就来聊聊各家的语音助手。
如今手机界有三大操作系统,iOS,安卓和WP8。相应的来说,自然也有三大语音助手,Siri,Google Now和Cortana(微软小娜)。三大语音助手之中,Siri来的最早,也是名头最大的一个,不然怎么有人说iPhone4S的S就是Siri呢。
事实上,Siri直接发源于史上最大的人工智能项目:五角大楼的CALO项目。CALO是“Cognitive Assistant that Learns and Organizes”的缩写(会学习和组织的认知助理),这个项目汇聚了全球人工智能方面的顶尖科研人员。整个CALO计划的带头人名叫Adam Cheyer,现任苹果iPhone团队的工程总监。Cheyer说CALO早已开始探索如何把“对话、自然语言理解、视觉、演说、机器学习、制定计划、理性思考、服务代表全部融合到一个模仿人类的助理中,帮助人们完成不同的事情。”他形容说Siri计划就是寻求在一件消费产品中做同样的事情。其实,在Siri正式发布的前四年里,Cheyer和他的团队一直在钻研如何优化CALO,使其能够在一台强大的移动电话中发挥效用,每天都能被成千上万的用户使用。对Cheyer来说,Siri并不是早期安卓手机上简单的语音识别,Siri是人工智能,是这个十年里移动平台最大的事情之一。Siri最终的目的就是为消费者打造一个贴身的数字管家,让消费者感受到科技的便捷。
iPhone4s上的Siri
有了先行者,自然就有追赶的人。或许,谷歌早就预料到苹果会渐渐在iOS中去掉谷歌服务。为了巩固自己在移动搜索领域的优势,同安卓4.1一起推出了全新的搜索应用,Googlenow。用谷歌官方的话来说,Google now会全面了解消费者的各种习惯和正在进行的动作,并利用它所了解的来为消费者提供相关信息。现如今,谷歌已经为Google now添加了诸如步行和行车里程记录,汽车租赁,演唱会门票和通勤共享等方面的内容,并且如今,Google now已经被直接整合进原生的安卓系统之中,使用更为便利。
Google now
看着苹果和谷歌在移动语音领域大展身手,同样身为科技巨头的微软自然是坐不住了。为了对抗苹果和谷歌,微软也推出了自家的语音助手---Cortana,而且针对中国市场,微软还发布了本土版的Cortana---微软小娜。虽说想达到Holo里Cortana的技术再有500年都未必能够实现,但这并不妨碍微软现在将“非完全体”的它移植进手机之中。在WP8.1之中,Cortana被定位为个人数字助理,能通过不断学习用户的使用习惯和兴趣来帮助用户组织日常活动,常规的Web搜索。
基于这种设计理念,微软为Cortana特意打造了一个虚拟的记事本。当然,这个记事本并非是隐私收集器,而是代表了Cortana记录用户的一切待办事项。并且这些待办事项全部存于云端,如果愿意,用户完全可以同好友分享信息,甚至是位置,兴趣点等等。另外,Cortana最有用的部分在于自主性的学习能力和基于时间的触发行动,有些像是一些基于“IFTTT”(网络行为连锁反应)的Web服务。随着使用时间的推移,Cortana能够学习你的发声习惯,从而更准确地理解你的意思,另外在了解你的喜好之后,理论上可以实现更智能化的主动式服务。微软也将向第三方软件厂商开发API,实现更多操作可能。
微软Cortana
说了这么多,各位读者可能感觉语音助手是一项非常“高大上”的技术,事实上并非如此。以Siri为例,Siri 所用到的技术无过乎只有两样,人工智能以及云计算。但如果更细分来说,则可分为前端技术和后台技术来看。在前端技术方面,即面向用户,和用户交互(User Interface,UI)的技术,主要是语音识别以及语音合成技术。
语音识别技术是把用户的口语转化成文字,其中需要强大的语音知识库,因此需要用到所谓的“云计算”技术。而语音合成则是把返回的文字结果转化成语音输出,这个技术理论上本地就能完成,当然也可以是在云端完成的。后台技术,其实才是真正的大角色。这些技术的目的就是处理用户的请求,并返回最匹配的结果,这些请求类型很多,千奇百怪,要处理好并不简单。基本的结构可能是分析用户的输入(已经通过语音转化),根据输入类型,分别采用合适的技术(合适的技术后台)进行处理。这些合适的后台技术包括,①以Google ,Bing,百度等为代表的网页搜索技术;②以Wolfram Alpha为代表的知识搜索技术(或者知识计算技术);③以维基百科为代表的知识库(和Wolfram Alpha不同的是,这些知识来自人类的手工编辑)技术(包括其他百科,如电影百科等);④以Yelp 为代表的问答以及推荐技术。将处理后得到的结果再返还给用户,也就完成了一次与用户的问答或是聊天。
Siri聊天
Siri和Cortana的技术基本就是如此,但一定要强调的是,严格的说Google now应当只是一款语音搜索软件,并不具备与用户聊天的的交互式功能。Google now只是利用了谷歌强大的搜索引擎,并且加入了上下文联想功能,根据用户的搜索记录,习惯来提供智能化的服务。当然,这意味着它会收集用户数据加以分析,但是其呈现出的信息还是极为有效地。
语音助手的最终目的是为消费者带来便利,因此,往往理论说的极其完美,但消费者更关心其在现实生活之中的表现。仅以在大陆的情况来看,Google now可谓毫无用处。我们都知道Google now是基于Google搜索来提供反馈的,但是在大陆,因为一些“你懂得”的原因,Google基本是无法使用的。唯一能使用的一些本机上的服务,还必需在英文界面下使用。当然,如今谷歌已经推出了Google now的桌面版和可穿戴设备版,要是各位一定想尝鲜的话,挂个VPN就是最好的选择了。
与Google now不同的是,Siri和Cortana目前都是基于Bing平台,因此两者在大陆还是完全可以使用的。Siri在经过了两年的发展之后,成功摘掉了Beta版的帽子,迎来了正式版。相对于早期只能打电话,设置闹钟等简单的操作,如今的Siri正不断地加强其功能,如多国语音,男女声,打开一些程序等,并且在识别率上也有了很大的进步。但从聊天的角度来看,Siri和有人情味还有一段的距离。并且,因为监管的原因,早期还爆出了涉黄等问题。这些都是Siri在未来要加以改正的和进步的。
Cortana在大陆的本土版叫做微软小娜,相比于以上两者,可谓接地气的多。各位读者应当还记得不久前被腾讯封杀的微软小冰吧。事实上,小娜和小冰都是微软中国团队的作品,微软中国曾说过,小冰小娜就像一对姐妹花,虽然都是偏向人工智能的产品,但定位不同,小娜更注重对用户制定任务的完成,小冰则更倾向于娱乐俏皮的交流,两者都是极为接地气的产品。
这一点,在一些小细节中有较大的体现,比如在天气预报之中加入了空气质量提醒,限行信息等,另外从第三方应用上来看,针对大陆市场,微软小娜选择了微信,新浪微博,爱奇艺等七家应用进行深度合作,例如使用微软小娜可以直接打开微信的朋友圈,这在Siri上是无法做到的。从目前大多数使用者的反应来看,微软小娜还是具有很大的优势的。而且随着后天的学习功能的加强,微软小娜必将成为WP手机的一大亮点。
接地气的微软小娜
先布局者得市场,在任何一个行业,这个道理也仅限于前期,谁能真正地笑到最后还不得而知。在竞争日益激烈的移动互联网时代,语音助手最终拼的还是是否真正为用户着想,提供更加便利的语音智能生活。这场竞争还只是刚刚开始,未来大家还有很长的路要走,谁将最终获得用户认可,就让时间给我们一个答案吧。
智能语音交互创新发展的新未来
智能语音技术自身交互的便利性,也促使它自身可以被运用到更为广泛的场景和行业中。相较于传统模式,智能语音技术在很大程度上解放了人们的双手和眼睛,为人们日常生活提供便利,也可以为特殊人群服务。同时语音交互可以使机器实现自我学习,解决长期存在的人服务于机器的现状。这一自身的特点使得智能语音技术有了无可替代的优势。
近年来,人工智能的迅速发展带动了智能语音的快速崛起,技术的快速升级,让智能语音技术成果迅速落地。今天社会的各个角落里,都有智能语音的影子。
智能语音可以作为语音导视机器人,帮助患者分析病情,推荐就诊,电子病历的语音输入可以极大提高医生的工作效率。2018年我国医疗机器人市场规模已达34亿元,在智能语音发挥巨大作用的同时,这一市场规模仍将持续增长。
在智能警务上智能语音的声纹识别技术也开始利用到警察破获案件、公安取证、银行交易等领域。
同时,智能家居、可穿戴设施、智能车载等领域,智能语音将作为交互入口而发挥巨大作用。这一点,作为智能家居核心入口的智能音箱迅速扩大的市场,就足以说明智能语音的潜力。今年第二季度,全球智能音箱同比增长95.8%,达到了3030万台,且所有地区的同环比出货量无一例外的在增长。
当我们在畅想人工智能时代的景象时,智能家居市场规模近千亿,到2021年,语音助手的数量将和人类一样多,还有时刻陪伴在我们手边的智能音箱已经表明,我们已经身处人工智能时代之中。
我们熟练的用语音助手定闹钟、计行程,让智能音箱放音乐、讲笑话,出门在外,地图导航里是亲人朋友亲切的声音,去银行医院接待你的是机器人助理。曾属于未来的想象现在都已经变成了生活的一部分,智能语音带给我们的不仅仅会是这些,随着技术的不断进步和企业的不断投入,智能语音将会成为我们打开未来大门的一把钥匙。
智能语音由于在人工智能上的关键地位和政策引导,以及目前市场众多参与者的积极推动等因素,呈现出一片繁荣之景,而这样的发展红利,必将持续较长时间,未来的智能语音市场必定会是巨头云集的可为之地。
中天智领在“智慧人机交互与信息化领域”已经成为国内的领创品牌,拥有完全自主产权及发明专利池余28项,以“智慧交互”为核心竞争力服务于“政府、军队、公安、法院、检察院、司法、教育、交通、消防、电力、环保、能源”部门指挥中心智慧交互业务,提供全方位“智能显示+智慧交互+内容可视化”的整体解决方案。
产品跨网兼容、格式兼容、系统兼容,摆脱大型信息中心的复杂交互,无论身处何处都可以对任何目标进行交互,交互对象自主选择,智能激光笔、教鞭、手势手触、指挥台、实物、隔空操作、智能语音、多屏联动。数显分离、权限识别,安全可靠。
中天智领智能语音交互,让交互“说”出来,无论将来指挥中心增加多少信号,多少业务场景,不再需要后台人员使用电脑操作,只需说出名字,即可快速大屏展示。面对成千上万的监控图像,不再需要眼花缭乱的寻找,只需要说出想看到的监控场景,大屏即可全屏显示。返回搜狐,查看更多