博舍

智能语音简史:这场技术革命从哪开始 智能语音助手有谁发明的

智能语音简史:这场技术革命从哪开始

来源:与非网

1952年,贝尔实验室(BellLabs)制造一台6英尺高自动数字识别机“Audrey”,它可以识别数字0~9的发音,且准确度高达90%以上。并且它对熟人的精准度高,而对陌生人则偏低。

1956年,普林斯顿大学RCA实验室开发了单音节词识别系统,能够识别特定人的十个单音节词中所包含的不同音节。

1959年,MIT的林肯实验室开发了针对十个元音的非特定人语音识别系统。

二十世纪六十年代初,东京无线电实验室、京都大学和NEC实验室在语音识别领域取得了开拓性的进展,各自先后制作了能够进行语音识别的专用硬件。

1964年的世界博览会上,IBM向世人展示了数字语音识别的“shoeboxrecognizer”。

二十世纪七十年代,语音识别的研究取得了突破性的进展,研究重心仍然是孤立词语语音识别。

1971年,美国国防部研究所(Darpa)赞助了五年期限的语音理解研究项目,希望将识别的单词量提升到1000以上。参与该项目的公司和学术机构包括IBM、卡内基梅隆大学(CMU)、斯坦福研究院。就这样,Harpy在CMU诞生了。不像之前的识别器,Harpy可以识别整句话。

二十世纪八十年代,NEC提出了二阶动态规划算法,Bell实验室提出了分层构造算法,以及帧同步分层构造算法等。同时,连接词和大词汇量连续语音的识别得到了较大发展,统计模型逐步取代模板匹配的方法,隐马尔科夫模型(HMM)成为语音识别系统的基础模型。

八十年代中期,IBM创造了一个语音控制的打字机—Tangora,能够处理大约20000单词。IBM的研究就是基于隐形马尔科夫链模型(hiddenMarkovmodel),在信号处理技术中加入统计信息。这种方法使得在给定音素情况下,很有可能预测下一个因素。

1984年,IBM发布的语音识别系统在5000个词汇量级上达到了95%的识别率。

1985年AT&T贝尔实验室建造了第一个智能麦克风系统,用来研究大室内空间的声源位置追踪问题。

1987年开始,国家开始执行963计划后,国家863智能计算机主题专家组为语音识别研究立项,每两年一次。

1987年12月,李开复开发出世界上第一个“非特定人连续语音识别系统”。

1988年,卡耐基梅隆大学结合矢量量化技术(VQ),用VQ/HMM方法开发了世界上第一个非特定人大词汇量连续语音识别系统SPHINX,能够识别包括997个词汇的4200个连续语句。

同年,清华大学和中科院声学所在大词库汉语听写机的研制上取得了突破性进展。

1990年,声龙发布了第一款消费级语音识别产品DragonDictate,价格高达9000美元。

1992年,IBM引入了它的第一个听写系统,称为“IBMSpeechServerSeries(ISSS)”。

1992年研发的Sphinx-II在同年美国国防部先进技术研究计划署(DARPA)资助的语音基准评测中获得了最高的识别准确度,这主要得益于其在高斯混合和马尔可夫状态层次上用栓连参数平衡了可训练性和高效性。

1995年,Windows95上首次搭载微软SAPI,它使应用程序开发者能够在Windows上创建语音程序。

1995年,AT&T研究院的DaveLadd,ChrisRamming,KenRehor以及CurtTuckey在头脑风暴关于互联网会如何改变电话应用的时候,产生了一些新的想法:为什么不设计这样一个系统来运行一种可以解析某种语音标记语言的语音浏览器,用来把互联网的内容和服务提供到千家万户的电话上。于是,AT&T就开始“电话网络项目”(PhoneWebProject)。之后,Chris继续留在AT&T,Ken去了朗讯,Dave和Curt去了摩托罗拉。(1999年初的时候,他们分别在各自的公司迈出了语音标记语言规范实质性的第一步。因为他们的密友关系,这几家公司合作成立了一个VoiceXML论坛组织,IBM也作为一个创始公司加入了进来。)

1997年IBMViaVoice首个语音听写产品问世,你只要对着话筒喊出要输入的字符,它就会自动判断并且帮你输入文字。次年又开发出可以识别上海话、广东话和四川话等地方口音的语音识别系统ViaVoice’98。

1998年,微软在北京成立亚洲研究院,将汉语语音识别纳入重点研究方向之一。

2001年,比尔盖茨在美国消费电子展上展示了一台代号为MiPad的原型机。Mipad展现了语音多模态移动设备的愿景。

2002年,中科院自动化所及其所属模式科技公司推出了“天语”中文语音系列产品——PattekASR,结束了该领域一直被国外公司垄断的局面。

2002年,美国国防部先进技术研究计划署(DARPA)首先启动了EARS项目和TIDES项目;由于EARS项目过于敏感,EARS和TIDES两个项目合并为“全球自主语言开发”(GlobalAutonomousLanguageExploitation,GALE)。GALE目标是应用计算机软件技术对海量规模的多语言语音和文本进行获取、转化、分析和翻译。

2006年,辛顿(Hinton)提出深度置信网络(DBN),促使了深度神经网络(DeepNeuralNetwork,DNN)研究的复苏,掀起了深度学习的热潮。

2009年,辛顿以及他的学生默罕默德(D.Mohamed)将深度神经网络应用于语音的声学建模,在小词汇量连续语音识别数据库TIMIT上获得成功。

2009年微软Win7集成语音功能。

2010年GoogleVioceAction支持语音操作与搜索。

2011年初,微软的DNN模型在语音搜索任务上获得成功。

同年科大讯飞将DNN首次成功应用到中文语音识别领域,并通过语音云平台提供给广大开发者使用。

2011年10月,苹果iPhone4S发布,个人手机助理Siri诞生,人机交互翻开新篇章。

2012年,科大讯飞在语音合成领域首创RBM技术。

2012年,谷歌的智能语音助手GoogleNow的形式出现在众人面前,用在安卓4.1和Nexus手机上。

2013年,Google发布GoogleGlass,苹果也加大了对iWatch的研发投入,穿戴式语音交互设备成为新热点。

同年,科大讯飞在语种识别领域首创BN-ivec技术。

2014年,思必驰推出首个可实时转录的语音输入板。

2014年11月,亚马逊智能音箱Echo发布。

2015年,思必驰推出首个可智能打断纠正的语音技术。

2016年,GoogleAssistant伴随GoogleHome正式亮相,抢夺亚马逊智能音箱市场。(亚马逊Echo在2016年的智能音箱市场占有率达到了巅峰的88%)

同年,科大讯飞上线DFCNN(深度全序列卷积神经网络,DeepFullyConvolutionalNeuralNetwork)语音识别系统。

同年11月,科大讯飞、搜狗、百度先后召开发布会,对外公布语音识别准确率均达到“97%”。

2017年3月,IBM结合了LSTM模型和带有3个强声学模型的WaveNet语言模型。“集中扩展深度学习应用技术终于取得了5.5%词错率的突破”。相对应的是去年5月的6.9%。

2017年8月,微软发布新的里程碑,通过改进微软语音识别系统中基于神经网络的听觉和语言模型,在去年基础上降低了大约12%的出错率,词错率为5.1%,声称超过专业速记员。相对应的是去年10月的5.9%,声称超过人类。

2017年12月,谷歌发布全新端到端语音识别系统(State-of-the-artSpeechRecognitionWithSequence-to-SequenceModels),词错率降低至5.6%。相对于强大的传统系统有16%的性能提升。

市场分析公司Canalys在2018年1月分布一份报告,其预测2018年将是普及智能音箱的“决定性一年”,相比全年出货量刚过3000万台的2017年,2018年智能音箱全球出货量预计将达到5630万台。

中投顾问发布的《2018-2022年中国智能语音行业深度调研及投资前景预测报告》显示我国智能语音市场整体处于启动期,智能车载,智能家居,智能可穿戴等垂直领域处于爆发前夜。

文章引用

[1]李晓雪.基于麦克风阵列的语音增强与识别研究[D].浙江大学,2010.

[2]倪崇嘉,刘文举,徐波.汉语大词汇量连续语音识别系统研究进展[J].中文信息学报,2009,23(1):112-123.

[3]高朝煌.非特定人汉语连续数字语音识别系统的研究与实现[D].西安电子科技大学,2011.

[4]《2017年的语音识别,路只走了一半》

[5]《2018-2022年国内外智能语音发展的分析》

[6]《四十年的难题与荣耀—从历史视角看语音识别发展》

[7]《几个常见的语音交互平台的简介和比较》

[8]《VoiceXML简介》

[9]《思必驰官方介绍资料》

未来智能实验室是人工智能学家与科学院相关机构联合成立的人工智能,互联网和脑科学交叉研究机构。

未来智能实验室的主要工作包括:建立AI智能系统智商评测体系,开展世界人工智能智商评测;开展互联网(城市)云脑研究计划,构建互联网(城市)云脑技术和企业图谱,为提升企业,行业与城市的智能水平服务。

  如果您对实验室的研究感兴趣,欢迎加入未来智能实验室线上平台。扫描以下二维码或点击本文左下角“阅读原文”

手机语音助手不该“拟人化”

虚拟人、虚拟形象的出现,给许多产品、功能或服务带来了更多可行的展现形式,比如直播带货中的虚拟主播,又比如手机里的虚拟语音助手。那么,虚拟形象于语音助手而言,是必要的吗?目前的技术又是否支撑得起人们的语音交互需求?

随着元宇宙的大火,目前无论国外的科技厂商,都相继推出了自家的“虚拟人”角色。从整体概念来看,这类虚拟形象的推出都是为了“元宇宙”而存在。

虽然元宇宙这一概念在目前来看未来的发展并不明朗,甚至目前连具体落地的大众化产品都没有,但这并不能阻挡科技厂商的“提前布局”,不管未来如何,“抢占先机”总归是一件好事。

比如国际大厂三星,就推出了自家的“虚拟人角色”:G·NUSMAS,一个外星人形象的虚拟角色,在名字上也非常有意思,是SAMSUNG的倒写,意味着“镜像”的意思,也表明了其三星虚拟世界化身的身份。

G·NUSMAS图源:来自网络

我个人是很喜欢这种有创意的虚拟角色的,另一方面从虚拟人的立意上也能看出品牌的调性。

而在国内,虚拟人这一概念虽然同样火热,但是对于各大厂商来说,虚拟角色这一概念有着更大的商业价值,尤其是手机厂商,手机上很多功能都和“虚拟人”有关,其中关联最大的就是语音助手。

随着智能手机的不断进化,手机已经人工智能高度捆绑在一起,早期智能手机“所见即所得、所点即所得”的操作方式成为智能机的标志,更为直观的操作方式获得了消费者的好评。

而当语音助手出现之后,智能手机又掀起了新一轮的革命,语音交互有着更为直观的体验和感受,同时也更符合人类交流的方式。

国外智能语音媒体Voicebot在2020年末发布了一份《智能手机语音助手消费者采用率报告》,根据报告数据内容显示,智能手机上语音助手的使用率从2018年的51.5%上升到2020年的56.4%,由此可见语音助手的使用频率还是比较高的。

图源:源于网络

语音助手从刚刚诞生到如今百花齐放,早已经脱离了早前只单纯从“词库”中搜索对应答案的阶段。

语音助手早已经有了足够深度的AI学习能力,这里我们就用小米标志性的“小爱同学”举例,小爱同学可以通过不断的与用户进行对话,来不断地学习用户的语音习惯,并且将其通过网络共享,丰富自身的“知识库”。这种不断通过对话喂养人工智能的能力,我更愿意叫它“调教”。

图源:来自网络

直到现在,安卓语音助手甚至已经进化到了“连问连答”、“情感对话”的阶段,通过自身的AI能力识别上下句的语义,并且得出用户是否在与机器进行对话的结论。

在我看来,“连问连答”的加入已经属于“跨时代”的进步。AI技术的加入让语音助手这类功能形成了质变,拥有了一定程度的学习能力和自主理解能力。

“情感对话”则要更进阶一些,这里我们用小爱同学的一段对话来表达这一概念。

你:我感冒了小爱:你还有我~我在这儿陪着你你:我失眠了小爱:摸摸你,先别着急,怎么会睡不着呢?我猜…是不是睡前做了剧烈运动呢?比如跑步、跳绳之类的?

“情感对话”简单来讲,就是赋予机器感情,它能够实现与人类的共情,再直白些,就是能在你悲伤的时候安慰你,在你迷茫的时候鼓励你。机器通过理解人的情绪和处境,给出关怀的、富有同情心的回应,从而给人提供即时的情绪支持和长期的情感陪伴。

这两个功能的加入,让语音助手实现了更一步的进化。

图源:来自网络

但高速的发展必然伴随着创新瓶颈,手机厂商并不知道AI语音助手的下一条路在哪里。恰逢虚拟人概念火热,而且AI智能语音助手也有足够强的智能化。

所以,就有一些厂商认为:语音助手比任何功能都需要一个“人”的外表。

不过智能语音助手+虚拟人+手机这样的组合,感觉味道就有点不太对劲。

虽然拥有虚拟外表的智能语音助手可以连答,也能提供情绪支持。但首先,过于“花里胡哨”的外表很难让人提起使用的欲望,这里我们用MIUI13的小爱同学举例,MIUI13的小爱同学可以自定义外观,并且经过定制的小爱同学会出现在语音助手界面,每次呼出语音助手都会看到小爱同学的虚拟形象。

图源:MIUI13

从身边同事的反馈来看,自从他的小米手机升级了MIUI13之后,他连语音助手都不经常打开了……

略显幼稚的形象只是用户吐槽的一部分,在OPPO推出的小布语音助手(小布数字人)上,OPPO还提到了其情感陪伴的能力,根据情绪的波动,来为用户提供不一样的语音反馈,也就是我们刚才说到的“情感对话”技术。

图源:来自网络

用虚拟人提供情感陪伴,看似完美的解决了虚拟人的功能需求,但实际上,“情感对话”技术目前有着很大的问题。正如上述的对话示例一样,上一句语音助手还在安慰我们,可我们下一句一旦没有这些关键词,语音助手就会重回“冰冷”的状态,像极了反反复复的渣男。

目前手机语音助手拟人化做的最好的,就是小米旗下黑鲨的“鲨鲨酱”,由于黑鲨游戏手机特殊的属性,二次元形象的鲨鲨酱反而更受欢迎。基于此,黑鲨为鲨鲨酱添加了更多融入性的功能,比如玩游戏时可作为战况播报员,充电时,鲨鲨酱也会一同充能,显示精美动画,此外,鲨鲨酱还拥有闹钟功能,可以拟人的形式叫用户起床。

图源:黑鲨官网

基于鲨鲨酱的成功,黑鲨还为其在各种渠道打造IP,是目前手机助手虚拟形象做的最好的一个,也是唯一成功的一个。

在我看来,手机上出现“拟人化”的语音助手,该,也不该。

从整体布局上来讲,拟人化的语音助手可以更好的融合整个IOT生态。比如小爱同学,小爱同学从诞生到现在,愈发有种“贾维斯”的感觉。

与Siri一样,小爱同学承担了智能管家类的角色,可以更好的统一产品生态,融合各类智能化设备,让用户拥有更强的科技感。

图源:MIUI官网

除此之外,虚拟形象的出现可以提早对IP进行布局,无论是在未来元宇宙还是虚拟IP形象,都是非常不错的开端。

但“拟人化”的语音助手,不该出现在手机产品上,手机本身就是一个频繁使用产品,对于产品来说,界面越复杂、越浮夸,就越不被消费者接受,尤其是语音助手在手机中还扮演着比较重要的角色。

技术不断的拓展人工智能的能力,语音助手提供了全新的交互逻辑,两者结合,使得语音助手成为了通往智能化生活的入口,但语音助手过早的以虚拟人的形象出现在消费者的手机当中,让消费者提前适应“虚拟人”的存在,在我看来更得不偿失。

毕竟,口碑做起来容易,毁掉只在一念之间,少搞点花里胡哨的功能,让语音助手回归本质,比什么都强。

作者:ByArsT;来源公众号:不客观实验室(ID:zhinan617)

原文链接:https://mp.weixin.qq.com/s/dLePyOoLQI4m8cLtit27xw

本文由@不客观实验室授权发布于人人都是产品经理,未经作者许可,禁止转载

题图来自Unsplash,基于CC0协议。

该文观点仅代表作者本人,人人都是产品经理平台仅提供信息存储空间服务。

开源语音助手

开源语音助手

在上一篇文章中,我介绍了Mycroft,并分享了有关开源语音助手项目的一些信息。本文将帮助您开始了解有关关键术语,安装以及将Mycroft与设备配对的详细信息。我的目的是增加官方文件;虽然这些文档确实很棒,但是当我刚开始学习Mycroft时,我发现它们很难遵循,因此我希望能为您弥补其中的一些空白。

这个怎么运作

在进行安装和设置之前,我想介绍一些基础知识,以确保您在阅读文档时保持清晰。Mycroft团队的这张图片在总结流程方面做得很好。

版权声明:本文内容由互联网用户自发贡献,该文观点仅代表作者本人。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如发现本站有涉嫌抄袭侵权/违法违规的内容,一经查实,本站将立刻删除。

上一篇

下一篇