智能语音交互产品功能和功能体验
入门流程快速入门文档介绍使用智能语音服务需要的步骤,帮助您快速开通服务、创建测试项目和调用语音服务。准备账号注册阿里云账号。阿里云账号作为阿里云系统识别的资源消费账户,有阿里云所有产品和管理权限。具体操作,请参见注册阿里云账号。个人实名认证。为了确保您可以正常使用阿里云产品和服务,您需要完成个人实名认证。具体操作,请参见个人实名认证。(可选)创建并授权RAM用户。当您的企业存在多用户协同访问资源的场景时,可以创建RAM用户,使用RAM可以按需为用户分配最小权限,避免多用户共享阿里云账号密码或访问密钥,从而降低企业的安全风险。具体操作,请参见创建RAM用户。关于RAM用户的更多信息,请参见什么是访问控制。如果使用RAM用户调用智能语音交互产品,请前往控制台为RAM用户授予AliyunNLSFullAccess权限。具体操作,请参见为RAM用户授权。说明创建RAM用户时,请设置登录密码,否则无法单独登录RAM账号。创建AccessKey在调用阿里云API时您需要使用AccessKey完成身份验证。AccessKey包括AccessKeyID和AccessKeySecret,需要一起使用。具体如下:AccessKeyID:用于标识用户。AccessKeySecret:用于验证用户的密钥。AccessKeySecret必须保密。创建阿里云账号的AccessKey登录RAM访问控制台,使用阿里云账号创建AccessKey。具体操作,请参见创建AccessKey。创建RAM用户的AccessKey使用阿里云账号登录RAM访问控制台,为RAM用户创建AccessKey。具体操作,请参见创建AccessKey。重要RAM用户的AccessKeySecret只在创建时显示,不支持查看,请妥善保管。开通服务如果您是第一次使用智能语音交互产品,推荐您使用阿里云账号开通智能语音交互服务。进入智能语音交互产品首页,单击开通并购买,然后在产品开通页面,选择服务类型并选中服务协议,单击立即开通,即可开通智能语音交互服务。类型说明免费试用版默认全部试用,长文本语音合成、录音文件识别(闲时版)和录音文件识别(极速版)无试用版。新开通服务的用户可免费试用3个月,支持2路并发(即同时最大2个任务)或每日2小时的录音文件识别额度。重要新用户试用期3个月内,每隔24小时可免费识别2小时时长的文件转写服务。免费额度用完后,间隔24小时后可继续试用。商用版选择某个或多个语音服务为商用,开通后按量计费,根据实际使用量从您的阿里云账户余额中扣费。更多信息,请参见计费说明。管理项目登录智能语音交互控制台,创建项目生成Appkey,根据您的使用场景,选择配置项目所需的语音识别和语音合成模型,具体操作,请参见管理项目。一个项目对应一个Appkey,代表智能语音服务的一个业务场景,Appkey在智能语音交互能力体验时是不可或缺的参数值。若您有多个业务场景,并且场景中使用的词汇或者语言不同,您需要创建多个项目,配置不同的热词和语言模型。获取Token访问令牌(Token)是调用智能语音交互服务的服务鉴权凭证。Token在不同项目间、不同进程间、不同线程间都可以共用,需要注意Token有效期根据服务端返回为准,过期前必须提前重新获取Token,建议每天重新获取。为了安全起见,建议您在服务端集成TokenSDK,客户端从服务端获取Token。获取Token方式建议使用场景通过控制台获取Token仅供测试使用,在控制台获取Token。通过SDK获取Token正式环境使用,通过传入AccessKey ID和AccessKey Secret,在SDK通过代码定期自动获取Token。通过OpenAPI获取Token若对应的编程语言缺少SDK,或者需要控制依赖组件,可以通过OpenAPI获取Token。集成开发根据以上几步获取到账号对应的AccessKeyID、AccessKeySecret、服务鉴权Token、以及项目Appkey,必须确保这几项数值归属同一阿里云账号或同一RAM用户。您可以根据以上信息,通过命令行等方式快速体验语音产品能力,具体操作,请参见运行示例。也可以通过SDK和API概览详细了解在各类平台如何将语音识别或语音合成功能集成到您的服务当中。集成运行说明运行示例基于使用阿里云主账号且从控制台获取测试Token来体验产品。主要通过控制台、curl命令行、postman、以及JavaSDK等方式快速体验智能语音交互能力。SDK和API概览RESTfulAPI、移动端、服务端、微信小程序以及WebSocket等多种接入方式。盘点:语音交互国内外现状
Nuance
提及语音识别,就不能不说Nuance,就像提到PC处理器不能跨过intel,Nuance有着辉煌的历史,曾经在语音领域一统江湖。
就算现在,瘦死的骆驼比马大,它仍旧是全球最大的语音技术公司,专利数量和市场份额都遥遥领先。苹果iPhone手机的虚拟语音助手Siri、三星的语音助手S-Voice、各大航空公司和顶级银行的自动呼叫中心以及虚拟在线语音助手,都采用了Nuance的技术。
微软
微软通过深度神经网络技术获语音识别重大突破,错误率降低至18.5%,准确率比传统技术提升了33%。这让流利的语音对语音程序变得更加现实。
该技术无需用户对识别系统进行“训练”,而是通过“即时、因人而异的自动语音识别”技术实现。换言之,真正的人声识别。
微软表示该技术突破大大提升了语音技术商业化的潜力。
谷歌
和大名鼎鼎的苹果Siri相比,谷歌的语音搜索服务GoogleVoiceSearch显得不那么有名气。而实际上,如果你留意应该会发现,谷歌语音搜索技术最近已经有了飞跃式的进步,其识别率更是甩Siri几条街。
和有美国国防部背景的Siri不同,GoogleVoiceSearch一直都备受语音识别算法困扰,而后人工智能大师杰弗里?希尔顿加盟谷歌,同时谷歌还挖走了Nuance的一些职员,这令谷歌的语音识别技术得到提升,并从产品设计之初就自带了AI属性。
谷歌前段时间向第三方开发者开放其语音识别API,与Nuance及其它的语音识别公司竞争。谷歌云语音API(GoogleCloudSpeechAPI)将覆盖超过80种语言,兼容任何实时串流或者批处理模式的应用,它将为应用程序提供一整套API,给它们带来“看、听与翻译”方面的功能。谷歌的这一举措将会对整个行业产生不小的影响——尤其是对Nuance。
种种迹象显示,谷歌似乎变得更加注重语音技术和众多的使用案例。例如,该公司在2月宣布将允许GoogleDocs用户通过语音来编辑和设计文档。
苹果
Google和微软都掺和了,苹果当然不会落后。
2013年,苹果悄悄收购了一家语音识别技术公司NovaurisTechnologies,价格未知。Novauris公司以语音识别著称,由其推出的产品和语音识别系统并非简单的识别单个的词句,而是理解上下文。Novauris也曾推出一个名为Novasystem的分布式服务器语音识别系统,可同时处理多个并发语音请求,识别完整的句子,并分析音节结构。
另外,在过去几年,苹果不仅吸纳了Siri的语音技术人才,更是将Nuance公司的多名高级语音研究人员挖角过来,包括了前研发副总裁LarryGillick,以及来自微软语音识别项目高管AlexAcero,后者在微软工作达20年之久。
苹果打算利用神经网络来提升语音识别率,微软研究部门主管PeterLee认为,苹果大约需要花6个月才能赶上Google和微软。
亚马逊
Echo音箱就是一个黑色的小柱子,相比起其他的智能语音助手比如Siri,它的特点在于看得见、摸得着。一年多下来,Echo已经成为了语音控制智能家居的入口。
上市一年多以来,Echo已经学会了朗读小说、用Uber叫车、叫达美诺的匹萨外卖,甚至是配合蝙蝠侠电影上映带着用户玩语音探索游戏。
Alexa从一开始就是一个互联网服务的入口,Siri还停留在苹果硬件支持的程度,这么说起来,更像人工智能的反而是那个最初被称作实体Siri的小黑家伙呢。
再看国内
科大讯飞:中科院典范,站稳教育市场
科大讯飞依靠中科大的语音处理技术以及国家的大力扶持,稳坐“中国的nuance”之位。根据调查,科大讯飞占据了超过60%的市场份额,绝对是语音技术的龙头企业。一提到科大讯飞,可能大家想到的都是语音识别很牛,但其实它最大的收益来源是教育,特别是在2013年左右,收购了很多家语音评测公司,包括启明科技等,对教育市场形成了垄断,经过一系列的收购后,目前所有省份的口语评测用的都是科大讯飞的引擎,由于其占据了考试的制高点,所有的学校及家长都愿意为其买单。这种局面很难打破,所以其霸主的地位也很难撼动。
百度语音:有钱任性,技术实力很强大
百度语音其实很早就被确立为战略方向,2010年与中科院声学所合作研发语音识别技术,但是市场发展相对缓慢。百度几乎成为了很多归国人员刷简历的跳板,因此直到2014年,百度重新梳理了战略,终于找对了人,请来了人工智能领域的泰斗级大师吴恩达,正式组建了语音团队,专门研究语音相关技术,由于有百度强大的资金支持,到目前为止收获颇丰,斩获了近13%的市场份额,其技术实力已经可以和拥有十多年技术与经验积累的科大讯飞相提并论。
其他诸如中科信利,尚科语音,捷通华声等等都是国内做语音交互技术走的比较远的企业,总得来说,语音识别的门槛并不高,因此国内各大公司也逐渐加入进来。搜狗开始采用的是云知声的语音识别引擎,但很快就搭建起自己的语音识别引擎,主要应用于搜狗输入法,效果也还可以。腾讯当然不会落后,微信也建立了自己语音识别引擎,用于将语音转换为文字,但这个做的还是有点差距,想必大家也都体验过。阿里,爱奇艺,360,乐视等等也都在搭建自己的语音识别引擎,但这些多的是自研自用,技术乏善可陈。
国内外巨头布局语音识别的策略差异
上面历数了国内外各个巨头陆续建立语音识别引擎的过程和优势技术,有一点我们还是要特别留意一下:国外巨头欲进入语音识别行业,首先想到的就是收购初创的团队,这些团队大都也在5-20人之间,掌握着一定的优势技术。显然收购一家初创团队很难满足其战略发展,因此一旦技术与公司业务融合以后,这些巨头都会频繁出手再次收购以补齐短板,逐渐建立起适合自己公司发展的语音识别优势。
对于技术相对重要而技术点又比较分散的科技型公司,国外巨头一般不会采取大手笔收购的商业模式,这也是导致Nuance最终无人问津的重要因素。想想也是,巨头自然不会用别人家的引擎以免将来掣肘,何况收购技术类的大型公司无疑也是给自己找了个麻烦。
国内的语音识别发展脉络没有那么清晰,刚开始各个巨头也都是采用专用公司比如科大讯飞、中科信利、云知声等公司的引擎。后来醒悟过来,纷纷谋求自建,但是除了百度不断砸入重金后获得了一定的效果外,其他自建的各大公司没有啥实质性进展。这一点从他们试图低薪聘请语音识别相关人才的策略上,也可知道其战略上没什么可发展的。语音识别行业属于声学和计算机的交叉技术,本来培养的人才就很稀缺,而从上述分析可以看出,国内外的技术源头很集中,无非就是业界相关的研究机构和拥有研发实力的巨头公司。
目前智能语音识别主要有哪些问题亟待解决
1、对自然语言的识别和理解。首先必须将连续的讲话分解为词、音素等单位,其次要建立一个理解语义的规则。
2、语音信息量大。语音模式不仅对不同的说话人不同,对同一说话人也是不同的,例如,一个说话人在随意说话和认真说话时的语音信息是不同的。一个人的说话方式随着时间变化。
3、语音的模糊性。说话者在讲话时,不同的词可能听起来是相似的。这在英语和汉语中常见。
4、环境噪声和干扰对语音识别有严重影响,致使识别率低。
可以说声音已经融入我们的身体,成为一种本能,它是最优的表达方式,自然语言回答代表未来智能化的产品的终极形式。
基于云计算的自然回答功能结合智能家居系统在功能和应用上更是可以开拓无数。
不得不说,智能语音产业正在形成一种趋势,这对于正在发展中的物联网行业来说,又将是一片待开发的新蓝海,很值得关注。
对于智能语音类应用来说,苹果的Siri让用户接受了这种方式,这种交互方式还有很长的路要走,而智能语音真正深入到用户生活,还需要好多个Siri来引爆。
1返回搜狐,查看更多
智能音箱调研报告|语音交互功能详析
智能音箱已经成为全球增长最快的消费级硬件。2017年6月苹果homepod发布以来,下半年至今,每月都有一两家科技公司发布智能音箱新产品或二代、三代产品。
目前为止,国内科技巨头BAT、小米,老牌电器厂商联想、苏宁,语音技术企业科大讯飞、思必驰,硬件技术创业公司出门问问、若琪等都陆续通过自研或合作的方式入局。
二、技术厂商
智能音箱的爆发离不开语音技术的支撑,掌握语音技术的有两类厂商。一是互联网巨头如Amzon、Google、BAT、苹果、微软等,二是专研语音交互技术的厂商如科大讯飞、思必驰等。
语音技术厂商通过自主研发软硬件产品,或对外输出技术,赋能传统智能音箱厂商、内容和互联网服务厂商,获取用户和数据,建立平台生态。
[仅代表笔者个人立场]
2.1国外一线语音技术提供商
1.AmzonAlexa
基本信息:AmzonAlexa是亚马逊的智能虚拟助理和开放平台,2010年启动研发,于2014年11月和Echo同时发布。Alexa具备语音技术能力,并通过运行独立的程序,称为“技能”(Skills)来实现不同功能应用(类似手机里在操作系统上运行APP),支持音乐播放、语音购物、智能家控、智能通讯等一系列功能。
由于其先发优势与大量的落地产品,不论是从产品搭载数量和智能水平上,alexa都已远超其他技术厂商(CNET在CES2017的统计)。
开放情况:Alexa2015年6月,亚马逊将Alexa开放给第三方开发者,发布了AlexaSkillsKit(ASK)和AlexaVoiceService(AVS)两套开发工具包,让开发者能够更加容易开发Alexa的“技能”;并设有了风险投资基金alexafound专门扶持语音交互领域的初创企业,以及大学生开发竞赛Alexaprize。
从2014年发布时的29余项技能,到如今近4w项技能,积极开放政策和不断优化的开发工具,使得Alexa拥有了远超其他技术厂商的海量技能。
应用范围:截止目前AmzonAlexa已陆续在全球38个国家开通(中国暂未开通),涵盖英语、德语、法语、意大利语、西班牙语和日语等6种语言(暂不支持中文)。
除了搭载自家echo系列音箱产品外,Alexa也赋能sonos、联想、哈曼卡顿等音箱产品,amzonfireTV等智能电视,amzonfire、华为mate9、HTC等平板电脑和智能手机,华硕、惠普、联想等笔记本电脑和PC,智能冰箱、智能灯、智能开关等智能家居产品,智能耳机、智能手表等可穿戴设备,以及包含福特、宝马、雷克萨斯、丰田等品牌的智能汽车。
2.GoogleAssistant
基础信息:Googleassistant是谷歌的虚拟助理,于2016年5月在谷歌开发者大会正式发布,支持语音交互,搭载在Google的智能手机和智能音箱中。
开放情况:2016年12月,Google推出开发者平台ActionsonGoogle,2017年4月发布了SDK(软件开发工具包)以便第三方开发者为Googleassistant开发应用程序,并进一步扩展支持智能汽车和其他智能家居设备。Googleassistant支持语音输入和视觉响应,可通过设备的相机识别物体并收集视觉信息。
应用范围:当前Googleassistant已支持英语、日语、法语、德语、西班牙语等8种语言,预计2018年底将支持30多种语言,覆盖95%的Android手机(暂不支持中文)。
除了搭载自家Googlehome系列音箱和Pixel系列智能手机外,Googleassistant还赋能索尼、诺基亚等智能手机,松下、LG、Sonos等品牌的智能电视、智能机顶盒、智能音箱产品,联想、爱可视等电脑及沃尔沃等智能汽车产品。
3.MicrosoftCortana
基础信息:Cortana是微软的虚拟智能助理,于2015年1月正式发布,逐步应用于搭载windows操作系统和Android/ios系统的移动设备。Cortana具备语音交互功能,并使用bing的搜索引擎信息回答问题,能够调用应用程序、查询天气、提供餐厅和景点推荐,控制智能家居。
开放情况:2017年的build开发者会议上,微软退出Cortana技能开发平台,允许第三方开发者为cortana开发技能。
应用范围:截止目前cortana支持包括中文(简/繁)、英语、德语、法语、日语在内的近10种语言。Cortana已集成到微软众多产品,如Edge浏览器、windows10、车机系统、Skype(微软的即时通讯服务),并赋能微软与harmankardon合作的智能音箱invoke等。
4.Applesiri
基础信息:Siri(SpeechInterpretationandRecognitionInterface)是苹果的虚拟助理。Siri公司创建于2007年。
起初Siri只是iOS平台的一个应用程序,苹果在2010年4月收购了Siri公司并重新开发后,Siri成为了苹果设备的内置软件,于2011年重新发布,并只允许在iOS、macOS中运行。
Siri支持语音交互,可以完成数据搜索、天气查询、设置闹钟等许多服务。
开放情况:2016年6月苹果开发者大会上开放了Siri接口,在IOS开发平台中新增Sirikit,支持开发者调用Siri展示应用内容。Siri目前暂无独立的技能开发平台。
应用范围:截止目前Siri支持包括中文(简/繁)、英文、法文、德文、意大利文在内的20余种语言,并赋能苹果全线产品,如iPhone、iPad、iPod、Applewatch、mac等。
2.2国内一线语音技术提供商
1.科大讯飞
基本信息:科大讯飞成立于1999年,是国内最大智能语音技术厂商,在智能语音技术领域有着长期的研究积累,并在中文语音合成、识别、评测等多项技术上拥有国际领先的成果,与中国官方关联密切,堪称“中文语音产业国家队”。
科大讯飞占有中文语音技术市场70%以上市场份额,语音合成产品市场份额达到70%以上。
开放情况:讯飞开放平台是全球首个提供移动互联网智能语音交互能力的讯飞开放平台,基于讯飞开放平台陆续推出讯飞输入法、灵犀语音助手、AI+教育、AI客服、AI医疗(语音电子病历、医学影像辅助诊断系统、智能助理等)、晓译翻译机、飞鱼智能车载系统、家庭场景的讯飞魔飞麦克风系统等是多宽人工智能产品。
应用范围:科大讯飞支持34种语言,包括中文各地方言,目前已赋能长虹、海信、康佳等国内大牌智能电视、GlassX、ZWatch等可穿戴设备,奥迪、宝马、奔驰、通用、福特、上汽、广汽、长安、吉利、长城、奇瑞等国内外智能汽车,智能音箱(京东叮咚音箱)、聊天机器人(小鱼在家)等智能硬件产品,窗帘、空调等智能家居产品,为包括滴滴打车、高德地图、QQ阅读等在内的超过60000个App提供智能语音交互服务,覆盖聊天通讯、工具、视频、新闻、导航等生活领域的方方面面。
2.百度DuerOS·小度
基本信息:DuerOS是百度的对话式人工智能系统,于2017年7月百度AI开发者大会上正式发布。DuerOS具备影音娱乐、信息查询、生活服务、出行路况等10大类目共200多项能力,用户可在不同场景下实现指令控制、信息查询、知识应用、寻址导航、日常聊天、智能提醒和多种O2O生活服务;同时支持第三方开发者的能力接入。
开放情况:DuerOS开放平台包括智能设备开放平台和技能开放平台,分别适应不同类型的硬件厂商和为开发者。为方便“上手”,百度发布了针对个人、产品厂商、特殊厂商的DuerOS套件,并融合包括声智科技、先声互联、Intel、Rockchip等第三方解决方案,上线了技能商店APP“小度之家”。
应用范围:DuerOS支持普通话、英语、粤语、四川话等多种语言,已赋能智能音箱、电视、冰等大小家电与智能家居产品,智能手机、手表等随身设备,车机、智能后视镜等智能车载产品,累计搭载5000万设备,日活超过1000万,有1600万DuerOS合作伙伴,落地80多家主控设备,积累了超过10000名DuerOS开发者,DuerOS累计回答问题数已达24亿。
3.小爱开放平台·小爱同学
基本信息:小爱开放平台(原水滴平台)于2017年5月对外开放语音能力与SDK,基于小米的硬件生态和海量数据,提供全球领先的语音识别、NLP等多项人工智能技术,为开发者提供一站式的人工智能服务。
应用范围:小爱开放平台能力已在小米电视、小米AI音箱、小米金服‘米小贝’等小米软、硬件产品中集成,为小米生态链中8500万台IoT连接设备赋能,虚拟助手小爱同学的日活跃用户也达1000万。
4.AliGenie语音开发者平台·天猫精灵
基本信息:AliGenie开放平台于2017年10月12日云栖大会发布,由阿里巴巴人工智能实验室发起的,面向企业/机构/创业者/开发者,将阿里巴巴在人工智能领域积累的技术以API或SDK等形式对外共享的在线平台,目前已经拥有涵盖影音娱乐、新闻资讯、购物外卖、家居控制、生活助手、儿童教育等的100多项技能。
应用范围:AliGenie开发者平台主要包括三大部分:精灵技能市场、硬件开放平台、行业解决方案,全面赋能智能家居、制造、零售、酒店、航空等服务场景
5.腾讯云·小微
基本信息:腾讯云的智能服务系统和智能服务开放平台,帮助智能硬件厂商实现语音人机互动和音视频服务能力。微信AI团队自2012年起,就将语音输入、语音识别、语义分析技术等功能应用到微信中,腾讯云小微将微信的语音技术作为底层能力,故命名为“小微”,于2017年6月腾讯“云+未来”峰会上正式对外发布。
应用范围:腾讯云小微包括硬件开放平台、Skill开放平台、服务机器人(智能客服)平台,结合腾讯社交关系链,覆盖家庭、车载、运动、酒店和儿童陪伴教育等众多场景。
6.思必驰·DUI开放平台
基本信息:思必驰2007年成立于英国剑桥,创始人均来自剑桥,2008年回国落户苏州,是国内少有的拥有人机对话技术,国际上极少数拥有自主产权、中英文综合语音技术的公司之一。思必驰于2017年9月正式发布DUI(DialogueUserInterface)开放平台,以任务式对话为核心,兼具闲聊与问答功能,打造人性化交互。作为一个全链路智能对话开放平台,DUI开放基于思必驰智能语音语言技术的对话功能,并提供GUI定制、版本管理、私有云部署等开发服务。
DUI具备青囊(服务与研发支撑)、天机(大数据)、紫微(丰富的第三方资源)、玲珑(终端解决方案与环境)四大系统。DUI平台对接丰富的第三方内容,内置国内最专业的语音语言技能商店,具备深度数据可视化、个性化自定义、零门槛操作,开发者通过DUI可实现全链路的高度定制,几乎可自定义每个模块。
应用范围:平台已覆盖车载、家居、机器人、故事机、手机助手等多应用场景,提供智能车载、智能家居、智能机器人等解决方案,赋能天猫精灵X1、小米AI音箱小爱同学、联想智能音箱、小米板牙70迈智能后视镜等前沿智能产品。
2.3国内二线、小创业语音技术提供商
1.出门问问
出门问问是Google(谷歌)投资的一家中国人工智能公司,由硅谷华人科学家李志飞于2012年回国创立。拥有自主研发的语音识别、语义分析、垂直搜索、基于视觉的ADAS和机器人SLAM等核心技术。代表性的软硬件产品包括智能手表Ticwatch、车载智能后视镜问问魔镜Ticmirror、智能音箱Tichome、出门问问语音助手APP以及高级驾驶辅助系统问问魔眼Ticeye。
2.猎户星空
猎户星空拥有全套远场语音技术,自研全链路的远场语音交互系统“猎户语音OS”,已赋能喜马拉雅“小雅”音箱,美的、海尔、博联、海尔优家、欧瑞博等品牌的智能家居产品。小米AI音箱、小米电视,也应用猎户星空的TTS(语音合成)技术以及ASR(语音识别)技术。猎户星空自己音箱小豹AI音箱,接入微信支付、银联支付、融合区块链技术。
2017年猎户星空还获得了世界公认人脸识别“世界杯”的微软百万名人识别竞赛识别百万名人子命题有限制类(只使用竞赛提供数据)的第一名。
2018年3月21日,猎户星空正式对外发布人工智能领域的机器人产品矩阵,在接待、售卖、儿童陪伴等多个场景落地。同时发布了猎户机器人平台OrionOS,集合了自研的多芯片系统,摄像机+视觉算法,麦克风阵列,猎户TTS,室内导航平台和七轴机械臂等,形成了完整的机器人技术链条。
OrionOS现与微软、搜狗、高通、英伟达和锤子科技等建立了战略合作伙伴关系。
3.若琪Rokid
Rokid公司成立于2014年7月,隶属于杭州灵伴科技有限公司。总部位于中国杭州,北京和旧金山分别设有研发中心,致力于机器人领域研究,专注于远程定向拾音/语音语义识别、人脸/手势识别、音响和投影系统等核心技术。Rokid现有PEBBLE•月石智能音箱、AR眼镜RokidGlass、智能机器人ALIEN·外星人等产品,Rokid智能家居机器人在2016年和2017年连续两年获得CES国际消费电子产品展创新大奖。
4.聚熵智能·DeepBrain
DeepBrain2012年成立于上海,致力于研发人工智能产品,核心团队是来自于国内外名校的技术研究人才,为超过100家厂商提供深度人机对话能力,并与三星、华为、联想、中兴达成深度合作。
DeepBrain在2014年发布了国内首款智能音箱——小智超级音箱,比Echo的推出还要早半年。其语义技能平台已进驻上千名开发者,开发了超过1000种以智能家居为主的语义技能。
5.搜狗语音
搜狗由搜狐公司创建于2004年8月3日,域名为Sogou.com,目的是增强搜狐网的搜索技能。2013年9月,腾讯注资搜狗,并将腾讯旗下的搜搜业务,输入法业务注入搜狗。
2017年11月,搜狗在纽交所上市,腾讯目前持有搜狗45.37%的股权;搜狐持有搜狗股权比例为39.21%。
搜狗语音技术研究于2012年启动,并在2013年6月正式上线搜狗语音云开放平台,接入搜狗包括输入法、地图在内的全线产品,并推出搜狗语音助手,与Siri一样,搜狗语音助手在手机端上提供的交互体验并不能让用户产生足够的依赖性,产品的使用率并不高。
2016年8月搜狗发布了语音交互引擎「知音」,2017年12月与四维图新、飞歌展开合作,推出飞歌智能车联网软硬件解决方案G8Ⅱ后装智能车机,为2018年3月发布的小米电视4A提供ASR语音识别能力,为会议平板厂商视源股份发布的首款智能语音平板MAXHUB提供语音技术。
三、行业格局3.1智能音箱市场格局
销量与市场占有率对智能音箱产品有着非比寻常的意义。因为智能语音技术刚刚落地,极其依赖用户数据的喂养,越使用才能越智能。
根据笔者估算,截止2018年Q1,全球智能音箱市场保有量占比如下所示:
Amzon凭借其先发优势和形态丰富的产品,一骑绝尘,占领了71%的份额Google以其完备的低-中-高产品矩阵和用户基础,抢夺12%的份额天猫、小米分别凭借电商体系、智能家居生态与低价爆款策略占据6%、4%的份额京东涉足智能音箱较早,品类丰富,也占据了3%的市场份额apple的homepod在今年2月9日才正式发售,且定价偏高,仍旧占据了1%其他所有品牌占据3%。海外一线智能音箱品牌及产品销量:
国内一线智能音箱品牌及产品销量:
全球其他智能音箱品牌及产品销量:
3.3全球主流智能音箱品牌
3.3.1AmzonEcho
作为智能音箱品类开创者,Amzon不断地优化音箱产品新能,持续创新。从场景和形态出发,陆续推出小巧低价的echodot,带屏音箱echoshow、闹钟音箱echospot。既有促销爆款铺量,又有高端品类防守,具备了高、中、低三个档位完善的产品矩阵,各型号累计销量在3千万以上,是目前唯一销量破千万的智能音箱厂商,引领着全球智能音箱市场。
3.3.2京东叮咚
京东与科大讯飞联合成立的灵隆科技推出叮咚音箱,作为国内较早涉足智能音箱的厂商,从2015年5月开始,京东已经发售了一系列新品。整体产品线与Amzon相似,不断探索更多形态与场景,持续提供更多自定义功能,并以儿童教育音箱,切儿童早教市场。随着小米、阿里、百度的强势入局,京东也推出了高端带屏音箱叮咚PALY,低价叮咚mini2,抢夺国内市场。
3.3.3Googlehome
2016年5月,在Amzon几乎垄断智能音箱市场之时,Google入场搅局,推出Googlehome,凭借其优雅的设计、背靠Google搜索引擎的智能问答和价格差异,曾一度占据了20%以上的市场份额,并在2017年10月推出低价的Googlehomemini和高价的Googlehomemax,不断支持更多新技能和场景:接入更多智能家居设备、支持500w个菜谱抢占厨房,支持语音购物等。
3.3.4小米小爱同学
小米作为国内领先的智能家居生态构建者,产品覆盖了耳机、移动电源、手环、插座、血压计、空气净化器、净水器、运动相机、平衡车、电池、床头灯、电饭煲等智能家居设备。
小米于2016年底开始研发虚拟助手小爱同学,并在2017年9月正式发布了智能音箱小爱同学,除了强大的小米家居生态背景,小爱同学还因其机智的人设获得极高关注。2018年小米推出Q萌版小爱同学mini加入国内低价冲量大战。
3.3.5天猫精灵
阿里对新技术研发极为重视,在17年7月发布了天猫精灵x1,同时亮相的还有负责阿里消费级AI产品研发的阿里巴巴人工智能实验室,17年10月云栖大会正式宣布成立达摩院,网罗各个重点技术领域的专家人才,进行基础科学、AI芯片和颠覆式技术创新研究。
18年3月推出天猫精灵M1曲奇,火眼支架,6月推出天猫精灵方糖,持续探索更多音箱形态,花式输出AI技术,包括图像识别、人脸识别、物体检测及情感反馈等能力。同时提高产品性价比,紧守音箱低价冲量的战场。依托阿里强大的电商网络,天猫精灵已成为国内销量最大的智能音箱品牌。
3.3.6百度小度
2017年2月百度全资收购渡鸦科技,11月发布了RavenH智能音箱,形状新奇色彩绚丽,带有可拆卸点阵触控板,对标高端音箱Sonos、Bose和哈曼卡顿,售价1699。
18年初联合老牌音响制造商DOSS(德仕)推出DOSS智能音箱,3月、6月陆续推出国内首款智能音箱599元的小度在家、89元低价小度智能音箱,在京东和天猫发售,凭借极高的性价比,在国内音箱价格战中尚有一席。
3.3.7其他智能音箱产品
除了销量可见的主流智能音箱,国内外仍有不少智能音箱产品。如微软与哈曼卡顿联合推出的invoke,搭载了微软Cortana,Line与高通合作推出的Clova,以及国内中小创业团队的系列智能音箱,出门问问的Tichome、喜马拉雅的小雅音箱等等。随着智能音箱市场的逐步成熟,各类音箱或者会找到自己的位置,或者无声寂灭。
四、语音功能
智能音箱除了提供核心内容资源消费功能,各品牌还深挖居家场景,开放平台,吸引第三方开发者,提供了越来越多的技能。智能音箱界独领风骚的AmzonEcho已经具备了超过3w项技能,从技能增长梯度看,2016年开始爆发式增长,随着Echo销量的增加,至今仍在不断攀升。超过3w项技能加持的Amzon比它的一众追随者更像一个语音操作系统。
[数据源自MaryMeeker的2018互联网趋势报告]
如同智能手机操作系统的app一样,海量的语音操作系统技能中,真正获得关注的还是少数,大量的技能成为僵尸技能,无人问津。因此其他智能音箱品牌,只要覆盖了高频、核心功能,提供更多资源、家控和创意功能,则无需畏惧Amzon恐怖的技能数量。
智能音箱产品功能趋同,主要分为内容技能、工具技能、互动娱乐三个大方向;功能面向核心场景及针对核心人群的核心功能趋向性逐渐显现。
用户关注度高的功能主要有音乐影视、生活助手、智能家居、游戏娱乐,其次是教育内容、趣玩搞笑、新闻,再其次是新闻、财经类功能;
工具技能用户口碑偏低,但有不可替代性;互动娱乐技能可替代性强,口碑和体验好的功能更受欢迎;内容技能评价均匀,重点在优质资源可得性。
五、用户体验
摘录自ebay、Walmart、京东、天猫等电商平台的用户评论数据。
用户体验总结:
1)智能音箱产品整体受欢迎程度很高、用户接受度较高,评价矩阵皆为70~80%的5星好评;
2)用户对音箱产品唤醒、识别、解析等语音基础性能感知差异不大(可能由于个人拥有音箱品牌数量少于1个,对比不明显);对音质、内容资源丰富度、“聪明程度(智能感与趣味性)”等较为敏感。
3)老人、孩子对音箱的满意度、喜爱度是重要消费决策因素。
4)海外用户对音质要求更高,对音箱的使用场景区分更鲜明,倾向于为不同居所场景配备多个音箱产品,对是否自带电池等要求不多;国内用户音质要求和鉴别水平不足,期望自带电池便携便移动。
5)用户期望唤醒词自定义、内容资源更丰富、资源内容相互打通。
六、核心结论
1)音箱销量:2017年全球智能音箱出货量3200w台,其中Amzon与Google以大约9:1的比例瓜分市场。Amzon音箱销量量级已超2000w,铺货量和活跃设备数全球遥遥领先。
截止2018年4月底,国内厂商销量以天猫、小米为首,量级在200w左右,百度、腾讯及众创业公司量级均在10w之下。具备生态闭环和技术平台的大厂商均有“高性价比铺量”的趋向,以低价占据迅速用户市场。
据Canalys分析公司保守预测,2018年全球音箱销量将增长到5630台,美国作为主战场销量将达3840台,中国作为第二大市场销量可达440万台。
2)功能覆盖:智能音箱产品功能同质化明显,主要分为内容技能、工具技能、互动娱乐三个大方向;具备生态闭环和技术平台的大厂商正在将以语音技术为核心的AI技术平台打造成Android/ios式的操作系统,吸引更多智能硬件厂商、独立开发者入驻;鉴于技术水平差距不明显和技能开发者的可转移性,技术、技能都不会是决胜的关键因素。
3)用户反馈:智能音箱产品整体市场接受度较高,评价矩阵皆为70~80%5星好评;用户对唤醒成功率、识别成功率、解析成功率等语音交互基础性能感知差异不大,对音箱的音质、内容资源丰富度、智能感与趣味性等维度较敏感;同时用户期望仍处于不断攀升的阶段,对音箱产品提出了越来越多个性化要求。
本文由@殷大侠原创发布于人人都是产品经理。未经许可,禁止转载
题图来自网络返回搜狐,查看更多