博舍

语音交互规范(第一讲) 智能语音交互功能

语音交互规范(第一讲)

编辑导语:随着互联网的发展,语言交互融入了我们的日常生活中。那么,关于语音交互规范,你又了解多少呢?本文从AI语音交互发展谈起,总结了一些语音交互规范内容,供大家参考,希望对你有所帮助。

一、AI语音交互发展

语音交互的发展经历了三个阶段:

第一阶段是上世纪80年代,语音交互能够实现一问一答,前后回答并不具有内容的相关性。随着人工智能和深度学习的发展,机器的理解能力越来越强。

自从2009年开始,随着iPhone手机siri的出现,进入第二阶段,语音的对话能做到有问有答,能够理解上下文,但是这种应用场景还比较局限。

第三阶段,2014年AmazonEcho的出现,实现了应用领域的革新,拓展了语音交互的场景,智能语音交互的爆发则在2017年智能音响的发展,语音交互得到巨大的突破,语音和语意的理解更加准确,具有代表性的产品有小爱音响、天猫精灵和小度音响等。

二、什么是AI语音交互?

AI语音交互通俗的理解就是:人与机器的对话。语音交互在技术方面讲主要包括:听(ASR)、语义理解(NLP)、说(TTS)。

听(ASR):用ASR技术把语音识别成文字。

语义理解(NLP):使用NLP技术,把文字输入转化为文字输出。通过语法判断、上下文理解、关系理解、知识图谱等技术。就是理解文字的含义后,把想反馈的回答以文字表达出来。

说(TTS):使用TTS技术把文字合成为语音。

三、为什么要建立AI语音交互规范?

在公司角度:有统一的交互规范便于公司内部产品形成统一的共识,减少沟通的成本,提升工作的效率。

在设计师角度:对外有了统一的交互规范便于与产品、开发等人员的沟通,对内便于组织内的成员学习与提高。

在设计管理者的角度:对内能达成设计共识,对外提升设计组织的影响力。

在我看来交互规范是一个内部产品,它随着产品的生命周期迭代演进;交互规范是一套内部共识,它不仅仅解决了设计问题,更是组织协同的解药;交互规范是一种思维方式,不仅产品设计,甚至自己的生活都可以借鉴设计系统来提升效率。

四、AI语音交互规范主要内容是什么?语音交互原则语音交互框架语音逻辑规范语音控制原则多模态交互弹框机制操作反馈界面架构情感化设计五、语音交互的原则1.通用原则

及时反馈原则。用户在与系统进行语音交互的过程中,系统要给予及时的反馈。

合适的速度。语音的播报速度、结果呈现速度、IP形象展示的速度、文字展示及纠错的速度都在一个合适的范围内。

易取原则。尽量减少用户对操作目标的记忆负荷,交互动作和结果都是可见、可听的。

人性化帮助原则。在用户需要帮助的时候提供必要的帮助说明和引导。

灵活高效原则。语音交互可以跨越层级,直接高效的触达目标。

防错原则。在用户意图不明确的时候,可以向用户询问,还可以预测用户的可能的意图提示用户。

消除歧义。交互的形式和内容不会让用户感到困惑,当用户的命令存在歧义时,通过交互的形式消除歧义,帮助用户达成目标。

适应当地文化。语音的形象IP和话术的提问及回答都要符合用户所处的文化背景和地域文化。

2.交互的可用性要素

轮流对话。在对话中基于信号的传递,进行轮流的表达。回答的机制是一问一答。

上下文串联。在对话的语言中需要结合上下文的语意串联起来进行回答,这样有助于提升对话的准确性。

多样性。对于具体的场景,应该多样的问与答,结合情景多样性的回答。

理解行为。在对话的过程中尽可能的真诚、详实和有效的理解对话的内容。

反馈。对于用户的请求应给予反馈,无论是声音、文字还是图像。

语音的效率。在对话的过程中往往有一些隐晦的潜台词,在对话的过程中要理解口语之下的更深层次的意图,并给予准确的回答。

3.人性化的表达

语言是人类表达情感的重要方式,在语音交互的过程中,人性化的设计必不可少的。状态可见原则。在整个语音交互的对话过程中,对于场景、角色都需要从人与人对话的角度出发。

对话的逻辑。语言对话逻辑应该遵循人类语言的本能,不应该强迫用户为了适应机器对话而采用层级递进的逻辑思维,用户只需要正常的表达就可以。

情感化。语音交互需要人格化、情感化。需要与产品的品牌调性相契合。语音人格方向特征具有:有趣、正能量、机智和温暖等特点。

口语。口语化的交流,同时也需要避免说显而易见的内容,对话需要多样性,使体验更加自然。

环境贴切。使用简单易懂和约定俗成的表达,尽可能的贴近用户所在的环境。

地方语言。语言的本身要有地域的特色,语音的表达要有广泛的群众基础,其中方言识别也是语音交互中重要的技能。

六、语音交互框架1.语音交互流程

一次完整的语音交互流程,包括:唤醒—ASR—NLP—Skill—TTS语音应答/界面结果展示(如下图所示)。

2.语音交互框架

1)根据苹果公司的全品类设备的特点,在语音框架需保持一致,兼顾mac、paid、手机大小屏和横竖屏。Siri交互包括:Siri的状态、ASR内容/话术、语言TTS反馈。

3.远场与近场

远场应用比如Siri。直接说:“Siri”唤醒语音助手,唤醒后可以远程进行语音交互。

近场应用比如智能电视。使用遥控器,按住语音键,对着遥控器进行语音近距离语音交互。

设计用例:

User:“Siri,定个闹钟”。

语音助手:“你要定什么时候呢?”

User:“明天早上8点”。

4.正常/异常状态

正常状态:

语音交互的过程中,通过TTS和Siri状态(包括:等待与加载),来满足及时反馈。

异常状态:

语音交互过程中,判断外网终端->提示:待命+网络异常,请检查网络。

注:无界面时,直接TTS反馈:【网络异常,请检查网络】(要求TTS写在本地)。

5.对话澄清

指语音主动与用户的对话,达到意图的确认。

说明
:

①澄清应用于用户意图不清晰,必须进行再次对话才能进行意图确定,否则导致机器执行的任务错误。

②假如在远程的交互中,澄清的过程中,需要语音一直处于待命状态(也就是无需再次唤起即可对话)。

③在澄清的过程中,需要关键词引导,以便于用户表达明确的意图。

④为了让用户能自然的回复和应答,同时也防止自然口语化,语音的澄清话术需要采取封闭式关键词引导。

⑤关键词的引导,根据人的记忆及听力的规则,每次小于等于3个,且近俩个每句话术文字在7±2之间。

设计用例:

User:“帮我定下明天闹钟?”(意图不明)

语音助手:“你要定几点闹钟?”(几点钟为关键词)

Uesr:“明天早上8:00”(意图明确)

6.多伦对话

多轮对话指语音助手与用户进行一轮(一问一答)以上的对话。

说明:

①应用于意图虽然清楚、可执行,但任务执行结果不清晰。如:结果的集合过大,用户没有找到具体的内容。

②多轮的引导,应能帮助用户完成任务,同时防止用户自然语言的发散。

③多轮对话的轮次意味着用户与智能设备的多次交流。在搜索工具语言中,语音交互较快的达到目标是关键,轮次越多代表执行的效果不理想,通常以小于3轮较为合适。但是在闲聊类型功能中,轮次越多,代表用户聊天的意愿越强。

设计用例:

User:“能帮我找一下好看的电视剧吗?”(意图清晰,任务集合过大)

语音助手:“你要看中国的?还是国外的?”(关键词引导)

User:“中国的”(意图明确)。

7.话术

话术指用户与智能设备对话的形式。

说明:

①话术来源:a语音产品中需要互动交流产生场景话术;b基于人与人对话的原则撰写而成的话术。

设计用例:

8.话术(TTS)设计

语音话术指在语音交互过程中语音助手通过语言与用户进行互动,包括文字话术和语音话术。

说明:

①显示的文字话术与语音助手的形象关联,并配合出现。

②显示话术与当前语音逻辑相呼应。

③语音话术:用户发出请求后,需要给予语音应答。比如:“定今天下午3点闹钟”,反馈;“好的,已经定好下午3点闹钟”。

④声音及文字:引导过程中,根据业务的需要进行声音与文字的引导。

声音引导:引导澄清用户的意图。

文字引导:语音域中的引导话术。

声音+文字引导:比如问题及内容的搜索结果。

⑤运营类话术:针对高频词的结果及当前热门的内容,定制化的话术,目的是增加产品的情感,更加贴切用户的反馈。实现的方式:由运营后台配置。

9.用户对话引导

语言具有自然性,为了避免用户语言的随意泛化,导致用户指令无法识别,需要在语音中进行话术规范性引导。

说明:

引导话术结构-“唤醒方式+需引导的技能话术”。

①全局性引导。由话术平台统一部署,引导分为3类:

语音更能引导;当下热门内容引导;新上线或主推功能引导。

②相关域引导。在语音交互过程中,提供当前领域的相关话术引导。分为两类:

当前领域中多维度的引导;多轮进阶式引导。

③运营类的引导。专门为运营类产品定制的语音话术引导。

10.情感表达机制

语音交互人性化,是语音交互重要特征之一。

说明:

基础状态:

唤醒状态;待命;加载;免唤醒;声源定位。

基础情绪:

欢呼;陪伴;安抚;帮助;其他(更多的类型根据业务需要进行添加)

基础情绪的表达(如图所示):

七、小结

语音交互规范主要内容分为:

语音交互原则语音交互框架语音逻辑规范语音控制原则多模态交互弹框机制操作反馈界面架构情感化设计

本篇仅写了:(1)语音交互原则(2)语音交互框架,后续分为3篇完成,谢谢大家阅读,后续内容敬请期待!

 

本文由@东哥的设计分享原创发布于人人都是产品经理,未经许可,禁止转载

题图来自 Unsplash,基于CC0协议

本文由@东哥的设计分享原创发布于人人都是产品经理,未经许可,禁止转载。

题图来自Unsplash,基于CC0协议。

该文观点仅代表作者本人,人人都是产品经理平台仅提供信息存储空间服务。

智能语音在人机交互中的应用

0分享至

人机交互是指人与计算机的信息交换,包括计算机通过输出或显示设备给人提供信息,以及人通过输入设备向计算机输入有关信息。

人机交互的目的就是讨论如何使设计的计算机能够帮助人们更加安全可靠,更加有效率地完成所要完成的任务。从以上概念可以看出,人机交互是指用户和机器之间相互交换信息。但尽管计算机的功能现在变的十分强大,用途也越来越广,但归根到底它仍是人类的工具,不能在没有人控制的情况下独立完成任务,因此它同样受到人的支配、控制。

人机语音交互的发展阶段包括以下几个方面:

语音识别是人机语音交互的第一步,主要作用是将用户的语音转换为文字,以便机器的结构化处理。

语音为模拟信号,需经过麦克风等设备采样处理后成为机器可处理的数字信号;然后经过特征提取,将信号从时域转换到频域;再利用提取到的特征向量,经过模式匹配最终转化为文本。其中模式匹配环节的声学模型和语言模型决定着最

终识别的效果,声学模型和语言模型均需要利用标注之后的数据进行训练得到,目前多采用监督学习算法实现,优点是准确率高,缺点是需要人工介入且工作量大。

在实际应用中,除了关注所采用的机器学习算法和软件处理外,还需要重视语音采集环节,尤其远场交互场景(例如智能音响)。语音采集是语音识别的前置条件,如果采集的语音质量不高,即使算力再充足、算法再精妙、数据量再大质量再高,最终的识别准确率也不理想。所以在一些场景下需要通过提升麦克风降噪效果、采用麦克风阵列等方式提升语音采集质量。

深度学习算法的应用,使语音识别成为人工智能最先突破的领域之一。当前,市场主流厂商的语音识别准确率超过了人类水平,手机、电脑、降噪麦克风(阵列)等场景优化后识别准确率高于95%,电话等场景优化后识别准确率高于85%,其他语音优化后识别准确率高于80%。

自然语言理解

自然语言理解是基于自然语言处理的相关技术实现的,两者之间的关系可表现为:

语音识别后的文本,经过分词、词性标注、命名实体识别、依存句法分析等处理,并结合情感分析等结果,对用户意图进行识别。

当前,自然语言理解是人机语音交互中较弱的一环,暂时还无法应用到全场景交互中,但是在垂直领域(金融、医疗、教育等)可用,并且可解决部分客服、销售业务。在闲聊场景中,目前智能音响的应用比较深入,多个厂商的智能音响可支持百科问答、导购交互、日常聊天等功能。

对话管理

对话管理接收来自于自然语言理解的语义结果,并结合当前的语义环境,基于预设的对话状态,决策接下来的动作,并对语义环境进行更新,然后循环往复,直到结束交互。预设的对话状态即对话规则,例如对话流程、动作判断等多种形式的结合。

由于语音交互的复杂性和随机性,导致对话管理难度很大。具体表现为预设对话状态的主观性、多轮对话的容错性、偏离对话状态的合理化处理、多场景切换与恢复等。和自然语言理解类似,当前对话管理在垂直领域和闲聊的部分场景应用较好,但是要应用到全场景交互中,挑战同样非常大。

自然语言生成

自然语言生成可视作语言理解的逆过程,将向用户传达的概念、知识、数据、意图等信息转化为语言,自然语言生成一般包括6个步骤。

内容确定作用是决定哪些信息需包含在正在构建的文本中,文本结构作用是决定合理的组织文本顺序,句子聚合作用是决定在单个句子中呈现的信息,语法化作用是找到合适的单词和短语来表达信息,参考表达式生成作用是识别需表达内容的领域并使用该领域词汇,语言实现作用是将所有的单词和短语组成格式良好的句子。

当前,人机语音交互中还未实现完全自动化的自然语言生成,在实际应用中多采用预先设计的文本模板来生成文本输出,例如在查询银行卡余额时,预设文本“您查询的银行卡余额为【金额】元”。

语音合成

语音合成是人机语音交互的出口,目的是将自然语言生成后的文本或预设文本转换为语音,播报给用户。合成语音的自然度直接关系到交互体验。

语音合成的原理比较复杂,但是目前的技术和应用都很成熟。市场主流厂商中英文的语音合成效果超过了人类水平,中文自然度MOS值可达到4.5左右,英文自然度MOS值可达到4.2左右。

在实际使用过程中,为了达到比较好的效果,也采用人工录音和语音合成结合的方式,预设的固定文本部分采用人工录音方式,动态变化部分采用语音合成方式。例如上述的“您查询的银行卡余额为【余额】元”,其中动态变化的“【余额】”采用语音合成方式,其余部分采用人工录音方式。

其他技术

除了以上技术,还有一些技术也广泛应用于人机语音交互中,例如声纹识别、知识图谱等。

声纹识别是一种根据说话人语音波形识别说话人身份的生物识别技术。相比于人脸识别、虹膜识别、指纹识别等技术,声纹识别可以进行远程身份识别,用户不必和生物特征采集设备接触,即可完成识别过程。声纹识别的应用可分为身份确认和身份辨识,身份确认是指根据一段语音确认是否为目标用户,是1:1比对的过程;身份辨识是指根据一段语音从一个集合中选取最匹配的用户,是1:N判别的过程。在智能音响中,可采用声纹识别进行用户身份识别,针对不同用户提供个性化服务。

知识图谱是一种描述知识实体、实体与实体之间关联的结构化知识管理技术。知识图谱相比于传统的知识管理技术,能够将零散的知识有效聚合起来,方便检索、提取、调用、管理。知识图谱在人机语音交互中的应用,可以有效提升知识检索、知识生成的速度和准确度,如果结合自然语言生成技术,提供给用户的结果也更接近于人类表达。

中天智领是国内领先的智慧交互信息化系统整体解决方案服务商,通过多年潜心研发,创造出一系列智慧人机交互系统产品,集智慧人机交互产品、智慧人机交互终端、智慧交互平台、智慧交互云于一体,重点研发出精准远距离激光遥控、光感手触、触摸笔、指挥教鞭、智能指挥台、移动可视化交互、实物交互、智能语音等多种交互系统。

中天智领智能语音交互,让交互“说”出来无论将来指挥中心增加多少信号,多少业务场景,不再需要后台人员使用电脑操作,只需说出名字,即可快速大屏展示。面对成千上万的监控图像,不再需要眼花缭乱的寻找,只需要说出想看到的监控场景,大屏即可全屏显示。

中天智领智能语音交互系统将设备连接到网络的能力,与现代语音识别服务相结合,实现了强大的新

用户界面。一种以用户内心意图为中心的人机交互方式,以语音命令为核心的智能人机交互体验。

系统用人类最自然的语言(开口说话)给设备下达指令,达成自己的目的。用户按下遥控器上的语音

键,下达清晰和直接的单向预设语音指令,传输到网络中的语音识别引擎,达到对应的控制效果。独有的

语音压缩算法,将语音压缩以实现抗干扰及较远距离的语音实时传输,30米范围内精准遥控,360°无死角

声源定向。对话模型本地运行,数据本地存储和处理,保障数据的私密性。

特别声明:以上内容(如有图片或视频亦包括在内)为自媒体平台“网易号”用户上传并发布,本平台仅提供信息存储服务。

Notice:Thecontentabove(includingthepicturesandvideosifany)isuploadedandpostedbyauserofNetEaseHao,whichisasocialmediaplatformandonlyprovidesinformationstorageservices.

/阅读下一篇/返回网易首页下载网易新闻客户端

国内智能语音行业分析报告

伴随着人工智能行业的快速发展,中国在智能语音这个细分市场的发展速度也将会持续增长,但是目前国内在智能语音市场,技术已经相对成熟,且头部企业在行业的垄断力度较大。

一、智能语音简介

智能语音是人工智能技术的重要组成部分,包括语音识别、语义理解、自然语言处理、语音交互等。

当前,人工智能的关键技术均以实现感知智能和认知智能为目标。语音识别、图像识别和机器人视觉、生物识别等目前最火热的领域,主要解决的是感知智能的需求,就是使得人工智能能够感知周围的世界,能够“听见”或者“看到”。

自然语言理解、智能会话、智能决策、人机交互等技术更加侧重的是认知智能的领域,解决“听懂”、“看懂”,并且根据学习到的知识对人类的要求或者周围的环境做出反应的能力。

在关键技术层中,语音识别、自然语义理解(NatureLanguageProcess,NLP)、机器学习领域的关键技术在人工智能技术当中居于重要地位,是人机交互技术的基础。

(语音交互流程图)

二、智能语音市场概况1.中国人工智能市场规模持续增长,智能语音处于重要地位

通过上图我们不难发现,人工智能行业最近几年呈现出一个快速发展的态势,产业增长率平均在43%左右,属于一个快速发展的产业。2018年,人工智能市场规模达200亿元,如果按照之前的增速,预计到2019年年末,整个人工智能行业规模将达到近300亿元。

而在智能语言方面,当前人工智能产业中,智能语音是一个产业化程度相对成熟,产业规模较大的这么一个细分领域,从2011年整个市场规模只有6.3亿,到2017年整个智能语音市场规模已经超过百亿,整个行业正经历着高速的发展,预计未来几年,智能语音市场仍然会保持着较高速度快速发展。

2.智能语音技术是人工智能产业链上的关键一环

上图是当前人工智能产业链的一个版图,从底层的基础设施到中间层的技术服务到最上面的行业应用,可以看到,智能语音技术在整个产业链当中,起到了一个承接的作用,将人工智能的技术底层产业化,并在智能家居、可穿戴设备、机器人等行业落地,是整个人工智能产业链中的关键一环。

3.科技巨头纷纷从不同维度布局相关产业链

(1)国外科技巨头:通过并购等手段,夯实核心技术,开放应用平台,扩展以AI为核心的生态系统

谷歌:打造开发者生态链,推出GoogleHome,试图建立物联网时代安卓系统。

苹果:基于智能硬件定标准,做平台、获数据,重视物联网时代生态控制权。

(2)国内科技巨头:开放语音生态系统,以产业内合作的方式,将语音技术植入产品和或应用于相关业务场景,构建全产业生态链厂。

百度:瞄准人工智能战场,对外开放语音生态系统,对内在自身产品业务中实现AIFirst。

 

三、智能语音技术分析1.语音识别(ASR)

1)语音识别概述

语音识别是以语音为研究对象,通过语音信号处理和模式识别让机器自动识别和理解人类口述的语言,语音识别技术就是让机器通过识别和理解过程,把语音信号转变为相应的文本或命令的高技术。

语音识别系统本质上是一种模式识别系统,包括特征提取、模式匹配、参考模式库等三个基本单元,它的基本结构如下图所示:

语音识别系统构建过程整体上包括两大部分:训练和识别。

训练通常是离线完成的,对预先收集好的海量语音、语言数据库进行信号处理和知识挖掘,获取语音识别系统所需要的“声学模型”和“语言模型”;

而识别过程通常是在线完成的,对用户实时的语音进行自动识别。

识别过程通常又可以分为“前端”和“后端”两大模块:

“前端”模块主要的作用是进行端点检测(去除多余的静音和非说话声)、降噪、特征提取等;“后端”模块的作用是利用训练好的“声学模型”和“语言模型”对用户说话的特征向量进行统计模式识别(又称“解码”),得到其包含的文字信息,此外,后端模块还存在一个“自适应”的反馈模块,可以对用户的语音进行自学习,从而对“声学模型”和“语音模型”进行必要的“校正”,进一步提高识别的准确率。

目前,各语音识别方案提供方,包括讯飞、百度、云知声、思必驰等,都在提供包括麦克风阵列等硬件在内的整体解决方案,以软硬件结合的方式提高语音识别的精准度的问题。

2)语音识别技术原理

声音实际上是一种波,在开始语音识别之前,首先,需要对声音进行静音切除处理,以降低对后续步骤造成的干扰。

其次,要对声音进行分帧,把声音切成一小段一小段,每一段就是一帧,分帧操作一般不是简单的切开,而是使用移动窗函数来实现,而帧与帧之间一般是有交叠的,如下图所示:

图中,每帧的长度为25毫秒,每两帧之间有0.2S的交叠,我们一般称之为帧长2秒,帧移0.2秒。

分帧后,语音就变成了很多小段。但波形在时域上几乎没有任何描述能力,因此必须将波形作变换,常见的一种变换方法是提取MFCC特征,根据人耳的生理特性,把每一帧波形变成一个多维向量,这个向量包含了这帧语音的内容信息,我们把这个过程叫做声学的特征提取。

至此,声音就成了一个12行(假设声学特征是12维)、N列的一个矩阵,称之为观察序列,这里N为总帧数。观察序列如下图所示,图中,每一帧都用一个12维的向量表示,色块的颜色深浅表示向量值的大小。

再次,就是讲声音向量矩阵变成文本了,在这之前,有两个概念需要给大家先介绍下:

音素:单词的发音由音素构成。对英语,一种常用的音素集是卡内基梅隆大学的一套由39个音素构成的音素集,而汉语一般直接用全部声母和韵母作为音素集,另外汉语识别还分有调无调。状态:比音素更细致的语音单位就行啦。通常把一个音素划分成3个状态。

了解了概念之后,我们就看一下语音识别是怎么把声音变成文本的,其实就和我们把大象塞进冰箱一样,也是分为三步:

把帧识别成状态(难点);把状态组合成音素;把音素组合成单词。

如下图所示:

图中,每个小竖条代表一帧,若干帧语音对应一个状态,每三个状态组合成一个音素,若干个音素组合成一个单词。也就是说,只要知道每帧语音对应哪个状态了,语音识别的结果也就出来了。

图中,每个小竖条代表一帧,若干帧语音对应一个状态,每三个状态组合成一个音素,若干个音素组合成一个单词。也就是说,只要知道每帧语音对应哪个状态了,语音识别的结果也就出来了。

2.自然语义处理(NLP)

1)自然语义处理概要

语义识别是人工智能的重要方向之一,如果语音技术相当于人的嘴巴和耳朵,负责表达和获取,那语义技术则相当于人的大脑,负责思考和信息处理,解决的是“听得懂”的问题。语义识别最大的作用是改变人机交互模式,将人机交互由最原始的鼠标、键盘交互转变为语音对话的方式。

人机交互发展史

语义识别主要基于大数据和算法模型之上搭建,是自然语言处理(NLP)技术的重要组成部分。NLP技术主要包括词法分析技术、句法分析技术、语义分析技术、语用分析技术以及语句分析技术等。NLP在实际应用中最大的困难还是语义的复杂性,随着大数据、芯片和算法模型等的发展进程加速,将为NLP带来长足的进步。

2)自然语义处理技术原理

在自然语义处理领域,也在通过深度学习的工具提升自然语义处理的准确度。目前常用的自然语义处理领域的技术包括了循环神经网络(RecurrentNeuralNetwork)、卷积神经网络(ConvolutionalNeuralNetwork)、递归神经网络(RecursiveNeuralNetwork)的原理,它们是语句语义学习的强有力工具。

普通神经网络可以完成词性标记、词语切分、实体命名识别、目的提取等一般的语义分析功能。

循环神经网络(RNN)是把一句话看成单词的序列,每个单词由一个向量表示,每一个位置上有一个中间表示,由向量组成,表示从句首到这个位置的语义。

这里假设,每一个位置的中间表示由当前位置的单词向量以及前一个位置的中间表示决定,通过一个神经网络模型化。RNN把句末的中间表示当作整个句子的语义表示。RNN加入长短期记忆(LongShortTermMemory,LSTM)机制,RNN可以处理远距离依存关系,能够更好地表示整句的语义。

卷积神经网络(CNN)是通过对句子进行扫描,抽取特征,选择特征,最后组合成句子的语义表示。

首先从左到右用一个滑动窗口对句子进行扫描,每个滑动窗口内有多个单词,每个单词由一个向量表示。在滑动窗口内,通过卷积(convolution)操作,进行特征抽取。这样,在各个位置上得到一系列特征。之后再通过最大池化(maxpooling)操作,对特征进行选择。

重复以上操作多次,得到多个向量表示,将这些向量连接起来得到整个句子的语义表示。同一卷积层内参数是共享的,也就是同一层的卷积操作是相同的,这也就保证了在局部领域进行相同的特征抽取。

ReNN是假设对语句进行句法分析,得到句法树。句法树的每个节点上有一个向量中间表示。父节点的表示由其子节点的表示决定,通过神经网络模型化,而根节点的表示就是整个句子的语义表示。句法树上的中间表示可以在句法分析的过程中得到,比如在最大间隔分析(maxmarginparsing)。

除了上述这些神经网络的算法之外,人类不断在尝试着用新的算法来试图能够为人工智能提供更加准确理解自然语言的能力。随着神经网络和深度学习的发展,自然语义处理已经取得了长足的发展,但是,由于人类语言的复杂性,对于通用人工智能阶段需要达到的自然语言理解,也存在较长的距离。

3.语音合成(TTS)

1)语音合成概述

语音合成,又称文语转换(TexttoSpeech)技术,能将任意文字信息实时转化为标准流畅的语音并朗读出来,相当于给机器装上了一个嘴巴,它涉及到声学、语言学、数字信号处理、计算机科学等多个学科技术,是人工智能信息处理领域的一项前沿技术,解决的主要问题就是如何将文字信息转化为可听的声音信息。

语音合成和语音识别技术是实现人机语音通话所必需的两项关键技术,使机器具有类似于人一样的说话能力。

2)语音合成技术处理方式

文本处理:

这一步做的事情是把文本转化成音素序列,并标出每个音素的起止时间、频率变化等信息。

作为一个预处理步骤,它的重要性经常被忽视,但是它涉及到很多值得研究的问题,比如拼写相同但读音不同的词的区分、缩写的处理、停顿位置的确定,等等。

音素:音素(phone),是语音中的最小的单位,依据音节里的发音动作来分析,一个动作构成一个音素。音素分为元音、辅音两大类。音节:音节在语音学上指由一个或数个音素组成的语音结构基本单位;而音素是最小的语音单位。如”普通话”,由三个音节组成,可以分析成”p,u,t,o,ng,h,u,a”八个音素。

语音合成:

狭义上这一步专指根据音素序列(以及标注好的起止时间、频率变化等信息)生成语音,广义上它也可以包括文本处理的步骤。

这一步主要有三类方法:

拼接法,即从事先录制的大量语音中,选择所需的基本单位拼接而成。这样的单位可以是音节、音素等等;为了追求合成语音的连贯性,也常常用使用双音子(从一个音素的中央到下一个音素的中央)作为单位。拼接法合成的语音质量较高,但它需要录制大量语音以保证覆盖率。参数法,即根据统计模型来产生每时每刻的语音参数(包括基频、共振峰频率等),然后把这些参数转化为波形。参数法也需要事先录制语音进行训练,但它并不需要100%的覆盖率。参数法合成出的语音质量比拼接法差一些。声道模拟法。参数法利用的参数是语音信号的性质,它并不关注语音的产生过程。与此相反,声道模拟法则是建立声道的物理模型,通过这个物理模型产生波形。这种方法的理论看起来很优美,但由于语音的产生过程实在是太复杂,所以实用价值并不高。三、智能语音主要公司介绍1.图灵机器人

1)公司简介

图灵机器人是一家个性化智能机器人平台,旗下有人工智能机器人操作系统TuringOS,用户可以在微博、微信、QQ机器人、语音客服、智能硬件等多个场景搭建属于自己的个性化智能机器人,截止2016,公司估值已经超过10亿人民币。

2)代表性产品介绍

乐迪:

乐迪是著名动画作品《超级飞侠》里的灵魂人物,基于图灵机器人人工智能操作系统TuringOS,让乐迪从荧屏走进消费者现实生活。

吉米猫:

吉米猫是一款手机宠物类应用游戏,从功能上来说很像是汤姆猫的升级版,但与汤姆猫不同的是吉米猫接入了图灵机器人的Chatbot接口,赋予了吉米猫聊天调侃、百科问答等语音对话能力,闲暇时还可以给你讲个段子、说个故事。

2.思必驰

1)公司简介

思必驰是一家智能语音技术解决方案提供商,致力于提供自然语言人机交互解决方案,应用于智能车载、智能家居和智能机器人领域,并且拥有语音识别、语音合成、语义对话及语义唤醒等技术,截止2016年,思必驰的估值已经超过20亿人民币。

2)代表性产品介绍

智能车载解决方案:提供一体化解决方案,适用于智能后视镜、智能车机、便携式导航仪、HUD等,全称语音操作。

智能家居解决方案:软硬件一体化解决方案,为智能家居产品提供声源定位、个性唤醒、语音识别、语义理解、对话交互等功能。

3.云知声

1)公司简介

云知声成立于2012年,是一家智能语音识别技术的高新技术企业,目前集AI芯、AIUI、AIService三大解决方案支撑云知声核心技术的落地,已经在家居、汽车、医疗和教育等领域有广泛应用,截止2018年,公司估值已经超过10.7亿美金。

2)代表性产品介绍

智能家居方案-UniHome:

AI芯作为智能语音解决方案芯片,用以解决不同形态智能终端感知和部分计算问题,AI芯通过多种芯片方案,合理组合不同硬件平台,安装不同系统下的AIUI版本,提供语音交互、IO控制、互联内容的能力,满足不同价位不同场景下的智能硬件交互需求。

智能车载方案-UniCar:

云端芯一体化,方案包括拾音降噪,语音交互,云端计算和内容服务一揽子解决方案,满足用户导航,电话,娱乐,咨询,社交5大场景的功能诉求。

 

智慧医疗方案:云知声提供医疗垂直领域录入软硬件一体的解决方案,基于医疗人工智能技术和大数据分析进行持续探索,实现智能语音交互的知识问答和病历查询,进行健康风险预测和患者分群分析。

 

4.出门问问

1)公司简介

出门问问是市场上一家拥有自主语音识别、语义分析、垂直搜索技术的人工智能公司;自成立以来,一直努力将人工智能技术落地到消费产品,定义下一代人机交互的方式,截止2017年,公司估值超过10亿美金。

2)代表性产品介绍

以TicWatchPro为例:

五、智能语音市场总结

伴随着人工智能行业的快速发展,中国在智能语音这个细分市场的发展速度也将会持续增长,但是目前国内在智能语音市场,技术已经相对成熟,且头部企业在行业的垄断力度较大。

目前,中国智能语音市场的主要份额被科大讯飞、百度以及苹果分割,截止到2018年,中国智能语音市场,科大讯飞市场占有率排名第一,市占率达到44.2%;其次为百度,市场占有率为27.8%;排名第三的是的苹果,市占率为6.9%,排名前三的品牌在我国智能语音市场占比近八成,留给初创企业在这个市场的空间以及机会并不多。

未来随着智能语音技术的逐渐成熟,智能语音技术在教育领域会发挥出巨大的作用,比如在口语教学、考试测评、模拟练习等环节,能够代替现在很多老师的工作,大大降低人工成本。

 

作者:作者:阿旺,著名投资人兼连续创业者,会从自身投资以及创业经历,不定期输出各类行业研究,如您想了解更多关于创业以及投资方面的内容,欢迎关注本人公众号:awangblog

本文由@阿旺原创发布于人人都是产品经理。未经许可,禁止转载。

题图来自Unsplash,基于CC0协议

非开发者如何快速使用智能语音交互产品

三、计费说明试用在产品开通页面,勾选并开通试用服务后,新开通服务的用户可免费试用3个月,服务状态为免费试用版期间不收取费用。

商用在产品开通页面,勾选并开通商用服务,单击升级为商用版后,服务状态显示为商用版,即开始付费使用。在控制台中使用语音识别、语音合成、以及通过技术接口使用服务均会计费。

重要智能语音交互服务会每日根据实际使用量,从您的阿里云账户余额中扣费。

资源包抵扣规则如果您预先购买了资源包,可直接在智能语音交互控制台使用。资源包价格详情请参见计费说明。

资源包如何使用:

新用户:当服务状态为免费试用版时,优先免费试用,不会使用资源包抵扣。

老用户:当免费试用版过期后,如果需要继续使用,请先升级为商用版,升级后优先使用资源包抵扣。

当资源包到期或耗尽:如果继续使用商用版,智能语音交互服务会根据实际使用量,从您的阿里云账户余额中扣费。

例如,录音文件识别服务状态为商用版,调用量限制为无限制,代表当前没有购买资源包,为按量付费模式。录音文件识别(极速版)状态为商用版,调用量限制为40/40小时,代表资源包余量为40小时,实际使用时优先抵扣资源包,资源包耗尽后变为按量付费模式。

停用服务如果您希望不再继续使用服务功能且不被扣费时,可以在商用版服务右侧操作列单击关停商用版,将对应服务切换为试用,后续不会再产生任何费用。

智能音箱调研报告

1调研背景2014年11月发布亚马逊低调发布智能音箱Echo,内测半年后于2015年正式发售,当年销量为250万台,16年销量520万台,超越传统音箱领头羊Sonos,成为在线音箱行业霸主,一度在细分的智能音箱市场占据了99%的市场份额。亚马逊发布的智能音箱Echo受到市场强烈反响以后,google在2017年5月发布googlehome,苹果在2017年WWDC发布智能音箱HomePod,国内厂商京东和科大讯飞合作推出叮咚音箱……一时间国际互联网和硬件行业巨头纷纷加入战局,争夺语音交互流量入口,带动了AI落地的一轮热潮。

智能音箱已经成为全球增长最快的消费级硬件。2017年6月苹果homepod发布以来,下半年至今,每月都有一两家科技公司发布智能音箱新产品或二代、三代产品。目前为止国内科技巨头BAT、小米,老牌电器厂商联想、苏宁,语音技术企业科大讯飞、思必驰,硬件技术创业公司出门问问、若琪等都陆续通过自研或合作的方式入局。

2技术厂商智能音箱的爆发离不开语音技术的支撑,掌握语音技术的有两类厂商。一是互联网巨头如Amzon、Google、BAT、苹果、微软等,二是专研语音交互技术的厂商如科大讯飞、思必驰等。语音技术厂商通过自主研发软硬件产品,或对外输出技术,赋能传统智能音箱厂商、内容和互联网服务厂商,获取用户和数据,建立平台生态。

[仅代表笔者个人立场]

2.1国外一线语音技术提供商1.AmzonAlexa

基本信息:AmzonAlexa是亚马逊的智能虚拟助理和开放平台,2010年启动研发,于2014年11月和Echo同时发布。Alexa具备语音技术能力,并通过运行独立的程序,称为“技能”(Skills)来实现不同功能应用(类似手机里在操作系统上运行APP),支持音乐播放、语音购物、智能家控、智能通讯等一系列功能。由于其先发优势与大量的落地产品,不论是从产品搭载数量和智能水平上,alexa都已远超其他技术厂商(CNET在CES2017的统计)。

开放情况:Alexa2015年6月,亚马逊将Alexa开放给第三方开发者,发布了AlexaSkillsKit(ASK)和AlexaVoiceService(AVS)两套开发工具包,让开发者能够更加容易开发Alexa的“技能”;并设有了风险投资基金alexafound专门扶持语音交互领域的初创企业,以及大学生开发竞赛Alexaprize。从2014年发布时的29余项技能,到如今近4w项技能,积极开放政策和不断优化的开发工具,使得Alexa拥有了远超其他技术厂商的海量技能。

应用范围:截止目前AmzonAlexa已陆续在全球38个国家开通(中国暂未开通),涵盖英语、德语、法语、意大利语、西班牙语和日语等6种语言(暂不支持中文)。除了搭载自家echo系列音箱产品外,Alexa也赋能sonos、联想、哈曼卡顿等音箱产品,amzonfireTV等智能电视,amzonfire、华为mate9、HTC等平板电脑和智能手机,华硕、惠普、联想等笔记本电脑和PC,智能冰箱、智能灯、智能开关等智能家居产品,智能耳机、智能手表等可穿戴设备,以及包含福特、宝马、雷克萨斯、丰田等品牌的智能汽车。

2.GoogleAssistant

基础信息:Googleassistant是谷歌的虚拟助理,于2016年5月在谷歌开发者大会正式发布,支持语音交互,搭载在Google的智能手机和智能音箱中。

开放情况:2016年12月,Google推出开发者平台ActionsonGoogle,2017年4月发布了SDK(软件开发工具包)以便第三方开发者为Googleassistant开发应用程序,并进一步扩展支持智能汽车和其他智能家居设备。Googleassistant支持语音输入和视觉响应,可通过设备的相机识别物体并收集视觉信息。

应用范围:当前Googleassistant已支持英语、日语、法语、德语、西班牙语等8种语言,预计2018年底将支持30多种语言,覆盖95%的Android手机(暂不支持中文)。除了搭载自家Googlehome系列音箱和Pixel系列智能手机外,Googleassistant还赋能索尼、诺基亚等智能手机,松下、LG、Sonos等品牌的智能电视、智能机顶盒、智能音箱产品,联想、爱可视等电脑及沃尔沃等智能汽车产品。

3.MicrosoftCortana

基础信息:Cortana是微软的虚拟智能助理,于2015年1月正式发布,逐步应用于搭载windows操作系统和Android/ios系统的移动设备。Cortana具备语音交互功能,并使用bing的搜索引擎信息回答问题,能够调用应用程序、查询天气、提供餐厅和景点推荐,控制智能家居。

开放情况:2017年的build开发者会议上,微软退出Cortana技能开发平台,允许第三方开发者为cortana开发技能。

应用范围:截止目前cortana支持包括中文(简/繁)、英语、德语、法语、日语在内的近10种语言。Cortana已集成到微软众多产品,如Edge浏览器、windows10、车机系统、Skype(微软的即时通讯服务),并赋能微软与harmankardon合作的智能音箱invoke等。

4.Applesiri

基础信息:Siri(SpeechInterpretationandRecognitionInterface)是苹果的虚拟助理。Siri公司创建于2007年。起初Siri只是iOS平台的一个应用程序,苹果在2010年4月收购了Siri公司并重新开发后,Siri成为了苹果设备的内置软件,于2011年重新发布,并只允许在iOS、macOS中运行。Siri支持语音交互,可以完成数据搜索、天气查询、设置闹钟等许多服务。

开放情况:2016年6月苹果开发者大会上开放了Siri接口,在IOS开发平台中新增Sirikit,支持开发者调用Siri展示应用内容。Siri目前暂无独立的技能开发平台。

应用范围:截止目前Siri支持包括中文(简/繁)、英文、法文、德文、意大利文在内的20余种语言,并赋能苹果全线产品,如iPhone、iPad、iPod、Applewatch、mac等。

2.2国内一线语音技术提供商1.科大讯飞

基本信息:科大讯飞成立于1999年,是国内最大智能语音技术厂商,在智能语音技术领域有着长期的研究积累,并在中文语音合成、识别、评测等多项技术上拥有国际领先的成果,与中国官方关联密切,堪称“中文语音产业国家队”。科大讯飞占有中文语音技术市场70%以上市场份额,语音合成产品市场份额达到70%以上。

开放情况:讯飞开放平台是全球首个提供移动互联网智能语音交互能力的讯飞开放平台,基于讯飞开放平台陆续推出讯飞输入法、灵犀语音助手、AI+教育、AI客服、AI医疗(语音电子病历、医学影像辅助诊断系统、智能助理等)、晓译翻译机、飞鱼智能车载系统、家庭场景的讯飞魔飞麦克风系统等是多宽人工智能产品。

应用范围:科大讯飞支持34种语言,包括中文各地方言,目前已赋能长虹、海信、康佳等国内大牌智能电视、GlassX、ZWatch等可穿戴设备,奥迪、宝马、奔驰、通用、福特、上汽、广汽、长安、吉利、长城、奇瑞等国内外智能汽车,智能音箱(京东叮咚音箱)、聊天机器人(小鱼在家)等智能硬件产品,窗帘、空调等智能家居产品,为包括滴滴打车、高德地图、QQ阅读等在内的超过60000个App提供智能语音交互服务,覆盖聊天通讯、工具、视频、新闻、导航等生活领域的方方面面。

2.百度DuerOS·小度

基本信息:DuerOS是百度的对话式人工智能系统,于2017年7月百度AI开发者大会上正式发布。DuerOS具备影音娱乐、信息查询、生活服务、出行路况等10大类目共200多项能力,用户可在不同场景下实现指令控制、信息查询、知识应用、寻址导航、日常聊天、智能提醒和多种O2O生活服务;同时支持第三方开发者的能力接入。

开放情况:DuerOS开放平台包括智能设备开放平台和技能开放平台,分别适应不同类型的硬件厂商和为开发者。为方便“上手”,百度发布了针对个人、产品厂商、特殊厂商的DuerOS套件,并融合包括声智科技、先声互联、Intel、Rockchip等第三方解决方案,上线了技能商店APP“小度之家”。

应用范围:DuerOS支持普通话、英语、粤语、四川话等多种语言,已赋能智能音箱、电视、冰等大小家电与智能家居产品,智能手机、手表等随身设备,车机、智能后视镜等智能车载产品,累计搭载5000万设备,日活超过1000万,有1600万DuerOS合作伙伴,落地80多家主控设备,积累了超过10000名DuerOS开发者,DuerOS累计回答问题数已达24亿。

3.小爱开放平台·小爱同学

基本信息:小爱开放平台(原水滴平台)于2017年5月对外开放语音能力与SDK,基于小米的硬件生态和海量数据,提供全球领先的语音识别、NLP等多项人工智能技术,为开发者提供一站式的人工智能服务。

应用范围:小爱开放平台能力已在小米电视、小米AI音箱、小米金服‘米小贝’等小米软、硬件产品中集成,为小米生态链中8500万台IoT连接设备赋能,虚拟助手小爱同学的日活跃用户也达1000万。

4.AliGenie语音开发者平台·天猫精灵

基本信息:AliGenie开放平台于2017年10月12日云栖大会发布,由阿里巴巴人工智能实验室发起的,面向企业/机构/创业者/开发者,将阿里巴巴在人工智能领域积累的技术以API或SDK等形式对外共享的在线平台,目前已经拥有涵盖影音娱乐、新闻资讯、购物外卖、家居控制、生活助手、儿童教育等的100多项技能。

应用范围:AliGenie开发者平台主要包括三大部分:精灵技能市场、硬件开放平台、行业解决方案,全面赋能智能家居、制造、零售、酒店、航空等服务场景

5.腾讯云·小微

基本信息:腾讯云的智能服务系统和智能服务开放平台,帮助智能硬件厂商实现语音人机互动和音视频服务能力。微信AI团队自2012年起,就将语音输入、语音识别、语义分析技术等功能应用到微信中,腾讯云小微将微信的语音技术作为底层能力,故命名为“小微”,于2017年6月腾讯“云+未来”峰会上正式对外发布。

应用范围:腾讯云小微包括硬件开放平台、Skill开放平台、服务机器人(智能客服)平台,结合腾讯社交关系链,覆盖家庭、车载、运动、酒店和儿童陪伴教育等众多场景。

6.思必驰·DUI开放平台

基本信息:思必驰2007年成立于英国剑桥,创始人均来自剑桥,2008年回国落户苏州,是国内少有的拥有人机对话技术,国际上极少数拥有自主产权、中英文综合语音技术的公司之一。思必驰于2017年9月正式发布DUI(DialogueUserInterface)开放平台,以任务式对话为核心,兼具闲聊与问答功能,打造人性化交互。作为一个全链路智能对话开放平台,DUI开放基于思必驰智能语音语言技术的对话功能,并提供GUI定制、版本管理、私有云部署等开发服务。

DUI具备青囊(服务与研发支撑)、天机(大数据)、紫微(丰富的第三方资源)、玲珑(终端解决方案与环境)四大系统。DUI平台对接丰富的第三方内容,内置国内最专业的语音语言技能商店,具备深度数据可视化、个性化自定义、零门槛操作,开发者通过DUI可实现全链路的高度定制,几乎可自定义每个模块。

应用范围:平台已覆盖车载、家居、机器人、故事机、手机助手等多应用场景,提供智能车载、智能家居、智能机器人等解决方案,赋能天猫精灵X1、小米AI音箱小爱同学、联想智能音箱、小米板牙70迈智能后视镜等前沿智能产品。

2.3国内二线、小创业语音技术提供商1.出门问问

出门问问是Google(谷歌)投资的一家中国人工智能公司,由硅谷华人科学家李志飞于2012年回国创立。拥有自主研发的语音识别、语义分析、垂直搜索、基于视觉的ADAS和机器人SLAM等核心技术。代表性的软硬件产品包括智能手表Ticwatch、车载智能后视镜问问魔镜Ticmirror、智能音箱Tichome、出门问问语音助手APP以及高级驾驶辅助系统问问魔眼Ticeye。

2.猎户星空

猎户星空拥有全套远场语音技术,自研全链路的远场语音交互系统“猎户语音OS”,已赋能喜马拉雅“小雅”音箱,美的、海尔、博联、海尔优家、欧瑞博等品牌的智能家居产品。小米AI音箱、小米电视,也应用猎户星空的TTS(语音合成)技术以及ASR(语音识别)技术。猎户星空自己音箱小豹AI音箱,接入微信支付、银联支付、融合区块链技术。

2017年猎户星空还获得了世界公认人脸识别“世界杯”的微软百万名人识别竞赛识别百万名人子命题有限制类(只使用竞赛提供数据)的第一名。2018年3月21日,猎户星空正式对外发布人工智能领域的机器人产品矩阵,在接待、售卖、儿童陪伴等多个场景落地。同时发布了猎户机器人平台OrionOS,集合了自研的多芯片系统,摄像机+视觉算法,麦克风阵列,猎户TTS,室内导航平台和七轴机械臂等,形成了完整的机器人技术链条。OrionOS现与微软、搜狗、高通、英伟达和锤子科技等建立了战略合作伙伴关系。

3.若琪Rokid

Rokid公司成立于2014年7月,隶属于杭州灵伴科技有限公司。总部位于中国杭州,北京和旧金山分别设有研发中心,致力于机器人领域研究,专注于远程定向拾音/语音语义识别、人脸/手势识别、音响和投影系统等核心技术。Rokid现有PEBBLE•月石智能音箱、AR眼镜RokidGlass、智能机器人ALIEN·外星人等产品,Rokid智能家居机器人在2016年和2017年连续两年获得CES国际消费电子产品展创新大奖。

4.聚熵智能·DeepBrain

DeepBrain2012年成立于上海,致力于研发人工智能产品,核心团队是来自于国内外名校的技术研究人才,为超过100家厂商提供深度人机对话能力,并与三星、华为、联想、中兴达成深度合作。DeepBrain在2014年发布了国内首款智能音箱——小智超级音箱,比Echo的推出还要早半年。其语义技能平台已进驻上千名开发者,开发了超过1000种以智能家居为主的语义技能。

5.搜狗语音

搜狗由搜狐公司创建于2004年8月3日,域名为http://Sogou.com,目的是增强搜狐网的搜索技能。2013年9月,腾讯注资搜狗,并将腾讯旗下的搜搜业务,输入法业务注入搜狗。2017年11月,搜狗在纽交所上市,腾讯目前持有搜狗45.37%的股权;搜狐持有搜狗股权比例为39.21%。搜狗语音技术研究于2012年启动,并在2013年6月正式上线搜狗语音云开放平台,接入搜狗包括输入法、地图在内的全线产品,并推出搜狗语音助手,与Siri一样,搜狗语音助手在手机端上提供的交互体验并不能让用户产生足够的依赖性,产品的使用率并不高。2016年8月搜狗发布了语音交互引擎「知音」,2017年12月与四维图新、飞歌展开合作,推出飞歌智能车联网软硬件解决方案G8Ⅱ后装智能车机,为2018年3月发布的小米电视4A提供ASR语音识别能力,为会议平板厂商视源股份发布的首款智能语音平板MAXHUB提供语音技术。

3行业格局3.1智能音箱市场格局销量与市场占有率对智能音箱产品有着非比寻常的意义。因为智能语音技术刚刚落地,极其依赖用户数据的喂养,越使用才能越智能。

根据笔者估算,截止2018年Q1,全球智能音箱市场保有量占比如下所示。Amzon凭借其先发优势和形态丰富的产品,一骑绝尘,占领了71%的份额,Google以其完备的低-中-高产品矩阵和用户基础,抢夺12%的份额,天猫、小米分别凭借电商体系、智能家居生态与低价爆款策略占据6%、4%的份额,京东涉足智能音箱较早,品类丰富,也占据了3%的市场份额,apple的homepod在今年2月9日才正式发售,且定价偏高,仍旧占据了1%,其他所有品牌占据3%。

3.2全球智能音箱概览海外一线智能音箱品牌及产品销量国内一线智能音箱品牌及产品销量1国内一线智能音箱品牌及产品销量2国内外全球其他智能音箱品牌及产品销量3.3全球主流智能音箱品牌3.3.1AmzonEcho作为智能音箱品类开创者,Amzon不断地优化音箱产品新能,持续创新。从场景和形态出发,陆续推出小巧低价的echodot,带屏音箱echoshow、闹钟音箱echospot。既有促销爆款铺量,又有高端品类防守,具备了高、中、低三个档位完善的产品矩阵,各型号累计销量在3千万以上,是目前唯一销量破千万的智能音箱厂商,引领着全球智能音箱市场。

3.3.2京东叮咚京东与科大讯飞联合成立的灵隆科技推出叮咚音箱,作为国内较早涉足智能音箱的厂商,从2015年5月开始,京东已经发售了一系列新品。整体产品线与Amzon相似,不断探索更多形态与场景,持续提供更多自定义功能,并以儿童教育音箱,切儿童早教市场。随着小米、阿里、百度的强势入局,京东也推出了高端带屏音箱叮咚PALY,低价叮咚mini2,抢夺国内市场。

3.3.3Googlehome2016年5月,在Amzon几乎垄断智能音箱市场之时,Google入场搅局,推出Googlehome,凭借其优雅的设计、背靠Google搜索引擎的智能问答和价格差异,曾一度占据了20%以上的市场份额,并在2017年10月推出低价的Googlehomemini和高价的Googlehomemax,不断支持更多新技能和场景:接入更多智能家居设备、支持500w个菜谱抢占厨房,支持语音购物等。

3.3.4小米小爱同学小米作为国内领先的智能家居生态构建者,产品覆盖了耳机、移动电源、手环、插座、血压计、空气净化器、净水器、运动相机、平衡车、电池、床头灯、电饭煲等智能家居设备。小米于2016年底开始研发虚拟助手小爱同学,并在2017年9月正式发布了智能音箱小爱同学,除了强大的小米家居生态背景,小爱同学还因其机智的人设获得极高关注。2018年小米推出Q萌版小爱同学mini加入国内低价冲量大战。

3.3.5天猫精灵阿里对新技术研发极为重视,在17年7月发布了天猫精灵x1,同时亮相的还有负责阿里消费级AI产品研发的阿里巴巴人工智能实验室,17年10月云栖大会正式宣布成立达摩院,网罗各个重点技术领域的专家人才,进行基础科学、AI芯片和颠覆式技术创新研究。18年3月推出天猫精灵M1曲奇,火眼支架,6月推出天猫精灵方糖,持续探索更多音箱形态,花式输出AI技术,包括图像识别、人脸识别、物体检测及情感反馈等能力。同时提高产品性价比,紧守音箱低价冲量的战场。依托阿里强大的电商网络,天猫精灵已成为国内销量最大的智能音箱品牌。

3.3.6百度小度2017年2月百度全资收购渡鸦科技,11月发布了RavenH智能音箱,形状新奇色彩绚丽,带有可拆卸点阵触控板,对标高端音箱Sonos、Bose和哈曼卡顿,售价1699。18年初联合老牌音响制造商DOSS(德仕)推出DOSS智能音箱,3月、6月陆续推出国内首款智能视频音箱599元的小度在家、89元低价小度智能音箱,在京东和天猫发售,凭借极高的性价比,在国内音箱价格战中尚有一席。

3.3.7其他智能音箱产品除了销量可见的主流智能音箱,国内外仍有不少智能音箱产品。如微软与哈曼卡顿联合推出的invoke,搭载了微软Cortana,Line与高通合作推出的Clova,以及国内中小创业团队的系列智能音箱,出门问问的Tichome、喜马拉雅的小雅音箱等等。随着智能音箱市场的逐步成熟,各类音箱或者会找到自己的位置,或者无声寂灭。

4语音功能智能音箱除了提供核心内容资源消费功能,各品牌还深挖居家场景,开放平台,吸引第三方开发者,提供了越来越多的技能。智能音箱界独领风骚的AmzonEcho已经具备了超过3w项技能,从技能增长梯度看,2016年开始爆发式增长,随着Echo销量的增加,至今仍在不断攀升。超过3w项技能加持的Amzon比它的一众追随者更像一个语音操作系统。

[数据源自MaryMeeker的2018互联网趋势报告]如同智能手机操作系统的app一样,海量的语音操作系统技能中,真正获得关注的还是少数,大量的技能成为僵尸技能,无人问津。因此其他智能音箱品牌,只要覆盖了高频、核心功能,提供更多资源、家控和创意功能,则无需畏惧Amzon恐怖的技能数量。

智能音箱产品功能趋同,主要分为内容技能、工具技能、互动娱乐三个大方向;功能面向核心场景及针对核心人群的核心功能趋向性逐渐显现。

用户关注度高的功能主要有音乐影视、生活助手、智能家居、游戏娱乐,其次是教育内容、趣玩搞笑、新闻,再其次是新闻、财经类功能;

工具技能用户口碑偏低,但有不可替代性;互动娱乐技能可替代性强,口碑和体验好的功能更受欢迎;内容技能评价均匀,重点在优质资源可得性。

5用户体验摘录自ebay、Walmart、京东、天猫等电商平台的用户评论数据。

用户体验总结:

1)智能音箱产品整体受欢迎程度很高、用户接受度较高,评价矩阵皆为70~80%的5星好评;

2)用户对音箱产品唤醒、识别、解析等语音基础性能感知差异不大(可能由于个人拥有音箱品牌数量少于1个,对比不明显);对音质、内容资源丰富度、“聪明程度(智能感与趣味性)”等较为敏感。

3)老人、孩子对音箱的满意度、喜爱度是重要消费决策因素。

4)海外用户对音质要求更高,对音箱的使用场景区分更鲜明,倾向于为不同居所场景配备多个音箱产品,对是否自带电池等要求不多;国内用户音质要求和鉴别水平不足,期望自带电池便携便移动。

5)用户期望唤醒词自定义、内容资源更丰富、资源内容相互打通。

6核心结论1)音箱销量:2017年全球智能音箱出货量3200w台,其中Amzon与Google以大约9:1的比例瓜分市场。Amzon音箱销量量级已超2000w,铺货量和活跃设备数全球遥遥领先。截止2018年4月底,国内厂商销量以天猫、小米为首,量级在200w左右,百度、腾讯及众创业公司量级均在10w之下。具备生态闭环和技术平台的大厂商均有“高性价比铺量”的趋向,以低价占据迅速用户市场。据Canalys分析公司保守预测,2018年全球音箱销量将增长到5630台,美国作为主战场销量将达3840台,中国作为第二大市场销量可达440万台。

2)功能覆盖:智能音箱产品功能同质化明显,主要分为内容技能、工具技能、互动娱乐三个大方向;具备生态闭环和技术平台的大厂商正在将以语音技术为核心的AI技术平台打造成Android/ios式的操作系统,吸引更多智能硬件厂商、独立开发者入驻;鉴于技术水平差距不明显和技能开发者的可转移性,技术、技能都不会是决胜的关键因素。

3)用户反馈:智能音箱产品整体市场接受度较高,评价矩阵皆为70~80%5星好评;用户对唤醒成功率、识别成功率、解析成功率等语音交互基础性能感知差异不大,对音箱的音质、内容资源丰富度、智能感与趣味性等维度较敏感;同时用户期望仍处于不断攀升的阶段,对音箱产品提出了越来越多个性化要求。

语音交互功能开发

原标题:语音交互功能开发

伴随着人工智能技术的发展,交互模式也在不断的发生着变化,从简单的交互到多种交互模式共同发展,其中语音交互功能所起的作用越来越明显。

交互模式一开始是传统的按压交互:按下对应的机械按键,展示相应的反馈,有点像现在手机的开机键;后面出现鼠标和键盘的交互,比如键盘上相应的按键会出现相应的符号这类显示到可视的显示器上,通过点击来进行交互;接下来是触摸交互,这就是我们现在经常使用的触摸交互;伴随着大数据和人工智能的发展,又在前者基础上,衍生出了语音交互和手势交互,即我们现在使用的智能音箱和手机助手。

现在语音交互的技术是越来越成熟,语音识别的准确率和处理的效率是越来越高,并且有了成熟的产品证实语音交互的可行性。

语音交互最大的问题就是精准性如何解决。受到环境和发言人口音等等因素的影响,会导致语音识别的准确率较低;加上语音表达的多样性,无法全部覆盖全面。当然,语音交互最大的优点就是简单和便捷性。这也使得开发语音交互,发挥其优势,是未来发展所需。

由于语音交互的以上特点,加上现有技术的限制,所以未来很长一段时间里,语音交互会和多种交互模式并存发展,那么怎样设计语音交互呢?

首先需要考虑当前的场景是否适合语音交互:环境相对安静,语音触发的指令简单明确,这就是我们经常使用手机智能助手就能满足以上条件,还比如车载助手等等。

其次是语音交互后的反馈,包括听懂了怎么执行对应的指令;没有听懂怎么提醒用户,会多次确认吗?语音交互超出智能范围会出现怎么反馈等等。

最后是设定语音交互和其他交互方式的关系,正如手机是多种交互方式结合的产物,语音交互也是与多种其他交互方式相结合,需要考虑到更多。

未来久科技(www.weilai9.com)专注服务至上、秉承诚信开发的理念,从事软件行业10年,项目经验丰富,拥有核心创新团队数十人。本公司专业开发定制APP,是优秀的APP开发公司。返回搜狐,查看更多

责任编辑:

版权声明:本文内容由互联网用户自发贡献,该文观点仅代表作者本人。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如发现本站有涉嫌抄袭侵权/违法违规的内容,一经查实,本站将立刻删除。

上一篇

下一篇