博舍

智能语音技术 人工智能语音交互过程包括

智能语音技术

智能语音技术是最早落地的人工智能技术,也是市场上众多人工智能产品中应用最为广泛的。

机器交互的发展过程:命令行界面(CLI) ->图形用户界面(GUI) ->自然用户界面(NUI)

语音交互界面(VoiceUserInterface,VUI)就是NUI最重要的一种。

 

常见的语音交互场景手机/pc的语音助手Siri、GoogleAssistant、Cortana、Bixby等等自动化客服(在线客服、电话客服)车载语音控制系统智能音响、电视、开关、扫地机、家教机、电视盒子等家庭电子产品智能穿戴设备服务行业交互机器人其他场景如:医疗场景病历录入、教育场景的语音平板、地图导航

 

智能语音发展的几个阶段

技术萌芽阶段:

1952年,第一个语音识别系统Audry诞生

技术突破阶段:

1984年计算机第一次开口说话,IBM发布的语音识别系统在5000个词汇量级上达到了95%的识别率

1988年,世界上首个非特定人大词汇量连续语音识别系统SPHINX诞生

产业化阶段:

1997年,语音听写产品问世。次年,可识别上海话、广东话和四川话等地方口音的语音识别系统被成功开发

2002年,美国首先启动了“全球自主语言开发”项目

2009年,微软Win7集成语音功能

快速应用阶段:

2011年,苹果个人手机助理Siri诞生

2015年,首个可智能打断纠正的语音技术问世

2017年,智能语音系统集中扩展深度学习应用技术终于取得了突破性进展

 

智能语音交互系统模型及发展

 

语音识别(AutomaticSpeechRecognition):简称ASR,是将声音转化成文字的过程。自然语言处理(NaturalLanguageProcessing):简称NLP,是理解和处理文本的过程。语音合成(Text-To-Speech):简称TTS,是把文本转化成语音的过程。

 

 

不断满足人的体验的人机语音交互系统

 

我们不难发现其实国内做语音唤醒、语音识别、语音合成很多,其实并不是人机交互的难点

而重要的是语音理解,是要能根据已有的数据进行语音理解,理解用户的这句话的对话意图,

从而给出对应的操作。

 

关于智能语音交互的5点思考

本文是我在学习智能语音过程中的思考,希望从智能语音的人机交互层面给大家带来一些启发。

小时候很喜欢一部剧叫《恐龙战队》,里面有个角色叫“阿尔法”,是个每天忙来忙去的机器人,能传唤队员并和他们交流,令我很好奇。

今天,我们对于能对话的机器已经不那么新奇了,这得益于智能语音技术的发展和一些语音产品的出现。一度调戏Siri成为全民话题,这肯定不是Apple公司初衷。这暴露了它的不完善,也让大众离语音产品更近了。本文是我在学习智能语音过程中的思考,希望从智能语音的人机交互层面给大家带来一些启发。

语言是人类文明的重要成果,也是人类最重要的工具之一,它为保存和传递人类文明起到了不可或缺的作用。概括来说它的主要作用就4个字:传递信息。

“而我们所说的智能语音,学术界叫“自然语言处理”,是计算机科学领域与人工智能领域的一个研究方向,主要研究能实现人与计算机之间用自然语言进行有效传递信息的理论和方法。—引自百度”

“交互”一词全名是“人机交互”,是一门研究系统与用户之间交流、互动关系的学问。

智能语音交互严谨点说应该是自然语言交互(naturalanguageinteraction),为了方便理解我依然采用“智能语音交互”这个词。

计算机技术及人工智能领域发展迅速,对“自然语言处理”的研究也异常火热。

siri、微软小冰、googlenow、Echo、科大讯飞、京东叮咚、出门问问等智能语音类产品开始出现,虽然存在很大的不完善,但回望历史我们能发现智能语音技术一直是在进步的。

在了解智能语音的过程中,我产生了一些问题,围绕这些问题我对智能语音交互进行了一些思考,希望能给你带来一些启发。

 1、智能语音能成为人类主流的人机交互方式吗?

这个问题在知乎引起了很大的争论,而我倾向于智能语音交互会成为人类主流的人机交互方式之一。

人类与世界万物的交互过程大概是这样的:通过眼睛去观察人、事、物、环境等,再辅以耳朵听、鼻子闻、舌头尝、嘴巴交流、肢体触碰,而后大脑产生记忆和思考并做出动作、表情、语言和生理反馈,这个过程是循环和组合的。

不同的环境和习惯会有不同,但基本是在这个范围。这个过程中,前半部分主要是接收信息,后半部分主要负责交流互动,而语言和动作是最主要的交流互动方式。

人机交互角度看,用手操控是这个世界绝对的主流

我们每天使用的手机、电脑、相机、汽车,包括现在很火的AR、VR设备,基本上都要靠手去操控。(用手操控属于动作这个范畴)这跟人类的进化方式有很大关系,我们的祖先从学会制作工具开始,手就成为了人类接触万物的最主要工具。

尤其是机械的出现,只有人类灵巧的双手才能精准的操控完成任务。

可是人的手有几个缺陷:不够长,不够多,需要配合眼睛,这给我们的生活带来了很多不便。

举个例子:

当我们在开车时,眼睛和手被占用,再去操作手机、中控触屏等设备会非常不便,危险系数也会大大增加。

原本语言是人与人之间交流的工具,很难像双手一样直接与物体产生反应。但是随着公认的第四次工业革命的到来,人工智能让我们有了更多可能,当机器能听懂我们的意思并很好的执行时,很多场景的人机交互方式将会被改变,更多适合的场景将会被挖掘出来,就像当年智能手机进入我们的生活。10年前,我们是无法想象通过手机做现在的大多数事情的。

所以我的浅见是:

智能语音技术会成为人类主流的人机交互方式之一。

成为之一,是因为除了语音外,原本的手的操作、体感操作、面部表情识别、注意力识别、甚至是情绪的波动,都可能在不同场景成为我们与机器的交互方式,未来这很可能是综合的交互体验。

 2、智能语音技术发展到什么阶段了?

智能语音分近场语音和远场语音。

“近场的定义是小于1个波长的范围内(或者波长量级)的电磁场。而远场是电磁波传播到远处之后的场(分布)。——引自百度”

近场语音主要是基于手机等设备,基本上是一些辅助的使用需求,Siri和微软小冰就是近场语音产品。远场语音也越来越受重视,亚马逊的Echo就是远场语音,很受欢迎,至少用户能在5米外的距离语音指示它播放音乐。

自然语言理解方面的研究已经60多年了,虽然还不完善,但令人欣喜的是类似Siri、Echo这样的产品不断涌现,而不再是虚无缥缈的概念。

简单了解下自然语音处理的技术过程:

当我们与机器进行语音交互时,机器需要通过声学处理我们的声音和周围环境,减少干扰和噪音。再通过语音识别技术将听到的声音翻译成文字,语义理解技术则会分析这些文字的意义,最后机器去执行用户的指令或者通过语音合成技术把要表达的内容合成语音。

在此过程,声学处理、语音识别、语义理解等属于自然语言理解,语音合成等是自然语言生成,这些都是非常核心的技术,还要配合人工智能、机器深度学习等等。

但是现阶段依然困难重重。

真实环境下,受噪音等影响机器仍然听不准自然语言。机器将听到的语音翻译成文字时,重音、口音模糊、语法模糊等又很影响成功率。人类语言太复杂,受到单词边界模糊、多义词、句法模糊、上下文理解等影响,语义理解又是一大障碍。

再举个例子:

如果一门课程上一年没开设,对于“这门课程去年有多少同学没通过”这样的问题,机器是回答“都没通过”还是“去年没开这门课”?同时机器还需要提前存储“去年没开这门课”的信息。

想想我们从小时候啥也不懂到现在懂得的知识和信息,这是难以想象的数据量!所以现阶段来看,在某垂直领域开发智能语音产品是相对现实的选择。

 3、智能语音交互与界面交互的异同点是什么?

研究智能语音与机器的交互,不得不说界面交互,这是使用者和设计者都非常熟悉的人机交互方式。从界面交互出发,其实有很多可思考的或借鉴的点。

界面交互是线性的,而语音交互是非线性的 

界面交互是一种线性的交互方式,本质上是不同的页面通过不同的层级关系串联起来的。所以,我们在使用的时候会有一层层返回,tab导航切换,回到app首页和home键回到手机桌面的概念。

语音交互不适合这样做,我们人类在语言交流时,是一种非线性发散式的,我们会在聊某个话题时突然切换到另外一个不相关的话题上,这之间没有层级关系,更谈不上返回关系。

界面交互更多过程,语音交互直接指向结果 

界面交互在设计的时候,是将很多“小任务”(按钮点击、模块选择、页面跳转等等)提供给用户,用户通过不同的组合选择,最终达成自己的目标。

但是在语音交互时,更多是直接表达,你会跟服务员说:请给我一杯咖啡。而不会说:请用杯子从咖啡壶里倒一杯咖啡给我。

界面交互可以没有目标,语音交互需要准确的目标 

我们在使用电脑和手机上网时,有时候是漫无目的,但在语音交互产品上如果漫无目的的进行下去,会让人很烦躁,因为你得不停地说下去。

语音交互的私密性更强,没有界面交互覆盖的使用场景多

当我们在一个人多的场合可以毫无顾忌的使用手机和ipad,但若跟机器进行语音对话,就会令人很尴尬。再例如,在ATM机上取款时你会使用语音吗??

所以在一些使用语音交互效率高的场景,如何避免这样尴尬的情绪很重要。而另一些更私密的场景语音交互可能是个灾难。

4、智能语音交互适合哪些使用场景?

任何一款产品不管是什么样的交互方式,没有使用场景,满足不了用户需求,一定是无法成功的。智能语音类产品也不例外,并且从现阶段的技术上来看,垂直一些的使用场景更适合用智能语音交互。

汽车的车载智能语音系统,已经有很多商业产品了。是不是可以在挖掘出其他出行场景呢?比如骑车时?儿童娱乐和教育也是适合语音交互切入的行业,也有很多公司在做。智能语音类产品还可以应用于客服行业,可以极大的程度降低人员成本,也可以解决语音客服体验差效率低的问题。

人工客服和非智能语音客服场景的痛点

如果应用智能语音系统呢?理想的情况跟人工客服没有区别,但是全部由机器完成,想想看节省了多少人力成本。甚至线下的客服工作也可以替代。

4似智能语音助理这样的产品,帮用户处理一些短路径目的明确的任务需求。

还有办公领域、智能家居等等……

5、如何设计使用体验好的智能语音产品?

不管是界面产品还是语音产品,最终目的都是解决人们的问题。界面产品设计的部分标准和经验依然适用。

比如设计流程上,同样需要理解业务诉求、用户诉求,要进行用户调研、分析用户特征和观察用户行为,要挖掘使用场景中的问题和痛点,要梳理任务流程、设计信息架构和方案设计,并且要去验证和迭代。

而语音交互过程中还需要注意以下问题:

流程简单,路径明确,最大限度减少对话轮数。

语音交互应该避免不停的对话,太多轮对话用户难以记住,并且会很烦躁。

信息传达简洁明了,避免大量内容。

用户的短期记忆量有限,信息太多用户难以记住。

给予用户适当的引导,避免或及时纠正用户发散式思维导致的错误。

用户的语言表达是自由度非常高的,这会增加机器识别的难度,适当的引导让用户回到正确的道路。

系统状态反馈,及时有效。

语音交互中的系统状态反馈,要让用户及时了解当前状态,上下文关系,用户所处流程的位置。

任何时刻都是“首页”。

语音交互对用户来说是快捷方式,有需求会直接说,而不会像界面产品先要回到首页再去找相应应用。

加载过程要快。

在界面交互中页面加载3秒以内,配合状态反馈,用户是可以接受的。而语音交互用户会更不耐心等待,所以加载过程要快,就像人与人之间对话一样自然,才会令用户满意。

固定的、舒适的声音风格,令用户愉悦。

固定的音乐、铃声,给用户形成印象,让人一听见就知道是什么产品。例如微信、iphone铃声、新闻联播片头曲。动听、令人愉悦的声音、音乐、铃声很重要,是产品气质的表现。

与机器的语音交流如何像人类一样自然?

这是最后的疑问,我还没有答案。机器的语音交流,不像人类一样自然永远是最大问题,因为只有人与人之间交流才是最自然和舒适的。如何让机器学习和模仿人类,使它慢慢的向自然人“进化”?

以上仅是分析和思考,并未经过实践验证,只希望给大家带来启发。

 

本文由@Wayne原创发布于人人都是产品经理。未经许可,禁止转载。

题图来自PEXELS,基于CC0协议

国内智能语音行业分析报告

伴随着人工智能行业的快速发展,中国在智能语音这个细分市场的发展速度也将会持续增长,但是目前国内在智能语音市场,技术已经相对成熟,且头部企业在行业的垄断力度较大。

一、智能语音简介

智能语音是人工智能技术的重要组成部分,包括语音识别、语义理解、自然语言处理、语音交互等。

当前,人工智能的关键技术均以实现感知智能和认知智能为目标。语音识别、图像识别和机器人视觉、生物识别等目前最火热的领域,主要解决的是感知智能的需求,就是使得人工智能能够感知周围的世界,能够“听见”或者“看到”。

自然语言理解、智能会话、智能决策、人机交互等技术更加侧重的是认知智能的领域,解决“听懂”、“看懂”,并且根据学习到的知识对人类的要求或者周围的环境做出反应的能力。

在关键技术层中,语音识别、自然语义理解(NatureLanguageProcess,NLP)、机器学习领域的关键技术在人工智能技术当中居于重要地位,是人机交互技术的基础。

(语音交互流程图)

二、智能语音市场概况1.中国人工智能市场规模持续增长,智能语音处于重要地位

通过上图我们不难发现,人工智能行业最近几年呈现出一个快速发展的态势,产业增长率平均在43%左右,属于一个快速发展的产业。2018年,人工智能市场规模达200亿元,如果按照之前的增速,预计到2019年年末,整个人工智能行业规模将达到近300亿元。

而在智能语言方面,当前人工智能产业中,智能语音是一个产业化程度相对成熟,产业规模较大的这么一个细分领域,从2011年整个市场规模只有6.3亿,到2017年整个智能语音市场规模已经超过百亿,整个行业正经历着高速的发展,预计未来几年,智能语音市场仍然会保持着较高速度快速发展。

2.智能语音技术是人工智能产业链上的关键一环

上图是当前人工智能产业链的一个版图,从底层的基础设施到中间层的技术服务到最上面的行业应用,可以看到,智能语音技术在整个产业链当中,起到了一个承接的作用,将人工智能的技术底层产业化,并在智能家居、可穿戴设备、机器人等行业落地,是整个人工智能产业链中的关键一环。

3.科技巨头纷纷从不同维度布局相关产业链

(1)国外科技巨头:通过并购等手段,夯实核心技术,开放应用平台,扩展以AI为核心的生态系统

谷歌:打造开发者生态链,推出GoogleHome,试图建立物联网时代安卓系统。

苹果:基于智能硬件定标准,做平台、获数据,重视物联网时代生态控制权。

(2)国内科技巨头:开放语音生态系统,以产业内合作的方式,将语音技术植入产品和或应用于相关业务场景,构建全产业生态链厂。

百度:瞄准人工智能战场,对外开放语音生态系统,对内在自身产品业务中实现AIFirst。

 

三、智能语音技术分析1.语音识别(ASR)

1)语音识别概述

语音识别是以语音为研究对象,通过语音信号处理和模式识别让机器自动识别和理解人类口述的语言,语音识别技术就是让机器通过识别和理解过程,把语音信号转变为相应的文本或命令的高技术。

语音识别系统本质上是一种模式识别系统,包括特征提取、模式匹配、参考模式库等三个基本单元,它的基本结构如下图所示:

语音识别系统构建过程整体上包括两大部分:训练和识别。

训练通常是离线完成的,对预先收集好的海量语音、语言数据库进行信号处理和知识挖掘,获取语音识别系统所需要的“声学模型”和“语言模型”;

而识别过程通常是在线完成的,对用户实时的语音进行自动识别。

识别过程通常又可以分为“前端”和“后端”两大模块:

“前端”模块主要的作用是进行端点检测(去除多余的静音和非说话声)、降噪、特征提取等;“后端”模块的作用是利用训练好的“声学模型”和“语言模型”对用户说话的特征向量进行统计模式识别(又称“解码”),得到其包含的文字信息,此外,后端模块还存在一个“自适应”的反馈模块,可以对用户的语音进行自学习,从而对“声学模型”和“语音模型”进行必要的“校正”,进一步提高识别的准确率。

目前,各语音识别方案提供方,包括讯飞、百度、云知声、思必驰等,都在提供包括麦克风阵列等硬件在内的整体解决方案,以软硬件结合的方式提高语音识别的精准度的问题。

2)语音识别技术原理

声音实际上是一种波,在开始语音识别之前,首先,需要对声音进行静音切除处理,以降低对后续步骤造成的干扰。

其次,要对声音进行分帧,把声音切成一小段一小段,每一段就是一帧,分帧操作一般不是简单的切开,而是使用移动窗函数来实现,而帧与帧之间一般是有交叠的,如下图所示:

图中,每帧的长度为25毫秒,每两帧之间有0.2S的交叠,我们一般称之为帧长2秒,帧移0.2秒。

分帧后,语音就变成了很多小段。但波形在时域上几乎没有任何描述能力,因此必须将波形作变换,常见的一种变换方法是提取MFCC特征,根据人耳的生理特性,把每一帧波形变成一个多维向量,这个向量包含了这帧语音的内容信息,我们把这个过程叫做声学的特征提取。

至此,声音就成了一个12行(假设声学特征是12维)、N列的一个矩阵,称之为观察序列,这里N为总帧数。观察序列如下图所示,图中,每一帧都用一个12维的向量表示,色块的颜色深浅表示向量值的大小。

再次,就是讲声音向量矩阵变成文本了,在这之前,有两个概念需要给大家先介绍下:

音素:单词的发音由音素构成。对英语,一种常用的音素集是卡内基梅隆大学的一套由39个音素构成的音素集,而汉语一般直接用全部声母和韵母作为音素集,另外汉语识别还分有调无调。状态:比音素更细致的语音单位就行啦。通常把一个音素划分成3个状态。

了解了概念之后,我们就看一下语音识别是怎么把声音变成文本的,其实就和我们把大象塞进冰箱一样,也是分为三步:

把帧识别成状态(难点);把状态组合成音素;把音素组合成单词。

如下图所示:

图中,每个小竖条代表一帧,若干帧语音对应一个状态,每三个状态组合成一个音素,若干个音素组合成一个单词。也就是说,只要知道每帧语音对应哪个状态了,语音识别的结果也就出来了。

图中,每个小竖条代表一帧,若干帧语音对应一个状态,每三个状态组合成一个音素,若干个音素组合成一个单词。也就是说,只要知道每帧语音对应哪个状态了,语音识别的结果也就出来了。

2.自然语义处理(NLP)

1)自然语义处理概要

语义识别是人工智能的重要方向之一,如果语音技术相当于人的嘴巴和耳朵,负责表达和获取,那语义技术则相当于人的大脑,负责思考和信息处理,解决的是“听得懂”的问题。语义识别最大的作用是改变人机交互模式,将人机交互由最原始的鼠标、键盘交互转变为语音对话的方式。

人机交互发展史

语义识别主要基于大数据和算法模型之上搭建,是自然语言处理(NLP)技术的重要组成部分。NLP技术主要包括词法分析技术、句法分析技术、语义分析技术、语用分析技术以及语句分析技术等。NLP在实际应用中最大的困难还是语义的复杂性,随着大数据、芯片和算法模型等的发展进程加速,将为NLP带来长足的进步。

2)自然语义处理技术原理

在自然语义处理领域,也在通过深度学习的工具提升自然语义处理的准确度。目前常用的自然语义处理领域的技术包括了循环神经网络(RecurrentNeuralNetwork)、卷积神经网络(ConvolutionalNeuralNetwork)、递归神经网络(RecursiveNeuralNetwork)的原理,它们是语句语义学习的强有力工具。

普通神经网络可以完成词性标记、词语切分、实体命名识别、目的提取等一般的语义分析功能。

循环神经网络(RNN)是把一句话看成单词的序列,每个单词由一个向量表示,每一个位置上有一个中间表示,由向量组成,表示从句首到这个位置的语义。

这里假设,每一个位置的中间表示由当前位置的单词向量以及前一个位置的中间表示决定,通过一个神经网络模型化。RNN把句末的中间表示当作整个句子的语义表示。RNN加入长短期记忆(LongShortTermMemory,LSTM)机制,RNN可以处理远距离依存关系,能够更好地表示整句的语义。

卷积神经网络(CNN)是通过对句子进行扫描,抽取特征,选择特征,最后组合成句子的语义表示。

首先从左到右用一个滑动窗口对句子进行扫描,每个滑动窗口内有多个单词,每个单词由一个向量表示。在滑动窗口内,通过卷积(convolution)操作,进行特征抽取。这样,在各个位置上得到一系列特征。之后再通过最大池化(maxpooling)操作,对特征进行选择。

重复以上操作多次,得到多个向量表示,将这些向量连接起来得到整个句子的语义表示。同一卷积层内参数是共享的,也就是同一层的卷积操作是相同的,这也就保证了在局部领域进行相同的特征抽取。

ReNN是假设对语句进行句法分析,得到句法树。句法树的每个节点上有一个向量中间表示。父节点的表示由其子节点的表示决定,通过神经网络模型化,而根节点的表示就是整个句子的语义表示。句法树上的中间表示可以在句法分析的过程中得到,比如在最大间隔分析(maxmarginparsing)。

除了上述这些神经网络的算法之外,人类不断在尝试着用新的算法来试图能够为人工智能提供更加准确理解自然语言的能力。随着神经网络和深度学习的发展,自然语义处理已经取得了长足的发展,但是,由于人类语言的复杂性,对于通用人工智能阶段需要达到的自然语言理解,也存在较长的距离。

3.语音合成(TTS)

1)语音合成概述

语音合成,又称文语转换(TexttoSpeech)技术,能将任意文字信息实时转化为标准流畅的语音并朗读出来,相当于给机器装上了一个嘴巴,它涉及到声学、语言学、数字信号处理、计算机科学等多个学科技术,是人工智能信息处理领域的一项前沿技术,解决的主要问题就是如何将文字信息转化为可听的声音信息。

语音合成和语音识别技术是实现人机语音通话所必需的两项关键技术,使机器具有类似于人一样的说话能力。

2)语音合成技术处理方式

文本处理:

这一步做的事情是把文本转化成音素序列,并标出每个音素的起止时间、频率变化等信息。

作为一个预处理步骤,它的重要性经常被忽视,但是它涉及到很多值得研究的问题,比如拼写相同但读音不同的词的区分、缩写的处理、停顿位置的确定,等等。

音素:音素(phone),是语音中的最小的单位,依据音节里的发音动作来分析,一个动作构成一个音素。音素分为元音、辅音两大类。音节:音节在语音学上指由一个或数个音素组成的语音结构基本单位;而音素是最小的语音单位。如”普通话”,由三个音节组成,可以分析成”p,u,t,o,ng,h,u,a”八个音素。

语音合成:

狭义上这一步专指根据音素序列(以及标注好的起止时间、频率变化等信息)生成语音,广义上它也可以包括文本处理的步骤。

这一步主要有三类方法:

拼接法,即从事先录制的大量语音中,选择所需的基本单位拼接而成。这样的单位可以是音节、音素等等;为了追求合成语音的连贯性,也常常用使用双音子(从一个音素的中央到下一个音素的中央)作为单位。拼接法合成的语音质量较高,但它需要录制大量语音以保证覆盖率。参数法,即根据统计模型来产生每时每刻的语音参数(包括基频、共振峰频率等),然后把这些参数转化为波形。参数法也需要事先录制语音进行训练,但它并不需要100%的覆盖率。参数法合成出的语音质量比拼接法差一些。声道模拟法。参数法利用的参数是语音信号的性质,它并不关注语音的产生过程。与此相反,声道模拟法则是建立声道的物理模型,通过这个物理模型产生波形。这种方法的理论看起来很优美,但由于语音的产生过程实在是太复杂,所以实用价值并不高。三、智能语音主要公司介绍1.图灵机器人

1)公司简介

图灵机器人是一家个性化智能机器人平台,旗下有人工智能机器人操作系统TuringOS,用户可以在微博、微信、QQ机器人、语音客服、智能硬件等多个场景搭建属于自己的个性化智能机器人,截止2016,公司估值已经超过10亿人民币。

2)代表性产品介绍

乐迪:

乐迪是著名动画作品《超级飞侠》里的灵魂人物,基于图灵机器人人工智能操作系统TuringOS,让乐迪从荧屏走进消费者现实生活。

吉米猫:

吉米猫是一款手机宠物类应用游戏,从功能上来说很像是汤姆猫的升级版,但与汤姆猫不同的是吉米猫接入了图灵机器人的Chatbot接口,赋予了吉米猫聊天调侃、百科问答等语音对话能力,闲暇时还可以给你讲个段子、说个故事。

2.思必驰

1)公司简介

思必驰是一家智能语音技术解决方案提供商,致力于提供自然语言人机交互解决方案,应用于智能车载、智能家居和智能机器人领域,并且拥有语音识别、语音合成、语义对话及语义唤醒等技术,截止2016年,思必驰的估值已经超过20亿人民币。

2)代表性产品介绍

智能车载解决方案:提供一体化解决方案,适用于智能后视镜、智能车机、便携式导航仪、HUD等,全称语音操作。

智能家居解决方案:软硬件一体化解决方案,为智能家居产品提供声源定位、个性唤醒、语音识别、语义理解、对话交互等功能。

3.云知声

1)公司简介

云知声成立于2012年,是一家智能语音识别技术的高新技术企业,目前集AI芯、AIUI、AIService三大解决方案支撑云知声核心技术的落地,已经在家居、汽车、医疗和教育等领域有广泛应用,截止2018年,公司估值已经超过10.7亿美金。

2)代表性产品介绍

智能家居方案-UniHome:

AI芯作为智能语音解决方案芯片,用以解决不同形态智能终端感知和部分计算问题,AI芯通过多种芯片方案,合理组合不同硬件平台,安装不同系统下的AIUI版本,提供语音交互、IO控制、互联内容的能力,满足不同价位不同场景下的智能硬件交互需求。

智能车载方案-UniCar:

云端芯一体化,方案包括拾音降噪,语音交互,云端计算和内容服务一揽子解决方案,满足用户导航,电话,娱乐,咨询,社交5大场景的功能诉求。

 

智慧医疗方案:云知声提供医疗垂直领域录入软硬件一体的解决方案,基于医疗人工智能技术和大数据分析进行持续探索,实现智能语音交互的知识问答和病历查询,进行健康风险预测和患者分群分析。

 

4.出门问问

1)公司简介

出门问问是市场上一家拥有自主语音识别、语义分析、垂直搜索技术的人工智能公司;自成立以来,一直努力将人工智能技术落地到消费产品,定义下一代人机交互的方式,截止2017年,公司估值超过10亿美金。

2)代表性产品介绍

以TicWatchPro为例:

五、智能语音市场总结

伴随着人工智能行业的快速发展,中国在智能语音这个细分市场的发展速度也将会持续增长,但是目前国内在智能语音市场,技术已经相对成熟,且头部企业在行业的垄断力度较大。

目前,中国智能语音市场的主要份额被科大讯飞、百度以及苹果分割,截止到2018年,中国智能语音市场,科大讯飞市场占有率排名第一,市占率达到44.2%;其次为百度,市场占有率为27.8%;排名第三的是的苹果,市占率为6.9%,排名前三的品牌在我国智能语音市场占比近八成,留给初创企业在这个市场的空间以及机会并不多。

未来随着智能语音技术的逐渐成熟,智能语音技术在教育领域会发挥出巨大的作用,比如在口语教学、考试测评、模拟练习等环节,能够代替现在很多老师的工作,大大降低人工成本。

 

作者:作者:阿旺,著名投资人兼连续创业者,会从自身投资以及创业经历,不定期输出各类行业研究,如您想了解更多关于创业以及投资方面的内容,欢迎关注本人公众号:awangblog

本文由@阿旺原创发布于人人都是产品经理。未经许可,禁止转载。

题图来自Unsplash,基于CC0协议

AI智能电话客服机器人的交互流程

就目前来说语音对话形式的智能客服机器人已经越来越多。人们想要处理什么事情,电话打到客服中心大多数的第一站是智能客服机器人,实在复杂的才有可能会交给人工客服处理。那么你知道智能电话客服机器人是怎么交互的吗?

从交互形式来划分,智能客服包括纯语音(如联信志诚智能客服机器人),纯可视化界面(如一些电商的客服,完全通过界面交互来完成对话)。交互形式没有好坏,这一点同非AI产品一样,根据用户使用场景选择最合适的形式即可。

从产品定义出发,智能客服类产品,最根本的价值在于以低成本取代人工客服工作中大量重复性的部分,再基于这个前提,去挖掘更多商业变现的可能性。人工客服的工作大致分为两种,一种是咨询类的,客服只需回答问题;另一种是申请类的,客服要帮客户完成一些业务办理。

智能语音机器人呼叫流程的交互时序流程(以呼入为例),主要流程为:

1.客户拨打电话给智能语音客服机器人。

2.智能语音客服机器人接听电话后,呼叫中心平台调用业务流程管理接口,启动并初始化对话流程状态图。

3.业务对话流程管理模块初始化对话流程状态图后,发送开场白话术给呼叫中心。

4.呼叫中心平台接受到开场白话术,根据配置选择进行TTS语音合成或者直接播放录制好的录音,并进行放音操作通知客户。

5.客户收到开场白语音后同样做出相应的语音回复,开始进行对话流程。

6.呼叫中心平台收到客户的回复语音后通过MRCP协议调用ASR服务进行语音识别。

7.呼叫中心收到ASR返回的文字结果后,通过HTTP协议调用业务流程对话管理接口进行对话状态更新。

8.业务流程对话管理接收到呼叫中心传来的请求信息后,调用语义解析模块进行语义解析,并根据语义解析的结果选择话术返回给呼叫中心平台并更新对话状态。

9.呼叫中心收到当前话术,根据配置选择进行TTS语音合成或者直接播放录制好的录音,并进行放音操作通知客户。

10.根据配置好的业务流程状态图,重复6-9步骤,直至呼叫对话流程结束。

11.业务对话流程结束后,呼叫中心通知ASR服务结束当前的语音转写时间请求。最终通知业务流程对话管理模块挂机操作,并向呼叫管理平台上报呼叫结果。

而作为智能电话客服机器人的建设者来说,越了解用户的需求,客服机器人才会越智能,与用户交互也会更顺畅。 

版权声明:本文内容由互联网用户自发贡献,该文观点仅代表作者本人。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如发现本站有涉嫌抄袭侵权/违法违规的内容,一经查实,本站将立刻删除。

上一篇

下一篇