智能语音深度报告,七大场景全面开花,千亿规模市场爆发:智东西内参
智能语音即声音信息在人机间的交互模拟,为人工智能的核心技术之一,也是人工智能落地最早的技术之一。1980s至今智能语音经历三个阶段发展,2016年开始进入落地期,智能语音助手、智能音箱相继落地。
现在,智能语音的相关应用正向消费级和企业级两大方向爆发。其中消费级包括智慧生活场景、智能家居场景和智能驾驶场景,近期总的发展空间将达到3000亿元。
企业级应用包括智慧教育场景、智慧医疗场景和应用于电信/金融/电商等场景的智能呼叫/客服场景,值得一提的是,企业级场景近一年来收到疫情的加速催化,空间也即将达到千亿规模。
本期的智能内参,我们推荐华西证券的报告《智能语音赛道:风口已至,全面开花》,从消费级、企业级两大分支还原智能语音的发展格局。
原标题:
《智能语音赛道:风口已至,全面开花》
作者:刘泽晶
一、智能语音:AI核心赛道
智能语音是AI的重要入口,是AI三大核心基础技术之一(机器视觉、智能语音和机器学习)。
智能语音在AI技术中占据重要地位,就市场份额而言,2019年智能语音占据我国AI22%的份额,仅次于已经实现大规模商用的机器视觉。
▲智能语音是人工智能行业重要细分市场
所以,什么是智能语音?简单点说,智能语音即声音信息在人机间的交互。
人类大脑皮层每天处理的信息中,声音信息占20%,是沟通最重要的纽带。智能语音将声音转为文字供机器处理、在机器生成语言之后,用语音合成技术将文本语言转化为声波。
▲智能语音的实现流程&各环节模拟机制
智能语音的发展始于上世纪八十年代,迄今已经历了三个阶段:
1980s-2010为起步期:语音识别开始从孤立词识别系统向大量词汇连续语音识别系统发展;
2011-2015为变革期:微软DNN(深度神经网络)的出现使识别错误率第一次大幅降低,降幅约90%,技术与产品开始大发展;
2016至今为落地期:机器语音识别准确率第一次达到人类水平,约95%,智能语音技术进入落地期,智能语音助手、智能音箱相继落地。
但是,相比于机器视觉,智能语音的落地进程相对落后。机器视觉企业在全球AI企业中占比40%、在国内占比46%;是国内外AI企业最集中的领域。
主要有两方面原因,一方面其数据的体量、密度相对有限,另一方面其涉及的声学研究、模式识别研究、通用NLP研究及垂直场景的深度语义理解等还未完全成熟(尤其2016年以前),因此在交互体验、使用效果、场景优化等方面都仍有较大空间。
▲全球AI企业应用技术方向分布
▲中国AI企业应用技术方向分布
但随着智能语音技术逐渐成熟,未来几年市场将维持高速增长。
根据Gartner发布的2018年AI技术成熟度曲线,当前语音识别已经进入‚实质生产高峰期,意味着语音识别技术已被广泛接受,规模化落地即将开始。此外,像自然语言处理、虚拟助理等相关智能语音技术历经淘洗之后即将落入,泡沫化低谷期,商业模式越来越成熟,也将进一步推动智能语音的落地。
根据ReportLinker的预测:到2024年全球智能语音市场规模将达到215亿美元,其中智慧医疗健康、智慧金融以及各类智能终端智能语音技术需求将成为主要的驱动因素。
智能语音市场按客户类型可分为消费级市场(2C或2B2C)和企业级市场(2B)。
消费级应用,立足于个人日常生活,主要包括了智慧生活、智能家居、智慧办公、智能驾驶等场景,本质上是智能语音技术(以语音助手为代表)对于各类终端的赋能,是AIoT大生态的重要构成。
具体产品包括了:智能手机、智能可穿戴、智能音箱、智能家电、翻译机、录音笔、转写TWS耳机、智能车载等。
专业级应用:服务于特定场景,如智慧医疗、智慧教育、智慧电信/金融/电商等。相较而言,专业级应用具有更高的垂直属性和know-how壁垒。
具体产品包括了智慧课堂、自动审阅、学习机(2C属性)、智慧客户/呼叫等。
▲智能语音领域的各类细分赛道
二、2C消费级市场
智能手机开创语音助手先河,引领消费级市场。消费级智能语音交互是大众接触智能语音最普遍的渠道,核心逻辑仍是消费级AIoT:,消费级AIoT市场规模就已达到1753亿元,在总AIoT市场中占比68%,空间极其广阔。
众多人工智能公司(硬件设备厂商&互联网厂商)均瞄准消费级智能交互终端,第一款典型的落地产品就是智能手机语音助手。
语音助手落地开启智能语音应用元年:2011年第一款手机语音助手Siri伴随iPhone4S亮相,各大厂商纷纷入局。从2017年下半年开始通过开放语音生态系统进行产业内合作,语音助可穿戴、家居、车载等领域延伸。
智能手机中配置智能语音助手比例提升,预计2023年占比将达90%。根据StrategyAnalytics数据,2018年全球销售的智能手机中就已经有47.7%配置了人工智能语音助手,占比将近一半。
当前,智能手机配置AI语音助手已成为整体性趋势,从已有用户的情况来看,智能语音助手用户使用助手频率占比最大的为每周3-4次,表明人们正日益倾向于使用智能语音助手。
基于这一趋势,StrategyAnalytics预计,到2023年前,90%的智能手机都将会配置AI语音助手。
▲智能手机配置语音助手的比例
▲智能手机语音助手使用频率
智能可穿戴设备市场空间广阔,智能语音为其天然入口。智能可穿戴设备趋于小屏化、无屏化的特点决定了智能语音将成为其天然入口。伴随中国智能可穿戴设备行业在各垂直领域应用程度的加深,中国智能可穿戴设备行业将持续扩容。沙利文预测,2023年中国智能可穿戴设备行业的市场规模将达到913.7亿元。
中国智能可穿戴设备行业由上游的软硬件供应商、中游的智能可穿戴设备厂商及下游各应用领域构成。
预计2020年全球可穿戴设备出货量将达到3.96亿台,与2019年出货量3.459亿台相比增长14.5%。
展望未来,IDC预测,2024年全球可穿戴设备出货量将达到6.371亿台,五年内复合年增长率(CAGR)为12.4%。
据IDC发布的《中国可穿戴设备市场季度跟踪报告》显示,2020年中国可穿戴设备市场出货量第一季度、第二季度分别为1762万台(同比下降11.3%)和2658万台(同比增长4.1%),扭亏趋势明确,预期全年数据增速可观,不低于全球增速。
▲IDC:全球智能可穿戴产品出货量及预测值
▲IDC:中国智能可穿戴产品出货量
现阶段,搭载语音助手的设备产品主要为智能手机和智能可穿戴设备,同时也包括小部分智能家居产品、智能车载产品。就规模来看,2020年智能语音助手的市场规模已经达到241.1亿元;2021年规模将达到337.5亿元。
由于中国居民消费水平提升,消费主力群体代际变迁等因素,搭载语音助手的智能设备的消费量将会有所增长,推动中国语音助手市场规模进一步扩大。预计到2023年,中国语音助手市场规模将增长至570.3亿元。
▲中国智能语音助手市场规模(亿元)
另外一个智能语音落地场景是智能家居,智能家居的最终形态是实现全屋产品的智能化,为AIoT的关键场景,在灯光、空调、电视、窗帘、门窗、背景音乐、安防、监控控制以及可编程定时控制等方面均有应用。
2020年中国智能家居市场规模突破2400亿,2020年全球智能家居市场平均渗透率将超过60%。未来三年将是智能家居行业快速发展的时期,行业并购及市场规模增长将诞生一批年销售额超过百亿的企业。
▲智能家居市场规模(亿元)
▲2020智能家电平均渗透率超过60%
智能音箱为语音交互蓝图铺路,是智能家居入口。早在2019年底,中国智能音箱累计出货量就已经超过7000万台,在我国城镇住房中渗透率达到20%,接近2012年智能手机的渗透程度。
▲2012-2019年智能手机/音箱出货情况
▲2012-2019年智能手机/音箱渗透情况
智能音箱当前市场规模已超百亿元,未来三年中国智能音箱行业市场规模将保持稳定增长,2023年有望达到8712万台,即174.2亿元。
▲智能音箱行业市场规模及出货量
第三个落地场景是智慧办公,核心是翻译机。根据华经情报网数据,我国翻译机价格主要分布在250-800元和2560-3310元两个区间,其占比均为38%。
出境旅游、教育刚需和经济全球化等因素持续驱动产业规模增长,自动语音识别、机器翻译、语音合成、图像识别等AI技术大幅提升翻译机性能加速产业发展。
2020年我国翻译机市场规模将有望达到27.7亿,并在2030年进一步扩张至56.2亿元。
▲翻译机价格分布
▲翻译机市场空间(亿元)
另一个潜在爆发场景是语音输入法。输入法是智能语音技术在C端的重要落地场景,语音输入、智能纠错、语音翻译等功能开始成为标配;语音变声、语音斗图等针对年轻群体的创新功能也相继推出。
第四种智能语音落地场景是智能驾驶。目前,特斯拉、造车新势力&传统整车厂、初创公司、科技巨头采用不同的方法和路径更新迭代自动驾驶的能力,体现出技术路径的分化,行业竞争格局正在发生新的变革。
未来伴随着科技的进一步发展,AI、人机&语音交互、5GC-V2X车联网等技术的成熟,智能汽车的功能将进一步丰富,使得智能驾驶的渗透率逐步提高,进而带动整个产业链市场规模的快速增加。
在当前智能汽车的发展中,最为激烈的竞争集中在自动驾驶和智能车载系统两个领域。
随着信息技术、网络技术和人工智能的发展,智能车载系统将通过融合数字显示、多屏作者互动、手势操作、智能语音等多项技术,为汽车的驾乘人员提供全新的、直接的、多元的人车交互服务。
在汽车产业领域,搭载基于智能语音的车载交互系统已经成为主流。车载语音交互或将成为标配,打造车内交互新体验。
根据高工智能汽车研究院的数据,2020年一季度中国市场销售新车前装搭载4G联网功能渗透率为46.05%,同比上年提高近20个百分点。预计,搭载率到2025年期间将呈现较快的增长态势。
同时到2025年主流的车企将基本实现新车的联网标配,车载语音巨头面临更大的产业机遇。智能车载潜力巨大,智能语音有望成为车载系统标配。
不同于手机以触屏为主的交互方式,车机和人的交互更多将采用语音,而未来伴随着智能汽车渗透率的逐步提高,智能汽车中的语音交互将更加丰富,进而带动市场规模不断增加。
AI车库数据显示:我国车载语音市场规模在2022年将接近30%。
竞争格局来看,国内巨头科大讯飞占据半壁江山,老牌海外厂商Nuance的国内份额正在被不断蚕食,身后BAT、思必驰等也在快速追赶。
▲中国智能车载市场规模预测(亿元)
▲中国智能车载语音市场规模(亿元)
▲我国车载语音市场占比(截至2019H1)
三、2B企业级市场
智能语音消费者业务主要通过硬件出售及相关互联网增值服务获利,而企业级和公共级业务则主要有两类合作模式:
一是技术平台输出模式,将通用技术能力封装为SDK或API,下游客户或生态中的开发者使用时向技术提供方支付一定费用,当然为了促进生态的快速发展,一些平台如华为HiAI、百度语音技术采取面向开发者免费的策略;
二是切入传统行业,提供解决方案(含核心设备),这种情形下涉及智能语音企业与传统行业集成商或最终客户进行定制化、深度合作。
▲人工智能技术平台输出和解决方案业务规模
智能教育,AI课堂的建设进入快车道。教育部发布的《教育信息化十年发展规划(2011-2020年)》中提到,我国要建立教育经费投入保障体系,并重点提出各级政府在教育经费中按不低于8%的比例列出教育信息化经费。
2021年为十四五开局之年,判断教育信息化仍将迎来加码新政,智慧教育将正在政策助推下持续加速发展。
政策直接相关的应用主要有智能语音训练与评测、互动教学等,其中语音评测市场受益于新高考方案和国家英语能力考试改革,潜力巨大。
智慧教育空间宽广,应用边界不断拓宽。自2012年以来,语音识别、图像识别、深度学习等人工智能技术发展迅速,不断实现突破,人工智能在线教育在人工智能技术的发展推动下逐渐兴起,基于语音识别技术的语音测评、基于图像识别的智能情绪分析等人工智能在线教育产品涌现在市场中,人工智能在线教育行业发展步伐逐步加快。
中国人工智能在线教育市场规模从2014年的54.9亿元增长至2020年368.3亿元,呈现快速增长趋势。随着人工智能技术日趋成熟,人工智能在线教育产品性能将进一步提升,用户规模将不断扩张,人工智能在线教育市场规模有望迎来新一轮快速增长。
预测至2023年,中国人工智能在线教育规模将达680.5亿元,复合增长率仍将维持在20%以上。
▲人工智能在线教育市场规模(亿元)
第二个2B场景是智慧医疗。智慧医疗领域,语音电子病历系统需求正在释放。通过语音输入的方式生成结构化病例、执行病例检索,节约医师输入病历的时间,解决方案一般包括ASR/NLU技术和专用医疗麦克风。
此外,需求正在向导诊机器人、问诊小程序、诊后随访系统、住院病房管理系统、临床决策支持系统(CDSS)等多应用领域扩散。
中国的智慧医疗建设行业有着广阔的发展空间和投资市场,当前市场空间整体超千亿元。
根据中商情报网数据,2019年我国智慧医疗建设行业规模为880亿元,而2020年这一数字已经达到1040亿元。
按照现状估计,预计到2022年,我国电子病历语音输入累计覆盖近1600家三级与二级医院付费数,渗透率分别为36%和4.5%,180万医生受益。
四、智能语音格局及核心玩家
智能语音语音技术和自然语言理解技术快速进步,目前已在2C消费级的智慧生活、智能家居、智慧办公、智能驾驶;2B企业级的智慧医疗、智慧医疗、智能客服等多个领域实现场景应用。
根据沙利文咨询的统计预测,2019年我国智能语音行业市场规模约为218.4亿元,预计2024年将达到489.8亿元。
▲中国智能语音行业市场规模(亿元)
智能语音2C消费级&2B企业级市场各细分赛道均有广阔空间,后疫情时代有望全面开花,梳理如下图。
▲智能语音领域细分赛道市场空间
国内外智能语音市场均已相对集中,龙头占据主要份额。根据中商产业研究院的数据,智能语音全球市场CR5达到88%,中国市场CR5达到84.6%,均已呈现相对集中市场格局。
差异:全球巨头玩家如Nuance、谷歌等在中国份额有限,取而代之的是国内龙头科大讯飞。一是由于中英文语义理解差异(叠加方言影响);二是受益于国内互联网生态高速发展,智能语音在国内具有更加丰富的落地场景。
在这一背景下,可梳理两类玩家:1、通用平台商如科大讯飞、百度致力于打造开放语音生态;2、专业应用商如云知声、思必驰致力于抢占家居、车载等细分赛道。
▲全球智能语音市场格局
▲全球智能语音市场格局
智东西认为,自2011年iPhone4S首次搭载Siri以来,智能语音助手这个聊胜于无但又颇具想象力的功能就一步步成为手机中的基础功能,并旋即在智能音箱领域大显身手。虽然语音助手一直的覆盖面一直在提升,但使用率确一直不高。但是,以智慧家居为例,智能语音设备其实只是一个入口,随着Iot、自动驾驶等技术的不断拓展,与智能语音设备相互配合一定会大放异彩。
国内智能语音行业分析报告
伴随着人工智能行业的快速发展,中国在智能语音这个细分市场的发展速度也将会持续增长,但是目前国内在智能语音市场,技术已经相对成熟,且头部企业在行业的垄断力度较大。
一、智能语音简介智能语音是人工智能技术的重要组成部分,包括语音识别、语义理解、自然语言处理、语音交互等。
当前,人工智能的关键技术均以实现感知智能和认知智能为目标。语音识别、图像识别和机器人视觉、生物识别等目前最火热的领域,主要解决的是感知智能的需求,就是使得人工智能能够感知周围的世界,能够“听见”或者“看到”。
自然语言理解、智能会话、智能决策、人机交互等技术更加侧重的是认知智能的领域,解决“听懂”、“看懂”,并且根据学习到的知识对人类的要求或者周围的环境做出反应的能力。
在关键技术层中,语音识别、自然语义理解(NatureLanguageProcess,NLP)、机器学习领域的关键技术在人工智能技术当中居于重要地位,是人机交互技术的基础。
(语音交互流程图)
二、智能语音市场概况1.中国人工智能市场规模持续增长,智能语音处于重要地位通过上图我们不难发现,人工智能行业最近几年呈现出一个快速发展的态势,产业增长率平均在43%左右,属于一个快速发展的产业。2018年,人工智能市场规模达200亿元,如果按照之前的增速,预计到2019年年末,整个人工智能行业规模将达到近300亿元。
而在智能语言方面,当前人工智能产业中,智能语音是一个产业化程度相对成熟,产业规模较大的这么一个细分领域,从2011年整个市场规模只有6.3亿,到2017年整个智能语音市场规模已经超过百亿,整个行业正经历着高速的发展,预计未来几年,智能语音市场仍然会保持着较高速度快速发展。
2.智能语音技术是人工智能产业链上的关键一环上图是当前人工智能产业链的一个版图,从底层的基础设施到中间层的技术服务到最上面的行业应用,可以看到,智能语音技术在整个产业链当中,起到了一个承接的作用,将人工智能的技术底层产业化,并在智能家居、可穿戴设备、机器人等行业落地,是整个人工智能产业链中的关键一环。
3.科技巨头纷纷从不同维度布局相关产业链(1)国外科技巨头:通过并购等手段,夯实核心技术,开放应用平台,扩展以AI为核心的生态系统
谷歌:打造开发者生态链,推出GoogleHome,试图建立物联网时代安卓系统。
苹果:基于智能硬件定标准,做平台、获数据,重视物联网时代生态控制权。
(2)国内科技巨头:开放语音生态系统,以产业内合作的方式,将语音技术植入产品和或应用于相关业务场景,构建全产业生态链厂。
百度:瞄准人工智能战场,对外开放语音生态系统,对内在自身产品业务中实现AIFirst。
三、智能语音技术分析1.语音识别(ASR)
1)语音识别概述
语音识别是以语音为研究对象,通过语音信号处理和模式识别让机器自动识别和理解人类口述的语言,语音识别技术就是让机器通过识别和理解过程,把语音信号转变为相应的文本或命令的高技术。
语音识别系统本质上是一种模式识别系统,包括特征提取、模式匹配、参考模式库等三个基本单元,它的基本结构如下图所示:
语音识别系统构建过程整体上包括两大部分:训练和识别。
训练通常是离线完成的,对预先收集好的海量语音、语言数据库进行信号处理和知识挖掘,获取语音识别系统所需要的“声学模型”和“语言模型”;
而识别过程通常是在线完成的,对用户实时的语音进行自动识别。
识别过程通常又可以分为“前端”和“后端”两大模块:
“前端”模块主要的作用是进行端点检测(去除多余的静音和非说话声)、降噪、特征提取等;“后端”模块的作用是利用训练好的“声学模型”和“语言模型”对用户说话的特征向量进行统计模式识别(又称“解码”),得到其包含的文字信息,此外,后端模块还存在一个“自适应”的反馈模块,可以对用户的语音进行自学习,从而对“声学模型”和“语音模型”进行必要的“校正”,进一步提高识别的准确率。目前,各语音识别方案提供方,包括讯飞、百度、云知声、思必驰等,都在提供包括麦克风阵列等硬件在内的整体解决方案,以软硬件结合的方式提高语音识别的精准度的问题。
2)语音识别技术原理
声音实际上是一种波,在开始语音识别之前,首先,需要对声音进行静音切除处理,以降低对后续步骤造成的干扰。
其次,要对声音进行分帧,把声音切成一小段一小段,每一段就是一帧,分帧操作一般不是简单的切开,而是使用移动窗函数来实现,而帧与帧之间一般是有交叠的,如下图所示:
图中,每帧的长度为25毫秒,每两帧之间有0.2S的交叠,我们一般称之为帧长2秒,帧移0.2秒。
分帧后,语音就变成了很多小段。但波形在时域上几乎没有任何描述能力,因此必须将波形作变换,常见的一种变换方法是提取MFCC特征,根据人耳的生理特性,把每一帧波形变成一个多维向量,这个向量包含了这帧语音的内容信息,我们把这个过程叫做声学的特征提取。
至此,声音就成了一个12行(假设声学特征是12维)、N列的一个矩阵,称之为观察序列,这里N为总帧数。观察序列如下图所示,图中,每一帧都用一个12维的向量表示,色块的颜色深浅表示向量值的大小。
再次,就是讲声音向量矩阵变成文本了,在这之前,有两个概念需要给大家先介绍下:
音素:单词的发音由音素构成。对英语,一种常用的音素集是卡内基梅隆大学的一套由39个音素构成的音素集,而汉语一般直接用全部声母和韵母作为音素集,另外汉语识别还分有调无调。状态:比音素更细致的语音单位就行啦。通常把一个音素划分成3个状态。了解了概念之后,我们就看一下语音识别是怎么把声音变成文本的,其实就和我们把大象塞进冰箱一样,也是分为三步:
把帧识别成状态(难点);把状态组合成音素;把音素组合成单词。如下图所示:
图中,每个小竖条代表一帧,若干帧语音对应一个状态,每三个状态组合成一个音素,若干个音素组合成一个单词。也就是说,只要知道每帧语音对应哪个状态了,语音识别的结果也就出来了。
图中,每个小竖条代表一帧,若干帧语音对应一个状态,每三个状态组合成一个音素,若干个音素组合成一个单词。也就是说,只要知道每帧语音对应哪个状态了,语音识别的结果也就出来了。
2.自然语义处理(NLP)1)自然语义处理概要
语义识别是人工智能的重要方向之一,如果语音技术相当于人的嘴巴和耳朵,负责表达和获取,那语义技术则相当于人的大脑,负责思考和信息处理,解决的是“听得懂”的问题。语义识别最大的作用是改变人机交互模式,将人机交互由最原始的鼠标、键盘交互转变为语音对话的方式。
人机交互发展史
语义识别主要基于大数据和算法模型之上搭建,是自然语言处理(NLP)技术的重要组成部分。NLP技术主要包括词法分析技术、句法分析技术、语义分析技术、语用分析技术以及语句分析技术等。NLP在实际应用中最大的困难还是语义的复杂性,随着大数据、芯片和算法模型等的发展进程加速,将为NLP带来长足的进步。
2)自然语义处理技术原理
在自然语义处理领域,也在通过深度学习的工具提升自然语义处理的准确度。目前常用的自然语义处理领域的技术包括了循环神经网络(RecurrentNeuralNetwork)、卷积神经网络(ConvolutionalNeuralNetwork)、递归神经网络(RecursiveNeuralNetwork)的原理,它们是语句语义学习的强有力工具。
普通神经网络可以完成词性标记、词语切分、实体命名识别、目的提取等一般的语义分析功能。
循环神经网络(RNN)是把一句话看成单词的序列,每个单词由一个向量表示,每一个位置上有一个中间表示,由向量组成,表示从句首到这个位置的语义。
这里假设,每一个位置的中间表示由当前位置的单词向量以及前一个位置的中间表示决定,通过一个神经网络模型化。RNN把句末的中间表示当作整个句子的语义表示。RNN加入长短期记忆(LongShortTermMemory,LSTM)机制,RNN可以处理远距离依存关系,能够更好地表示整句的语义。
卷积神经网络(CNN)是通过对句子进行扫描,抽取特征,选择特征,最后组合成句子的语义表示。
首先从左到右用一个滑动窗口对句子进行扫描,每个滑动窗口内有多个单词,每个单词由一个向量表示。在滑动窗口内,通过卷积(convolution)操作,进行特征抽取。这样,在各个位置上得到一系列特征。之后再通过最大池化(maxpooling)操作,对特征进行选择。
重复以上操作多次,得到多个向量表示,将这些向量连接起来得到整个句子的语义表示。同一卷积层内参数是共享的,也就是同一层的卷积操作是相同的,这也就保证了在局部领域进行相同的特征抽取。
ReNN是假设对语句进行句法分析,得到句法树。句法树的每个节点上有一个向量中间表示。父节点的表示由其子节点的表示决定,通过神经网络模型化,而根节点的表示就是整个句子的语义表示。句法树上的中间表示可以在句法分析的过程中得到,比如在最大间隔分析(maxmarginparsing)。
除了上述这些神经网络的算法之外,人类不断在尝试着用新的算法来试图能够为人工智能提供更加准确理解自然语言的能力。随着神经网络和深度学习的发展,自然语义处理已经取得了长足的发展,但是,由于人类语言的复杂性,对于通用人工智能阶段需要达到的自然语言理解,也存在较长的距离。
3.语音合成(TTS)1)语音合成概述
语音合成,又称文语转换(TexttoSpeech)技术,能将任意文字信息实时转化为标准流畅的语音并朗读出来,相当于给机器装上了一个嘴巴,它涉及到声学、语言学、数字信号处理、计算机科学等多个学科技术,是人工智能信息处理领域的一项前沿技术,解决的主要问题就是如何将文字信息转化为可听的声音信息。
语音合成和语音识别技术是实现人机语音通话所必需的两项关键技术,使机器具有类似于人一样的说话能力。
2)语音合成技术处理方式
文本处理:
这一步做的事情是把文本转化成音素序列,并标出每个音素的起止时间、频率变化等信息。
作为一个预处理步骤,它的重要性经常被忽视,但是它涉及到很多值得研究的问题,比如拼写相同但读音不同的词的区分、缩写的处理、停顿位置的确定,等等。
音素:音素(phone),是语音中的最小的单位,依据音节里的发音动作来分析,一个动作构成一个音素。音素分为元音、辅音两大类。音节:音节在语音学上指由一个或数个音素组成的语音结构基本单位;而音素是最小的语音单位。如”普通话”,由三个音节组成,可以分析成”p,u,t,o,ng,h,u,a”八个音素。语音合成:
狭义上这一步专指根据音素序列(以及标注好的起止时间、频率变化等信息)生成语音,广义上它也可以包括文本处理的步骤。
这一步主要有三类方法:
拼接法,即从事先录制的大量语音中,选择所需的基本单位拼接而成。这样的单位可以是音节、音素等等;为了追求合成语音的连贯性,也常常用使用双音子(从一个音素的中央到下一个音素的中央)作为单位。拼接法合成的语音质量较高,但它需要录制大量语音以保证覆盖率。参数法,即根据统计模型来产生每时每刻的语音参数(包括基频、共振峰频率等),然后把这些参数转化为波形。参数法也需要事先录制语音进行训练,但它并不需要100%的覆盖率。参数法合成出的语音质量比拼接法差一些。声道模拟法。参数法利用的参数是语音信号的性质,它并不关注语音的产生过程。与此相反,声道模拟法则是建立声道的物理模型,通过这个物理模型产生波形。这种方法的理论看起来很优美,但由于语音的产生过程实在是太复杂,所以实用价值并不高。三、智能语音主要公司介绍1.图灵机器人1)公司简介
图灵机器人是一家个性化智能机器人平台,旗下有人工智能机器人操作系统TuringOS,用户可以在微博、微信、QQ机器人、语音客服、智能硬件等多个场景搭建属于自己的个性化智能机器人,截止2016,公司估值已经超过10亿人民币。
2)代表性产品介绍
乐迪:
乐迪是著名动画作品《超级飞侠》里的灵魂人物,基于图灵机器人人工智能操作系统TuringOS,让乐迪从荧屏走进消费者现实生活。
吉米猫:
吉米猫是一款手机宠物类应用游戏,从功能上来说很像是汤姆猫的升级版,但与汤姆猫不同的是吉米猫接入了图灵机器人的Chatbot接口,赋予了吉米猫聊天调侃、百科问答等语音对话能力,闲暇时还可以给你讲个段子、说个故事。
2.思必驰1)公司简介
思必驰是一家智能语音技术解决方案提供商,致力于提供自然语言人机交互解决方案,应用于智能车载、智能家居和智能机器人领域,并且拥有语音识别、语音合成、语义对话及语义唤醒等技术,截止2016年,思必驰的估值已经超过20亿人民币。
2)代表性产品介绍
智能车载解决方案:提供一体化解决方案,适用于智能后视镜、智能车机、便携式导航仪、HUD等,全称语音操作。
智能家居解决方案:软硬件一体化解决方案,为智能家居产品提供声源定位、个性唤醒、语音识别、语义理解、对话交互等功能。
3.云知声1)公司简介
云知声成立于2012年,是一家智能语音识别技术的高新技术企业,目前集AI芯、AIUI、AIService三大解决方案支撑云知声核心技术的落地,已经在家居、汽车、医疗和教育等领域有广泛应用,截止2018年,公司估值已经超过10.7亿美金。
2)代表性产品介绍
智能家居方案-UniHome:
AI芯作为智能语音解决方案芯片,用以解决不同形态智能终端感知和部分计算问题,AI芯通过多种芯片方案,合理组合不同硬件平台,安装不同系统下的AIUI版本,提供语音交互、IO控制、互联内容的能力,满足不同价位不同场景下的智能硬件交互需求。
智能车载方案-UniCar:
云端芯一体化,方案包括拾音降噪,语音交互,云端计算和内容服务一揽子解决方案,满足用户导航,电话,娱乐,咨询,社交5大场景的功能诉求。
智慧医疗方案:云知声提供医疗垂直领域录入软硬件一体的解决方案,基于医疗人工智能技术和大数据分析进行持续探索,实现智能语音交互的知识问答和病历查询,进行健康风险预测和患者分群分析。
4.出门问问
1)公司简介
出门问问是市场上一家拥有自主语音识别、语义分析、垂直搜索技术的人工智能公司;自成立以来,一直努力将人工智能技术落地到消费产品,定义下一代人机交互的方式,截止2017年,公司估值超过10亿美金。
2)代表性产品介绍
以TicWatchPro为例:
五、智能语音市场总结伴随着人工智能行业的快速发展,中国在智能语音这个细分市场的发展速度也将会持续增长,但是目前国内在智能语音市场,技术已经相对成熟,且头部企业在行业的垄断力度较大。
目前,中国智能语音市场的主要份额被科大讯飞、百度以及苹果分割,截止到2018年,中国智能语音市场,科大讯飞市场占有率排名第一,市占率达到44.2%;其次为百度,市场占有率为27.8%;排名第三的是的苹果,市占率为6.9%,排名前三的品牌在我国智能语音市场占比近八成,留给初创企业在这个市场的空间以及机会并不多。
未来随着智能语音技术的逐渐成熟,智能语音技术在教育领域会发挥出巨大的作用,比如在口语教学、考试测评、模拟练习等环节,能够代替现在很多老师的工作,大大降低人工成本。
作者:作者:阿旺,著名投资人兼连续创业者,会从自身投资以及创业经历,不定期输出各类行业研究,如您想了解更多关于创业以及投资方面的内容,欢迎关注本人公众号:awangblog
本文由@阿旺原创发布于人人都是产品经理。未经许可,禁止转载。
题图来自Unsplash,基于CC0协议