博舍

2023年我国智能语音市场规模或达285亿元 智能语音市场规模营业额

2023年我国智能语音市场规模或达285亿元

中国智能语音产业发展高峰论坛暨中国语音产业联盟2021年会日前在北京举行。政产学研各界代表围绕智能语音产业热点,研究语音技术发展脉络,探讨语音产业未来方向,助力人工智能与实体经济深度融合发展。会上,中国语音产业联盟发布《2020-2021中国语音产业发展白皮书》(以下简称《白皮书》),预计2021年我国智能语音市场规模可达285亿元,同比增速达到44%。

产业进入规模化深耕期

随着智能化、大数据时代的到来,全球人工智能行业展现出蓬勃生机,智能语音产业也进入规模化深耕期,并保持快速增长态势。2020年,全球智能语音产业规模约为203亿美元,预计2021年产业规模将超过250亿美元。

近年来我国智能语音市场规模持续稳定增长。《白皮书》指出,2020年市场规模达217亿元,较2019年同比增长31%,预计2021年可达到285亿元,同比增速达到44%。

与此同时,我国智能语音市场呈现出差异化竞争态势。《白皮书》引用德勤数据显示,作为大型智能语音科技企业的代表,科大讯飞以60%的市场份额居第一;以阿里、百度等为代表的互联网企业,凭借其庞大的用户资源、各细分场景的数据积累,在语音交互技术领域持续发力,占据约20%的市场份额。

其他企业如捷通华声、智臻智能、思必驰、云知声等,总体份额小于20%,但近年来凭借技术和产品创新快速成长,以垂直领域和细分场景为突破口,实现企业快速增长。

当前,我国智能语音企业持续推进“平台+赛道”发展模式,一方面通过开放平台为开发者提供场景创新的技术支持,一方面凭借自身优势持续拓展智慧教育、医疗、城市、车载、家居等赛道,构建产业生态圈。

在谋划产业布局的同时,我国智能语音企业不断加大技术创新,取得了突破性进展。在语音合成、语音识别、声音检测、语音交互等方面,以科大讯飞为代表的中国智能语音企业的在多项国际赛事中夺冠,推动关键技术快速进步,用户体验得到明显改变。

聚焦企业级、消费级两大市场

《白皮书》指出,围绕2B企业级市场和2C消费级市场,智能语音相关应用落地正渐次绽放。

聚焦企业级市场,智能语音在智慧教育、智慧医疗、智慧城市、智慧制造等领域大展身手。教育行业方面,智能语音可应用于客服咨询、课堂管理、线上教学、口语测评等,推动教育行业智慧化转型加速。在“双减”政策下,更是对师生的减负增效、因材施教意义重大。

在医疗领域,我国互联网医疗健康市场规模2020年已达到1961亿元,预测2021年将达到2831亿元。智能语音应用更加多元,从单一的语音识别病例及导诊技术,向语音+语义的智能化语音辅助系统转型。

智慧制造领域,在工业品声纹质检、智能语音调度与通信、工业设备运维检修等应用场景下,智能语音助力工业智能化转型,推动智慧制造产业化升级加速。

在消费级市场,智能语音在智能办公、智能车载、智能手机、可穿戴设备、智能家居等领域大有可为。《白皮书》显示,语音交互是智能车载的核心模块,智能车载正在从后装向前装市场渗透,语音识别及交互功能前装标配搭载率从2019年的49.82%提升至63.25%,预计2025年国内前装车载语音市场规模约为32亿元。

中国语音产业联盟理事长、科大讯飞董事长刘庆峰认为,人类正在进入人机物万物智能互联时代,语音将成为最重要的人机交互方式。语音交互赋能的智能设备正快速增长,语音助手交互量同比增长84%成为智能硬件核心应用。另一方面,疫情下,开放平台生态加速发展。当前讯飞人工智能开放平台已开放447项能力,开发者数量从去年12月的169万增加到284万,过去一年,平均每月新增9.6万实名认证的开发者;平台应用数量从去年97万增加到133万,新增应用中工业和企业数字化转型应用占比达60%。

《中国智能语音产业发展报告(2023

1月11日,由国家工业信息安全发展研究中心主办,科大讯飞股份有限公司、国家语音及图像识别产品质量检验检测中心、国家智能语音创新中心协办的中国智能语音产业发展高峰论坛暨2022年中国语音产业联盟年会成功举办。

会上,中国语音产业联盟发布《中国智能语音产业发展报告(2021—2022)》,报告指出,我国智能语音产业整体发展环境积极向好,多项关键技术取得突破,产业扎根不断深入,已形成大中小企业融通创新、协同发展的健康生态。

市场规模高速增长龙头企业占据主导份额

智能语音作为智能时代人机交互的关键接口,各行业爆发式的场景需求驱动行业发展进入黄金期,技术突破和应用落地不断深入。从全球范围来看,2022年全球智能语音产业规模将达351.2亿美元,保持33.1%的高速增长;从我国来看,根据德勤统计数据,2022年我国智能语音市场规模将达341亿元,同比增长13.4%。

报告指出,以科大讯飞为代表的语音龙头企业布局较广,是行业创新发展的支柱,占据较大市场份额。同时,科大讯飞、百度、阿里等龙头企业通过打造技术能力开放平台,构建开源生态,引领行业技术创新和应用开发。以讯飞开放平台为例,目前已开放545项AI产品及能力,聚集超过380.5万开发者团队,开发出超过159.5万个AI应用,并从AI龙头﹢开发者的“二维”生态,升级到AI龙头﹢行业龙头﹢开发者的“三维”生态,联合行业龙头搭建基线系统,让更多开发者加入数字经济浪潮。

关键技术突破筑牢行业坚实底座

“2022年是智能语音技术突破的关键年”,报告指出,我国智能语音企业在多项难点技术上实现新的突破。纵向上从语音识别、合成、翻译向计算机视觉、认知智能、运动智能领域延伸,横向上从单点技术突破模式发展到机器认知、多模式复杂场景应用。

在语音识别方面,视听融合的多模态交互技术成为技术演进的主要方向。科大讯飞多模语音增强技术融合语音与视觉的多模感知,让高噪音场景下的语音交互跨过实用门槛,率先在车载、会议、地铁购票和医疗挂号等场景落地。此外,针对低资源语音识别难题,海天瑞声和科大讯飞分别从语音数据和算法层面推动技术进步。

在语音合成方面,随着电商直播等行业的繁荣,语音合成技术也表现出拟人化、口语化的发展趋势。科大讯飞多风格多情感语音合成系统SMART-TTS可提供11种强度可调的情感合成能力。而火山语音的超自然对话语音合成和Meta的语音对语音翻译(speech-to-speechtranslation,S2ST),通过在模型训练中添加副语言数据,让语音交互更加自然和个性化。

要促进智能语音技术持续突破,与会专家从两个方向提出了发展路径。一方面,中国科学院院士姚建铨指出,针对智能语音多学科交叉的学科特性,研究人员需要探索新原理、新机制、新材料、新工艺和新器件,集成创新推动核心技术进步;另一方面,语音技术需要进一步向深度理解延伸,科大讯飞总裁吴晓如表示,“更先进的语音交互系统不仅要‘能听会说’,还要深度去理解人的信息”,自然语言理解和知识推理技术的进步,让机器可以在越来越多的领域帮助人类解决更专业和复杂的问题。

应用规模化落地加速与实体经济融合

报告指出,受疫情和产业数字化、智能化转型影响,智能语音应用场景迅速铺开。据德勤统计数据,预计到2030年,智能语音消费级和企业级应用市场可分别超过700亿和千亿规模。

在消费者产品领域,AI学习机、翻译笔等AI﹢学习产品帮助学生学习减负增效;智能录音笔、智能办公本、智能鼠标等AI﹢办公产品深受职场人士欢迎;AI翻译机、智能麦克风、智能语音键盘、智能耳机、智能助听器等AI﹢生活产品,让更多人享受AI科技的便利。

在汽车领域,智能语音已成为人机交互关键环节,并从车内交互衍生到车外交互,从单模交互走向多模交互,从被动交互发展为主动交互,为车企提供全栈技术赋能。以科大讯飞为代表的国内AI龙头已占据中国语音交互车端应用行业的领先地位。

在运营商领域,智能语音技术与健康养老、家庭教育、家庭娱乐等场景结合,带来更加智慧的家庭生活体验。融合5G与机器翻译技术的无障碍智能通信,让普通的5G手机用户不用下载任何软件就可以使用实时翻译和转写服务,实现跨语种的无障碍视频通话。

在教育领域,科大讯飞全球中文学习平台已覆盖全球183个国家,吸引300多万海外中文学习爱好者使用;利用智能语音和人工智能技术可实现英语听说教、学、考、评、管一站式服务,减少无效训练。

在医疗领域,去年疫情期间,科大讯飞电话机器人助力全国31个省(区、市)的112个地市疫情排查,累计服务超1.1亿人次;智能外呼和智医助理可用于独居老人、留守儿童的日常关爱和兜底保障。

在城市领域,智能语音技术已在安徽省一体化网上政务服务平台、山东聊城城市大脑、海南三亚市崖州湾科技城智慧产城园区、天津市AI银发智能服务平台等创新示范项目中应用。姚建铨院士指出,智能语音与建设智慧城市的要求完全吻合,可以实现各种语音高效转换和智能处理,为智慧城市进一步建设带来新的机遇。

在工业领域,我国打造了包括国家智能语音创新中心在内的一批语音技术创新“国家队”,开展工业声学、多语种、AI语音芯片等关键共性技术研究工作。科大讯飞联合国家智能语音创新中心打造的工业听诊器、声学成像仪、工业设备卫士、智能巡检机器人等“工业六感”产品,已广泛应用到生产、质检、巡检等多个工业环节。

在金融领域,声纹识别技术已经被应用在各类身份认证环节。得意音通董事长郑方表示,声纹是目前除DNA外最可靠的身份认证方式,相比传统方法具有明显优势。此外,科大讯飞智能客服机器人、智能联络中心AICC等AI﹢金融应用,帮助金融机构提升客服和运营效率。

展望智能语音产业未来发展,报告认为,后竞争时代亟须关注新增的不确定性因素,包括核心关键技术能力仍需提升,开源生态培育仍需加大投入,重点应用场景落地仍需提速,传统行业开放场景动能不足等。

国内智能语音行业分析报告

(语音交互流程图)

二、智能语音市场概况1.中国人工智能市场规模持续增长,智能语音处于重要地位

通过上图我们不难发现,人工智能行业最近几年呈现出一个快速发展的态势,产业增长率平均在43%左右,属于一个快速发展的产业。2018年,人工智能市场规模达200亿元,如果按照之前的增速,预计到2019年年末,整个人工智能行业规模将达到近300亿元。

而在智能语言方面,当前人工智能产业中,智能语音是一个产业化程度相对成熟,产业规模较大的这么一个细分领域,从2011年整个市场规模只有6.3亿,到2017年整个智能语音市场规模已经超过百亿,整个行业正经历着高速的发展,预计未来几年,智能语音市场仍然会保持着较高速度快速发展。

2.智能语音技术是人工智能产业链上的关键一环

上图是当前人工智能产业链的一个版图,从底层的基础设施到中间层的技术服务到最上面的行业应用,可以看到,智能语音技术在整个产业链当中,起到了一个承接的作用,将人工智能的技术底层产业化,并在智能家居、可穿戴设备、机器人等行业落地,是整个人工智能产业链中的关键一环。

3.科技巨头纷纷从不同维度布局相关产业链

(1)国外科技巨头:通过并购等手段,夯实核心技术,开放应用平台,扩展以AI为核心的生态系统

谷歌:打造开发者生态链,推出GoogleHome,试图建立物联网时代安卓系统。

苹果:基于智能硬件定标准,做平台、获数据,重视物联网时代生态控制权。

(2)国内科技巨头:开放语音生态系统,以产业内合作的方式,将语音技术植入产品和或应用于相关业务场景,构建全产业生态链厂。

百度:瞄准人工智能战场,对外开放语音生态系统,对内在自身产品业务中实现AIFirst。

三、智能语音技术分析1.语音识别(ASR)

1)语音识别概述

语音识别是以语音为研究对象,通过语音信号处理和模式识别让机器自动识别和理解人类口述的语言,语音识别技术就是让机器通过识别和理解过程,把语音信号转变为相应的文本或命令的高技术。

语音识别系统本质上是一种模式识别系统,包括特征提取、模式匹配、参考模式库等三个基本单元,它的基本结构如下图所示:

语音识别系统构建过程整体上包括两大部分:训练和识别。

训练通常是离线完成的,对预先收集好的海量语音、语言数据库进行信号处理和知识挖掘,获取语音识别系统所需要的“声学模型”和“语言模型”;

而识别过程通常是在线完成的,对用户实时的语音进行自动识别。

识别过程通常又可以分为“前端”和“后端”两大模块:

“前端”模块主要的作用是进行端点检测(去除多余的静音和非说话声)、降噪、特征提取等;“后端”模块的作用是利用训练好的“声学模型”和“语言模型”对用户说话的特征向量进行统计模式识别(又称“解码”),得到其包含的文字信息,此外,后端模块还存在一个“自适应”的反馈模块,可以对用户的语音进行自学习,从而对“声学模型”和“语音模型”进行必要的“校正”,进一步提高识别的准确率。

目前,各语音识别方案提供方,包括讯飞、百度、云知声、思必驰等,都在提供包括麦克风阵列等硬件在内的整体解决方案,以软硬件结合的方式提高语音识别的精准度的问题。

2)语音识别技术原理

声音实际上是一种波,在开始语音识别之前,首先,需要对声音进行静音切除处理,以降低对后续步骤造成的干扰。

其次,要对声音进行分帧,把声音切成一小段一小段,每一段就是一帧,分帧操作一般不是简单的切开,而是使用移动窗函数来实现,而帧与帧之间一般是有交叠的,如下图所示:

图中,每帧的长度为25毫秒,每两帧之间有0.2S的交叠,我们一般称之为帧长2秒,帧移0.2秒。

分帧后,语音就变成了很多小段。但波形在时域上几乎没有任何描述能力,因此必须将波形作变换,常见的一种变换方法是提取MFCC特征,根据人耳的生理特性,把每一帧波形变成一个多维向量,这个向量包含了这帧语音的内容信息,我们把这个过程叫做声学的特征提取。

至此,声音就成了一个12行(假设声学特征是12维)、N列的一个矩阵,称之为观察序列,这里N为总帧数。观察序列如下图所示,图中,每一帧都用一个12维的向量表示,色块的颜色深浅表示向量值的大小。

再次,就是讲声音向量矩阵变成文本了,在这之前,有两个概念需要给大家先介绍下:

了解了概念之后,我们就看一下语音识别是怎么把声音变成文本的,其实就和我们把大象塞进冰箱一样,也是分为三步:

如下图所示:

图中,每个小竖条代表一帧,若干帧语音对应一个状态,每三个状态组合成一个音素,若干个音素组合成一个单词。也就是说,只要知道每帧语音对应哪个状态了,语音识别的结果也就出来了。

图中,每个小竖条代表一帧,若干帧语音对应一个状态,每三个状态组合成一个音素,若干个音素组合成一个单词。也就是说,只要知道每帧语音对应哪个状态了,语音识别的结果也就出来了。

2.自然语义处理(NLP)

1)自然语义处理概要

语义识别是人工智能的重要方向之一,如果语音技术相当于人的嘴巴和耳朵,负责表达和获取,那语义技术则相当于人的大脑,负责思考和信息处理,解决的是“听得懂”的问题。语义识别最大的作用是改变人机交互模式,将人机交互由最原始的鼠标、键盘交互转变为语音对话的方式。

人机交互发展史

语义识别主要基于大数据和算法模型之上搭建,是自然语言处理(NLP)技术的重要组成部分。NLP技术主要包括词法分析技术、句法分析技术、语义分析技术、语用分析技术以及语句分析技术等。NLP在实际应用中最大的困难还是语义的复杂性,随着大数据、芯片和算法模型等的发展进程加速,将为NLP带来长足的进步。

2)自然语义处理技术原理

在自然语义处理领域,也在通过深度学习的工具提升自然语义处理的准确度。目前常用的自然语义处理领域的技术包括了循环神经网络(RecurrentNeuralNetwork)、卷积神经网络(ConvolutionalNeuralNetwork)、递归神经网络(RecursiveNeuralNetwork)的原理,它们是语句语义学习的强有力工具。

普通神经网络可以完成词性标记、词语切分、实体命名识别、目的提取等一般的语义分析功能。

循环神经网络(RNN)是把一句话看成单词的序列,每个单词由一个向量表示,每一个位置上有一个中间表示,由向量组成,表示从句首到这个位置的语义。

这里假设,每一个位置的中间表示由当前位置的单词向量以及前一个位置的中间表示决定,通过一个神经网络模型化。RNN把句末的中间表示当作整个句子的语义表示。RNN加入长短期记忆(LongShortTermMemory,LSTM)机制,RNN可以处理远距离依存关系,能够更好地表示整句的语义。

卷积神经网络(CNN)是通过对句子进行扫描,抽取特征,选择特征,最后组合成句子的语义表示。

首先从左到右用一个滑动窗口对句子进行扫描,每个滑动窗口内有多个单词,每个单词由一个向量表示。在滑动窗口内,通过卷积(convolution)操作,进行特征抽取。这样,在各个位置上得到一系列特征。之后再通过最大池化(maxpooling)操作,对特征进行选择。

重复以上操作多次,得到多个向量表示,将这些向量连接起来得到整个句子的语义表示。同一卷积层内参数是共享的,也就是同一层的卷积操作是相同的,这也就保证了在局部领域进行相同的特征抽取。

ReNN是假设对语句进行句法分析,得到句法树。句法树的每个节点上有一个向量中间表示。父节点的表示由其子节点的表示决定,通过神经网络模型化,而根节点的表示就是整个句子的语义表示。句法树上的中间表示可以在句法分析的过程中得到,比如在最大间隔分析(maxmarginparsing)。

除了上述这些神经网络的算法之外,人类不断在尝试着用新的算法来试图能够为人工智能提供更加准确理解自然语言的能力。随着神经网络和深度学习的发展,自然语义处理已经取得了长足的发展,但是,由于人类语言的复杂性,对于通用人工智能阶段需要达到的自然语言理解,也存在较长的距离。

3.语音合成(TTS)

1)语音合成概述

语音合成,又称文语转换(TexttoSpeech)技术,能将任意文字信息实时转化为标准流畅的语音并朗读出来,相当于给机器装上了一个嘴巴,它涉及到声学、语言学、数字信号处理、计算机科学等多个学科技术,是人工智能信息处理领域的一项前沿技术,解决的主要问题就是如何将文字信息转化为可听的声音信息。

语音合成和语音识别技术是实现人机语音通话所必需的两项关键技术,使机器具有类似于人一样的说话能力。

2)语音合成技术处理方式

文本处理:

这一步做的事情是把文本转化成音素序列,并标出每个音素的起止时间、频率变化等信息。

作为一个预处理步骤,它的重要性经常被忽视,但是它涉及到很多值得研究的问题,比如拼写相同但读音不同的词的区分、缩写的处理、停顿位置的确定,等等。

音素:音素(phone),是语音中的最小的单位,依据音节里的发音动作来分析,一个动作构成一个音素。音素分为元音、辅音两大类。音节:音节在语音学上指由一个或数个音素组成的语音结构基本单位;而音素是最小的语音单位。如”普通话”,由三个音节组成,可以分析成”p,u,t,o,ng,h,u,a”八个音素。

语音合成:

狭义上这一步专指根据音素序列(以及标注好的起止时间、频率变化等信息)生成语音,广义上它也可以包括文本处理的步骤。

这一步主要有三类方法:

1)公司简介

图灵机器人是一家个性化智能机器人平台,旗下有人工智能机器人操作系统TuringOS,用户可以在微博、微信、QQ机器人、语音客服、智能硬件等多个场景搭建属于自己的个性化智能机器人,截止2016,公司估值已经超过10亿人民币。

2)代表性产品介绍

乐迪:

乐迪是著名动画作品《超级飞侠》里的灵魂人物,基于图灵机器人人工智能操作系统TuringOS,让乐迪从荧屏走进消费者现实生活。

吉米猫:

吉米猫是一款手机宠物类应用游戏,从功能上来说很像是汤姆猫的升级版,但与汤姆猫不同的是吉米猫接入了图灵机器人的Chatbot接口,赋予了吉米猫聊天调侃、百科问答等语音对话能力,闲暇时还可以给你讲个段子、说个故事。

2.思必驰

1)公司简介

思必驰是一家智能语音技术解决方案提供商,致力于提供自然语言人机交互解决方案,应用于智能车载、智能家居和智能机器人领域,并且拥有语音识别、语音合成、语义对话及语义唤醒等技术,截止2016年,思必驰的估值已经超过20亿人民币。

2)代表性产品介绍

智能车载解决方案:提供一体化解决方案,适用于智能后视镜、智能车机、便携式导航仪、HUD等,全称语音操作。

智能家居解决方案:软硬件一体化解决方案,为智能家居产品提供声源定位、个性唤醒、语音识别、语义理解、对话交互等功能。

3.云知声

1)公司简介

云知声成立于2012年,是一家智能语音识别技术的高新技术企业,目前集AI芯、AIUI、AIService三大解决方案支撑云知声核心技术的落地,已经在家居、汽车、医疗和教育等领域有广泛应用,截止2018年,公司估值已经超过10.7亿美金。

2)代表性产品介绍

智能家居方案-UniHome:

AI芯作为智能语音解决方案芯片,用以解决不同形态智能终端感知和部分计算问题,AI芯通过多种芯片方案,合理组合不同硬件平台,安装不同系统下的AIUI版本,提供语音交互、IO控制、互联内容的能力,满足不同价位不同场景下的智能硬件交互需求。

智能车载方案-UniCar:

云端芯一体化,方案包括拾音降噪,语音交互,云端计算和内容服务一揽子解决方案,满足用户导航,电话,娱乐,咨询,社交5大场景的功能诉求。

智慧医疗方案:云知声提供医疗垂直领域录入软硬件一体的解决方案,基于医疗人工智能技术和大数据分析进行持续探索,实现智能语音交互的知识问答和病历查询,进行健康风险预测和患者分群分析。

4.出门问问

1)公司简介

出门问问是市场上一家拥有自主语音识别、语义分析、垂直搜索技术的人工智能公司;自成立以来,一直努力将人工智能技术落地到消费产品,定义下一代人机交互的方式,截止2017年,公司估值超过10亿美金。

2)代表性产品介绍

以TicWatchPro为例:

五、智能语音市场总结

伴随着人工智能行业的快速发展,中国在智能语音这个细分市场的发展速度也将会持续增长,但是目前国内在智能语音市场,技术已经相对成熟,且头部企业在行业的垄断力度较大。

目前,中国智能语音市场的主要份额被科大讯飞、百度以及苹果分割,截止到2018年,中国智能语音市场,科大讯飞市场占有率排名第一,市占率达到44.2%;其次为百度,市场占有率为27.8%;排名第三的是的苹果,市占率为6.9%,排名前三的品牌在我国智能语音市场占比近八成,留给初创企业在这个市场的空间以及机会并不多。

未来随着智能语音技术的逐渐成熟,智能语音技术在教育领域会发挥出巨大的作用,比如在口语教学、考试测评、模拟练习等环节,能够代替现在很多老师的工作,大大降低人工成本。

作者:阿旺,著名投资人兼连续创业者,会从自身投资以及创业经历,不定期输出各类行业研究,如您想了解更多关于创业以及投资方面的内容,欢迎关注本人公众号:awangblog

本文由@阿旺原创发布于人人都是产品经理。未经许可,禁止转载。

题图来自Unsplash,基于CC0协议返回搜狐,查看更多

版权声明:本文内容由互联网用户自发贡献,该文观点仅代表作者本人。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如发现本站有涉嫌抄袭侵权/违法违规的内容,一经查实,本站将立刻删除。

上一篇

下一篇