2023年中国智能语音产业发展现状及未来发展趋势分析[图]
0分享至一、概述人工智能核心技术涵盖了机器视觉、智能语音和机器学习,作为人工智能的重要入口,智能语音包括语音识别、语义理解、自然语言处理(NLP)、语音交互等。当前,智能语音技术的发展经历了萌芽、起步、产业化、应用落地四个阶段。在萌芽阶段,智能语音技术主要以模板匹配的方法实现,此阶段的主要特点是系统只能识别孤立的数字以及有限的词汇。而到了起步阶段,系统从识别孤立的语音数字发展到可以通过对声音的模式和特征设置参数,从而实现基于大量词汇进行连续的语音识别。随着语音识别转向基于概率统计建模的方法,智能语音迈入产业化阶段。在此阶段,各种语音功能及语音产品问世。而目前,智能语音处于应用落地阶段。深度神经网络方法应用于语音识别,显着提升了大量词汇连续语音识别性能。由于智能语音系统的深度学习技术取得突破性进展,开始大规模出现商业化应用落地的产品。智能语音发展四阶段资料来源:智研咨询整理二、发展现状1、市场规模随着新的人工智能技术的不断进步和发展,人工智能在自然语音的处理上得到了长足的发展,已能够在实际中得到应用,这让全球范围内智能语音的应用步入了一个高潮,目前全球智能语音产业进入规模化深耕期,并保持快速增长态势,2020年全球智能语音产业规模达202.6亿美元,较2019年增加了34.70亿美元,同比增长20.67%,未来将继续保持增长,预计2021年全球智能语音产业规模将达到263.8亿美元,目前,全球智能语音语义市场相对集中,各个厂商从不同维度布局相关的产业链,已形成较为完整的产业体系。2021年微软收购Nuance,全球智能语音市场格局重构,市场规模进一步集中。2017-2021年全球智能语音产业规模统计及预测资料来源:中国语音产业联盟、智研咨询整理相关报告:智研咨询发布的《2021-2027年中国智能语音行业市场供需形势分析及投资前景评估报告》中国人工智能技术的快速进步,让中国在智能语音的技术方面积累了大量的专利,并且这一技术专利的数量人在持续的增长中,此外由于中国在互联网系统和用户数上所占有的优势,使得国内的智能语音产业有了良好的生存土壤,智能语音技术的成熟、政府和资本的扶持与重视以及数字化、智能化的市场需求不断扩大,2020年中国智能语音产业规模达217亿元,较2019年增加了39亿元,同比增长21.91%,未来中国智能语音行业市场规模将进一步增长,预计2021年中国智能语音产业规模将达到285亿元。2017-2021年中国智能语音产业规模统计及预测资料来源:中国语音产业联盟、智研咨询整理智能语音应用进入需求爆发期,智能语音行业下游各应用领域按客户类型可分为消费级市场和企业级市场。消费级应用主要立足于日常生活,包括智慧生活、智能家居、智慧办公、智能驾驶等应用场景,本质上是智能语音技术对于各类终端赋能,实现各生活场景下的语音交互。企业级应用主要服务于特定场景,包括智慧医疗、智慧教育、智慧电信/金融/电商等专业应用场景。智能语音市场细分应用领域(2030)资料来源:中国语音产业联盟、智研咨询整理2、市场格局2020年中国智能语音市场呈现头部集中的市场格局,主要的市场参与者分为两大类:1、智能语音科技企业——以科大讯飞为代表的大型智能语音科技企业,而市场规模相对较小的参与者如捷通华声、小i机器人、思必驰、云知声等,凭技术和产品创新快速成长,以垂直领域和细分场景为突破口切入智能语音产业,实现企业快速增长。2、互联网巨头——以阿里、百度等为代表的互联网巨头。在智能语音领域,互联网巨头为市场驱动型企业,主要凭借其较强的C端产品经验及用户数据为产品的功能化设计提供基础,基于客户需求驱动产品的发展和落地。中国智能语音市场主要的参与者分类资料来源:中国语音产业联盟、智研咨询整理2020年科大讯飞凭借其较强的研发优势,以60%的市场份额稳居第一,竞争优势明显。在智能技术日渐成熟、数字产业基础设施日趋完善的发展下,智能语音科技企业逐渐从单一的智能语音技术服务商转型为全方位人工智能技术服务商。智能语音科技企业利用其核心技术优势为下游各应用领域提供定制化产品和服务,在万物互联的趋势下,巩固并增强其竞争优势。而市场规模相对较小(总体份额小于20%)的参与者如捷通华声、小i机器人、思必驰、云知声等,凭技术和产品创新快速成长,以垂直领域和细分场景为突破口切入智能语音产业,实现企业快速增长。阿里、百度等互联网巨头凭借其庞大的用户资源、各细分场景的数据积累在语音交互技术领域持续发力,近年来收入不断提升,占据约20%的市场份额。2020年中国各领先企业智能语音市场占有率(%)资料来源:中国语音产业联盟、智研咨询整理三、未来发展趋势智能语音人机交互技术作为目前最炙手可热的人工智能技术之一,正在被广泛的应用于各行各业,智能语音将改变用户的行为习惯,成为主要的人机交互方式,未来中国智能语音市场前是广阔,智能语音科技攻关将聚焦开源算法平台构建和重点领域创新,无监督学习、多模态融合、脑科学交叉融合和系统性创新等将成为未来重点发展方向,智能语音企业将着力提升用户隐私的安全性,企业竞争将集中于应用场景扩展和服务能力提升,产业开放生态将进一步升级。中国智能语音产业未来发展趋势资料来源:智研咨询整理以上数据及信息可参考智研咨询发布的《2022-2028年中国智能语音行业市场分析预测及发展战略研究报告》特别声明:以上内容(如有图片或视频亦包括在内)为自媒体平台“网易号”用户上传并发布,本平台仅提供信息存储服务。
Notice:Thecontentabove(includingthepicturesandvideosifany)isuploadedandpostedbyauserofNetEaseHao,whichisasocialmediaplatformandonlyprovidesinformationstorageservices.
/阅读下一篇/返回网易首页下载网易新闻客户端《中国智能语音产业发展报告(2023
1月11日,由国家工业信息安全发展研究中心主办,科大讯飞股份有限公司、国家语音及图像识别产品质量检验检测中心、国家智能语音创新中心协办的中国智能语音产业发展高峰论坛暨2022年中国语音产业联盟年会成功举办。会上,中国语音产业联盟发布《中国智能语音产业发展报告(2021—2022)》,报告指出,我国智能语音产业整体发展环境积极向好,多项关键技术取得突破,产业扎根不断深入,已形成大中小企业融通创新、协同发展的健康生态。市场规模高速增长龙头企业占据主导份额智能语音作为智能时代人机交互的关键接口,各行业爆发式的场景需求驱动行业发展进入黄金期,技术突破和应用落地不断深入。从全球范围来看,2022年全球智能语音产业规模将达351.2亿美元,保持33.1%的高速增长;从我国来看,根据德勤统计数据,2022年我国智能语音市场规模将达341亿元,同比增长13.4%。报告指出,以科大讯飞为代表的语音龙头企业布局较广,是行业创新发展的支柱,占据较大市场份额。同时,科大讯飞、百度、阿里等龙头企业通过打造技术能力开放平台,构建开源生态,引领行业技术创新和应用开发。以讯飞开放平台为例,目前已开放545项AI产品及能力,聚集超过380.5万开发者团队,开发出超过159.5万个AI应用,并从AI龙头﹢开发者的“二维”生态,升级到AI龙头﹢行业龙头﹢开发者的“三维”生态,联合行业龙头搭建基线系统,让更多开发者加入数字经济浪潮。关键技术突破筑牢行业坚实底座“2022年是智能语音技术突破的关键年”,报告指出,我国智能语音企业在多项难点技术上实现新的突破。纵向上从语音识别、合成、翻译向计算机视觉、认知智能、运动智能领域延伸,横向上从单点技术突破模式发展到机器认知、多模式复杂场景应用。在语音识别方面,视听融合的多模态交互技术成为技术演进的主要方向。科大讯飞多模语音增强技术融合语音与视觉的多模感知,让高噪音场景下的语音交互跨过实用门槛,率先在车载、会议、地铁购票和医疗挂号等场景落地。此外,针对低资源语音识别难题,海天瑞声和科大讯飞分别从语音数据和算法层面推动技术进步。在语音合成方面,随着电商直播等行业的繁荣,语音合成技术也表现出拟人化、口语化的发展趋势。科大讯飞多风格多情感语音合成系统SMART-TTS可提供11种强度可调的情感合成能力。而火山语音的超自然对话语音合成和Meta的语音对语音翻译(speech-to-speechtranslation,S2ST),通过在模型训练中添加副语言数据,让语音交互更加自然和个性化。要促进智能语音技术持续突破,与会专家从两个方向提出了发展路径。一方面,中国科学院院士姚建铨指出,针对智能语音多学科交叉的学科特性,研究人员需要探索新原理、新机制、新材料、新工艺和新器件,集成创新推动核心技术进步;另一方面,语音技术需要进一步向深度理解延伸,科大讯飞总裁吴晓如表示,“更先进的语音交互系统不仅要‘能听会说’,还要深度去理解人的信息”,自然语言理解和知识推理技术的进步,让机器可以在越来越多的领域帮助人类解决更专业和复杂的问题。应用规模化落地加速与实体经济融合报告指出,受疫情和产业数字化、智能化转型影响,智能语音应用场景迅速铺开。据德勤统计数据,预计到2030年,智能语音消费级和企业级应用市场可分别超过700亿和千亿规模。在消费者产品领域,AI学习机、翻译笔等AI﹢学习产品帮助学生学习减负增效;智能录音笔、智能办公本、智能鼠标等AI﹢办公产品深受职场人士欢迎;AI翻译机、智能麦克风、智能语音键盘、智能耳机、智能助听器等AI﹢生活产品,让更多人享受AI科技的便利。在汽车领域,智能语音已成为人机交互关键环节,并从车内交互衍生到车外交互,从单模交互走向多模交互,从被动交互发展为主动交互,为车企提供全栈技术赋能。以科大讯飞为代表的国内AI龙头已占据中国语音交互车端应用行业的领先地位。在运营商领域,智能语音技术与健康养老、家庭教育、家庭娱乐等场景结合,带来更加智慧的家庭生活体验。融合5G与机器翻译技术的无障碍智能通信,让普通的5G手机用户不用下载任何软件就可以使用实时翻译和转写服务,实现跨语种的无障碍视频通话。在教育领域,科大讯飞全球中文学习平台已覆盖全球183个国家,吸引300多万海外中文学习爱好者使用;利用智能语音和人工智能技术可实现英语听说教、学、考、评、管一站式服务,减少无效训练。在医疗领域,去年疫情期间,科大讯飞电话机器人助力全国31个省(区、市)的112个地市疫情排查,累计服务超1.1亿人次;智能外呼和智医助理可用于独居老人、留守儿童的日常关爱和兜底保障。在城市领域,智能语音技术已在安徽省一体化网上政务服务平台、山东聊城城市大脑、海南三亚市崖州湾科技城智慧产城园区、天津市AI银发智能服务平台等创新示范项目中应用。姚建铨院士指出,智能语音与建设智慧城市的要求完全吻合,可以实现各种语音高效转换和智能处理,为智慧城市进一步建设带来新的机遇。在工业领域,我国打造了包括国家智能语音创新中心在内的一批语音技术创新“国家队”,开展工业声学、多语种、AI语音芯片等关键共性技术研究工作。科大讯飞联合国家智能语音创新中心打造的工业听诊器、声学成像仪、工业设备卫士、智能巡检机器人等“工业六感”产品,已广泛应用到生产、质检、巡检等多个工业环节。在金融领域,声纹识别技术已经被应用在各类身份认证环节。得意音通董事长郑方表示,声纹是目前除DNA外最可靠的身份认证方式,相比传统方法具有明显优势。此外,科大讯飞智能客服机器人、智能联络中心AICC等AI﹢金融应用,帮助金融机构提升客服和运营效率。展望智能语音产业未来发展,报告认为,后竞争时代亟须关注新增的不确定性因素,包括核心关键技术能力仍需提升,开源生态培育仍需加大投入,重点应用场景落地仍需提速,传统行业开放场景动能不足等。【行业洞察】AI语音识别行业发展研究报告
导言:
2020年11月,云知声向上交所递交了招股书,抱着成为“国内AI语音第一股”的决心冲刺科创板。2021年2月19日,上交所发布了《关于终止对云知声智能科技股份有限公司首次公开发行股票并在科创板上市审核的决定》(以下简称《决定》),《决定》中提到云知声主动撤回科创板申请。云知声终止科创板上市审核并给出官方解释:“撤回申请是出于公司战略发展因素考虑,公司并不会放弃IPO,未来会适时考虑重启IPO的计划。”
云知声作为国内最有可能在AI语音赛道上追赶人工智能及语音识别领域中科大讯飞霸主地位的“独角兽”,其背后作为“推手”的投资机构有着不可忽视的重要作用。云知声利用机器学习平台,在语音技术、语言技术、知识计算、大数据分析等领域构建了完整的人工智能技术图谱,同时云知声也是国内人工智能创业公司里实现商业化落地最好的公司之一。产业+资本的结合赋予了云知声高速发展的可能性。
本报告从投融资角度着手,按照行业投资环境、行业投资现状、行业投资竞争格局及行业投资未来发展趋势等四个板块概括性的分析云知声所在的语音识别领域,简单解构该行业的投融资活动。
1
概述
语音识别是发展未来人工智能的重要组成部分之一,是达到人机交互目的第一步。语音识别技术简单来说指的是机器或程序完成接受口令、解释声音含义、理解和执行口头指令所需的技术。在当下智能时代,智能终端的应用普及面越来越广,相应的越来越多的场景在设计个性化的人机交互界面时,以对话为主的交互形式。而一个完整的对话交互是由过程是由“输入—分析—输出”三个环节共同组成一个闭环。其中,“输入”需要语音识别(AutomaticSpeechRecognition,ASR)技术;“分析”需要自然语言处理(NaturalLanguageProcessing,NLP)技术;“输出”需要语音合成(TextToSpeech,TTS)技术。其中,“分析”环节由编码和解码组成,编码主要用于对输入内容的特征进行提取;解码则是通过声学模型和语言模型进行解析。语音识别技术是对话交互的开端,是保证对话交互高效准确进行的基础。
语音识别技术自20世纪50年代开始步入萌芽阶段,发展至今,主流算法模型已经经历了四个阶段:包括模板匹配阶段、模式和特征分析阶段、概率统计建模阶段和现在主流的深度神经网络阶段。目前,语音识别主流厂商主要使用端到端算法,在理想实验环境下语音识别准确率可高达98%以上。
2
行业投资环境
2.1行业政策环境
人工智能发展水平一定程度上体现了各国最高的科技水平。考虑到人工智能发展对于国家经济发展的重要性,中国政府已针对人工智能行业颁布了多项国家层面的发展政策,自2017年以来人工智能行业已经连续三年被写入《全国政府工作报告》内。具体支持政策包括项目发展基金、人才引进政策及其他国家扶持政策。目前,语音识别技术属于中国AI领域中最为成熟落地的技术之一,在国家政策的强力扶持下,预计未来能够加速在垂直行业的渗透和布局。
同时,在“十四五”的大背景和智能经济形态下,各省市响应中央号召,已有多个省市相继发布人工智能相关规划或专项政策,以人工智能为技术手段,发挥当地产业集群优势,促进产学研融合及协同发展。具体如下:
表1:语音识别相关政策汇总
信息来源:融中研究整理汇总
2.2行业发展现状
中国AI语音识别市场参与者众多,主要分为上游、中游、下游。
表2:语音识别产业链分析
信息来源:融中研究整理汇总
上游分析:底层技术提供强力支持——语音识别解码过程中包含了升学模型和语言模型的识别建模和模型训练两个部分。在运行过程中训练数据量和计算量需求极大,传统的CPU或者单一处理器几乎无法快速单独完成一个完整的模型训练过程,主要原因在于CPU内部仅含有少量的逻辑单元,且指令执行是逐一进行的串行计算,使用该架构进行语音识别运算的处理时间过长,无法满足海量数据计算的实时性需求。因此,能提供海量数据处理、存储以及高性能运算能力的云计算技术成为语音识别行业的应用热点。目前,主流语音识别公司的模拟训练和语音识别基本都在云端采用GPU(图形处理器)并行架构或异构计算方案进行。
中游分析:语音技术持续升级——语音是被的中游主要为将语音识别技术实现商业化落地的硬件及软件服务供应商。根据终端消费者类型,语音识别的中游厂商主要可以分为消费级市场和专业级市场,其中消费级市场中的主要语音识别产品包括消费级智能硬件、智能音箱及语音输入法等,专业级市场的语音识别产品则主要以行业解决方案和平台化技术输出两种形式呈现,其中更为垂直落地的解决方案形式在目前专业级商业化收入市场中占比更高。目前,智能语音开放平台在智能语音市场中收入占比较小的原因是,以阿里、百度及科大讯飞为首的各大厂商为加速AI语音技术对下游应用场景的渗透,采用多种优惠甚至免费形式向开发者提供语音识别服务,希望将语音识别技术应用在更多软件及场景中,与广大开发者携手建立一个完整的AI产业生态圈。
下游分析:行业应用多样化——语音识别作为AI交互的重要入口,在人工智能领域属于最重要和发展最为成熟的技术之一,目前已经以多种商业化形式广泛应用于下游市场。从应用领域来看,目前消费级市场主要应用于智能硬件、智能家居、智慧教育、车载系统等领域,专业级市场主要应用于医疗、公检法、教育、客服、语音审核等领域。广泛的应用领域也就意味着更多元化的使用场景,然而目前的语音技术对于使用场景具有较强的限制性。尽管快速更新迭代的神经网络结构已经将安静环境下的近场语音识别的错误率降低至3%以下,但现实环境中多数应用场景无法满足理想的环境条件,因此在进行语音识别时需要同时考虑到各种噪声、信道等因素。为使语音识别技术在更广泛的使用场景下保持良好的表现,AI语音厂商需要提供硬件与软件协同的一站式服务,并根据用户实际痛点进行针对性优化,从而有效提升在多元下游场景下语音识别的渗透率。
2.3行业竞争格局
中国AI语音识别主流厂商按照其属性可分为IT及互联网厂商、语音技术厂商两类。
IT及互联网厂商:IT及互联网厂商包括百度、阿里巴巴、腾讯、搜狗、小米等厂商。凭借在互联网时代积累的大量资本,IT及互联网厂商在众多科技领域成为了主要参与者。与依靠人工智能技术起家的AI垂直类企业不同,IT及互联网厂商侧重以流量导向和满足庞大用户群体验和创新需求为导向去做AI开发,更多以流量和用户体验为导向,同时,会比传统的语音技术厂商更加注重创新实践。
语音技术厂商:语音技术厂商也可以分为传统语音技术厂商和创业厂商、传统语音技术厂商包括科大讯飞、小i机器人、捷通华声等拥有自己的核心智能语音芯片以及语音相关软件系统的厂商,创业厂商包括云知声、思必驰、出门问问等专注于某些垂直领域(如汽车、家电等)来推广自己的语音技术和产品的厂商。
综合来说,在中国AI语音识别领域,阿里巴巴、科大讯飞、百度、腾讯均有着强劲的竞争力。
阿里巴巴:阿里智能语音交互服务是业内领先的云原生语音服务平台,对阿里集团内服务于超过99%语音场景,对外也提供各类云上语音产品。根据阿里巴巴企业年报来看,阿里巴巴在语音识别领域涉及情况如下:
(1)在语音识别全产业链方面,阿里云上语音技术在大量数据积累、算法积累、工程积累和阿里达摩研究院技术同步上云的成果加持下,极大提升了语音交互的准确率和性能。阿里智能语音交互技术已解锁并成熟布局于多个场景中,包括智能客服、智能质检、法庭庭审实时记录、实施演讲字幕、访谈录音转写、声纹登录、设备端语音交互等场景,在政务、金融、物流、教育、电商、泛互联网、医疗、餐饮等多个领域均有应用案例以及大量的客户积累。
(2)在市场方面,目前阿里智能语音分别在电话客服和法院语音识别的市场都占有领先的位置。阿里语音AI技术能在多个领域快速落地,占领市场并成为行业客户认知度前列的云上语音技术厂商,关键因素之一是与大量的独立软件开发商结成了阿里语音AI产业联盟。
(3)在企业经营和战略方面,阿里云在基建技术的布局规划方面,将继续加大投入对云操作系统、服务器、芯片、网络等核心技术的研发,为语音AI与云的结合带来更具想象力的引用场景和价值空间。
(4)在创新方面,阿里重视对技术的研发投入和对行业的贡献,其职能语音核心技术能力是下一代端到端语音识别技术SCAMA、SAN-M技术和DFSMN技术,这几种技术都是业界首次在非科研领域的应用并获得成功,使得整体语音交互技术的准确率在高并发的情况下获得独特优势。同时DFSMN也已经面向全行业开源,为行业整体技术提升做贡献。另外,阿里在业内率先推出的自学习平台也改变了语音AI生产关系,即使行业实践者没有很多语音领域的专业知识,也能够通过阿里云自学习产品灌入行业内的数据和知识就能够获得所在行业不错的语音交互效果。
(5)在客户服务方面,阿里智能语音最为主要的商业策略就是为其合作伙伴提供语音原子能力、多个领域开箱即用模型和自学习平台,赋予了消费端产品“能说、会说、懂你”式的智能人机交互体验,在将阿里云智能语音领先技术赋能于产业联盟企业的同时,构建了一个更为完整和繁荣的AI语音应用生态、普惠市场。
科大讯飞:科大讯飞是国内领先的智能语音技术主要提供商之一,在语音识别等智能语音技术领域拥有国际先进的成果,主要业务包含智能语音和语言技术研究、软件及芯片产品开发、语音信息服务及电子政务系统集成,为企业、政府和个人提供智能应用。科大讯飞技术优势在同行业中出众,拥有自主知识产权的只能语音技术,推出覆盖大型电信级应用到小型嵌入式应用以及满足不同应用环境的软硬件产品。科大讯飞在中文语音技术市场和语音合成产品市场都占有较大份额,应用与电信、金融、电力、社保等主流行业。科大讯飞结合自己核心的只能语音技术和人工智能的研究,已经实现AI产品化的布局。在ToB端,科大讯飞面向教育、政法、医疗、汽车和客服等多个行业提供相应的解决方案。在ToC端,科大讯飞提供面向消费者的家庭、汽车、翻译等消费级个人,包括硬件产品如讯飞学习机、讯飞翻译机、智能办公本等,以及软件产品如讯飞输入法、AI电视助手等。
百度:百度在AI开放平台上提供语音识别的技术,共享AI领域的应用场景和解决方案。提供产品包括短语音识别、实时语音识别、远场语音识别、音频文件转写、语音自训练平台等,应用于手机应用如语音输入、机器人对话、语音内容分析和实时语音转写等场景。百度的语音识别技术优势在于领先的语音识别技术,提供自助训练专属模型,可简单快速地接入API及多种SDK接口,提供稳定性保障,且收取费用较低。
腾讯:腾讯云语音识别目前主要应用于微信、王者荣耀、腾讯视频等内部业务使用,外部应用布局于录音质检、会议实时转写、法庭及审讯记录、语音输入法等场景。技术提供主要功能为开放实时语音识别、一句话识别和录音文件识别,支持云端和嵌入式两种服务模式。腾讯云语音识别的主要优势在于有大量的用户基础和数据积累可应用于丰富的行业场景,收费价格较低,自准率高达97%,支持多语言识别能力,有领先的算法。
3
行业投资现状
国内的人工智能产业发展相较于国外厂商发展较晚,2011年中国的人工智能企业方才展露出些许发展趋势。随着全球人工智能技术的日益成熟,国家政策支持力度的逐步加大,国内投资环境的不断优化,中国人工智能产业趁着时代的风口发展迅猛,如今已是百家争鸣的阶段。其中,除了互联网巨头企业在早期就提前布局,初创型中小企业亦紧跟脚步积极加入到人工智能产业市场。截止到本报告期,参与到人工智能产业的公司共计3199家,投资事件达4447件,总投资金额15151亿人民币,投融资概览如下:
表3:2012-2021年2月人工智能产业投融资情况
信息来源:融中研究整理汇总
语音识别作为人工智能产业中极其重要的一个组成部分,担任着人机交互应用时的输入和输出接口,也相应的受到产业风口的影响,受到一众投资机构的追捧。2017-2021年2月,参与到语音识别行业的投资事件达143件,投资金额达170.77亿人民币。从数据可以看出,语音识别相关公司在2018年获得的投资额及投资事件数达到一次爆发,分别达到62.3亿人民币、55次投资。随后在2019年至2020年,投资活动相对平稳。
表4:2017-2021年2月语音识别产业投融资情况
信息来源:融中研究整理汇总
从投资轮次来看,A轮阶段的语音识别企业更受资本方的青睐,投资额达50.24亿人民币,投资事件达65次;其次,B、C、D、E轮次的投资相对平均;值得一提的是对于早期项目,投资机构虽然单笔投资金额较少,但投资事件相对较高,达24次。按照语音识别产业分轮次投融资占比来看,行业中吸引了绝大部分资金的企业基本上都聚集在A、B、C轮。
表5:2017-2021年2月语音识别产业分轮次投融资情况
信息来源:融中研究整理汇总
表6:2017-2021年2月语音识别产业分轮次投融资占比情况
信息来源:融中研究整理汇总
从语音识别产业内企业产品/服务应用方向来看,主要分为技术服务(行业解决方案)、教育、汽车交通、新工业、智能硬件、医疗、金融等几个分类。其中,最为获得投资机构青睐的是技术服务方向的语音识别企业,占据了投资金额及投资事件数的绝大部分,分别为116.49亿人民币、89次投资。值得一提的是,语音识别技术应用于汽车交通行业所获得的投资件数虽然仅有4次,但单笔投资金额却是最高的。
表7:2017-2021年2月语音识别产业分行业投融资情况
信息来源:融中研究整理汇总
表8:2017-2021年2月语音识别产业分行业投融资占比情况
信息来源:融中研究整理汇总
4
行业投资竞争格局
由于语音识别属于人工智能领域,自然也获得了不少头部投资机构的关注。通过整理数据了解到,主要投向语音识别行业的投资机构大体上可分为三类。第一类为专注于投资工智能领域下细分赛道的精品投资机构,如创新工场、联想之星、线性资本、创势资本、金沙江创投等。第二类是专业投资机构,如深创投、红杉资本、经纬中国、高瓴资本等投资面向多个专业领域的综合型全领域投资机构。第三类为公司本身主要业务内容涵盖了语音识别技术的行业龙头企业,如科大讯飞、百度、阿里巴巴、腾讯、奇虎360等。
经过融中研究统计整理,2013-2020年我国AI语音识别领域投资机构的主要投资阶段分布情况如下:
表9:AI语音识别细分领域投资机构的主要投资阶段分布
联想之星作为联想控股的早期投资和孵化板块,植根联想30余年来的创业经验和资源积累,为创业者提供天使投资+深度孵化的特色服务,主要投资于TMT、医疗健康两大领域,积极布局人工智能、智能机器、互联网改造传统产业、生物技术、医疗器械等前沿领域。联想之星创立于2008年,目前在管资本总额约35亿人民币,历史投资277家TMT、医疗器械领域优质企业,9家完成退出工作。在语音识别领域,联想之星共投出11家产业上下游企业,是该投资该领域的排头兵。
创新工场是一家早期投资机构,同时为创业者提供全方位的创业服务。创新工场的投资方向立足于信息产业最热门的领域,也包括人工智能领域。主要涉足的投资阶段为:种子轮、天使轮和A轮,B轮会有选择的进行跟投。创新工场共管理6支基金,管理的资产规模达110亿元人民币,历史投资539家信息产业企业,25家完成退出。在语音识别领域,创新工场领投了追一科技的B轮融资以及跟投C轮;参与ImageDT图匠数据的Pre-A轮融资。
科大讯飞是国内领先的智能语音技术主要提供商之一,在语音识别等智能语音技术领域拥有国际先进的成果,主要业务包含智能语音和语言技术研究、软件及芯片产品开发、语音信息服务及电子政务系统集成,为企业、政府和个人提供智能应用。科大讯飞在中文语音技术市场和语音合成产品市场都占有较大份额,应用与电信、金融、电力、社保等主流行业。科大讯飞结合自己核心的只能语音技术和人工智能的研究,已经实现AI产品化的布局。因此,科大讯飞作为行业内的龙头企业,同时站在战略投资的角度大力布局人工智能领域的优质企业,对外投资共计37.91亿元,投资事件80次,目前已有5家被投企业完成退出(包括IPO退出)。科大讯飞主要投资了近屿智能、叮咚音响、奇智企业三个企业,分别所属轮次为天使轮、A轮、天使轮。
5
行业投资未来发展趋势
语音识别是指让机器将人类语言转化为文字或命令的AI技术。可广泛应用于文字输入、社交软件、车载语音、智能家居等领域。受益于大数据、人工智能等技术不断进步,我国语音识别行业在识别的准确性与速度等方面不断提高,下游应用范围不断扩大。根据新思界产业研究数据显示,2018年-2020年,我国语音识别市场规模由62亿元增长至350亿元,年均复合增长率达到39.59%。
当前国内语音识别市场已经被领先企业所抢占,新进入者发展较为困难。语音识别行业属于资金与技术密集型行业,大型企业在数据库搭建、试验布局等方面实力明显强于中小型企业。除科大讯飞、搜狗外,百度、阿里、腾讯等互联网巨头也纷纷进入布局,此外,思必驰、云知声、出门问问等创业公司也先后进场,使得行业内企业数量不断增多。经过快速扩张,国内语音识别市场主要被大型企业所占据,市场格局趋于稳定。我国流向语音识别领域的资本也在逐步向大型企业靠拢,语音识别行业呈现出“强者愈强、弱者愈弱”的发展状态。其中科大讯飞、搜狗、百度在输入法领域处于主导地位;社交软件领域主要由腾讯占据了绝对的市场;云知声在智能电子、智能家居领域布局较为完善;思必驰在车载语音、智能机器人等领域发展较好;出门问问在智能手表领域发展较快。
投资机构想要在语音识别领域对初创型企业或中小型企业进行投资,尚有一定难度。如果被投企业在技术上没有突破性进展,难以打破现有市场格局,竞争压力将日益增大。但现今国内从智能机器人到智能语音助手,随着技术的提升,应用场景的增多,人工智能行业已经开始展露头角。同时,众多机构对其未来发展依然保持着极大的信心。智能语音市场按客户类型可分为2C或2B2C的消费级市场和2B的专业级市场。消费级市场应用于衣食住行等生活场景,主要包括智能家居、智能可穿戴、智能车载、智能手机等;专业级市场应用于特定场景,如医疗、教育、呼叫中心等。消费级智能语音助手的功能是基于语音交互实现设备控制、日程管理、信息查询、生活服务、情感陪伴等;专业级市场智能语音的应用主要是医疗领域语音导诊、电子病历转录与转写、智能辅助诊断,教育领域的智能语音训练与评测、互动教学等,呼叫中心领域的智能客服。
总的来看,未来随着技术的不断突破,语音交互方面还有望得到进一步提升。比如,基于对用户的持续学习,它知道你喜欢的东西、爱好、兴趣,甚至可以通过你的行动、表情、语气知道你的喜怒哀乐,这样的话,它会基于你而做出不同的、但是令你感到贴心的反应,且跟你有很多共同话题,而这都是可以基于技术的突破逐渐实现的。而以上这些语音识别的技术开发及应用尚未被完全占领,投资机会依然存在。
2023年中国智能语音行业市场规模及发展前景分析 智能家居+智能网联车将进一步推动行业应用
行业主要相关上市公司:科大讯飞(002230)、百度(09888.HK)、腾讯(00700.HK)、搜狗(SOGO.NYSE)等。
本文核心数据:全球智能语音市场规模、中国智能语音市场规模、中国智能家居市场规模、中国智能网联车渗透率
1、智能语音进入加速应用阶段
智能语音技术的关键部分主要包括语音识别、语音处理、语音合成等,随着相关技术的不断成熟,智能语音已经逐渐进入加速应用阶段,在车载语音、智慧教育、智能安防、智能家居、智慧医疗等领域都将出现智能语音技术的身影。
2、全球智能语音市场高速发展
从全球视角看,智能语音市场规模高速增长,2021年估算在264亿美元左右,较2020年203亿美元的市场规模增长30%。
3、中国智能语音市场规模超过280亿元
2017-2021年中国智能语音市场规模持续增长。根据德勤估算数据,2021年中国智能语音市场规模突破250亿元,达到285亿元,较2020年的217亿元增长31%。
4、中国智能家居市场规模或将超过6500亿元,推动智能语音市场发展
智能家居是智能语音应用的主要领域之一,随着物联网、人工智能等技术的快速发展,智能语音在家居领域的应用将进一步提速。2017-2021年中国智能家居市场规模不断增长,2021年预估突破5800亿元,2022年将超过6500亿元,将带动智能语音市场的持续提升。
5、中国智能网联车通透率提升,车载智能语音系统应用深化
2020年中国智能网联车市场渗透率已经达到49%,车载智能语音系统的应用也逐渐深化。根据IHSMarkit的预测,2025年中国智能网联车渗透率将提升至75%,进一步推动智能语音在汽车领域的应用。
综上所述,随着语音技术的发展,智能语音技术进入加速应用阶段,应用领域呈现多样化趋势。全球智能语音市场高速发展,中国智能语音市场也不甘落后,市场规模超过280亿元。智能网联车和智能家居市场的持续发展将进一步推动智能语音在这两个行业中的应用。
以上数据及分析请参考于前瞻产业研究院《中国人工智能行业市场前瞻与投资战略规划分析报告》,同时前瞻产业研究院还提供产业大数据、产业研究、政策研究、产业链咨询、产业图谱、产业规划、园区规划、产业招商引资、IPO募投可研、IPO业务与技术撰写、IPO工作底稿咨询等解决方案。
语音识别发展综述
语音识别自半个世纪前诞生以来,一直处于不温不火的状态,直到2009年深度学习技术的长足发展才使得语音识别的精度大大提高,虽然还无法进行无限制领域、无限制人群的应用,但也在大多数场景中提供了一种便利高效的沟通方式。本篇文章将从技术和产业两个角度来回顾一下语音识别发展的历程和现状,并分析一些未来趋势,希望能帮助更多年轻技术人员了解语音行业,并能产生兴趣投身于这个行业。语音识别,通常称为自动语音识别,英文是AutomaticSpeechRecognition,缩写为ASR,主要是将人类语音中的词汇内容转换为计算机可读的输入,一般都是可以理解的文本内容,也有可能是二进制编码或者字符序列。但是,我们一般理解的语音识别其实都是狭义的语音转文字的过程,简称语音转文本识别(SpeechToText,STT)更合适,这样就能与语音合成(TextToSpeech,TTS)对应起来。语音识别是一项融合多学科知识的前沿技术,覆盖了数学与统计学、声学与语言学、计算机与人工智能等基础学科和前沿学科,是人机自然交互技术中的关键环节。但是,语音识别自诞生以来的半个多世纪,一直没有在实际应用过程得到普遍认可,一方面这与语音识别的技术缺陷有关,其识别精度和速度都达不到实际应用的要求;另一方面,与业界对语音识别的期望过高有关,实际上语音识别与键盘、鼠标或触摸屏等应是融合关系,而非替代关系。深度学习技术自2009年兴起之后,已经取得了长足进步。语音识别的精度和速度取决于实际应用环境,但在安静环境、标准口音、常见词汇场景下的语音识别率已经超过95%,意味着具备了与人类相仿的语言识别能力,而这也是语音识别技术当前发展比较火热的原因。随着技术的发展,现在口音、方言、噪声等场景下的语音识别也达到了可用状态,特别是远场语音识别已经随着智能音箱的兴起成为全球消费电子领域应用最为成功的技术之一。由于语音交互提供了更自然、更便利、更高效的沟通形式,语音必定将成为未来最主要的人机互动接口之一。当然,当前技术还存在很多不足,如对于强噪声、超远场、强干扰、多语种、大词汇等场景下的语音识别还需要很大的提升;另外,多人语音识别和离线语音识别也是当前需要重点解决的问题。虽然语音识别还无法做到无限制领域、无限制人群的应用,但是至少从应用实践中我们看到了一些希望。本篇文章将从技术和产业两个角度来回顾一下语音识别发展的历程和现状,并分析一些未来趋势,希望能帮助更多年轻技术人员了解语音行业,并能产生兴趣投身于这个行业。
语音识别的技术历程现代语音识别可以追溯到1952年,Davis等人研制了世界上第一个能识别10个英文数字发音的实验系统,从此正式开启了语音识别的进程。语音识别发展到今天已经有70多年,但从技术方向上可以大体分为三个阶段。下图是从1993年到2017年在Switchboard上语音识别率的进展情况,从图中也可以看出1993年到2009年,语音识别一直处于GMM-HMM时代,语音识别率提升缓慢,尤其是2000年到2009年语音识别率基本处于停滞状态;2009年随着深度学习技术,特别是DNN的兴起,语音识别框架变为DNN-HMM,语音识别进入了DNN时代,语音识别精准率得到了显著提升;2015年以后,由于“端到端”技术兴起,语音识别进入了百花齐放时代,语音界都在训练更深、更复杂的网络,同时利用端到端技术进一步大幅提升了语音识别的性能,直到2017年微软在Swichboard上达到词错误率5.1%,从而让语音识别的准确性首次超越了人类,当然这是在一定限定条件下的实验结果,还不具有普遍代表性。 GMM-HMM时代70年代,语音识别主要集中在小词汇量、孤立词识别方面,使用的方法也主要是简单的模板匹配方法,即首先提取语音信号的特征构建参数模板,然后将测试语音与参考模板参数进行一一比较和匹配,取距离最近的样本所对应的词标注为该语音信号的发音。该方法对解决孤立词识别是有效的,但对于大词汇量、非特定人连续语音识别就无能为力。因此,进入80年代后,研究思路发生了重大变化,从传统的基于模板匹配的技术思路开始转向基于统计模型(HMM)的技术思路。HMM的理论基础在1970年前后就已经由Baum等人建立起来,随后由CMU的Baker和IBM的Jelinek等人将其应用到语音识别当中。HMM模型假定一个音素含有3到5个状态,同一状态的发音相对稳定,不同状态间是可以按照一定概率进行跳转;某一状态的特征分布可以用概率模型来描述,使用最广泛的模型是GMM。因此GMM-HMM框架中,HMM描述的是语音的短时平稳的动态性,GMM用来描述HMM每一状态内部的发音特征。基于GMM-HMM框架,研究者提出各种改进方法,如结合上下文信息的动态贝叶斯方法、区分性训练方法、自适应训练方法、HMM/NN混合模型方法等。这些方法都对语音识别研究产生了深远影响,并为下一代语音识别技术的产生做好了准备。自上世纪90年代语音识别声学模型的区分性训练准则和模型自适应方法被提出以后,在很长一段内语音识别的发展比较缓慢,语音识别错误率那条线一直没有明显下降。DNN-HMM时代2006年,Hinton提出深度置信网络(DBN),促使了深度神经网络(DNN)研究的复苏。2009年,Hinton将DNN应用于语音的声学建模,在TIMIT上获得了当时最好的结果。2011年底,微软研究院的俞栋、邓力又把DNN技术应用在了大词汇量连续语音识别任务上,大大降低了语音识别错误率。从此语音识别进入DNN-HMM时代。DNN-HMM主要是用DNN模型代替原来的GMM模型,对每一个状态进行建模,DNN带来的好处是不再需要对语音数据分布进行假设,将相邻的语音帧拼接又包含了语音的时序结构信息,使得对于状态的分类概率有了明显提升,同时DNN还具有强大环境学习能力,可以提升对噪声和口音的鲁棒性。 简单来说,DNN就是给出输入的一串特征所对应的状态概率。由于语音信号是连续的,不仅各个音素、音节以及词之间没有明显的边界,各个发音单位还会受到上下文的影响。虽然拼帧可以增加上下文信息,但对于语音来说还是不够。而递归神经网络(RNN)的出现可以记住更多历史信息,更有利于对语音信号的上下文信息进行建模。由于简单的RNN存在梯度爆炸和梯度消散问题,难以训练,无法直接应用于语音信号建模上,因此学者进一步探索,开发出了很多适合语音建模的RNN结构,其中最有名的就是LSTM。LSTM通过输入门、输出门和遗忘门可以更好的控制信息的流动和传递,具有长短时记忆能力。虽然LSTM的计算复杂度会比DNN增加,但其整体性能比DNN有相对20%左右稳定提升。 BLSTM是在LSTM基础上做的进一步改进,不仅考虑语音信号的历史信息对当前帧的影响,还要考虑未来信息对当前帧的影响,因此其网络中沿时间轴存在正向和反向两个信息传递过程,这样该模型可以更充分考虑上下文对于当前语音帧的影响,能够极大提高语音状态分类的准确率。BLSTM考虑未来信息的代价是需要进行句子级更新,模型训练的收敛速度比较慢,同时也会带来解码的延迟,对于这些问题,业届都进行了工程优化与改进,即使现在仍然有很多大公司使用的都是该模型结构。 图像识别中主流的模型就是CNN,而语音信号的时频图也可以看作是一幅图像,因此CNN也被引入到语音识别中。要想提高语音识别率,就需要克服语音信号所面临的多样性,包括说话人自身、说话人所处的环境、采集设备等,这些多样性都可以等价为各种滤波器与语音信号的卷积。而CNN相当于设计了一系列具有局部关注特性的滤波器,并通过训练学习得到滤波器的参数,从而从多样性的语音信号中抽取出不变的部分,CNN本质上也可以看作是从语音信号中不断抽取特征的一个过程。CNN相比于传统的DNN模型,在相同性能情况下,前者的参数量更少。综上所述,对于建模能力来说,DNN适合特征映射到独立空间,LSTM具有长短时记忆能力,CNN擅长减少语音信号的多样性,因此一个好的语音识别系统是这些网络的组合。端到端时代语音识别的端到端方法主要是代价函数发生了变化,但神经网络的模型结构并没有太大变化。总体来说,端到端技术解决了输入序列的长度远大于输出序列长度的问题。端到端技术主要分成两类:一类是CTC方法,另一类是Sequence-to-Sequence方法。传统语音识别DNN-HMM架构里的声学模型,每一帧输入都对应一个标签类别,标签需要反复的迭代来确保对齐更准确。采用CTC作为损失函数的声学模型序列,不需要预先对数据对齐,只需要一个输入序列和一个输出序列就可以进行训练。CTC关心的是预测输出的序列是否和真实的序列相近,而不关心预测输出序列中每个结果在时间点上是否和输入的序列正好对齐。CTC建模单元是音素或者字,因此它引入了Blank。对于一段语音,CTC最后输出的是尖峰的序列,尖峰的位置对应建模单元的Label,其他位置都是Blank。Sequence-to-Sequence方法原来主要应用于机器翻译领域。2017年,Google将其应用于语音识别领域,取得了非常好的效果,将词错误率降低至5.6%。如下图所示,Google提出新系统的框架由三个部分组成:Encoder编码器组件,它和标准的声学模型相似,输入的是语音信号的时频特征;经过一系列神经网络,映射成高级特征henc,然后传递给Attention组件,其使用henc特征学习输入x和预测子单元之间的对齐方式,子单元可以是一个音素或一个字。最后,attention模块的输出传递给Decoder,生成一系列假设词的概率分布,类似于传统的语言模型。 端到端技术的突破,不再需要HMM来描述音素内部状态的变化,而是将语音识别的所有模块统一成神经网络模型,使语音识别朝着更简单、更高效、更准确的方向发展。语音识别技术现状目前,主流语音识别框架还是由3个部分组成:声学模型、语言模型和解码器,有些框架也包括前端处理和后处理。随着各种深度神经网络以及端到端技术的兴起,声学模型是近几年非常热门的方向,业界都纷纷发布自己新的声学模型结构,刷新各个数据库的识别记录。由于中文语音识别的复杂性,国内在声学模型的研究进展相对更快一些,主流方向是更深更复杂的神经网络技术融合端到端技术。2018年,科大讯飞提出深度全序列卷积神经网络(DFCNN),DFCNN使用大量的卷积直接对整句语音信号进行建模,主要借鉴了图像识别的网络配置,每个卷积层使用小卷积核,并在多个卷积层之后再加上池化层,通过累积非常多卷积池化层对,从而可以看到更多的历史信息。2018年,阿里提出LFR-DFSMN(LowerFrameRate-DeepFeedforwardSequentialMemoryNetworks)。该模型将低帧率算法和DFSMN算法进行融合,语音识别错误率相比上一代技术降低20%,解码速度提升3倍。FSMN通过在FNN的隐层添加一些可学习的记忆模块,从而可以有效的对语音的长时相关性进行建模。而DFSMN是通过跳转避免深层网络的梯度消失问题,可以训练出更深层的网络结构。2019年,百度提出了流式多级的截断注意力模型SMLTA,该模型是在LSTM和CTC的基础上引入了注意力机制来获取更大范围和更有层次的上下文信息。其中流式表示可以直接对语音进行一个小片段一个小片段的增量解码;多级表示堆叠多层注意力模型;截断则表示利用CTC模型的尖峰信息,把语音切割成一个一个小片段,注意力模型和解码可以在这些小片段上展开。在线语音识别率上,该模型比百度上一代DeepPeak2模型提升相对15%的性能。开源语音识别Kaldi是业界语音识别框架的基石。Kaldi的作者DanielPovey一直推崇的是Chain模型。该模型是一种类似于CTC的技术,建模单元相比于传统的状态要更粗颗粒一些,只有两个状态,一个状态是CDPhone,另一个是CDPhone的空白,训练方法采用的是Lattice-FreeMMI训练。该模型结构可以采用低帧率的方式进行解码,解码帧率为传统神经网络声学模型的三分之一,而准确率相比于传统模型有非常显著的提升。远场语音识别技术主要解决真实场景下舒适距离内人机任务对话和服务的问题,是2015年以后开始兴起的技术。由于远场语音识别解决了复杂环境下的识别问题,在智能家居、智能汽车、智能会议、智能安防等实际场景中获得了广泛应用。目前国内远场语音识别的技术框架以前端信号处理和后端语音识别为主,前端利用麦克风阵列做去混响、波束形成等信号处理,以让语音更清晰,然后送入后端的语音识别引擎进行识别。语音识别另外两个技术部分:语言模型和解码器,目前来看并没有太大的技术变化。语言模型主流还是基于传统的N-Gram方法,虽然目前也有神经网络的语言模型的研究,但在实用中主要还是更多用于后处理纠错。解码器的核心指标是速度,业界大部分都是按照静态解码的方式进行,即将声学模型和语言模型构造成WFST网络,该网络包含了所有可能路径,解码就是在该空间进行搜索的过程。由于该理论相对成熟,更多的是工程优化的问题,所以不论是学术还是产业目前关注的较少。语音识别技术的趋势语音识别主要趋于远场化和融合化的方向发展,但在远场可靠性还有很多难点没有突破,比如多轮交互、多人噪杂等场景还有待突破,还有需求较为迫切的人声分离等技术。新的技术应该彻底解决这些问题,让机器听觉远超人类的感知能力。这不能仅仅只是算法的进步,需要整个产业链的共同技术升级,包括更为先进的传感器和算力更强的芯片。单从远场语音识别技术来看,仍然存在很多挑战,包括:(1)回声消除技术。由于喇叭非线性失真的存在,单纯依靠信号处理手段很难将回声消除干净,这也阻碍了语音交互系统的推广,现有的基于深度学习的回声消除技术都没有考虑相位信息,直接求取的是各个频带上的增益,能否利用深度学习将非线性失真进行拟合,同时结合信号处理手段可能是一个好的方向。(2)噪声下的语音识别仍有待突破。信号处理擅长处理线性问题,深度学习擅长处理非线性问题,而实际问题一定是线性和非线性的叠加,因此一定是两者融合才有可能更好地解决噪声下的语音识别问题。(3)上述两个问题的共性是目前的深度学习仅用到了语音信号各个频带的能量信息,而忽略了语音信号的相位信息,尤其是对于多通道而言,如何让深度学习更好的利用相位信息可能是未来的一个方向。(4)另外,在较少数据量的情况下,如何通过迁移学习得到一个好的声学模型也是研究的热点方向。例如方言识别,若有一个比较好的普通话声学模型,如何利用少量的方言数据得到一个好的方言声学模型,如果做到这点将极大扩展语音识别的应用范畴。这方面已经取得了一些进展,但更多的是一些训练技巧,距离终极目标还有一定差距。(5)语音识别的目的是让机器可以理解人类,因此转换成文字并不是最终的目的。如何将语音识别和语义理解结合起来可能是未来更为重要的一个方向。语音识别里的LSTM已经考虑了语音的历史时刻信息,但语义理解需要更多的历史信息才能有帮助,因此如何将更多上下文会话信息传递给语音识别引擎是一个难题。(6)让机器听懂人类语言,仅靠声音信息还不够,“声光电热力磁”这些物理传感手段,下一步必然都要融合在一起,只有这样机器才能感知世界的真实信息,这是机器能够学习人类知识的前提条件。而且,机器必然要超越人类的五官,能够看到人类看不到的世界,听到人类听不到的世界。语音识别产业历程语音识别这半个多世纪的产业历程中,其中共有三个关键节点,两个和技术有关,一个和应用有关。第一个关键节点是1988年的一篇博士论文,开发了第一个基于隐马尔科夫模型(HMM)的语音识别系统——Sphinx,当时实现这一系统的正是现在的著名投资人李开复。从1986年到2010年,虽然混合高斯模型效果得到持续改善,而被应用到语音识别中,并且确实提升了语音识别的效果,但实际上语音识别已经遭遇了技术天花板,识别的准确率很难超过90%。很多人可能还记得,在1998年前后IBM、微软都曾经推出和语音识别相关的软件,但最终并未取得成功。第二个关键节点是2009年深度学习被系统应用到语音识别领域中。这导致识别的精度再次大幅提升,最终突破90%,并且在标准环境下逼近98%。有意思的是,尽管技术取得了突破,也涌现出了一些与此相关的产品,比如Siri、GoogleAssistant等,但与其引起的关注度相比,这些产品实际取得的成绩则要逊色得多。Siri刚一面世的时候,时任GoogleCEO的施密特就高呼,这会对Google的搜索业务产生根本性威胁,但事实上直到AmazonEcho的面世,这种根本性威胁才真的有了具体的载体。第三个关键点正是AmazonEcho的出现,纯粹从语音识别和自然语言理解的技术乃至功能的视角看这款产品,相对于Siri等并未有什么本质性改变,核心变化只是把近场语音交互变成了远场语音交互。Echo正式面世于2015年6月,到2017年销量已经超过千万,同时在Echo上扮演类似Siri角色的Alexa渐成生态,其后台的第三方技能已经突破10000项。借助落地时从近场到远场的突破,亚马逊一举从这个赛道的落后者变为行业领导者。但自从远场语音技术规模落地以后,语音识别领域的产业竞争已经开始从研发转为应用。研发比的是标准环境下纯粹的算法谁更有优势,而应用比较的是在真实场景下谁的技术更能产生优异的用户体验,而一旦比拼真实场景下的体验,语音识别便失去独立存在的价值,更多作为产品体验的一个环节而存在。所以到2019年,语音识别似乎进入了一个相对平静期,全球产业界的主要参与者们,包括亚马逊、谷歌、微软、苹果、百度、科大讯飞、阿里、腾讯、云知声、思必驰、声智等公司,在一路狂奔过后纷纷开始反思自己的定位和下一步的打法。语音赛道里的标志产品——智能音箱,以一种大跃进的姿态出现在大众面前。2016年以前,智能音箱玩家们对这款产品的认识还都停留在:亚马逊出了一款叫Echo的产品,功能和Siri类似。先行者科大讯飞叮咚音箱的出师不利,更是加重了其它人的观望心态。真正让众多玩家从观望转为积极参与的转折点是逐步曝光的Echo销量,2016年底,Echo近千万的美国销量让整个世界震惊。这是智能设备从未达到过的高点,在Echo以前除了AppleWatch与手环,像恒温器、摄像头这样的产品突破百万销量已是惊人表现。这种销量以及智能音箱的AI属性促使2016年下半年,国内各大巨头几乎是同时转变态度,积极打造自己的智能音箱。未来,回看整个发展历程,2019年是一个明确的分界点。在此之前,全行业是突飞猛进,但2019年之后则开始进入对细节领域渗透和打磨的阶段,人们关注的焦点也不再是单纯的技术指标,而是回归到体验,回归到一种“新的交互方式到底能给我们带来什么价值”这样更为一般的、纯粹的商业视角。技术到产品再到是否需要与具体的形象进行交互结合,比如人物形象;流程自动化是否要与语音结合;酒店场景应该如何使用这种技术来提升体验,诸如此类最终都会一一呈现在从业者面前。而此时行业的主角也会从原来的产品方过渡到平台提供方,AIoT纵深过大,没有任何一个公司可以全线打造所有的产品。语音识别产业趋势当语音产业需求四处开花的同时,行业的发展速度反过来会受限于平台服务商的供给能力。跳出具体案例来看,行业下一步发展的本质逻辑是:在具体每个点的投入产出是否达到一个普遍接受的界限。离这个界限越近,行业就越会接近滚雪球式发展的临界点,否则整体增速就会相对平缓。不管是家居、酒店、金融、教育或者其他场景,如果解决问题都是非常高投入并且长周期的事情,那对此承担成本的一方就会犹豫,这相当于试错成本过高。如果投入后,没有可感知的新体验或者销量促进,那对此承担成本的一方也会犹豫,显然这会影响值不值得上的判断。而这两个事情,归根结底都必须由平台方解决,产品方或者解决方案方对此无能为力,这是由智能语音交互的基础技术特征所决定。从核心技术来看,整个语音交互链条有五项单点技术:唤醒、麦克风阵列、语音识别、自然语言处理、语音合成,其它技术点比如声纹识别、哭声检测等数十项技术通用性略弱,但分别出现在不同的场景下,并会在特定场景下成为关键。看起来关联的技术已经相对庞杂,但切换到商业视角我们就会发现,找到这些技术距离打造一款体验上佳的产品仍然有绝大距离。所有语音交互产品都是端到端打通的产品,如果每家厂商都从这些基础技术来打造产品,那就每家都要建立自己云服务稳定,确保响应速度,适配自己所选择的硬件平台,逐项整合具体的内容(比如音乐、有声读物)。这从产品方或者解决方案商的视角来看是不可接受的。这时候就会催生相应的平台服务商,它要同时解决技术、内容接入和工程细节等问题,最终达成试错成本低、体验却足够好的目标。平台服务并不需要闭门造车,平台服务的前提是要有能屏蔽产品差异的操作系统,这是AI+IOT的特征,也是有所参照的,亚马逊过去近10年里是同步着手做两件事:一个是持续推出面向终端用户的产品,比如Echo,EchoShow等;一个是把所有产品所内置的系统Alexa进行平台化,面向设备端和技能端同步开放SDK和调试发布平台。虽然GoogleAssistant号称单点技术更为领先,但从各方面的结果来看Alexa是当之无愧的最为领先的系统平台,可惜的是Alexa并不支持中文以及相应的后台服务。国内则缺乏亚马逊这种统治力的系统平台提供商,当前的平台提供商分为两个阵营:一类是以百度、阿里、讯飞、小米、腾讯为代表的传统互联网或者上市公司;一类是以声智等为代表的新兴人工智能公司。新兴的人工智能公司相比传统公司产品和服务上的历史包袱更轻,因此在平台服务上反倒是可以主推一些更为面向未来、有特色的基础服务,比如兼容性方面新兴公司做的会更加彻底,这种兼容性对于一套产品同时覆盖国内国外市场是相当有利的。类比过去的Android,语音交互的平台提供商们其实面临更大的挑战,发展过程可能会更加的曲折。过去经常被提到的操作系统的概念在智能语音交互背景下事实上正被赋予新的内涵,它日益被分成两个不同但必须紧密结合的部分。过去的Linux以及各种变种承担的是功能型操作系统的角色,而以Alexa为代表的新型系统则承担的则是智能型系统的角色。前者完成完整的硬件和资源的抽象和管理,后者则让这些硬件以及资源得到具体的应用,两者相结合才能输出最终用户可感知的体验。功能型操作系统和智能型操作系统注定是一种一对多的关系,不同的AIoT硬件产品在传感器(深度摄像头、雷达等)、显示器上(有屏、无屏、小屏、大屏等)具有巨大差异,这会导致功能型系统的持续分化(可以和Linux的分化相对应)。这反过来也就意味着一套智能型系统,必须同时解决与功能型系统的适配以及对不同后端内容以及场景进行支撑的双重责任。这两边在操作上,属性具有巨大差异。解决前者需要参与到传统的产品生产制造链条中去,而解决后者则更像应用商店的开发者。这里面蕴含着巨大的挑战和机遇。在过去功能型操作系统的打造过程中,国内的程序员们更多的是使用者的角色,但智能型操作系统虽然也可以参照其他,但这次必须自己来从头打造完整的系统。(国外巨头不管在中文相关的技术上还是内容整合上事实上都非常薄弱,不存在侵略国内市场的可能性)随着平台服务商两边的问题解决的越来越好,基础的计算模式则会逐渐发生改变,人们的数据消费模式会与今天不同。个人的计算设备(当前主要是手机、笔记本、Pad)会根据不同场景进一步分化。比如在车上、家里、酒店、工作场景、路上、业务办理等会根据地点和业务进行分化。但分化的同时背后的服务则是统一的,每个人可以自由的根据场景做设备的迁移,背后的服务虽然会针对不同的场景进行优化,但在个人偏好这样的点上则是统一的。人与数字世界的接口,在现在越来越统一于具体的产品形态(比如手机),但随着智能型系统的出现,这种统一则会越来越统一于系统本身。作为结果这会带来数据化程度的持续加深,我们越来越接近一个百分百数据化的世界。总结从技术进展和产业发展来看,语音识别虽然还不能解决无限制场景、无限制人群的通用识别问题,但是已经能够在各个真实场景中普遍应用并且得到规模验证。更进一步的是,技术和产业之间形成了比较好的正向迭代效应,落地场景越多,得到的真实数据越多,挖掘的用户需求也更准确,这帮助了语音识别技术快速进步,也基本满足了产业需求,解决了很多实际问题,这也是语音识别相对其他AI技术最为明显的优势。不过,我们也要看到,语音识别的内涵必须不断扩展,狭义语音识别必须走向广义语音识别,致力于让机器听懂人类语言,这才能将语音识别研究带到更高维度。我们相信,多技术、多学科、多传感的融合化将是未来人工智能发展的主流趋势。在这种趋势下,我们还有很多未来的问题需要探讨,比如键盘、鼠标、触摸屏和语音交互的关系怎么变化?搜索、电商、社交是否再次重构?硬件是否逆袭变得比软件更加重要?产业链中的传感、芯片、操作系统、产品和内容厂商之间的关系又该如何变化?本文得到众多语音识别领域专家的指导,并引用了一些参考资料的配图,在此表示感谢,本文中的不足之处还请批评指正。智能语音创新技术发展 智能语音行业市场前景分析
0分享至中商情报网讯:智能语音,即智能语音技术,是实现人机语言的通信技术,包括语音识别技术(ASR)和语音合成技术(TTS)。智能语音技术是国内最早落地也是市场上众多人工智能产品中应用最为广泛的技术,在车载语音、智慧教育、智能安防、智能家居、智慧医疗等领域都将出现智能语音技术的身影。伴随着人工智能的快速发展,中国智能语音市场规模持续增长,用户群体不断扩大,行业发展前景广阔。一、智能语音行业发展现状1、智能语音市场规模持续扩张受疫情影响及产业数字化需求拉动,我国智能语音市场规模持续扩张。据相关数据显示,2017年至2020年,智能语音市场规模从106亿元增长至217亿元,复合增长率为26.97%。预计2022年我国智能语音产业将保持现有增速,市场规模将达到365亿元。数据来源:《2020-2021中国语音产业发展白皮书》、中商产业研究院整理2、智能软件市场规模不断增加智能软件是智能语音最重要应用领域之一。据相关数据统计,2021年中国人工智能软件及应用市场规模达355.67亿元,同比增长43.1%,预计2022年中国人工智能软件及应用市场规模将增长至444.60亿元。数据来源:IDC、中商产业研究院整理3、智能家居领域应用情况在智能家居应用方面,智能语音助手已经覆盖越来越多的智能家居设备。数据显示,2021年上半年,小度、小爱、天猫精灵在智能家居智能语音系统的市场占比较大市场份额,分别为23.7%、15%、14.4%。4.智能语音专利申请及授权情况目前在智能语音领域中,百度的专利申请和授权数量都位居首位。2020年,百度专利申请数量达1135项,同比增长21.65%;专利授权数量达330项,占整体的29.07%。数据来源:中商产业研究院整理5、新增企业数量据统计,2017年至2021年,中国智能语音行业新增企业数量从2758家大幅减少至321家,复合增长率减少42%。2022年上半年新增企业数量19家,同比减少90.73%。数据来源:IT桔子、中商产业研究院整理6、市场竞争格局中国智能语音行业市场参与者较多,呈现出头部集中的竞争格局。据相关数据显示,科大讯飞以60%的市场份额稳居第一;以阿里、百度为代表的互联网巨头约占20%的市场份额;其他参与者,如捷通华声、智臻智能、思必驰、云知声等,总体份额约占20%。7、企业投融资情况据相关数据显示,2017年至2021年智能语音行业投资事件从28起减少至9起,投资金额从84.08亿元减少至72.80亿元。2022年上半年投资事件5起,同比减少16.67%;投资金额为30.59亿元,同比增长5.66%。二、智能语音行业发展前景1、政策利好行业发展智能语音属于人工智能产业,近年来,中国人工智能产业受到各级政府的高度重视和国家产业政策的重点支持。国家陆续出台了多项政策,鼓励人工智能行业发展与创新,《新型数据中心发展三年行动计划(2021-2023年)》《新一代人工智能伦理规范》《中华人民共和国数据安全法》等产业政策为人工智能行业的发展提供了明确、广阔的市场前景,为企业提供了良好的生产经营环境。具体情况列示如下:资料来源:中商产业研究院整理2、技术发展带动行业发展近年来,数据、算法与算力三大驱动因素显着发展。在数据方面,互联网的快速发展使高质量、大规模的大数据成为可能,海量数据为智能语音的发展提供基础。在算法方面,机器学习算法取得重大突破,使得机器学习算法在语音识别等领域的准确性取得了飞跃性的提高,为商业化应用奠定了重要技术基础。在算力方面,计算力提升突破瓶颈,以GPU为代表的新一代计算芯片提供了更强大的计算力,使得运算更快,同时在集群上实现的分布式计算帮助算法模型可以在更大的数据集上运行。3、下游应用提供广阔的市场空间在下游应用领域,随着智慧化生活理念的深入,智能语音已经逐渐进入加速应用阶段,在车载语音、智慧教育、智能安防、智能家居、智慧医疗、智能音箱等领域都出现智能语音技术的身影。应用场景不断丰富,智能语音的重要性日益凸显。更多资料请参考中商产业研究院发布的《中国智能语音行业市场前景及投资机会研究报告》,同时中商产业研究院还提供产业大数据、产业情报、产业研究报告、产业规划、园区规划、十四五规划、产业招商引资等服务。特别声明:以上内容(如有图片或视频亦包括在内)为自媒体平台“网易号”用户上传并发布,本平台仅提供信息存储服务。
Notice:Thecontentabove(includingthepicturesandvideosifany)isuploadedandpostedbyauserofNetEaseHao,whichisasocialmediaplatformandonlyprovidesinformationstorageservices.
/阅读下一篇/返回网易首页下载网易新闻客户端