博舍

2023年中国AI语音识别行业市场现状与发展前景分析 AI语音识别市场加速发展 语音识别行业发展现状报告范文大全

2023年中国AI语音识别行业市场现状与发展前景分析 AI语音识别市场加速发展

0分享至

语音识别是人机交互的入口,是指机器/程序接收、解释声音,或理解和执行口头命令的能力。随着语音技术与智能手机、平板电脑等电子产品芯片集成的深入发展,用户交互体验水平将得到大幅提升,用户认知和习惯得以培养,中国智能语音市场规模将会继续保持稳步扩张态势。

2020年中国智能语音市场规模达到113.96亿元,同比增长19.2%,预计2026年中国智能语音市场规模将进一步增长,达到326.88亿元。

AI语音识别发展历程

语音识别技术自20世纪50年代开始步入萌芽阶段,发展至今,主流算法模型已经经历了四个阶段:包括模板匹配阶段、模式和特征分析阶段、概率统计建模阶段和现在主流的深度神经网络阶段。目前,语音识别主流厂商主要使用端到端算法,在理想实验环境下语音识别准确率可高达99%以上。

AI语音识别产业链分析

中国AI语音识别市场参与者众多,主要分为上游、中游、下游。

语音识别上游主要为一些提供数据与云服务的企业。语音识别解码过程中包含了声学模型和语言模型的识别建模和模型训练两个部分。在运行过程中训练数据量和计算量需求极大,因此,能提供海量数据处理、存储以及高性能运算能力的云计算技术成为语音识别行业的应用热点。

语音识别的中游主要为将语音识别技术实现商业化落地的硬件及软件服务供应商。根据终端消费者类型,语音识别的中游厂商主要可以分为消费级市场和专业级市场。

语音识别下游行业应用多样化,一站式服务需求广。语音识别作为AI交互的重要入口,在人工智能领域属于最重要和发展最为成熟的技术之一,目前已经以多种商业化形式广泛应用于下游市场。从应用领域来看,目前消费级市场主要应用于智能硬件、智能家居、智慧教育、车载系统等领域,专业级市场主要应用于医疗、公检法、教育、客服、语音审核等领域。

语音识别准确率逐步提升

在过去5-10年,随着技术端的快速发展,AI语音识别市场得到的快速发展。目前主流语音识别模型已经以深度神经网络为主导,神经网络的出现及普及为语音识别准确率的提升起到了重要作用。

下游需求增长,AI语音识别市场空间稳步提高

在过去五年间,中国AI语音的需求逐渐爆发,产品及服务主要包括智能音箱、智能车载和智能硬件及消费及互联网增值服务。然而,目前面向消费者的产品及服务在内,语音识别的相关应用及使用场景仍具有局限性。

未来,在产品供应商和开发者共同构建产业生态圈的过程中,语音识别技术将更好地与其他语音交互技术及软件功能融合,为消费者提供更优质的体验,未来AI语音识别市场将迎来广阔的发展空间。

2020年中国智能语音市场规模达到113.96亿元,同比增长19.2%,预计2026年中国智能语音市场规模将进一步增长,达到326.88亿元。

人工智能上升至国家战略地位,政策推动AI语音识别行业加速发展

人工智能发展水平一定程度上体现了各国最高的科技水平。考虑到人工智能发展对于国家经济发展的重要性,中国政府已针对人工智能行业颁布了多项国家层面的发展政策,自2017年以来人工智能行业已经连续三年被写入《全国政府工作报告》内。

具体支持政策包括项目发展基金、人才引进政策及其他国家扶持政策。目前,语音识别技术属于中国AI领域中最为成熟落地的技术之一,在国家政策的强力扶持下,预计未来能够加速在垂直行业的渗透和布局。

更多数据参考前瞻产业研究院发布的:《中国人工智能行业市场前瞻与投资战略规划分析报告》,同时前瞻产业研究院提供产业大数据、产业规划、产业申报、产业园区规划、产业招商引资、IPO募投可研等解决方案。

特别声明:以上内容(如有图片或视频亦包括在内)为自媒体平台“网易号”用户上传并发布,本平台仅提供信息存储服务。

Notice:Thecontentabove(includingthepicturesandvideosifany)isuploadedandpostedbyauserofNetEaseHao,whichisasocialmediaplatformandonlyprovidesinformationstorageservices.

/阅读下一篇/返回网易首页下载网易新闻客户端

语音识别技术发展的历史背景和研究现状

浏览量:5,339(在苹果系统下,如果文章中的图片不能正常显示,请升级Safari浏览器到最新版本,或者使用Chrome、Firefox浏览器打开。)

    人类对于语音识别领域相关技术的研究,从上世纪的50年代初就已经开始了,当时的科研人员就曾对语音发音的音素特征做了相关研究。在1952年时,贝尔(Bell)实验室的研究人员,通过使用模拟的电子器件,实现了针对特定说话人说英文数字的孤立词进行语音识别的功能。这个系统主要是提取发音中每个元音的共振峰信息,然后通过简单的模板匹配,从而实现的。该系统得到了98%的正确率[1]。

1960年代,语音识别领域引入了人工神经网络。苏联的研究者Vintsyuk提出了用DynamicProgramming(动态规划算法)实现DynamicTimeWarp(动态时间规整),该算法可以将两个长度不同的语音进行时间上的对齐,从而可以使得两端语音在相同时间长度下得到更有意义的相似度度量。该技术在小规模词语环境下取得了很大的成功,一度成为自动语音识别技术中的主流[2]。

上世纪70年代,卡内基梅隆大学的李开复将隐马尔可夫模型在语音识别中进行了应用,实现了第一个基于HMM的大词汇量的语音识别系统Sphinx[3],对此后的语音识别技术产生了持续的影响。到了80年代,语音识别的研究重心从孤立词的识别转向连续词汇,主要是在孤立词的基础上,通过单个词进行模式匹配实现。并且,语音识别技术的重心从模式匹配的方案逐渐转移到了统计模型的方法上来,尤其是基于隐马尔可夫模型的方案得到了长足的发展。

在2010年之前,基于隐马尔可夫模型的高斯混合模型(GMM-HMM模型)通常代表着最先进的语音识别技术,这类的模型通常采用的特征提取算法是梅尔频率倒谱系数(即MFCC)算法,常用的还有fBank等特征提取算法。而人们也开展了很多研究工作来模仿人类听觉过程,后来通过引入DNN自动学习特征表示,直接取代GMM。深度学习还可以应用于给传统的HMM模型提供强大的具有判别性的特征。DNN和HMM结合的语音识别系统,大大降低了识别错误率[4]。

2010年以来,随着大数据和深度学习的发展,CNN、RNN、LSTM和GRU等网络结构也应用到语音识别中,使得语音识别技术取得了又一次巨大的突破。连接时序分类(ConnectionistTemporalClassification,CTC)方法,端到端(End-to-End)结构模型,和DFCNN、DeepSpeech、WaveNet、DFSMN等模型的出现,将语音识别的准确率一次又一次地推向巅峰。大多数的语音识别系统,目前仍然使用基于概率统计的N元语言模型,和相关变体模型。

近几年来,残差网络(ResNet)、注意力机制(Attentionmechanism)和RNNTransducer的出现,又将语音识别技术带领到发展的新阶段。当前,国内外几种主流的语音识别系统的准确率均超过了90%,有的甚至超过了95%。其中,85%准确率是评价一个语音识别系统是否可实际使用的分水岭。

自2016年以来,AI柠檬博主在研究针对中文的语音识别实践中,通过采用深度卷积神经网络,融合CTC方法进行声学建模,并使用统计语言模型,得到最终我们所需要的汉字文本。基于此,由AI柠檬博主开发的ASRT开源语音识别项目可取得80%的识别准确率。该开源项目的GitHub仓库链接为:https://github.com/nl8590687/ASRT_SpeechRecognition

当前,除了直接使用一些主流的深度学习框架实现语音识别以外,有很多用来实现语音识别的技术都是基于Kaldi进行开发的。众所周知,Kaldi是一个用C++编写的语音识别工具包,供语音识别研究人员使用[5]。Kaldi集成了包括数据预处理、声学特征提取、声学模型建模、声学解码、语言模型建模和并行计算、Cuda计算库等。对于多数传统的语音识别技术,Kaldi均能胜任,其中阿里巴巴的DFSMN模型就是使用Kaldi实现的。

不言而喻,语音识别技术对于人类很重要。在人与人的交流以及传播知识过程中,大约70%的信息是来自于语音。未来,语音识别将必然成为智能生活里重要的一部分,它可以为个人语音助手、语音输入、智能音箱等应用场景提供相关必不可少的技术基础,而且,这还将会成为未来一种新的人机交互方式。

参考文献

[1]  DavisKH,BiddulphR,BalashekS.Automaticrecognitionofspokendigits[J].TheJournaloftheAcousticalSocietyofAmerica,1952,24(6):637-642.[2]Wikipedia.SpeechRecognition[EB/OL].https://en.wikipedia.org/wiki/Speech_recognition[3]  LeeKF.Automaticspeechrecognition:thedevelopmentoftheSPHINXsystem[M].SpringerScience&BusinessMedia,1988.[4]  俞栋,邓力,俞凯,等.解析深度学习语音识别实践[M].北京:电子工业出版社,2016.[5]KaldiASR.http://www.kaldi-asr.org/

 

版权声明本博客的文章除特别说明外均为原创,本人版权所有。欢迎转载,转载请注明作者及来源链接,谢谢。本文地址:https://blog.ailemon.net/2019/06/20/history-and-research-status-quo-of-speech-recognition/AllarticlesareunderAttribution-NonCommercial-ShareAlike4.0发表你的看法“点击发表你的看法”

关注“AI柠檬博客”微信公众号,及时获取你最需要的干货。

AI柠檬博主正在阿里云上出售域名“y403.com”,感兴趣就快去看看吧打赏赞(1)微海报分享

智能语音技术新发展与发展趋势

本文总结于西工大音频语音与语言处理实验室(ASLP@NPU)负责人-谢磊教授在深蓝学院的公开课——智能语音技术的新进展与发展趋势—NPU-ASLP视角。

大家好!感谢深蓝学院的邀请!我代表西工大音频语音与语言处理研究组向各位汇报一下我们实验室在智能语音技术方面的一些进展,基于实验室多位同学研究工作的总结。

针对人类语音的研究是一门典型的交叉学科,涉及声学、听觉、信号处理、语音语言学、生理学、认知科学、统计学、机器学习等众多领域。语音处理主要针对人类的语音作为研究载体,除此之外,对声音的研究非常广泛,比如环境声、音乐等,统称为听觉(音频)信息处理。如果把做和声音相关研究的人员加在一起,会是一个特别庞大的群体,个人感觉规模不会少于CV领域。

关于今天的主题——智能语音交互,主要是人和机器通过语音作为媒介进行自然交互的形式,从语音交互圆环(speechcircle)这张图看,涉及到的核心技术主要包括四个方面,首先通过语音识别(ASR)转成文字,如果语音信号质量不好的话,前端会有一个语音增强模块;然后是口语语言理解,接下来是对话管理和口语语言生成,而最终通过文语转换(TTS)生成语音回馈给用户。

回顾语音识别的发展,在2000年之前,语音识别的错误率有明显的改善,而在2000年到2010年期间,我们做的很多努力很难再去进一步降低识别的错误率。在大概2010年后,在深度学习的推动下,利用大数据、机器学习和大算力这“三驾马车”,语音识别的识别准确度再一次明显提升,错误率再一次下降,并且在一部分数据集上实现了媲美人类语音识别的精度。

语音识别是智能语音范畴内的一个典型任务,除此之外,智能语音的任务还包括语音编码、语音增强、关键词检出、声纹识别等一系列任务,而智能语音技术能够服务的方向主要包括三方面,一是自然人机交互,二是自然人人交互,还有就是内容分析与挖掘,垂直落地的应用非常多,场景广泛,价值巨大。

智能语音涉及的具体方向众多,而接下来我将围绕着我们实验室重点关注的三个方向——语音增强、语音识别和语音合成来展开介绍。

关于语音增强,这是一个非常经典的研究课题,它的基本目的是减少噪声干扰,提高语音质量。在麦克风拾音时,会遇到语音随距离增加而造成的衰减、信道畸变、房间混响、声学回声,各种噪声干扰和人声干扰等众多问题。传统的基于统计信号处理的语音增强可以提供良好的平稳噪声抑制能力,而以数据驱动的深度学习方法则将非平稳的噪声的抑制成为了可能。关于深度学习在语音增强中的应用大致可以分为三个阶段,开始的研究工作主要围绕基础的Masking和Regression范式,当时的网络的结构比较简单,主要针对幅度谱建模,损失函数主要是MSE。

在第二阶段,研究者们展开了更大胆的尝试,这体现在网络结构的多样化,包括CRN,Tasnet,生成对抗网络(GAN)的使用和最近的Transfomer结构;而建模也从时频域延伸到直接在时域建模;损失函数更更多样化,包括MSE、SI-SNR和PESQ等形式。而在现阶段,AI降噪开始落地应用,包括TWS耳机、在线会议系统等场景,在线会议和直播后台等应用中,可能都已经有了AI语音增强网络的嵌入,技术方面还出现了复数形式的网络和各种更为精细化设计的网络结构。此外,还有利用声纹先验信息的个性化语音增强或称之为目标说话人提取。

关于语音增强,我们实验室的同学在去年的Interspeech上发表了DeepComplexConvolutionRecurrentNetwork(DCCRN)这个工作,DCCRN采用经典的U-Net结构,在CRN的基础上综合了复数卷积以及LSTM瞬态建模的优势。它在模型复杂度和低延时(40ms)的要求下,具有高性能降噪能力。在去年的Interspeech深度噪声抑制竞赛(DNS)的实时赛道中,取得了第一名的成绩,这篇论文当前在googlescholar上的引用已经达到了100次。基于深度学习语音增强的一个问题在于需要做降噪量和语谱保真上的折中。

在今年,我们在DCCRN的基础上又提出了同时兼顾听感与降噪的复数增强网络DCCRN+,在具有高降噪量的同时,提升语音的保真度。它的贡献主要包括,一个基于”可学习”的子带划分与合并,减少模型大小和计算复杂度;二是实现了频域和时域序列同时建模;三是通过“卷积通道”获取编码器每层输出的更丰富的信息;四是以信噪比估计作为辅助任务,降噪的同时提升听感;五是在后处理中去除残留噪声。

人们对于语音通话的体验要求越来越高,比如更高采样率、甚至具有空间方位感的沉浸式开会体验。近期在DCCRN的基础上,为了处理超带宽的语音数据,我们还提出了超带宽语音增强模型S-DCCRN,用于增强32KHz采样率的带噪语音。它的主要贡献包括:

1.首先利用子带DCCRN精细化学习高低频信息,然后全带DCCRN结合高低频信息,起到平滑衔接作用;

2.同时,通过网络学习动态调整不同频带能量;

3.在和16K降噪模型保持相同的较低频率分辨率的同时,通过复数特征编码从谱上获取更多的信息。

自去年推出DCCRN以来,目前已经在这个上面有很多扩展性的工作,包括我们自己的DCCRN+,S-DCCRN,以及同时做去混、降噪和分离的DesNet,阿里、NTNU等单位也做了多通道上的扩展,值得注意的是近期微软把DCCRN用于个性化语音增强即目标说话人增强,推出了pDCCRN方案。除了DCCRN系列,近期我们也推出了Uformer,基于复数和实数Unet和卷积核膨胀双路Conformer,具有更为强大的能力。

接下来我们展开关于深度学习语音增强发展的相关讨论。目前,虽然基于AI的降噪已经有一定的应用,但是在很多场合,采用的还是基于信号处理的方案,而“AI降噪”在实际落地的时候,出于对于资源的考虑,很多精细设计的模型无法发挥优势。如何将信号处理和深度学习有机的结合在一起也是值得深度探索的。

此外,语音增强除了给人听外,另一个重要目的是为了更好的服务于包括语音识别在内的下游任务,而现状却是深度学习语音增强给语音识别带来的提升有限,甚至有些情况可能是副作用,这是因为语音识别通过多场景训练策略已经考虑到了噪声的影响,同时端到端语音识别模型的能力很强,深度学习语音增强处理过的语谱语音识别模型却没有见过。

我们可以尝试在训练过程中,把增强后的数据和原始数据同时加入,进行联合训练,甚至前后端联合建模。但是在实际使用中,我们往往希望完全解耦前后端,不希望联合训练。此外,更细致、全面和快捷的数据仿真方案也可能会提升模型训练后的效果。与此同时,而视觉、声纹等先验信息的有效利用也是提升语音增强模型效果的重要途径,近期我们也看到了这个方向上非常多有益的探索甚至开始落地。

WeNet语音识别工具包

关于语音识别,端对端的方案在这两年得到了更广泛的认可,大家可以关注下我们在解决领域适配或专有名词识别不佳的CascadeRNNT方案以及简化Conformer计算复杂度的方案。此外,我们发布的WeNet作为一个轻量级端到端语音识别全栈解决方案,功能不断丰富,包括对于语言模型的支持、端点检测、时间戳对齐、以及预训练模型的支持等等。众多学术界和工业界的同行们也在围绕它展开更多的扩展。语音识别虽然已经在各个应用领域落地,但是仍然不能说是一个完全解决了的问题,因为实际应用场景面临各种挑战,总结而言挑战主要包括鲁棒性、低资源和复杂场景三个方面。鲁棒性的典型问题包括口音方言、语种混杂或多语种、领域适配等;低资源是指系统部署的资源有限和标注数据缺乏的场景,前者典型的是AIoT场景下各种端侧设备部署对模型大小、算力的限制,而标注数据缺乏也是限制语音识别走向各个垂域和语种的关键因素,因为垂域太多了,缺乏标注数据的小语种太多了;语音识别在部署时面临的场景可能非常复杂,例如多人会议、自然对话等场景,各类复杂噪声干扰等。为了解决这些问题,无监督自学习、前后端一体化、语音语义一体化提供了可能。

接下来分享的是我们在端侧部署指令识别上的相关工作。在端侧部署进行指令识别时,遇到的最大的问题之一就是指令混淆的问题,比如控制空调的“二十一度”可能误识别成“十一度”,两个指令发音上很接近,语速一快可能就识别错了。

对此,我们近期提出了最小序列混淆错误准则(Minimizesequentialconfusionerror(MSCE)training)用于指令识别模型的判别式训练。MSCE通过增加指令间区分度,来缓解混淆词错误。虽然语音任务本身是序列标注任务,但是指令词之间可以认为是单个分类任务,对于分类任务,可以使用MCE准则进行区分性训练,增大类间区分性。此外,使用CTC准则作为序列到类别的桥梁,在此基础上增加指令间的区分性。感兴趣的同学可以关注我们后续发布的论文。实验表明,MSCE在空调指令识别任务上有14--18%相对混淆错误的降低。

第二个工作是关于多说话人的语音识别,我们提出了基于说话人条件链的非自回归多说话人语音识别方案,迭代式地预测每个说话人的输出,通过说话人条件链建模每个输出之间依赖性,每次迭代使用Conformer-CTC进行非自回归并行解码,该方案可以处理不同混合说话人混合数目的语音。

在对话语音识别中,有效利用上下文信息是非常直观的想法。我们尝试了进行跨句注意力机制建模,通过在Transfomer中引入残差注意力编码器和条件注意力解码器,引入额外的历史信息,从而在HKUST、Switchboard等数据集中实现了更好的识别效果。还有一个工作的思路是通过语义去“反哺”语音,通过考虑对话局部连贯性、角色偏好、说话人轮转等对话语音的独特性,学习对话中的特征信息,在多个代表数据集上的结果也说明了这一方案的有效性。

接下来给大家分享的是我们牵头开源的几个数据集。第一个是AISHELL-4,它是用于语音增强、分离、识别和说话人日志的中文会议场景语料库,有120小时左右的时长。另一个是AiMeeting120小时会议语音数据集。这两个都是真实会议场景录制的多通道语音数据,特别适合会议场景的相关研究。基于这两个语料库,我们还在ICASSP2022上发起了M2MeT会议场景语音挑战赛,包括说话人日志和多说话人语音识别两个任务,同时提供了对应的基线系统。还有一个就是新近开源的WenetSpeech数据集,它是全球最大的多领域中文语音识别数据集,通过从网络上爬取内容非常丰富的中文语音数据,进行自动化标注和置信度筛选,最终获得了超过1万小时的高质量标注数据,利用该数据和WeNet工具包训练的端到端语音识别模型在SpeechIO的leaderboard上获得了业界SOTA的识别性能。

最后来汇报一下我们在语音合成领域的一些探索。目前基于序列到序列模型和神经声码器的方案已经获得了广泛引用,甚至在一些限定领域获得了媲美真人语音的效果,然而当前离真正“复刻”人类语音还有很长的路要走。比如篇章合成、表现力和可控性、低质数据建模、少样本和单样本音色克隆、完全端到端建模、高表现力歌唱合成以及如何把说话和唱歌统一建模做到一个统一的发音模型等。在这些方面,我们实验室近期典型的探索介绍如下。可控对话TTS——实现拟人化的对话语音合成,甚至可以控制合成口语对话的讲话流利程度。

MsEmoTTS是我们近期提出的一个多层级的情感语音合成方案,可以在一个模型框架里实现情感迁移、预测和控制。我们的“单人千面”方案,在每个发音人只有一种风格录音的条件下,实现了有效的风格解耦与交叉,例如朗读风格的发音人可以读唐诗、做客服。最后,我们在VITS端到端TTS的基础上,做出了多方面的改进,进而又提出了一个端到端歌唱合成方案VISinger。另外,我们也将联合网易伏羲等多家单位在Wenet开源社区开源一个中文歌唱合成数据库,包括一个专业歌手100首左右的中文流行歌曲和高质量的标注,敬请关注。

基于端到端深度学习的语音合成:挑战性问题

欢迎大家关注我们实验室发表的相关论文。我今天的分享就到这里,谢谢大家!

语音识别研究现状

前言

总结目前语音识别的发展现状,dnn、rnn/lstm和cnn算是语音识别中几个比较主流的方向。2012年,微软邓力和俞栋老师将前馈神经网络FFDNN(FeedForwardDeepNeuralNetwork)引入到声学模型建模中,将FFDNN的输出层概率用于替换之前GMM-HMM中使用GMM计算的输出概率,引领了DNN-HMM混合系统的风潮。长短时记忆网络(LSTM,LongShortTermMemory)可以说是目前语音识别应用最广泛的一种结构,这种网络能够对语音的长时相关性进行建模,从而提高识别正确率。双向LSTM网络可以获得更好的性能,但同时也存在训练复杂度高、解码时延高的问题,尤其在工业界的实时识别系统中很难应用。

回顾近一年语音识别的发展,deepcnn绝对称得上是比较火的关键词,很多公司都在这方面投入了大量研究。其实CNN被用在语音识别中由来已久,在12、13年的时候OssamaAbdel-Hamid就将CNN引入了语音识别中。那时候的卷积层和pooling层是交替出现的,并且卷积核的规模是比较大的,CNN的层数也并不多,主要是用来对特征进行加工和处理,使其能更好的被用于DNN的分类。随着CNN在图像领域的发光发热,VGGNet,GoogleNet和ResNet的应用,为CNN在语音识别提供了更多思路,比如多层卷积之后再接pooling层,减小卷积核的尺寸可以使得我们能够训练更深的、效果更好的CNN模型。

1语音识别为什么要用CNN

通常情况下,语音识别都是基于时频分析后的语音谱完成的,而其中语音时频谱是具有结构特点的。要想提高语音识别率,就是需要克服语音信号所面临各种各样的多样性,包括说话人的多样性(说话人自身、以及说话人间),环境的多样性等。一个卷积神经网络提供在时间和空间上的平移不变性卷积,将卷积神经网络的思想应用到语音识别的声学建模中,则可以利用卷积的不变性来克服语音信号本身的多样性。从这个角度来看,则可以认为是将整个语音信号分析得到的时频谱当作一张图像一样来处理,采用图像中广泛应用的深层卷积网络对其进行识别。

从实用性上考虑,CNN也比较容易实现大规模并行化运算。虽然在CNN卷积运算中涉及到很多小矩阵操作,运算很慢。不过对CNN的加速运算相对比较成熟,如Chellapilla等人提出一种技术可以把所有这些小矩阵转换成一个大矩阵的乘积。一些通用框架如Tensorflow,caffe等也提供CNN的并行化加速,为CNN在语音识别中的尝试提供了可能。

下面将由“浅”入“深”的介绍一下cnn在语音识别中的应用。

2CLDNN

提到CNN在语音识别中的应用,就不得不提CLDNN(CONVOLUTIONAL,LONGSHORT-TERMMEMORY,FULLYCONNECTEDDEEPNEURALNETWORKS)[1],在CLDNN中有两层CNN的应用,算是浅层CNN应用的代表。CNN和LSTM在语音识别任务中可以获得比DNN更好的性能提升,对建模能力来说,CNN擅长减小频域变化,LSTM可以提供长时记忆,所以在时域上有着广泛应用,而DNN适合将特征映射到独立空间。而在CLDNN中,作者将CNN,LSTM和DNN串起来融合到一个网络中,获得比单独网络更好的性能。

CLDNN网络的通用结构是输入层是时域相关的特征,连接几层CNN来减小频域变化,CNN的输出灌入几层LSTM来减小时域变化,LSTM最后一层的输出输入到全连接DNN层,目的是将特征空间映射到更容易分类的输出层。之前也有将CNNLSTM和DNN融合在一起的尝试,不过一般是三个网络分别训练,最后再通过融合层融合在一起,而CLDNN是将三个网络同时训练。实验证明,如果LSTM输入更好的特征其性能将得到提高,受到启发,作者用CNN来减小频域上的变化使LSTM输入自适应性更强的特征,加入DNN增加隐层和输出层之间的深度获得更强的预测能力。

2.1CLDNN网络结构

Fig1.CLDNNArchitecture

网络结构图如图1,假设中心帧为,考虑到内容相关性,向左扩展L帧,向右扩展R帧,则输入特征序列为[,...,],特征向量使用的是40维的log梅尔特征。

CNN部分为两层CNN,每层256个featuremaps,第一层采用9x9时域-频域滤波器,第二层为4x3的滤波器。池化层采用max-pooling策略,第一层poolingsize是3,第二层CNN不接池化层。

由于CNN最后一层输出维度很大,大小为feature-mapstimefrequency,所以在CNN后LSTM之前接一个线性层来降维,而实验也证明降维减少参数并不会对准确率有太大影响,线性层输出为256维。

CNN后接2层LSTM,每个LSTM层采用832个cells,512维映射层来降维。输出状态标签延迟5帧,此时DNN输出信息可以更好的预测当前帧。由于CNN的输入特征向左扩展了l帧向右扩展了r帧,为了确保LSTM不会看到未来多于5帧的内容,作者将r设为0。最后,在频域和时域建模之后,将LSTM的输出连接几层全连接DNN层。

借鉴了图像领域CNN的应用,作者也尝试了长短时特征,将CNN的输入特征作为短时特征直接输入给LSTM作为部分输入,CNN的输出特征直接作为DNN的部分输入特征。

2.2实验结果

针对CLDNN结构,我们用自己的中文数据做了一系列实验。实验数据为300h的中文有噪声语音,所有模型输入特征都为40维fbank特征,帧率10ms。模型训练采用交叉熵CE准则,网络输出为2w多个state。由于CNN的输入需要设置l和r两个参数,r设为0,l经过实验10为最优解,后面的实验结果中默认l=10,r=0。

其中LSTM为3层1024个cells,project为512,CNN+LSTM和CNN+LSTM+DNN具体的网络参数略有调整,具体如下图,另外还增加一组实验,两层CNN和三层LSTM组合,实验验证增加一层LSTM对结果有提高,但继续增加LSTM的层数对结果没有帮助。

Fig2.CLDNN实验结构

methodWERLSTM13.8CNN+2层LSTM14.1CNN+3层LSTM13.6CNN+LSTM+DNN13.0LSTM+DNN13.2

Table1测试集1结果

methodWERLSTM21.6CNN+2层LSTM21.8CNN+3层LSTM21.5CNN+LSTM+DNN20.6LSTM+DNN20.8

Table2测试集2结果

3deepCNN

在过去的一年中,语音识别取得了很大的突破。IBM、微软、百度等多家机构相继推出了自己的DeepCNN模型,提升了语音识别的准确率。Residual/Highway网络的提出使我们可以把神经网络训练的更深。尝试DeepCNN的过程中,大致也分为两种策略:一种是HMM框架中基于DeepCNN结构的声学模型,CNN可以是VGG、Residual连接的CNN网络结构、或是CLDNN结构。另一种是近两年非常火的端到端结构,比如在CTC框架中使用CNN或CLDNN实现端对端建模,或是最近提出的LowFrameRate、Chain模型等粗粒度建模单元技术。

对于输入端,大体也分为两种:输入传统信号处理过的特征,采用不同的滤波器处理,然后进行左右或跳帧扩展。

Fig3.Multi-scaleinputfeature.Stack31140

第二种是直接输入原始频谱,将频谱图当做图像处理。

Fig4.Frequencybandsinput

3.1百度deepspeech

百度将DeepCNN应用于语音识别研究,使用了VGGNet,以及包含Residual连接的深层CNN等结构,并将LSTM和CTC的端对端语音识别技术相结合,使得识别错误率相对下降了10%(原错误率的90%)以上。

此前,百度语音每年的模型算法都在不断更新,从DNN,到区分度模型,到CTC模型,再到如今的DeepCNN。基于LSTM-CTC的声学模型也于2015年底已经在所有语音相关产品中得到了上线。比较重点的进展如下:1)2013年,基于美尔子带的CNN模型;2)2014年,SequenceDiscriminativeTraining(区分度模型);3)2015年初,基于LSTM-HMM的语音识别;4)2015年底,基于LSTM-CTC的端对端语音识别;5)2016年,DeepCNN模型,目前百度正在基于DeepCNN开发deepspeech3,据说训练采用大数据,调参时有上万小时,做产品时甚至有10万小时。

Fig5.百度语音识别发展

百度发现,深层CNN结构,不仅能够显著提升HMM语音识别系统的性能,也能提升CTC语音识别系统的性能。仅用深层CNN实现端对端建模,其性能相对较差,因此将如LSTM或GRU的循环隐层与CNN结合是一个相对较好的选择。可以通过采用VGG结构中的3*3这种小kernel,也可以采用Residual连接等方式来提升其性能,而卷积神经网络的层数、滤波器个数等都会显著影响整个模型的建模能力,在不同规模的语音训练数据库上,百度需要采用不同规模的DeepCNN模型配置才能使得最终达到最优的性能。

因此,百度认为:1)在模型结构中,DeepCNN帮助模型具有很好的在时频域上的平移不变性,从而使得模型更加鲁棒(抗噪性);2)在此基础上,DeepLSTM则与CTC一起专注于序列的分类,通过LSTM的循环连接结构来整合长时的信息。3)在DeepCNN研究中,其卷积结构的时间轴上的感受野,以及滤波器的个数,针对不同规模的数据库训练的语音识别模型的性能起到了非常重要的作用。4)为了在数万小时的语音数据库上训练一个最优的模型,则需要大量的模型超参的调优工作,依托多机多GPU的高性能计算平台,才得以完成工作。5)基于DeepCNN的端对端语音识别引擎,也在一定程度上增加了模型的计算复杂度,通过百度自研的硬件,也使得这样的模型能够为广大语音识别用户服务。

3.2IBM

2015年,IBMWatson公布了英语会话语音识别领域的一个重大里程碑:系统在非常流行的评测基准Switchboard数据库中取得了8%的词错率(WER)。到了2016年5月份,IBMWatson团队再次宣布在同样的任务中他们的系统创造了6.9%的词错率新纪录,其解码部分采用的是HMM,语言模型采用的是启发性的神经网络语言模型。声学模型主要包含三个不同的模型,分别是带有maxout激活的循环神经网络、3*3卷积核的深度卷积神经网络、双向长短期记忆网络,下面我们来具体看看它们的内部结构。

Fig6.IBMDeepCNN框架

非常深的卷积神经网络的灵感来自2014ImageNet参赛的VGG网络,中心思想是使用较小的3*3卷积核来取代较大的卷积核,通过在池化层之前叠加多层卷积网络,采取ReLU激活函数,可以获得相同的感知区域,同时具备参数数目较少和更多非线性的优点。

如上图所示,左1为最经典的卷积神经网络,只使用了两个卷积层,并且之间包含一个池化层,卷积层的卷积核也较大,99和43,而卷积的特征面也较多,512张卷积特征面。

左2、左3、左4均为深度卷积神经网络的结构,可以注意到与经典的卷积神经网络所不同的是,卷积的特征面由64个增加到128个再增加到256个,而且池化层是放在卷积的特征面数增加之前的;卷积核均使用的是较小的33卷积核,池化层的池化大小由21增加到2*2。

最右边10-conv的参数数目与最左边的经典卷积神经网络参数数目相同,但是收敛速度却足足快了5倍,尽管计算复杂度提高了一些。

3.3微软

2016年9月在产业标准Switchboard语音识别任务上,微软研究者取得了产业中最低的6.3%的词错率(WER)。基于神经网络的声学和语言模型的发展,数个声学模型的结合,把ResNet用到语音识别。

而在2016年的10月,微软人工智能与研究部门的团队报告出他们的语音识别系统实现了和专业速录员相当甚至更低的词错率(WER),达到了5.9%。5.9%的词错率已经等同于人速记同样一段对话的水平,而且这是目前行Switchboard语音识别任务中的最低记录。这个里程碑意味着,一台计算机在识别对话中的词上第一次能和人类做得一样好。系统性地使用了卷积和LSTM神经网络,并结合了一个全新的空间平滑方法(spatialsmoothingmethod)和lattice-freeMMI声学训练。

虽然在准确率的突破上都给出了数字基准,微软的研究更加学术,是在标准数据库——口语数据库switchboard上面完成的,这个数据库只有2000小时。

3.4Google

根据MaryMeeker年度互联网报告,Google以机器学习为背景的语音识别系统,2017年3月已经获得英文领域95%的字准确率,此结果逼近人类语音识别的准确率。如果定量的分析的话,从2013年开始,Google系统已经提升了20%的性能。

Fig7.Google语音识别性能发展

从近几年google在各类会议上的文章可以看出,google尝试deepCNN的路径主要采用多种方法和模型融合,如Network-in-Network(NiN),BatchNormalization(BN),ConvolutionalLSTM(ConvLSTM)方法的融合。比如2017icassp会议中google所展示的结构

Fig8.[5]includestwoconvolutionallayeratthebottomandfollowedbyfourresidualblockandLSTMNiNblock.EachresidualblockcontainsoneconvolutionalLSTMlayerandoneconvolutionallayer.

3.5科大讯飞DFCNN

2016年,在提出前馈型序列记忆网络FSMN(Feed-forwardSequentialMemoryNetwork)的新框架后,科大讯飞又提出了一种名为深度全序列卷积神经网络(DeepFullyConvolutionalNeuralNetwork,DFCNN)的语音识别框架,使用大量的卷积层直接对整句语音信号进行建模,更好地表达了语音的长时相关性。

DFCNN的结构如下图所示,它输入的不光是频谱信号,更进一步的直接将一句语音转化成一张图像作为输入,即先对每帧语音进行傅里叶变换,再将时间和频率作为图像的两个维度,然后通过非常多的卷积层和池化(pooling)层的组合,对整句语音进行建模,输出单元直接与最终的识别结果比如音节或者汉字相对应。

Fig9.DFCNN框架

首先,从输入端来看,传统语音特征在傅里叶变换之后使用各种人工设计的滤波器组来提取特征,造成了频域上的信息损失,在高频区域的信息损失尤为明显,而且传统语音特征为了计算量的考虑必须采用非常大的帧移,无疑造成了时域上的信息损失,在说话人语速较快的时候表现得更为突出。因此DFCNN直接将语谱图作为输入,相比其他以传统语音特征作为输入的语音识别框架相比具有天然的优势。其次,从模型结构来看,DFCNN与传统语音识别中的CNN做法不同,它借鉴了图像识别中效果最好的网络配置,每个卷积层使用3x3的小卷积核,并在多个卷积层之后再加上池化层,这样大大增强了CNN的表达能力,与此同时,通过累积非常多的这种卷积池化层对,DFCNN可以看到非常长的历史和未来信息,这就保证了DFCNN可以出色地表达语音的长时相关性,相比RNN网络结构在鲁棒性上更加出色。最后,从输出端来看,DFCNN还可以和近期很热的CTC方案完美结合以实现整个模型的端到端训练,且其包含的池化层等特殊结构可以使得以上端到端训练变得更加稳定。

4总结

由于CNN本身卷积在频域上的平移不变性,同时VGG、残差网络等深度CNN网络的提出,给CNN带了新的新的发展,使CNN成为近两年语音识别最火的方向之一。用法也从最初的2-3层浅层网络发展到10层以上的深层网络,从HMM-CNN框架到端到端CTC框架,各个公司也在deepCNN的应用上取得了令人瞩目的成绩。

总结一下,CNN发展的趋势大体为:

1更加深和复杂的网络,CNN一般作为网络的前几层,可以理解为用CNN提取特征,后面接LSTM或DNN。同时结合多种机制,如attentionmodel、ResNet的技术等。

2EndtoEnd的识别系统,采用端到端技术CTC,LFR等。

3粗粒度的建模单元,趋势为从state到phone到character,建模单元越来越大。

但CNN也有局限性,[2,3]研究表明,卷积神经网络在训练集或者数据差异性较小的任务上帮助最大,对于其他大多数任务,相对词错误率的下降一般只在2%到3%的范围内。不管怎么说,CNN作为语音识别重要的分支之一,都有着极大的研究价值。

参考文献:

[1]Sainath,T.N,Vinyals,O.,Senior,O.,SakH:CONVOLUTIONAL,LONGSHORT-TERMMEMORY,FULLYCONNECTEDDEEPNEURALNETWORKS

[2]Sainath,T.N ,Mohamed,A.r ,Kingsbury ,B.,Ramabhadran,B.:DEEPCONVOLUTIONALNEURALNETWORKSFORLVCSR.In:Proc.InternationalConferenceonAcoustics,SpeechandsignalProcessing(ICASSP),pp.8614-8618(2013)

[3]Deng,L.,Abdel-Hamid,O.,Yu,D.:ADEEPCONVOLUTIONALNEURALNETWORKUSINGHETEROGENEOUSPOOLINGFORTRADINGACOUSTICINVARIANCEWITHPHONETICCONFUSION.In:Proc.InternationalConferenceonAcoustics,SpeechandsignalProcessing(ICASSP),pp.6669-6673(2013)

[4]Chellapilla,K.,Puri,S.,Simard,P.:HighPerformanceConvolutionalNeuralNetworksforDocumentProcessing.In:TenthInternationalWorkshoponFrontiersinHandwritingRecognition(2006)

[5]Zhang,Y.,Chan,W.,Jaitly,N.:VERYDEEPCONVOLUTIONALNETWORKSFOREND-TO-ENDSPEECHRECOGNITION.In:Proc.InternationalConferenceonAcoustics,SpeechandsignalProcessing(ICASSP2017)

[6]https://www.cnblogs.com/qcloud1001/p/7941158.html?utm_source=debugrun&utm_medium=referral

国内外语音识别技术发展现状探讨

语音识别的意思是将人说话的内容和意思转换为计算机可读的输入,例如按键、二进制编码或者字符序列等。与说话人的识别不同,后者主要是识别和确认发出语音的人而非其中所包含的内容。语音识别的目的就是让机器听懂人类口述的语言,包括了两方面的含义:第一是逐字逐句听懂而不是转化成书面的语言文字;第二是对口述语言中所包含的命令或请求加以领会,做出正确回应,而不仅仅只是拘泥于所有词汇的正确转换。

本文引用地址:http://www.eepw.com.cn/article/201610/311278.htm

自从1952年,AT&TBell实验室的Davis等人研制了第一个可十个英文数字的特定人语音增强系统一Audry系统1956年,美国普林斯顿大学RCA实验室的Olson和Belar等人研制出能10个单音节词的系统,该系统采用带通滤波器组获得的频谱参数作为语音增强特征。1959年,Fry和Denes等人尝试构建音素器来4个元音和9个辅音,并采用频谱分析和模式匹配进行决策。这就大大提高了语音识别的效率和准确度。从此计算机语音识别的受到了各国科研人员的重视并开始进入语音识别的研究。60年代,苏联的MaTIn等提出了语音结束点的端点检测,使语音识别水平明显上升;Vintsyuk提出了动态编程,这一提法在以后的识别中不可或缺。60年代末、70年代初的重要成果是提出了信号线性预测编码(LPC)技术和动态时间规整(DTW)技术,有效地解决了语音信号的特征提取和不等长语音匹配问题;同时提出了矢量量化(VQ)和隐马尔可夫模型(HMM)理论。语音识别技术与语音合成技术结合使人们能够摆脱键盘的束缚,取而代之的是以语音输入这样便于使用的、自然的、人性化的输入方式,它正逐步成为信息技术中人机接口的关键技术。

一:语音识别技术发展现状-语音识别系统的分类

语音识别系统可以根据对输入语音的限制加以分类。如果从说话者与识别系统的相关性考虑,可以将识别系统分为三类:

(1)特定人语音识别系统。仅考虑对于专人的话音进行识别。

(2)非特定人语音系统。识别的语音与人无关,通常要用大量不同人的语音数据库对识别系统进行学习。

(3)多人的识别系统。通常能识别一组人的语音,或者成为特定组语音识别系统,该系统仅要求对要识别的那组人的语音进行训练。

如果从说话的方式考虑,也可以将识别系统分为三类:

(1)孤立词语音识别系统。孤立词识别系统要求输入每个词后要停顿。

(2)连接词语音识别系统。连接词输入系统要求对每个词都清楚发音,一些连音现象开始出现。

(3)连续语音识别系统。连续语音输入是自然流利的连续语音输入,大量连音和变音会出现。

如果从识别系统的词汇量大小考虑,也可以将识别系统分为三类:

(1)小词汇量语音识别系统。通常包括几十个词的语音识别系统。

(2)中等词汇量的语音识别系统。通常包括几百个词到上千个词的识别系统。

(3)大词汇量语音识别系统。通常包括几千到几万个词的语音识别系统。随着计算机与数字信号处理器运算能力以及识别系统精度的提高,识别系统根据词汇量大小进行分类也不断进行变化。目前是中等词汇量的识别系统,将来可能就是小词汇量的语音识别系统。这些不同的限制也确定了语音识别系统的困难度。

二:语音识别技术发展现状-语音识别的方法汇总分析

目前具有代表性的语音识别方法主要有动态时间规整技术(DTW)、隐马尔可夫模型(HMM)、矢量量化(VQ)、人工神经网络(ANN)、支持向量机(SVM)等方法。

动态时间规整算法(DynamicTImeWarping,DTW)是在非特定人语音识别中一种简单有效的方法,该算法基于动态规划的思想,解决了发音长短不一的模板匹配问题,是语音识别技术中出现较早、较常用的一种算法。在应用DTW算法进行语音识别时,就是将已经预处理和分帧过的语音测试信号和参考语音模板进行比较以获取他们之间的相似度,按照某种距离测度得出两模板间的相似程度并选择最佳路径。

隐马尔可夫模型(HMM)是语音信号处理中的一种统计模型,是由Markov链演变来的,所以它是基于参数模型的统计识别方法。由于其模式库是通过反复训练形成的与训练输出信号吻合概率最大的最佳模型参数而不是预先储存好的模式样本,且其识别过程中运用待识别语音序列与HMM参数之间的似然概率达到最大值所对应的最佳状态序列作为识别输出,因此是较理想的语音识别模型。

矢量量化(VectorQuanTIzaTIon)是一种重要的信号压缩方法。与HMM相比,矢量量化主要适用于小词汇量、孤立词的语音识别中。其过程是将若干个语音信号波形或特征参数的标量数据组成一个矢量在多维空间进行整体量化。把矢量空间分成若干个小区域,每个小区域寻找一个代表矢量,量化时落入小区域的矢量就用这个代表矢量代替。矢量量化器的设计就是从大量信号样本中训练出好的码书,从实际效果出发寻找到好的失真测度定义公式,设计出最佳的矢量量化系统,用最少的搜索和计算失真的运算量实现最大可能的平均信噪比。

在实际的应用过程中,人们还研究了多种降低复杂度的方法,包括无记忆的矢量量化、有记忆的矢量量化和模糊矢量量化方法。

人工神经网络(ANN)是20世纪80年代末期提出的一种新的语音识别方法。其本质上是一个自适应非线性动力学系统,模拟了人类神经活动的原理,具有自适应性、并行性、鲁棒性、容错性和学习特性,其强大的分类能力和输入—输出映射能力在语音识别中都很有吸引力。其方法是模拟人脑思维机制的工程模型,它与HMM正好相反,其分类决策能力和对不确定信息的描述能力得到举世公认,但它对动态时间信号的描述能力尚不尽如人意,通常MLP分类器只能解决静态模式分类问题,并不涉及时间序列的处理。尽管学者们提出了许多含反馈的结构,但它们仍不足以刻画诸如语音信号这种时间序列的动态特性。由于ANN不能很好地描述语音信号的时间动态特性,所以常把ANN与传统识别方法结合,分别利用各自优点来进行语音识别而克服HMM和ANN各自的缺点。近年来结合神经网络和隐含马尔可夫模型的识别算法研究取得了显著进展,其识别率已经接近隐含马尔可夫模型的识别系统,进一步提高了语音识别的鲁棒性和准确率。

支持向量机(Supportvectormachine)是应用统计学理论的一种新的学习机模型,采用结构风险最小化原理(StructuralRiskMinimization,SRM),有效克服了传统经验风险最小化方法的缺点。兼顾训练误差和泛化能力,在解决小样本、非线性及高维模式识别方面有许多优越的性能,已经被广泛地应用到模式识别领域。

三:语音识别技术发展现状-国外研究

语音识别的研究工作可以追溯到20世纪50年代AT&T贝尔实验室的Audry系统,它是第一个可以识别十个英文数字的语音识别系统。

但真正取得实质性进展,并将其作为一个重要的课题开展研究则是在60年代末70年代初。这首先是因为计算机技术的发展为语音识别的实现提供了硬件和软件的可能,更重要的是语音信号线性预测编码(LPC)技术和动态时间规整(DTW)技术的提出,有效的解决了语音信号的特征提取和不等长匹配问题。这一时期的语音识别主要基于模板匹配原理,研究的领域局限在特定人,小词汇表的孤立词识别,实现了基于线性预测倒谱和DTW技术的特定人孤立词语音识别系统;同时提出了矢量量化(VQ)和隐马尔可夫模型(HMM)理论。

随着应用领域的扩大,小词汇表、特定人、孤立词等这些对语音识别的约束条件需要放宽,与此同时也带来了许多新的问题:第一,词汇表的扩大使得模板的选取和建立发生困难;第二,连续语音中,各个音素、音节以及词之间没有明显的边界,各个发音单位存在受上下文强烈影响的协同发音(Co-articulation)现象;第三,非特定人识别时,不同的人说相同的话相应的声学特征有很大的差异,即使相同的人在不同的时间、生理、心理状态下,说同样内容的话也会有很大的差异;第四,识别的语音中有背景噪声或其他干扰。因此原有的模板匹配方法已不再适用。

实验室语音识别研究的巨大突破产生于20世纪80年代末:人们终于在实验室突破了大词汇量、连续语音和非特定人这三大障碍,第一次把这三个特性都集成在一个系统中,比较典型的是卡耐基梅隆大学(CarnegieMellonUniversity)的Sphinx系统,它是第一个高性能的非特定人、大词汇量连续语音识别系统。

关键词:语音识别

中国智能语音市场发展现状与前景潜力分析报告2023

0分享至第一章智能语音基本介绍第一节智能语音的内涵及要素一、技术内涵二、技术原理三、技术进程四、技术要素五、产品形态第二节智能语音产业链分析一、技术链条分析二、整体产业链结构三、上游结构分析四、中游结构分析五、下游结构分析第二章2020-2022年智能语音行业发展动因第一节智能语音整体发展机遇分析一、智能语音市场关注度上升二、智能语音是AI的核心技术三、智能语音成为AI2.0入口四、移动互联网实现加速发展第二节人工智能成为市场投资热点一、AI与智能语音的关系二、行业进入加速发展阶段三、各国陆续战略布局加快四、市场发展规模逐步上升五、人工智能技术发展提速六、政策环境进一步完善七、人工智能经济效益巨大第三节技术进步奠定智能语音发展基础一、深度学习研究推进二、高性能计算实现三、大数据技术进展四、语音识别率提升第三章2020-2022年智能语音行业发展分析第一节智能语音行业发展效益分析一、推动互联网繁荣发展二、提升社会的治理水平三、改变网民上网习惯四、提升公众生活便利性五、推动人工智能技术发展第二节智能语音行业发展阶段及规模一、智能语音技术成熟度二、智能语音技术应用阶段三、智能语音识别标准建设四、智能语音主要产品架构五、智能语音服务解决方案六、智能语音市场发展规模第三节智能语音市场需求分析一、智能语音成企业竞争焦点二、知识付费拉动需求上升三、智能语音助手使用频率四、疫情防控下智能语音的需求第四节地区智能语音项目发展案例一、项目基本介绍二、基础产业服务三、项目运行情况四、未来发展展望第五节智能语音变现模式分析一、移动端实现精准营销二、企业端发挥先发优势三、硬件厂商的变现入口四、智能语音变现规模预测第六节智能语音行业发展问题及对策一、企业盈利困境分析二、用户习惯仍需培养三、语音技术发展困境四、语义分析技术问题五、产品发展问题分析六、行业发展对策分析七、品牌发展建议分析第四章2020-2022年智能语音细分市场分析第一节语音识别产业发展分析一、语音识别市场发展历程二、语音识别技术规范建设三、语音识别市场主体运行四、语音识别产业市场分析五、语音识别市场前景可期第二节语音交互产业发展分析一、语音交互产业发展综况二、语音交互产业链分析三、智能语音交互国际标准四、语音交互市场竞争主体五、语音交互应用需求展望第三节智能语音芯片产业发展分析一、智能语音芯片发展阶段二、智能语音芯片产品类型三、智能语音芯片企业发展四、智能语音芯片发展趋势五、智能语音芯片投资机会六、智能语音芯片发展前景第五章2020-2022年智能语音行业竞争格局第一节智能语音行业竞争综况分析一、各国竞争格局二、市场主要参与者三、市场集中度四、企业布局重心五、产业链竞争模型第二节国际科技企业布局智能语音领域一、总体布局情况二、谷歌Google三、亚马逊Amazon四、苹果Apple五、微软Microsoft第三节互联网企业布局智能语音领域一、总体布局分布二、百度三、阿里四、腾讯第四节初创公司布局智能语音领域一、总体布局发布二、图灵机器人三、出门问问四、普强信息五、依图科技第六章智能语音核心技术的构成第一节语音识别技术一、技术内涵及分类二、技术原理分析三、技术发展历程四、识别过程分析五、语音识别系统六、技术发展难点第二节声纹识别技术一、技术内涵分析二、技术原理分析三、技术使用过程四、技术应用场景第三节语音合成技术一、技术内涵分析二、技术原理分析三、技术系统特点四、技术发展阶段五、技术发展趋势第四节语音交互技术一、技术流程分析二、技术层次分析三、关键技术分析四、技术优势分析五、技术发展变革六、典型行业应用第五节其他支持技术一、高性能计算二、芯片技术应用三、麦克风阵列技术第七章2020-2022年智能语音技术重点应用领域第一节智能语音+助手一、应用场景分析二、发展历程分析三、硬件应用产品四、应用前景展望五、应用挑战分析第二节智能语音+车载一、应用背景分析二、应用场景分析三、企业发展布局四、应用规模预测五、应用发展趋势六、应用挑战分析第三节智能语音+家居一、应用价值分析二、应用领域分析三、应用需求上升四、竞争主体布局五、应用发展方向六、应用前景分析第四节智能语音+可穿戴设备一、应用优势分析二、应用机遇分析三、企业布局动态四、智能耳机产品五、应用方向分析第五节智能语音+教育一、应用背景分析二、应用需求分析三、主要应用场景四、竞争主体布局五、应用前景展望第六节智能语音+医疗一、应用需求分析二、主要应用领域三、应用特点分析四、应用规模状况五、企业竞争布局六、重点应用方向第七节智能语音+客服一、应用场景分析二、应用优势分析三、应用阶段分析四、企业布局加快五、应用空间预测第八节智能语音+金融一、应用需求分析二、应用场景分析三、应用市场竞争第九节其他应用领域一、电子商务领域二、电子政务领域三、输入法领域四、泛传媒领域五、互联网审核领域第八章2020-2022年智能语音典型设备——智能音箱第一节智能音箱基本介绍一、智能音箱的基本功能二、智能音箱的工作原理三、智能音箱的相关技术四、智能音箱的应用优势五、智能音箱的发展历程六、智能音箱产业链分析第二节国内外智能音箱重点品牌分析一、国际智能音箱品牌二、国内智能音箱品牌三、品牌销量份额分析第三节智能音箱市场运行分析一、国际市场规模二、国内市场状况三、市场竞争格局四、产品布局特点五、市场业态拓展六、销售渠道拓展七、主要价格范围八、市场成本分布九、市场发展困境第四节智能音箱市场渗透率逐步提升一、市场发展地位夯实二、成为场景流量入口三、市场渗透率上升四、App活跃度情况五、流量变现模式探索第五节互联网企业布局动态分析一、亚马逊二、谷歌三、苹果四、小米五、百度六、阿里巴巴第六节智能音箱行业发展前景一、智能音箱发展方向二、市场价值空间广阔三、行业发展机遇及挑战第九章2019-2022年智能语音典型企业分析第一节微妙通讯公司(NuanceCommunications,Inc.)一、企业发展概况二、客户服务案例三、主要业务部门四、企业产品服务五、财务状况分析第二节科大讯飞股份有限公司一、企业发展概况二、主要业务布局三、技术实力分析四、示范平台项目五、经营效益分析六、业务经营分析七、财务状况分析八、核心竞争力分析九、公司发展战略十、未来前景展望第三节共达电声股份有限公司一、企业发展概况二、主要业务产品三、经营效益分析四、业务经营分析五、财务状况分析六、核心竞争力分析七、公司发展战略八、未来前景展望第四节歌尔股份有限公司一、企业发展概况二、主要业务分析三、经营效益分析四、业务经营分析五、财务状况分析六、核心竞争力分析七、公司发展战略八、未来前景展望第五节华闻传媒投资集团股份有限公司一、企业发展概况二、主要业务范围三、经营效益分析四、业务经营分析五、财务状况分析六、核心竞争力分析七、公司发展战略八、未来前景展望第六节云知声智能科技股份有限公司一、企业发展概况二、公司产品介绍三、企业发展模式四、企业融资动态五、产品研发动态第七节思必驰科技股份有限公司一、企业发展概况二、主要业务布局三、语音识别优势四、语音技术平台五、技术研发水平六、主要合作伙伴七、产品研发动态第八节北京捷通华声科技股份有限公司一、企业发展概况二、核心能力介绍三、主要平台分析四、智能语音方案五、智能语音产品六、系统研发动态七、客户市场覆盖第十章2020-2022年智能语音行业投资分析第一节智能语音行业投融资规模一、融资规模概述二、融资轮次分析三、主要融资事件第二节智能语音企业融资动态一、北科瑞声公司融资动态二、声必捷公司融资动态三、华控智加公司融资动态四、Disruptel公司融资动态五、普强信息公司融资动态六、友杰智新公司融资动态七、标贝科技公司融资动态八、声加科技公司融资动态第三节智能语音行业投资兼并动态一、苹果公司收购动态二、微软公司收购动态三、百度公司收购动态四、阿里巴巴收购动态五、腾讯公司收购动态第四节智能语音市场投资机会分析一、自然语言处理二、智能语音芯片三、车载语音交互第五节智能语音行业投资价值评估及建议一、投资价值综合评估二、产业生命周期判断三、行业投资壁垒分析四、行业投资风险提示五、行业投资建议分析第十一章智能语音行业发展前景及趋势预测第一节智能语音行业发展机遇及前景分析一、成为人工智能发展重点二、智能语音政策机遇分析三、智能语音未来发展前景四、智能语音细分行业展望五、智能语音助手设备预测第二节智能语音未来发展趋势分析一、整体发展方向二、场景化应用趋势三、语音生态建设趋势四、AI集成芯片应用趋势五、个性化服务将成突破点第三节2023-2028年中国智能语音行业预测分析一、2023-2028年中国智能语音行业影响因素分析二、2023-2028年中国智能音箱市场销售量预测三、2023-2028年中国智能音箱市场销售额预测四、2023-2028年中国智能语音市场规模预测图表目录图表人机对话的实现流程图表人与机器的“闻者知意”图表智能语音算法层面支撑技术分类图表智能语音技术架构图图表中国智能语音产业链图表“平台+赛道”商业模式图表人工智能行业分类图表语音是人工智能重要入口图表智能语音是人工智能三大核心基础技术之一图表智能语音占据人工智能行业的份额图表2016-2020年中国人工智能行业投融资情况图表2020年人工智能企业专利申请量前五省份图表2019-2022年中国网民规模和互联网普及率图表2019-2022年手机网民规模及其占网民比例图表语音技术的成熟度曲线图表智能语音发展应用阶段图表智能语音产品架构图表云服务部署差异图表2017-2021年中国智能语音市场规模及增速图表人工劳动力与智能语音对比图表内容爆发催生出新的音频生态模式图表智能语音变现渠道、市场空间及变现难度图表NLP分析技术图表《移动金融基于声纹识别安全应用技术规范》简介分析情况图表2021语音识别领域最具商业合作价值企业名单图表语音交互终端场景应用图表智能语音市场参与者分类图表2020年各领先企业中国智能语音市场占有率图表智能语音服务商业务布局及发展重心图表短期智能语音中下游市场波特五力模型图表全球智能语音市场主要企业布局情况图表AirPods无线智能耳机图表BAT企业在人工智能领域的布局图表初创厂商在人工智能领域的布局图表图灵机器人智能语音的商业化路径图表图灵机器人智能语音的产业布局图表出门问问智能语音的商业化路径图表出门问问智能语音的产业布局图表车载大数据应用在保险大数据分析图表依图科技智能语音应用领域(部分)图表依图科技语音内容审核服务图表智能语音背后的三类核心技术图表语音识别系统流程图表声音在数字化之后的形状图表声音观察序列图表音素划分的几个状态图表多种生物识别模式对比图表声纹识别系统原理图图表声纹识别常用算法图表VPR判断阶段图表VPR确认阶段图表语音合成技术的划分图表智能语音交互系统的技术流程图表语言交互流程示意图图表人机交互方式不断趋向人类表达本能图表人机交互技术的发展变革图表三种芯片的内部架构图表FPGA与ASIC对比图表中国智能语音助手应用场景图表语音助手发展历程图表2019年中国消费级智能硬件家族图表按钮、触控、手势及语音4种人车交互方式图表车载智能语音场景图表2018-2025年全球和中国智能网联汽车市场渗透率规模及预测图表智能语音在智能家居中的应用图表家居行业智能语音服务商竞争力榜单图表2020-2021年中国可穿戴设备主要产品出货量图表TWS蓝牙耳机与有线缆蓝牙耳机差异图表2020-2021年全球真无线耳机总出货量图表TWS耳机厂商分类图表智能语音切合可穿戴设备未来发展方向图表智能语音在教育领域的主要应用场景图表教育行业智能语音服务商竞争力榜单图表智能语音在医疗健康领域的主要应用图表中国医疗语音助理企业图谱图表中国医疗语音助理企业图谱(续)图表AI客服应用场景与参与者图表智能客服技术架构图表金融行业人工智能交互应用场景图表金融行业主要智能语音服务商竞争力分析图表电商行业智能语音服务商竞争力榜单图表智慧政府主要落地场景图表政务行业智能语音服务商竞争力榜单图表输入法中的智能语音功能图表智能语音在泛传媒领域的应用场景及应用的AI技术图表互联网音视频中的AI语音审核应用场景图表智能音箱的功能图表智能音箱构成图表智能音箱、Wifi音箱、蓝牙音箱的对比图表智能音箱产品发展历程图表智能音箱产业链结构图表智能音箱产业链相关主体图表谷歌、亚马逊和苹果公司相关智能音箱产品对比图表2021年中国智能音箱十大品牌榜单图表2019年智能音箱市场主要品牌销量份额图表2021年全球智能音箱市场出货量(按厂商划分)图表2017-2021年中国智能音箱市场全渠道推总销量图表2017-2021年智能音箱市场全渠道推总销售额图表中国智能音箱行业主要企业的基本信息图表中国智能音箱行业竞争梯队图表主流智能音箱厂商积极布局下沉市场图表2019-2021年智能音箱线上监测渠道销量图表智能音箱市场潜力渠道图表中国智能音箱市场分价格段结构图表2019年中国智能音箱成本分布图表中国智能家居从业者最看好的用户入口图表流量迁移模型及智能音箱成为家庭流量入口的优劣势分析图表2012-2019年中国智能手机与智能音箱渗透情况图表2018-2019年中国主要智能音箱App月独立设备数图表2019年中国智能音箱平台商业模式探索图表Echo智能音箱通过Alexa平台控制家庭环境内的其他智能产品图表亚马逊布局智能音箱图表GoogleNestHubMax图表HomePod智能音箱图表小米高保真智能音箱图表小度助手图表阿里巴巴智能音箱产品图表阿里巴巴天猫精灵IN糖产品参数图表智能音箱的潜在市场价值空间广阔图表智能音箱行业发展出路及困境图表2019-2020财年微妙通讯公司综合收益表图表2019-2020财年微妙通讯公司分部资料图表2019-2020财年微妙通讯公司收入分地区资料图表2020-2021财年微妙通讯公司综合收益表图表2020-2021财年微妙通讯公司分部资料图表2020-2021财年微妙通讯公司收入分地区资料图表2021-2022财年微妙通讯公司综合收益表图表2021-2022财年微妙通讯公司分部资料图表2021-2022财年微妙通讯公司收入分地区资料图表科大讯飞公司核心语音技术图表2019-2022年科大讯飞股份有限公司总资产及净资产规模图表2019-2022年科大讯飞股份有限公司营业收入及增速图表2019-2022年科大讯飞股份有限公司净利润及增速图表2021年科大讯飞股份有限公司主营业务分行业、产品、地区图表2021-2022年科大讯飞股份有限公司营业收入分行业、产品图表2020-2021年科大讯飞股份有限公司营业收入分地区图表2019-2022年科大讯飞股份有限公司营业利润及营业利润率图表2019-2022年科大讯飞股份有限公司净资产收益率图表2019-2022年科大讯飞股份有限公司短期偿债能力指标图表2019-2022年科大讯飞股份有限公司资产负债率水平图表2019-2022年科大讯飞股份有限公司运营能力指标图表共达电声公司主要产品概览图表2019-2022年共达电声股份有限公司总资产及净资产规模图表2019-2022年共达电声股份有限公司营业收入及增速图表2019-2022年共达电声股份有限公司净利润及增速图表2020-2021年共达电声股份有限公司营业收入分行业、产品、地区图表2021-2022年共达电声股份有限公司营业收入分行业、产品、地区图表2019-2022年共达电声股份有限公司营业利润及营业利润率图表2019-2022年共达电声股份有限公司净资产收益率图表2019-2022年共达电声股份有限公司短期偿债能力指标图表2019-2022年共达电声股份有限公司资产负债率水平图表2019-2022年共达电声股份有限公司运营能力指标图表2019-2022年歌尔股份有限公司总资产及净资产规模图表2019-2022年歌尔股份有限公司营业收入及增速图表2019-2022年歌尔股份有限公司净利润及增速图表2020-2021年歌尔股份有限公司营业收入分行业、产品、地区图表2021-2022年歌尔股份有限公司营业收入分行业、产品、地区图表2019-2022年歌尔股份有限公司营业利润及营业利润率图表2019-2022年歌尔股份有限公司净资产收益率图表2019-2022年歌尔股份有限公司短期偿债能力指标图表2019-2022年歌尔股份有限公司资产负债率水平图表2019-2022年歌尔股份有限公司运营能力指标图表2019-2022年华闻传媒投资集团股份有限公司总资产及净资产规模图表2019-2022年华闻传媒投资集团股份有限公司营业收入及增速图表2019-2022年华闻传媒投资集团股份有限公司净利润及增速图表2020-2021年华闻传媒投资集团股份有限公司营业收入分行业、产品图表2020-2021年华闻传媒投资集团股份有限公司营业收入分地区图表2021-2022年华闻传媒投资集团股份有限公司营业收入分行业、产品图表2021-2022年华闻传媒投资集团股份有限公司营业收入分地区图表2019-2022年华闻传媒投资集团股份有限公司营业利润及营业利润率图表2019-2022年华闻传媒投资集团股份有限公司净资产收益率图表2019-2022年华闻传媒投资集团股份有限公司短期偿债能力指标图表2019-2022年华闻传媒投资集团股份有限公司资产负债率水平图表2019-2022年华闻传媒投资集团股份有限公司运营能力指标图表云知声的合作伙伴图表思必驰主要业务布局图表思必驰公司智能语音识别率图表思必驰提供技术图表思必驰合作伙伴图表思必驰智能电梯离线语音模块图表捷通华声公司的核心能力分析图表捷通华声公司智能语音布局图表灵云语音识别技术系统图表捷通华声主要合作伙伴图表2020年中国智能语音服务商融资进程图表2020年智能语音行业融资事件汇总图表2020年智能语音行业融资事件汇总(续)图表百度投资并购部人工智能领域的收购情况图表阿里巴巴在人工智能领域的收购情况图表腾讯投资在人工智能领域的收购情况图表投资价值综合评估——智能语音图表智能语音产业相关国家政策图表智能语音未来发展趋势图表2023-2028年中国智能音箱市场销售量预测图表2023-2028年中国智能音箱市场销售额预测图表2023-2028年中国智能语音市场规模预测

特别声明:以上内容(如有图片或视频亦包括在内)为自媒体平台“网易号”用户上传并发布,本平台仅提供信息存储服务。

Notice:Thecontentabove(includingthepicturesandvideosifany)isuploadedandpostedbyauserofNetEaseHao,whichisasocialmediaplatformandonlyprovidesinformationstorageservices.

/阅读下一篇/返回网易首页下载网易新闻客户端

中国语音识别行业现状深度研究与发展前景预测报告(2023

报告大纲研究方法数据来源订购流程

语音识别是一门交叉学科。近二十年来,语音识别技术取得显著进步,开始从实验室走向市场。人们预计,未来10年内,语音识别技术将进入工业、家电、通信、汽车电子、医疗、家庭服务、消费电子产品等各个领域。语音识别听写机在一些领域的应用被美国新闻界评为1997年计算机发展十件大事之一。很多专家都认为语音识别技术是2000年至2010年间信息技术领域十大重要的科技发展技术之一。语音识别技术所涉及的领域包括:信号处理、模式识别、概率论和信息论、发声机理和听觉机理、人工智能等等。

数据显示,我国语音识别行业投融资事件数2018年达到峰值,后面一年呈现下降趋势,2019年市场回暖,投融资事件数增长至35起,2022年1-5月25日投融资事件数达13起。

资料来源:IT桔子

2021年我国语音识别行业共发生投融资事件40起,其中4月份发生的投资数量最多,达10起。其次为2月份,发生7起。

资料来源:IT桔子

2021年我国语音识别行业投融资金额共110.02亿人民币,2021年投融资金额最高的为4月份,投资金额为43.55亿人民币,占比达39.58%。其次为2月份,投资金额为21.84亿人民币,占比为19.85%。

资料来源:IT桔子

截止至2022年5月25日,语音识别行业共发生投融资事件367起,其中A轮发生的投资事件最多,数量为143起,其次为天使轮,数量为69起。

数据来源:IT桔子

2022年1-5月25日语音识别行业共发生投资事件13起,当前已披露投资金额最大的事件为Rokid若琪收到的C轮,金额为7亿人民币。

2022年1-5月25日语音识别行业投融资详情汇总

时间公司名轮次投资金额2022/05/07&AvaA轮1000万美元2022/04/19来也科技C+轮7000万美元2022/04/08LOVOA轮200万美元2022/03/28安声科技战略投资未透露2022/03/24远鉴天使轮1亿人民币2022/03/20Rokid若琪C轮7亿人民币2022/03/18Aibee爱笔智战略投资数亿美元2022/03/16蓝色脉动天使轮数百万美元2022/03/11艾利特C轮数亿人民币2022/02/21易聊科技B轮数亿人民币2022/02/21黄鹂智能天使轮千万级人民币2022/02/14智齿科技D轮1亿美元2022/01/04Videate种子轮280万美元

数据来源:IT桔子(XD)

观研报告网发布的《中国语音识别行业现状深度研究与发展前景预测报告(2022-2029年)》涵盖行业最新数据,市场热点,政策规划,竞争情报,市场前景预测,投资策略等内容。更辅以大量直观的图表帮助本行业企业准确把握行业发展态势、市场商机动向、正确制定企业竞争战略和投资策略。本报告依据国家统计局、海关总署和国家信息中心等渠道发布的权威数据,结合了行业所处的环境,从理论到实践、从宏观到微观等多个角度进行市场调研分析。

行业报告是业内企业、相关投资公司及政府部门准确把握行业发展趋势,洞悉行业竞争格局,规避经营和投资风险,制定正确竞争和投资战略决策的重要决策依据之一。本报告是全面了解行业以及对本行业进行投资不可或缺的重要工具。观研天下是国内知名的行业信息咨询机构,拥有资深的专家团队,多年来已经为上万家企业单位、咨询机构、金融机构、行业协会、个人投资者等提供了专业的行业分析报告,客户涵盖了华为、中国石油、中国电信、中国建筑、惠普、迪士尼等国内外行业领先企业,并得到了客户的广泛认可。

本研究报告数据主要采用国家统计数据,海关总署,问卷调查数据,商务部采集数据等数据库。其中宏观经济数据主要来自国家统计局,部分行业统计数据主要来自国家统计局及市场调研数据,企业数据主要来自于国家统计局规模企业统计数据库及证券交易所等,价格数据主要来自于各类市场监测数据库。本研究报告采用的行业分析方法包括波特五力模型分析法、SWOT分析法、PEST分析法,对行业进行全面的内外部环境分析,同时通过资深分析师对目前国家经济形势的走势以及市场发展趋势和当前行业热点分析,预测行业未来的发展方向、新兴热点、市场空间、技术趋势以及未来发展战略等。

【目录大纲】

第一章2018-2022年中国语音识别行业发展概述

第一节语音识别行业发展情况概述

一、语音识别行业相关定义

二、语音识别特点分析

三、语音识别行业基本情况介绍

四、语音识别行业经营模式

1、生产模式

2、采购模式

3、销售/服务模式

五、语音识别行业需求主体分析 

第二节中国语音识别行业生命周期分析

一、语音识别行业生命周期理论概述

二、语音识别行业所属的生命周期分析

第三节语音识别行业经济指标分析

一、语音识别行业的赢利性分析

二、语音识别行业的经济周期分析

三、语音识别行业附加值的提升空间分析

第二章2018-2022年全球语音识别行业市场发展现状分析

第一节全球语音识别行业发展历程回顾

第二节全球语音识别行业市场规模与区域分布情况

第三节亚洲语音识别行业地区市场分析

一、亚洲语音识别行业市场现状分析

二、亚洲语音识别行业市场规模与市场需求分析

三、亚洲语音识别行业市场前景分析

第四节北美语音识别行业地区市场分析

一、北美语音识别行业市场现状分析

二、北美语音识别行业市场规模与市场需求分析

三、北美语音识别行业市场前景分析

第五节欧洲语音识别行业地区市场分析

一、欧洲语音识别行业市场现状分析

二、欧洲语音识别行业市场规模与市场需求分析

三、欧洲语音识别行业市场前景分析

第六节2022-2029年世界语音识别行业分布走势预测

第七节2022-2029年全球语音识别行业市场规模预测

第三章中国语音识别行业产业发展环境分析

第一节我国宏观经济环境分析

一、中国GDP增长情况分析

二、工业经济发展形势分析

三、社会固定资产投资分析

四、全社会消费品零售总额

五、城乡居民收入增长分析

六、居民消费价格变化分析

七、对外贸易发展形势分析

第二节我国宏观经济环境对语音识别行业的影响分析

第三节中国语音识别行业政策环境分析

一、行业监管体制现状

二、行业主要政策法规

三、主要行业标准

第四节政策环境对语音识别行业的影响分析

第五节中国语音识别行业产业社会环境分析 

第四章中国语音识别行业运行情况

第一节中国语音识别行业发展状况情况介绍

一、行业发展历程回顾

二、行业创新情况分析

三、行业发展特点分析

第二节中国语音识别行业市场规模分析

一、影响中国语音识别行业市场规模的因素

二、中国语音识别行业市场规模

三、中国语音识别行业市场规模解析

第三节中国语音识别行业供应情况分析

一、中国语音识别行业供应规模

二、中国语音识别行业供应特点

第四节中国语音识别行业需求情况分析

一、中国语音识别行业需求规模

二、中国语音识别行业需求特点

第五节中国语音识别行业供需平衡分析

第五章中国语音识别行业产业链和细分市场分析

第一节中国语音识别行业产业链综述

一、产业链模型原理介绍

二、产业链运行机制

三、语音识别行业产业链图解

第二节中国语音识别行业产业链环节分析

一、上游产业发展现状

二、上游产业对语音识别行业的影响分析

三、下游产业发展现状

四、下游产业对语音识别行业的影响分析

第三节我国语音识别行业细分市场分析

一、细分市场一

二、细分市场二

第六章2018-2022年中国语音识别行业市场竞争分析

第一节中国语音识别行业竞争现状分析

一、中国语音识别行业竞争格局分析

二、中国语音识别行业主要品牌分析

第二节中国语音识别行业集中度分析

一、中国语音识别行业市场集中度影响因素分析

二、中国语音识别行业市场集中度分析

第三节中国语音识别行业竞争特征分析

一、企业区域分布特征

二、企业规模分布特征

三、企业所有制分布特征

第七章2018-2022年中国语音识别行业模型分析

第一节中国语音识别行业竞争结构分析(波特五力模型)

一、波特五力模型原理

二、供应商议价能力

三、购买者议价能力

四、新进入者威胁

五、替代品威胁

六、同业竞争程度

七、波特五力模型分析结论

第二节中国语音识别行业SWOT分析

一、SOWT模型概述

二、行业优势分析

三、行业劣势

四、行业机会

五、行业威胁

六、中国语音识别行业SWOT分析结论

第三节中国语音识别行业竞争环境分析(PEST)

一、PEST模型概述

二、政策因素

三、经济因素

四、社会因素

五、技术因素

六、PEST模型分析结论

第八章2018-2022年中国语音识别行业需求特点与动态分析

第一节中国语音识别行业市场动态情况

第二节中国语音识别行业消费市场特点分析

一、需求偏好

二、价格偏好

三、品牌偏好

四、其他偏好

第三节语音识别行业成本结构分析

第四节语音识别行业价格影响因素分析

一、供需因素

二、成本因素

三、其他因素

第五节中国语音识别行业价格现状分析

第六节中国语音识别行业平均价格走势预测

一、中国语音识别行业平均价格趋势分析

二、中国语音识别行业平均价格变动的影响因素

第九章中国语音识别行业所属行业运行数据监测

第一节中国语音识别行业所属行业总体规模分析

一、企业数量结构分析

二、行业资产规模分析

第二节中国语音识别行业所属行业产销与费用分析

一、流动资产

二、销售收入分析

三、负债分析

四、利润规模分析

五、产值分析

第三节中国语音识别行业所属行业财务指标分析

一、行业盈利能力分析

二、行业偿债能力分析

三、行业营运能力分析

四、行业发展能力分析

第十章2018-2022年中国语音识别行业区域市场现状分析

第一节中国语音识别行业区域市场规模分析

一、影响语音识别行业区域市场分布的因素

二、中国语音识别行业区域市场分布

第二节中国华东地区语音识别行业市场分析

一、华东地区概述

二、华东地区经济环境分析

三、华东地区语音识别行业市场分析

(1)华东地区语音识别行业市场规模

(2)华南地区语音识别行业市场现状

(3)华东地区语音识别行业市场规模预测

第三节华中地区市场分析

一、华中地区概述

二、华中地区经济环境分析

三、华中地区语音识别行业市场分析

(1)华中地区语音识别行业市场规模

(2)华中地区语音识别行业市场现状

(3)华中地区语音识别行业市场规模预测

第四节华南地区市场分析

一、华南地区概述

二、华南地区经济环境分析

三、华南地区语音识别行业市场分析

(1)华南地区语音识别行业市场规模

(2)华南地区语音识别行业市场现状

(3)华南地区语音识别行业市场规模预测

第五节华北地区语音识别行业市场分析

一、华北地区概述

二、华北地区经济环境分析

三、华北地区语音识别行业市场分析

(1)华北地区语音识别行业市场规模

(2)华北地区语音识别行业市场现状

(3)华北地区语音识别行业市场规模预测

第六节东北地区市场分析

一、东北地区概述

二、东北地区经济环境分析

三、东北地区语音识别行业市场分析

(1)东北地区语音识别行业市场规模

(2)东北地区语音识别行业市场现状

(3)东北地区语音识别行业市场规模预测

第七节西南地区市场分析

一、西南地区概述

二、西南地区经济环境分析

三、西南地区语音识别行业市场分析

(1)西南地区语音识别行业市场规模

(2)西南地区语音识别行业市场现状

(3)西南地区语音识别行业市场规模预测

第八节西北地区市场分析

一、西北地区概述

二、西北地区经济环境分析

三、西北地区语音识别行业市场分析

(1)西北地区语音识别行业市场规模

(2)西北地区语音识别行业市场现状

(3)西北地区语音识别行业市场规模预测

第十一章语音识别行业企业分析(随数据更新有调整)

第一节企业

一、企业概况

二、主营产品

三、运营情况

1、主要经济指标情况

2、企业盈利能力分析

3、企业偿债能力分析

4、企业运营能力分析

5、企业成长能力分析

四、公司优势分析

第二节企业

一、企业概况

二、主营产品

三、运营情况

四、公司优劣势分析

第三节 企业

一、企业概况

二、主营产品

三、运营情况

四、公司优势分析

第四节 企业

一、企业概况

二、主营产品

三、运营情况

四、公司优势分析

第五节 企业

一、企业概况

二、主营产品

三、运营情况

四、公司优势分析

第六节 企业

一、企业概况

二、主营产品

三、运营情况

四、公司优势分析

······

第十二章2022-2029年中国语音识别行业发展前景分析与预测

第一节中国语音识别行业未来发展前景分析

一、语音识别行业国内投资环境分析

二、中国语音识别行业市场机会分析

三、中国语音识别行业投资增速预测

第二节中国语音识别行业未来发展趋势预测

第三节中国语音识别行业规模发展预测

一、中国语音识别行业市场规模预测

二、中国语音识别行业市场规模增速预测

三、中国语音识别行业产值规模预测

四、中国语音识别行业产值增速预测

五、中国语音识别行业供需情况预测

第四节中国语音识别行业盈利走势预测

第十三章2022-2029年中国语音识别行业进入壁垒与投资风险分析

第一节中国语音识别行业进入壁垒分析

一、语音识别行业资金壁垒分析

二、语音识别行业技术壁垒分析

三、语音识别行业人才壁垒分析

四、语音识别行业品牌壁垒分析

五、语音识别行业其他壁垒分析

第二节语音识别行业风险分析

一、语音识别行业宏观环境风险

二、语音识别行业技术风险

三、语音识别行业竞争风险

四、语音识别行业其他风险

第三节中国语音识别行业存在的问题

第四节中国语音识别行业解决问题的策略分析

 

第十四章2022-2029年中国语音识别行业研究结论及投资建议

第一节观研天下中国语音识别行业研究综述

一、行业投资价值

二、行业风险评估

第二节中国语音识别行业进入策略分析

一、目标客户群体

二、细分市场选择

三、区域市场的选择

第三节语音识别行业营销策略分析

一、语音识别行业产品策略

二、语音识别行业定价策略

三、语音识别行业渠道策略

四、语音识别行业促销策略

第四节观研天下分析师投资建议

研究方法报告主要采用的分析方法和模型包括但不限于:-波特五力模型分析法-SWOT分析法-PEST分析法-图表分析法-比较与归纳分析法-定量分析法-预测分析法-风险分析法……报告运用和涉及的行业研究理论包括但不限于:-产业链理论-生命周期理论-产业布局理论-进入壁垒理论-产业风险理论-投资价值理论……数据来源报告统计数据主要来自国家统计局、地方统计局、海关总署、行业协会、工信部数据等有关部门和第三方数据库;部分数据来自业内企业、专家、资深从业人员交流访谈;消费者偏好数据来自问卷调查统计与抽样统计;公开信息资料来自有相关部门网站、期刊文献网站、科研院所与高校文献;其他数据来源包括但不限于:联合国相关统计网站、海外国家统计局与相关部门网站、其他国内外同业机构公开发布资料、国外统计机构与民间组织等等。订购流程

1.联系我们

方式1:电话联系

拔打观研天下客服电话400-007-6266(免长话费);010-86223221

方式2:微信或QQ联系,扫描添加“微信客服”或“客服QQ”进行报告订购

微信客服

客服QQ:1174916573

方式3:邮件联系

发送邮件到sales@chinabaogao.com,我们的客服人员及时与您取得联系;

2.填写订购单

您可以从报告页面下载“下载订购单”,或让客服通过微信/QQ/邮件将报告订购单发您;

3.付款

通过银行转账、网上银行、邮局汇款的形式支付报告购买款,我们见到汇款底单或转账底单后,1-2个工作日内会发送报告;

4.汇款信息

账户名:观研天下(北京)信息咨询有限公司

账 号:11001016100053043375

开户行:中国建设银行北京房山支行

更多好文每日分享,欢迎关注公众号

【版权提示】观研报告网倡导尊重与保护知识产权。未经许可,任何人不得复制、转载、或以其他方式使用本网站的内容。如发现本站文章存在版权问题,烦请提供版权疑问、身份证明、版权证明、联系方式等发邮件至kf@chinabaogao.com,我们将及时沟通与处理。

版权声明:本文内容由互联网用户自发贡献,该文观点仅代表作者本人。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如发现本站有涉嫌抄袭侵权/违法违规的内容,一经查实,本站将立刻删除。

上一篇

下一篇