博舍

带你了解语音识别技术的发展历史 语音识别技术发展历程

带你了解语音识别技术的发展历史

作者|杨军,单位:中国移动雄安产业研究院

Labs导读语音识别相信大家并不陌生,近些年来语音识别技术的应用层出不穷,同时也更加智能。从开始我们简单的询问“你是谁”,到现在可以与我们进行多轮对话,理解我们的意思甚至是心情,语音识别已经实现了长足的发展。可能大多数人觉得语音识别是近些年才出现的技术,其实不然,下面让我们一起从语音技术的历史展开来看。

Part01  语音识别近70年发展史1952年,贝尔实验室发明了自动数字识别机,科学家对智能语音有了模糊的概念,可能这时科学家们就已经在畅想我们如今实现的这一切。

1964年,IBM在世界博览会上推出了数字语音识别系统,语音技术也自此走出了实验室,为更多人知晓,贝尔实验室的梦想也变成了更多人的梦想。

1980年,声龙推出了第一款语音识别产品DragonDictate,这是第一款面向消费者的语音识别产品。虽然梦想第一次照进了现实,但其高达9000美元的售价,很大程度增加了智能语音技术的普及难度。

1997年,IBM推出它的第一个语音识别产品ViaVoice。在中国市场,IBM适配了四川、上海、广东等地方方言,ViaVoice也真正的为更多消费者接触、使用到。

2011年,苹果首次在iphone4s上加入智能语音助手Siri。至此,智能语音与手机深度绑定,进入广大消费者的日常生活。随后国内各大手机厂商也先后跟进,为手机消费者提供了五彩缤纷的语音识别功能。

此后,语音识别技术的应用,并没有局限于手机,而是扩展到了各种场景。从各种智能家居,如智能机器人、智能电视、智能加湿器等,到现在智能汽车,各大传统厂商以及造车新势力纷纷积极布局智能座舱。可见智能语音技术已经在我们的衣食住行各个方面得到了广泛应用。

Part02语音识别技术简介语音识别技术,也被称为自动语音识别(AutomaticSpeechRecognition,ASR),其目标是将人类的语音中的词汇内容转换为计算机可读的输入。语音识别技术属于人工智能方向的一个重要分支,涉及许多学科,如信号处理、计算机科学、语言学、声学、生理学、心理学等,是人机自然交互技术中的关键环节。

Part03  语音识别基本流程

ASR:指自动语音识别技术(AutomaticSpeechRecognition),是一种将人的语音转换为文本的技术。

NLU:自然语言理解(NaturalLanguageUnderstanding,NLU)是所有支持机器理解文本内容的方法模型或任务的总称。

NLG:自然语言生成(NaturalLanguageGeneration,NLG)是一种通过计算机在特定交互目标下生成语言文本的自动化过程,其主要目的是能够自动化构建高质量的生成人类能够理解的语言文本。

上图展示了一个语音识别的基本流程,用户发出指令后,mic收集音频,完成声音到波形图的转换,通过波形图与人类发音的波形图做对比,可以识别出说的具体音节,通过音节,组合成词、句子,再结合大数据分析出说的最匹配的话,然后NLU模块开始工作,分析出这句话的意图(intent)、域(Domain)等各种信息。分析出意图后开始对话管理DM(DialogManager),通过后台数据查询应该给用户什么反馈。然后交给NLG模块,通过查出来的信息,生成自然语言,最后通过TTS模块,将文字转回成波形图并播放声音。

上面的流程涉及到的学科、知识都比较多,由于篇幅原因,不一一展开描述,在这里我节选出ASR来进行相对详细些的学习。

Part04ASR实现原理简单剖析我们首先从ASR声音源来看,当一位用户发出指令,比如说:我爱你。这时麦克风会收集音频到存储设备。我们通过音频处理软件(如Audacity)打开后可以发现音频是一段波形图。

但是这段波形图并没有什么直观的有意义的信息,它的高低只代表了声音的大小,横轴也仅仅是时间。语音识别本身是基于大数据的分析技术,分析的基础是数据的准确,声音大小和发音的时间长短很难有什么统计学的意义,所以此时我们需要对音频进行处理。(这段波形图是四句我爱你的波形图)。

处理的一种常用方法是傅里叶变换,通过傅里叶变换,我们可以将时间维度的波形图,转换成频率维度的波形图。

为什么要处理成频率的维度呢?

因为我们都知道,人类发出的声音,能听到的声音大概在一个频段内。这涉及到生物学、声学的知识,我们人类的身体构造大致相同,这里想当然一下,尽管有个体差异、有性别差异,我们发出的声音的频率相差不会很大。这样我们就把没有统计意义的声音波形图处理成了频率图。

但是我们的时间维度也不能丢掉,我们在将声音分割之后(这里涉及到声音预处理、分帧等知识,暂不展开),可以根据本地的声学模型做比对,看每一帧时间内发出的音素是什么。中文的话,音素指的是我们发音的一个字母,比如“我”由两个音素组成:w和o。

到现在我们知道了如何将声音从音频文件处理成音素。之后再通过语言学、统计学等技术,结合具体语境,将音素组合成词,将词组成句子,从而识别出用户说的语句,ASR大致流程就完成了。

上面的方式其实属于语音识别各种技术中较为简单的一部分,在实际应用中可能还包括各种各样的技术,比如声学特征提取的MFCC方式、上面声音预处理的降噪、分帧、加窗、端点检测等技术。

Part05 语音识别及相关技术展望和我们能做的事情 随着硬件技术提升、5G技术普及,我们可以在后端对海量的数据进行处理,依靠5G技术的稳定和低时延,为用户提供更可靠、顺畅的服务,可以预见在不久的将来,语音识别及其相关技术必将更加智能、更加稳定。中国移动作为国内拥有绝对用户基础数量优势的电信运营商,可以依靠5G优势、规模优势为用户提供更好的服务,为智慧城市提供有力的保障,为国家发展作出更多的贡献。

【行业洞察】AI语音识别行业发展研究报告

导言:

2020年11月,云知声向上交所递交了招股书,抱着成为“国内AI语音第一股”的决心冲刺科创板。2021年2月19日,上交所发布了《关于终止对云知声智能科技股份有限公司首次公开发行股票并在科创板上市审核的决定》(以下简称《决定》),《决定》中提到云知声主动撤回科创板申请。云知声终止科创板上市审核并给出官方解释:“撤回申请是出于公司战略发展因素考虑,公司并不会放弃IPO,未来会适时考虑重启IPO的计划。”

云知声作为国内最有可能在AI语音赛道上追赶人工智能及语音识别领域中科大讯飞霸主地位的“独角兽”,其背后作为“推手”的投资机构有着不可忽视的重要作用。云知声利用机器学习平台,在语音技术、语言技术、知识计算、大数据分析等领域构建了完整的人工智能技术图谱,同时云知声也是国内人工智能创业公司里实现商业化落地最好的公司之一。产业+资本的结合赋予了云知声高速发展的可能性。

本报告从投融资角度着手,按照行业投资环境、行业投资现状、行业投资竞争格局及行业投资未来发展趋势等四个板块概括性的分析云知声所在的语音识别领域,简单解构该行业的投融资活动。

1

概述

语音识别是发展未来人工智能的重要组成部分之一,是达到人机交互目的第一步。语音识别技术简单来说指的是机器或程序完成接受口令、解释声音含义、理解和执行口头指令所需的技术。在当下智能时代,智能终端的应用普及面越来越广,相应的越来越多的场景在设计个性化的人机交互界面时,以对话为主的交互形式。而一个完整的对话交互是由过程是由“输入—分析—输出”三个环节共同组成一个闭环。其中,“输入”需要语音识别(AutomaticSpeechRecognition,ASR)技术;“分析”需要自然语言处理(NaturalLanguageProcessing,NLP)技术;“输出”需要语音合成(TextToSpeech,TTS)技术。其中,“分析”环节由编码和解码组成,编码主要用于对输入内容的特征进行提取;解码则是通过声学模型和语言模型进行解析。语音识别技术是对话交互的开端,是保证对话交互高效准确进行的基础。

语音识别技术自20世纪50年代开始步入萌芽阶段,发展至今,主流算法模型已经经历了四个阶段:包括模板匹配阶段、模式和特征分析阶段、概率统计建模阶段和现在主流的深度神经网络阶段。目前,语音识别主流厂商主要使用端到端算法,在理想实验环境下语音识别准确率可高达98%以上。

2

行业投资环境

2.1行业政策环境

人工智能发展水平一定程度上体现了各国最高的科技水平。考虑到人工智能发展对于国家经济发展的重要性,中国政府已针对人工智能行业颁布了多项国家层面的发展政策,自2017年以来人工智能行业已经连续三年被写入《全国政府工作报告》内。具体支持政策包括项目发展基金、人才引进政策及其他国家扶持政策。目前,语音识别技术属于中国AI领域中最为成熟落地的技术之一,在国家政策的强力扶持下,预计未来能够加速在垂直行业的渗透和布局。

同时,在“十四五”的大背景和智能经济形态下,各省市响应中央号召,已有多个省市相继发布人工智能相关规划或专项政策,以人工智能为技术手段,发挥当地产业集群优势,促进产学研融合及协同发展。具体如下:

表1:语音识别相关政策汇总

信息来源:融中研究整理汇总

2.2行业发展现状

中国AI语音识别市场参与者众多,主要分为上游、中游、下游。

表2:语音识别产业链分析

信息来源:融中研究整理汇总

上游分析:底层技术提供强力支持——语音识别解码过程中包含了升学模型和语言模型的识别建模和模型训练两个部分。在运行过程中训练数据量和计算量需求极大,传统的CPU或者单一处理器几乎无法快速单独完成一个完整的模型训练过程,主要原因在于CPU内部仅含有少量的逻辑单元,且指令执行是逐一进行的串行计算,使用该架构进行语音识别运算的处理时间过长,无法满足海量数据计算的实时性需求。因此,能提供海量数据处理、存储以及高性能运算能力的云计算技术成为语音识别行业的应用热点。目前,主流语音识别公司的模拟训练和语音识别基本都在云端采用GPU(图形处理器)并行架构或异构计算方案进行。

中游分析:语音技术持续升级——语音是被的中游主要为将语音识别技术实现商业化落地的硬件及软件服务供应商。根据终端消费者类型,语音识别的中游厂商主要可以分为消费级市场和专业级市场,其中消费级市场中的主要语音识别产品包括消费级智能硬件、智能音箱及语音输入法等,专业级市场的语音识别产品则主要以行业解决方案和平台化技术输出两种形式呈现,其中更为垂直落地的解决方案形式在目前专业级商业化收入市场中占比更高。目前,智能语音开放平台在智能语音市场中收入占比较小的原因是,以阿里、百度及科大讯飞为首的各大厂商为加速AI语音技术对下游应用场景的渗透,采用多种优惠甚至免费形式向开发者提供语音识别服务,希望将语音识别技术应用在更多软件及场景中,与广大开发者携手建立一个完整的AI产业生态圈。

下游分析:行业应用多样化——语音识别作为AI交互的重要入口,在人工智能领域属于最重要和发展最为成熟的技术之一,目前已经以多种商业化形式广泛应用于下游市场。从应用领域来看,目前消费级市场主要应用于智能硬件、智能家居、智慧教育、车载系统等领域,专业级市场主要应用于医疗、公检法、教育、客服、语音审核等领域。广泛的应用领域也就意味着更多元化的使用场景,然而目前的语音技术对于使用场景具有较强的限制性。尽管快速更新迭代的神经网络结构已经将安静环境下的近场语音识别的错误率降低至3%以下,但现实环境中多数应用场景无法满足理想的环境条件,因此在进行语音识别时需要同时考虑到各种噪声、信道等因素。为使语音识别技术在更广泛的使用场景下保持良好的表现,AI语音厂商需要提供硬件与软件协同的一站式服务,并根据用户实际痛点进行针对性优化,从而有效提升在多元下游场景下语音识别的渗透率。

2.3行业竞争格局

中国AI语音识别主流厂商按照其属性可分为IT及互联网厂商、语音技术厂商两类。

IT及互联网厂商:IT及互联网厂商包括百度、阿里巴巴、腾讯、搜狗、小米等厂商。凭借在互联网时代积累的大量资本,IT及互联网厂商在众多科技领域成为了主要参与者。与依靠人工智能技术起家的AI垂直类企业不同,IT及互联网厂商侧重以流量导向和满足庞大用户群体验和创新需求为导向去做AI开发,更多以流量和用户体验为导向,同时,会比传统的语音技术厂商更加注重创新实践。

语音技术厂商:语音技术厂商也可以分为传统语音技术厂商和创业厂商、传统语音技术厂商包括科大讯飞、小i机器人、捷通华声等拥有自己的核心智能语音芯片以及语音相关软件系统的厂商,创业厂商包括云知声、思必驰、出门问问等专注于某些垂直领域(如汽车、家电等)来推广自己的语音技术和产品的厂商。

综合来说,在中国AI语音识别领域,阿里巴巴、科大讯飞、百度、腾讯均有着强劲的竞争力。

阿里巴巴:阿里智能语音交互服务是业内领先的云原生语音服务平台,对阿里集团内服务于超过99%语音场景,对外也提供各类云上语音产品。根据阿里巴巴企业年报来看,阿里巴巴在语音识别领域涉及情况如下:

(1)在语音识别全产业链方面,阿里云上语音技术在大量数据积累、算法积累、工程积累和阿里达摩研究院技术同步上云的成果加持下,极大提升了语音交互的准确率和性能。阿里智能语音交互技术已解锁并成熟布局于多个场景中,包括智能客服、智能质检、法庭庭审实时记录、实施演讲字幕、访谈录音转写、声纹登录、设备端语音交互等场景,在政务、金融、物流、教育、电商、泛互联网、医疗、餐饮等多个领域均有应用案例以及大量的客户积累。

(2)在市场方面,目前阿里智能语音分别在电话客服和法院语音识别的市场都占有领先的位置。阿里语音AI技术能在多个领域快速落地,占领市场并成为行业客户认知度前列的云上语音技术厂商,关键因素之一是与大量的独立软件开发商结成了阿里语音AI产业联盟。

(3)在企业经营和战略方面,阿里云在基建技术的布局规划方面,将继续加大投入对云操作系统、服务器、芯片、网络等核心技术的研发,为语音AI与云的结合带来更具想象力的引用场景和价值空间。

(4)在创新方面,阿里重视对技术的研发投入和对行业的贡献,其职能语音核心技术能力是下一代端到端语音识别技术SCAMA、SAN-M技术和DFSMN技术,这几种技术都是业界首次在非科研领域的应用并获得成功,使得整体语音交互技术的准确率在高并发的情况下获得独特优势。同时DFSMN也已经面向全行业开源,为行业整体技术提升做贡献。另外,阿里在业内率先推出的自学习平台也改变了语音AI生产关系,即使行业实践者没有很多语音领域的专业知识,也能够通过阿里云自学习产品灌入行业内的数据和知识就能够获得所在行业不错的语音交互效果。

(5)在客户服务方面,阿里智能语音最为主要的商业策略就是为其合作伙伴提供语音原子能力、多个领域开箱即用模型和自学习平台,赋予了消费端产品“能说、会说、懂你”式的智能人机交互体验,在将阿里云智能语音领先技术赋能于产业联盟企业的同时,构建了一个更为完整和繁荣的AI语音应用生态、普惠市场。

科大讯飞:科大讯飞是国内领先的智能语音技术主要提供商之一,在语音识别等智能语音技术领域拥有国际先进的成果,主要业务包含智能语音和语言技术研究、软件及芯片产品开发、语音信息服务及电子政务系统集成,为企业、政府和个人提供智能应用。科大讯飞技术优势在同行业中出众,拥有自主知识产权的只能语音技术,推出覆盖大型电信级应用到小型嵌入式应用以及满足不同应用环境的软硬件产品。科大讯飞在中文语音技术市场和语音合成产品市场都占有较大份额,应用与电信、金融、电力、社保等主流行业。科大讯飞结合自己核心的只能语音技术和人工智能的研究,已经实现AI产品化的布局。在ToB端,科大讯飞面向教育、政法、医疗、汽车和客服等多个行业提供相应的解决方案。在ToC端,科大讯飞提供面向消费者的家庭、汽车、翻译等消费级个人,包括硬件产品如讯飞学习机、讯飞翻译机、智能办公本等,以及软件产品如讯飞输入法、AI电视助手等。

百度:百度在AI开放平台上提供语音识别的技术,共享AI领域的应用场景和解决方案。提供产品包括短语音识别、实时语音识别、远场语音识别、音频文件转写、语音自训练平台等,应用于手机应用如语音输入、机器人对话、语音内容分析和实时语音转写等场景。百度的语音识别技术优势在于领先的语音识别技术,提供自助训练专属模型,可简单快速地接入API及多种SDK接口,提供稳定性保障,且收取费用较低。

腾讯:腾讯云语音识别目前主要应用于微信、王者荣耀、腾讯视频等内部业务使用,外部应用布局于录音质检、会议实时转写、法庭及审讯记录、语音输入法等场景。技术提供主要功能为开放实时语音识别、一句话识别和录音文件识别,支持云端和嵌入式两种服务模式。腾讯云语音识别的主要优势在于有大量的用户基础和数据积累可应用于丰富的行业场景,收费价格较低,自准率高达97%,支持多语言识别能力,有领先的算法。

3

行业投资现状

国内的人工智能产业发展相较于国外厂商发展较晚,2011年中国的人工智能企业方才展露出些许发展趋势。随着全球人工智能技术的日益成熟,国家政策支持力度的逐步加大,国内投资环境的不断优化,中国人工智能产业趁着时代的风口发展迅猛,如今已是百家争鸣的阶段。其中,除了互联网巨头企业在早期就提前布局,初创型中小企业亦紧跟脚步积极加入到人工智能产业市场。截止到本报告期,参与到人工智能产业的公司共计3199家,投资事件达4447件,总投资金额15151亿人民币,投融资概览如下:

表3:2012-2021年2月人工智能产业投融资情况

信息来源:融中研究整理汇总

语音识别作为人工智能产业中极其重要的一个组成部分,担任着人机交互应用时的输入和输出接口,也相应的受到产业风口的影响,受到一众投资机构的追捧。2017-2021年2月,参与到语音识别行业的投资事件达143件,投资金额达170.77亿人民币。从数据可以看出,语音识别相关公司在2018年获得的投资额及投资事件数达到一次爆发,分别达到62.3亿人民币、55次投资。随后在2019年至2020年,投资活动相对平稳。

表4:2017-2021年2月语音识别产业投融资情况

信息来源:融中研究整理汇总

从投资轮次来看,A轮阶段的语音识别企业更受资本方的青睐,投资额达50.24亿人民币,投资事件达65次;其次,B、C、D、E轮次的投资相对平均;值得一提的是对于早期项目,投资机构虽然单笔投资金额较少,但投资事件相对较高,达24次。按照语音识别产业分轮次投融资占比来看,行业中吸引了绝大部分资金的企业基本上都聚集在A、B、C轮。

表5:2017-2021年2月语音识别产业分轮次投融资情况

信息来源:融中研究整理汇总

表6:2017-2021年2月语音识别产业分轮次投融资占比情况

信息来源:融中研究整理汇总

从语音识别产业内企业产品/服务应用方向来看,主要分为技术服务(行业解决方案)、教育、汽车交通、新工业、智能硬件、医疗、金融等几个分类。其中,最为获得投资机构青睐的是技术服务方向的语音识别企业,占据了投资金额及投资事件数的绝大部分,分别为116.49亿人民币、89次投资。值得一提的是,语音识别技术应用于汽车交通行业所获得的投资件数虽然仅有4次,但单笔投资金额却是最高的。

表7:2017-2021年2月语音识别产业分行业投融资情况

信息来源:融中研究整理汇总

表8:2017-2021年2月语音识别产业分行业投融资占比情况

信息来源:融中研究整理汇总

4

行业投资竞争格局

由于语音识别属于人工智能领域,自然也获得了不少头部投资机构的关注。通过整理数据了解到,主要投向语音识别行业的投资机构大体上可分为三类。第一类为专注于投资工智能领域下细分赛道的精品投资机构,如创新工场、联想之星、线性资本、创势资本、金沙江创投等。第二类是专业投资机构,如深创投、红杉资本、经纬中国、高瓴资本等投资面向多个专业领域的综合型全领域投资机构。第三类为公司本身主要业务内容涵盖了语音识别技术的行业龙头企业,如科大讯飞、百度、阿里巴巴、腾讯、奇虎360等。

经过融中研究统计整理,2013-2020年我国AI语音识别领域投资机构的主要投资阶段分布情况如下:

表9:AI语音识别细分领域投资机构的主要投资阶段分布

联想之星作为联想控股的早期投资和孵化板块,植根联想30余年来的创业经验和资源积累,为创业者提供天使投资+深度孵化的特色服务,主要投资于TMT、医疗健康两大领域,积极布局人工智能、智能机器、互联网改造传统产业、生物技术、医疗器械等前沿领域。联想之星创立于2008年,目前在管资本总额约35亿人民币,历史投资277家TMT、医疗器械领域优质企业,9家完成退出工作。在语音识别领域,联想之星共投出11家产业上下游企业,是该投资该领域的排头兵。

创新工场是一家早期投资机构,同时为创业者提供全方位的创业服务。创新工场的投资方向立足于信息产业最热门的领域,也包括人工智能领域。主要涉足的投资阶段为:种子轮、天使轮和A轮,B轮会有选择的进行跟投。创新工场共管理6支基金,管理的资产规模达110亿元人民币,历史投资539家信息产业企业,25家完成退出。在语音识别领域,创新工场领投了追一科技的B轮融资以及跟投C轮;参与ImageDT图匠数据的Pre-A轮融资。

科大讯飞是国内领先的智能语音技术主要提供商之一,在语音识别等智能语音技术领域拥有国际先进的成果,主要业务包含智能语音和语言技术研究、软件及芯片产品开发、语音信息服务及电子政务系统集成,为企业、政府和个人提供智能应用。科大讯飞在中文语音技术市场和语音合成产品市场都占有较大份额,应用与电信、金融、电力、社保等主流行业。科大讯飞结合自己核心的只能语音技术和人工智能的研究,已经实现AI产品化的布局。因此,科大讯飞作为行业内的龙头企业,同时站在战略投资的角度大力布局人工智能领域的优质企业,对外投资共计37.91亿元,投资事件80次,目前已有5家被投企业完成退出(包括IPO退出)。科大讯飞主要投资了近屿智能、叮咚音响、奇智企业三个企业,分别所属轮次为天使轮、A轮、天使轮。

5

行业投资未来发展趋势

语音识别是指让机器将人类语言转化为文字或命令的AI技术。可广泛应用于文字输入、社交软件、车载语音、智能家居等领域。受益于大数据、人工智能等技术不断进步,我国语音识别行业在识别的准确性与速度等方面不断提高,下游应用范围不断扩大。根据新思界产业研究数据显示,2018年-2020年,我国语音识别市场规模由62亿元增长至350亿元,年均复合增长率达到39.59%。

当前国内语音识别市场已经被领先企业所抢占,新进入者发展较为困难。语音识别行业属于资金与技术密集型行业,大型企业在数据库搭建、试验布局等方面实力明显强于中小型企业。除科大讯飞、搜狗外,百度、阿里、腾讯等互联网巨头也纷纷进入布局,此外,思必驰、云知声、出门问问等创业公司也先后进场,使得行业内企业数量不断增多。经过快速扩张,国内语音识别市场主要被大型企业所占据,市场格局趋于稳定。我国流向语音识别领域的资本也在逐步向大型企业靠拢,语音识别行业呈现出“强者愈强、弱者愈弱”的发展状态。其中科大讯飞、搜狗、百度在输入法领域处于主导地位;社交软件领域主要由腾讯占据了绝对的市场;云知声在智能电子、智能家居领域布局较为完善;思必驰在车载语音、智能机器人等领域发展较好;出门问问在智能手表领域发展较快。

投资机构想要在语音识别领域对初创型企业或中小型企业进行投资,尚有一定难度。如果被投企业在技术上没有突破性进展,难以打破现有市场格局,竞争压力将日益增大。但现今国内从智能机器人到智能语音助手,随着技术的提升,应用场景的增多,人工智能行业已经开始展露头角。同时,众多机构对其未来发展依然保持着极大的信心。智能语音市场按客户类型可分为2C或2B2C的消费级市场和2B的专业级市场。消费级市场应用于衣食住行等生活场景,主要包括智能家居、智能可穿戴、智能车载、智能手机等;专业级市场应用于特定场景,如医疗、教育、呼叫中心等。消费级智能语音助手的功能是基于语音交互实现设备控制、日程管理、信息查询、生活服务、情感陪伴等;专业级市场智能语音的应用主要是医疗领域语音导诊、电子病历转录与转写、智能辅助诊断,教育领域的智能语音训练与评测、互动教学等,呼叫中心领域的智能客服。

总的来看,未来随着技术的不断突破,语音交互方面还有望得到进一步提升。比如,基于对用户的持续学习,它知道你喜欢的东西、爱好、兴趣,甚至可以通过你的行动、表情、语气知道你的喜怒哀乐,这样的话,它会基于你而做出不同的、但是令你感到贴心的反应,且跟你有很多共同话题,而这都是可以基于技术的突破逐渐实现的。而以上这些语音识别的技术开发及应用尚未被完全占领,投资机会依然存在。

语音识别技术市场状况和发展历程

原标题:语音识别技术市场状况和发展历程

语音识别技术基于人机交互,利用机器程序接收、识别声音,或理解和执行口头命令能力。

如今,随着语音技术与智能手机、平板电脑等产品的深入探索和发展,用户交互体验层面有了大幅度提升,加之用户认知和习惯逐步加强,中国智能语音市场规模保持增扩趋势。据数据统计,2020年我国语音市场规模达到113.96亿元,在疫情催动下,同比增长19.2%。

语音识别发展历程

自20世纪50年代语音识别技术开始进入我国市场,步入萌芽阶段,算法模型发展至今经历了四个阶段,早期的模板匹配阶段、模式和特征分析阶段、概率统计建模阶段。

语音识别准确率逐步提升

在过去5-10年,随着技术快速迭代,语音识别市场在我国得到飞快发展,目前主流的深度神经网络阶段。如今,语音识别主流厂商主要使用端到端的算法,在实验环境准确率可高达99%以上。

语音识别市场空间稳步提高

随着我国推动智慧城市,我国语音技术需求进一步爆发,智能家居、智能音箱、智能车载和智能硬件等等都得到很好的广泛应用。

政策推动行业加速发展

我国推动新基建发展,5G、人工智能、云计算等作为辅助核心基础设施的核心技术得到进一步加速发展,带动语音识别迎来迎来了更加广阔的发展空间。

未来,相信在国家政策的强力扶持下,能够加速在垂直行业的渗透和布局,也相信在供应商和开发者共同努力下,语音识别技术能够更好地与其他语音交互技术及软件功能融合,为消费者提供更优质的体验。返回搜狐,查看更多

责任编辑:

什么是语音识别技术原理是什么应用领域介绍

语音识别作为解放人类双手的沟通方式,一直是人类与机器进行交流的最佳方式。随着科学技术的不断进步,语音识别技术在生活中的应用越来越广泛,那么,什么是语音识别技术?原理是什么?本文将具体介绍。

1.语音识别技术

语音识别(AutomaticSpeechRecognition,ASR)技术也称自动语音识别技术,是指机器通过识别和理解过程将语音信号转化为文本或指令的技术。语音识别以语音为研究对象,涉及到数字信号处理、计算机、模式识别、语音学、语言学、心理学、生理学、数理统计学等多门学科领域,是一门综合性很强的技术,在军事、交通、医学、工业、商业等领域都有着广泛的应用。语音识别的目标是让机器能够像人一样准确理解语音信号所承载的信息,从而实现人机交互。语音识别系统可以分成三类:孤立词语音识别系统、连接词语音识别系统与连续语音识别系统。

2.语音识别技术的发展

语音识别技术的研究最早开始于20世纪50年代,1952年贝尔实验室研发出了10个孤立数字的识别系统。从20世纪60年代开始,美国卡耐基梅隆大学的Reddy等开展了连续语音识别的研究,但是这段时间发展很缓慢。1969年贝尔实验室的PierceJ甚至在一封公开信中将语音识别比作近几年不可能实现的事情。

20世纪80年代开始,以隐马尔可夫模型(hiddenMarkovmodel,HMM)方法为代表的基于统计模型方法逐渐在语音识别研究中占据了主导地位。HMM模型能够很好地描述语音信号的短时平稳特性,并且将声学、语言学、句法等知识集成到统一框架中。此后,HMM的研究和应用逐渐成为了主流。例如,第一个“非特定人连续语音识别系统”是当时还在卡耐基梅隆大学读书的李开复研发的SPHINX系统,其核心框架就是GMM-HMM框架,其中GMM(Gaussianmixturemodel,高斯混合模型)用来对语音的观察概率进行建模,HMM则对语音的时序进行建模。

20世纪80年代后期,深度神经网络(deepneuralnetwork,DNN)的前身——人工神经网络(artificialneuralnetwork,ANN)也成为了语音识别研究的一个方向。但这种浅层神经网络在语音识别任务上的效果一般,表现并不如GMM-HMM模型。

20世纪90年代开始,语音识别掀起了第一次研究和产业应用的小高潮,主要得益于基于GMM-HMM声学模型的区分性训练准则和模型自适应方法的提出。这时期剑桥发布的HTK开源工具包大幅度降低了语音识别研究的门槛。此后将近10年的时间里,语音识别的研究进展一直比较有限,基于GMM-HMM框架的语音识别系统整体效果还远远达不到实用化水平,语音识别的研究和应用陷入了瓶颈。

2006年Hinton]提出使用受限波尔兹曼机(restrictedBoltzmannmachine,RBM)对神经网络的节点做初始化,即深度置信网络(deepbeliefnetwork,DBN)。DBN解决了深度神经网络训练过程中容易陷入局部最优的问题,自此深度学习的大潮正式拉开。

2009年,Hinton和他的学生MohamedD将DBN应用在语音识别声学建模中,并且在TIMIT这样的小词汇量连续语音识别数据库上获得成功。

2011年DNN在大词汇量连续语音识别上获得成功,语音识别效果取得了近10年来最大的突破。从此,基于深度神经网络的建模方式正式取代GMM-HMM,成为主流的语音识别建模方式。

3.语音识别技术的工作流程

一般来说,一套完整的语音识别系统其工作过程分为7步:

(1)对语音信号进行分析和处理,除去冗余信息。

(2)提取影响语音识别的关键信息和表达语言含义的特征信息。

(3)紧扣特征信息,用最小单元识别字词。

(4)按照不同语言的各自语法,依照先后次序识别字词。

(5)把前后意思当作辅助识别条件,有利于分析和识别。

(6)按照语义分析,给关键信息划分段落,取出所识别出的字词并连接起来,同时根据语句意思调整句子构成。

(7)结合语义,仔细分析上下文的相互联系,对当前正在处理的语句进行适当修正。

4.语音识别的基本原理

所谓语音识别,就是将一段语音信号转换成相对应的文本信息,系统主要包含特征提取、声学模型,语言模型以及字典与解码四大部分,其中为了更有效地提取特征往往还需要对所采集到的声音信号进行滤波、分帧等预处理工作,把要分析的信号从原始信号中提取出来;之后,特征提取工作将声音信号从时域转换到频域,为声学模型提供合适的特征向量;声学模型中再根据声学特性计算每一个特征向量在声学特征上的得分;而语言模型则根据语言学相关的理论,计算该声音信号对应可能词组序列的概率;最后根据已有的字典,对词组序列进行解码,得到最后可能的文本表示。

5.语音识别技术的工作原理

首先,声音实际上是一种波。常见的mp3等格式都是压缩格式,必须转成非压缩的纯波形文件来处理,比如WindowsPCM文件,也就是俗称的wav文件。wav文件里存储的除了一个文件头以外,就是声音波形的一个个点了。

在开始语音识别之前,有时需要把首尾端的静音切除,降低对后续步骤造成的干扰。这个静音切除的操作一般称为VAD,需要用到信号处理的一些技术。

要对声音进行分析,需要对声音分帧,也就是把声音切开成一小段一小段,每小段称为一帧。分帧操作一般不是简单的切开,而是使用移动窗函数来实现。

分帧后,语音就变成了很多小段。但波形在时域上几乎没有描述能力,因此必须将波形作变换。常见的一种变换方法是提取MFCC特征,根据人耳的生理特性,把每一帧波形变成一个多维向量,可以简单地理解为这个向量包含了这帧语音的内容信息。这个过程叫做声学特征提取。

至此,声音就成了一个12行(假设声学特征是12维)、N列的一个矩阵,称之为观察序列,这里N为总帧数。

那,怎样把这个矩阵变成文本了。首先要介绍两个概念:

音素:单词的发音由音素构成。对英语,一种常用的音素集是卡内基梅隆大学的一套由39个音素构成的音素集。汉语一般直接用全部声母和韵母作为音素集,另外汉语识别还分有调无调,不详述。

状态:这里理解成比音素更细致的语音单位就行啦。通常把一个音素划分成3个状态。

那,语音识别是怎么工作的呢?

第一步,把帧识别成状态。

第二步,把状态组合成音素。

第三步,把音素组合成单词。

每个小竖条代表一帧,若干帧语音对应一个状态,每三个状态组合成一个音素,若干个音素组合成一个单词。也就是说,只要知道每帧语音对应哪个状态了,语音识别的结果也就出来了。

那每帧音素对应哪个状态呢?有个容易想到的办法,看某帧对应哪个状态的概率最大,那这帧就属于哪个状态。

那这些用到的概率从哪里读取呢?有个叫“声学模型”的东西,里面存了一大堆参数,通过这些参数,就可以知道帧和状态对应的概率。获取这一大堆参数的方法叫做“训练”,需要使用巨大数量的语音数据。

但这样做有一个问题:每一帧都会得到一个状态号,最后整个语音就会得到一堆乱七八糟的状态号,相邻两帧间的状态号基本都不相同。假设语音有1000帧,每帧对应1个状态,每3个状态组合成一个音素,那么大概会组合成300个音素,但这段语音其实根本没有这么多音素。如果真这么做,得到的状态号可能根本无法组合成音素。实际上,相邻帧的状态应该大多数都是相同的才合理,因为每帧很短。

解决这个问题的常用方法就是使用隐马尔可夫模型(HiddenMarkovModel,HMM)。

第一步,构建一个状态网络。

第二步,从状态网络中寻找与声音最匹配的路径。

这样就把结果限制在预先设定的网络中,避免了刚才说到的问题,当然也带来一个局限,比如设定的网络里只包含了“今天晴天”和“今天下雨”两个句子的状态路径,那么不管说些什么,识别出的结果必然是这两个句子中的一句。

那如果想识别任意文本呢?把这个网络搭得足够大,包含任意文本的路径就可以了。但这个网络越大,想要达到比较好的识别准确率就越难。所以要根据实际任务的需求,合理选择网络大小和结构。

搭建状态网络,是由单词级网络展开成音素网络,再展开成状态网络。语音识别过程其实就是在状态网络中搜索一条最佳路径,语音对应这条路径的概率最大,这称之为“解码”。路径搜索的算法是一种动态规划剪枝的算法,称之为Viterbi算法,用于寻找全局最优路径。

这里所说的累积概率,由三部分构成,分别是:

观察概率:每帧和每个状态对应的概率

转移概率:每个状态转移到自身或转移到下个状态的概率

语言概率:根据语言统计规律得到的概率

其中,前两种概率从声学模型中获取,最后一种概率从语言模型中获取。语言模型是使用大量的文本训练出来的,可以利用某门语言本身的统计规律来帮助提升识别正确率。语言模型很重要,如果不使用语言模型,当状态网络较大时,识别出的结果基本是一团乱麻。

这样,基本上语音识别过程就完成了。这,也是语音识别技术的工作原理。

6.语音识别技术应用领域

(1)桌面/移动设备应用

语音识别技术在PC机/移动终端上的应用范围较广,目前可以用语音识别来进行身份认证、编辑文本或者语音控制。典型的包括语音输入法、语音助手、音频识别软件等。

(2)嵌入式应用

应用的范畴广,根据市场需求考虑不同的嵌入式硬件平台,目前嵌入式语音识别系统主流是智能手机、车载系统、智能家居、智能终端的集成应用。

(3)电信级系统应用

语音识别技术应用于企业自动语音服务,可以为企业提供--种智能化的并且相对安全的自动服务方式。包括,企业的用户服务中心、电话银行、股票交易、电子商务等应用领城。

(4)Web应用

把语音技术与Web应用结合,例如语音浏览器、语音搜索引擎,网上语音聊天室及语音网游等。

(5)行业特殊应用领域

为安全部门提供声纹识别应用方案,进行自动的身份辨认,在国家安全、侦破等特殊领域,市场专业性强,进入壁垒高,同业竞争者很少。

以上梳理了语音识别技术的定义、原理、发展历程等信息,希望对你有所帮助,当前,随着人机交互技术的发展,语音识别技术有了更广阔的发展空间,是未来科技的一大趋势。如果你想了解更多相关内容,敬请关注三个皮匠报告的行业知识栏目。

本文由@2200发布于三个皮匠报告网站,未经授权禁止转载。

推荐阅读:

语音识别ai应用场景哪些?ai语音识别技术难点分析

什么是语音合成?包括哪些技术?应用领域介绍

什么是智能语音交互技术?应用于哪些领域?优缺点介绍

2022年中国智能语音发展情况分析,top10企业排名一览

本文标签语音识别技术  语音识别技术原理  语音识别技术应用领域  语音识别技术发展  

浅谈语音识别技术的发展趋势与应用前景

一、语音识别技术定义

语音识别技术,也被称为自动语音识别AutomaticSpeechRecognition,(ASR),其目标是将人类的语音中的词汇内容转换为计算机可读的输入,例如按键、二进制编码或者字符序列。与说话人识别及说话人确认不同,后者尝试识别或确认发出语音的说话人而非其中所包含的词汇内容。

语音识别技术的应用包括语音拨号、语音导航、室内设备控制、语音文档检索、简单的听写数据录入等。语音识别技术与其他自然语言处理技术如机器翻译及语音合成技术相结合,可以构建出更加复杂的应用,例如语音到语音的翻译。

二、语音识别技术原理

语音识别系统提示客户在新的场合使用新的口令密码,这样使用者不需要记住固定的口令,系统也不会被录音欺骗。文本相关的声音识别方法可以分为动态时间伸缩或隐马尔可夫模型方法。文本无关声音识别已经被研究很长时间了,不一致环境造成的性能下降是应用中的一个很大的障碍。

其工作原理:

动态时间伸缩方法使用瞬间的、变动倒频。1963年Bogertetal出版了《回声的时序倒频分析》。通过交换字母顺序,他们用一个含义广泛的词汇定义了一个新的信号处理技术,倒频谱的计算通常使用快速傅立叶变换。

从1975年起,隐马尔可夫模型变得很流行。运用隐马尔可夫模型的方法,频谱特征的统计变差得以测量。文本无关语音识别方法的例子有平均频谱法、矢量量化法和多变量自回归法。

平均频谱法使用有利的倒频距离,语音频谱中的音位影响被平均频谱去除。使用矢量量化法,语者的一套短期训练的特征向量可以直接用来描绘语者的本质特征。但是,当训练向量的数量很大时,这种直接的描绘是不切实际的,因为存储和计算的量变得离奇的大。所以尝试用矢量量化法去寻找有效的方法来压缩训练数据。Montacieetal在倒频向量的时序中应用多变量自回归模式来确定语者特征,取得了很好的效果。

想骗过语音识别系统要有高质量的录音机,那不是很容易买到的。一般的录音机不能记录声音的完整频谱,录音系统的质量损失也必须是非常低的。对于大多数的语音识别系统,模仿的声音都不会成功。用语音识别来辨认身份是非常复杂的,所以语音识别系统会结合个人身份号码识别或芯片卡。

语音识别系统得益于廉价的硬件设备,大多数的计算机都有声卡和麦克风,也很容易使用。但语音识别还是有一些缺点的。语音随时间而变化,所以必须使用生物识别模板。语音也会由于伤风、嗓音沙哑、情绪压力或是青春期而变化。语音识别系统比指纹识别系统有着较高的误识率,因为人们的声音不像指纹那样独特和唯一。对快速傅立叶变换计算来说,系统需要协同处理器和比指纹系统更多的效能。目前语音识别系统不适合移动应用或以电池为电源的系统。

三、语音识别的技术实现方式

语音识别技术主要包括特征提取技术、模式匹配准则及模型训练技术三个方面,其中,最基础的就是语音识别单元的选取。

(1)语音识别单元的选取。语音识别研究的基础是选择语音识别单元。语音识别单元有单词(句)、音节和音素三种,具体选择哪一种语音识别单元由具体研究任务的类型决定:

单词(句)单元在中小词汇语音识别系统中应用广泛,但由于模型库过于庞大,模型匹配算法复杂,实时性不强,所以不适合大词汇系统;

音节单元主要应用于汉语语音识别,因为汉语是单音节结构的语言,虽然有大约1300个音节,但无调音节共408个,相对较少,所以音节单元在中、大词汇量的汉语语音识别系统上是可行的。

音素单元之前曾广泛应用于英语语音识别,也越来越多的应用于中、大词汇量汉语语音识别系统中。原因在于汉语音节仅由22个声母和28个韵母构成,把声母细化,虽然增加了模型数量,但是提高了易混淆音节的区分能力

(2)特征参数提取技术。特征提取就是对语音信号进行分析处理,把丰富的语音信息中的冗余信息去除,获得对语音识别有用的信息。这是一个对语音信号进行信息压缩的过程,目前经常采用的特征参数提取技术是线性预测(LP)分析技术。基于LP技术提取的倒谱参数再加上Mel参数和基于感知线性预测(PLP)分析提取的感知线性预测倒谱对人耳处理声音的模拟,进一步提高了语音识别系统的性能。

(3)模式匹配及模型训练技术。早期的语音识别应用的模式匹配和模型训练技术是动态时间归正技术(DTW),它在孤立词语音识别中获得了良好性能,但是由于对大词汇量以及连续语音识别的不准确,目前已经被隐马尔可夫模型(HMM)和人工神经元网络(ANN)所取代。

四、语音识别遇到的困难

目前,语音识别研究工作进展缓慢,困难具体表现在:

(一)语音识别系统对环境敏感,采集到的语音训练系统只能应用于与之对应的环境,而且当用户输入错误时不能正确响应,应用起来相对困难;

(二)必须采取新的新号处理方法来处理人在高噪声环境下的发音变化的问题;(三)语言模型、语法及词法模型在中、大词汇量连续语音识别中无法正确、合理的运用,需要有效地利用语言学、心理学及生理学等方面的研究成果;现阶段的科学技术对人类生理学诸如听觉系统分析理解功能、大脑神经系统的控制功能等还不够,更无法应用于语音识别;语音识别系统从实验室演示系统向商品的转化过程中还有许多具体细节技术问题需要解决。

五、语音识别技术的发展状况1.语音识别技术在国际的发展

早在三四十年前,美国的一些大学和实验室就开始了语音识别技术的研究,50年代的AT&TBell实验室研发的Audry系统第一个实现了可识别十个英文数字。60和70年代,提出了线性预测分析技术(LP)等相关理论并深入研究,创造出可以实现特定人孤立语音识别系统;80年代和90年代是语音识别技术应用研究方向的高潮,HMM模型和人工神经元网络(ANN)的成功应用,使得语音识别系统的性能比以往更优异;伴随着多媒体时代的来临,微软,Apple等著名公司都研发出相当成功的商业应用语音识别系统,比如,Apple的Siri系统,微软的PhoneQuery(电话语音识别)引擎等。

2.语音识别技术在国内的发展

我国的语音识别研究工作虽然起步较晚,但由于国家的重视,研究工作进展顺利,相关研究紧跟国际水平。由于中国有不可忽视的庞大市场,国外对中国的语音识别技术也非常重视,汉语语音语义的特殊性也使得中文语音识别技术的研究更具有挑战。但是,国内研究机构在进行理论研究的同时,应注重语音识别系统在商业中的应用,加快从实验室演示系统到商品的转化。

现如今,许多用户已经能享受到语音识别技术带来的方便,比如智能手机的语音操作等。但是,这与实现真正的人机交流还有相当遥远的距离。目前,计算机对用户语音的识别程度不高,人机交互上还存在一定的问题,语音识别技术还有很长的一段路要走,必须取得突破性的进展,才能做到更好的商业应用,这也是未来语音识别技术的发展方向。

六、语音识别技术的发展趋势1.进一步提高可靠性

目前语音识别系统很难做到排除各种声学环境因素的影响,而人类语言在日常生活中的随意性和不确定性给语音识别系统造成极大的识别困难。所以,要应用现代技术智能化语音识别系统,以达到更好的识别效果;

2.增加词汇量

目前语音识别系统使用的声学模型和语音模型过于局限,需要通过改进系统建模方法、提高搜索算法的效率来做到词汇量无限制和多重语言混合,减少词汇量对语音识别系统的限制;

3.微型化并降低成本

语音识别系统在商业上的用途相当广泛,利用先进的微电子技术,将具有先进功能和性能的语音识别应用系统固化到更加微小的芯片或模块上,可以缩减成本,更方便的推广和使用。语音识别系统和微电子芯片技术的发展将引领信息技术革命到一个新的台阶。语音识别系统使人沟通更加自由,使人可以方便地享受到更多的社会信息资源和现代化服务。这必然会成为语音识别技术研究和应用的重要发展趋势。

七、语音识别技术的前景和应用

在电话与通信系统中,智能语音接口正在把电话机从一个单纯的服务工具变成为一个服务的“提供者”和生活“伙伴”;使用电话与通信网络,人们可以通过语音命令方便地从远端的数据库系统中查询与提取有关的信息;随着计算机的小型化,键盘已经成为移动平台的一个很大障碍,想象一下如果手机仅仅只有一个手表那么大,再用键盘进行拨号操作已经是不可能的。语音识别正逐步成为信息技术中人机接口的关键技术,语音识别技术与语音合成技术结合使人们能够甩掉键盘,通过语音命令进行操作。语音技术的应用已经成为一个具有竞争性的新兴高技术产业。

语音识别技术发展到今天,特别是中小词汇量非特定人语音识别系统识别精度已经大于98%,对特定人语音识别系统的识别精度就更高。这些技术已经能够满足通常应用的要求。由于大规模集成电路技术的发展,这些复杂的语音识别系统也已经完全可以制成专用芯片,大量生产。在西方经济发达国家,大量的语音识别产品已经进入市场和服务领域。一些用户交机、电话机、手机已经包含了语音识别拨号功能,还有语音记事本、语音智能玩具等产品也包括语音识别与语音合成功能。人们可以通过电话网络用语音识别口语对话系统查询有关的机票、旅游、银行信息,并且取得很好的结果。调查统计表明多达85%以上的人对语音识别的信息查询服务系统的性能表示满意。

可以预测在近五到十年内,语音识别系统的应用将更加广泛。各种各样的语音识别系统产品将出现在市场上。人们也将调整自己的说话方式以适应各种各样的识别系统。在短期内还不可能造出具有和人相比拟的语音识别系统,要建成这样一个系统仍然是人类面临的一个大的挑战,我们只能一步步朝着改进语音识别系统的方向一步步地前进。至于什么时候可以建立一个像人一样完善的语音识别系统则是很难预测的。就像在60年代,谁又能预测今天超大规模集成电路技术会对我们的社会产生这么大的影响。

更多精彩阅读:语音识别的两个方法_语音识别的应用有哪些语音识别的优缺点_语音识别功能介绍语音识别算法有哪些_语音识别特征提取方法怎么实现语音识别_手机语音识别怎么设置语音识别设置能删除吗_语音识别系统工作流程

版权声明:本文内容由互联网用户自发贡献,该文观点仅代表作者本人。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如发现本站有涉嫌抄袭侵权/违法违规的内容,一经查实,本站将立刻删除。

上一篇

下一篇