人工智能趋势:语音识别发展前景广阔
[导读]深度学习+大数据+并行计算共同推动了人工智能技术实现跨越式发展,“人工智能+”应用已开始落地开花……
当今,用“炙手可热”来形容AI人工智能再恰当不过,其也令全球科技界趋之若鹜,诸如谷歌、微软、苹果、IBM、Facebook、英特尔、中国的BAT等都将人工智能视为下一个技术引爆点,纷纷砸入巨额投资展开研发与竞争。
尤其在近几年来,深度学习+大数据+并行计算共同推动了人工智能技术实现跨越式发展。“人工智能+”应用已开始落地开花,从智能安防,到智能客服,再到智慧教育和智慧医疗等等。基于人工智能技术的各种产品在各个领域代替人类从事简单重复的体力或脑力劳动,大大提升了生产效率和生活质量,也促进了各个行业的发展和变革。
人工智能产业链的主要包含三个核心环节——基础技术、人工智能技术和人工智能应用。其中,基础技术主要包括数据平台、数据存储以及数据挖掘等,人工智能技术包括语音识别、自然语言处理、图像识别和生物识别等,人工智能应用有工业4.0、无人驾驶汽车、智能家居、智能金融、智慧医疗、智能营销、智能教育以及智能农业等。
人工智能趋势分析,语音识别领域突飞猛进发展前景广阔
人工智能产业链结构
科技企业对开源技术和深度学习等方面的推动,人工智能技术不断突破。交通、医疗、教育、制造业等场景的应用需求和切合确定场景的商业模式出现推动人工智能快速发展。随着人工智能在我国移动互联网、智能家居等领域的发展,我国人工智能产业将持续高速成长。前瞻产业研究院预计到2022年,国内中国人工智能行业市场规模将达到680亿元。
前瞻产业研究院也对中国人工智能行业的发展趋势进行了深入分析:
1、新一轮的开源化将成为人才争夺主战场
两年来,以谷歌为代表的巨头公司纷纷开始开源化自身核心产品。不仅有机器学习软件平台,还有相关硬件平台和完整软件源代码。开放源代码可以吸引外部人才参与项目协作,并改进相关技术。
2、语音识别领域将快速实现商业化部署
通过利用机器学习技术进行自然语言的的深度理解,一直是工业和学术界关注的焦点。在人工智能的各项领域中,自然语言处理是最为成熟的技术,由此引来各大企业纷纷进军布局。在未来3年内,成熟化的语音产品将通过云平台和智能硬件平台快速实现商业化部署,前景十分广阔。
这一领域,轻松呼已率先入局,其基于AI智能语音技术所研发并推向市场的“轻松呼智能电话机器人”已得到了广泛应用,覆盖了包括网络电商、金融、房地产、广告、汽车、保险、教育等十几个行业领域,目前全国累积用户数达800+,取得了良好的市场反响。可以说,轻松呼利用自身在智能语音技术上的优势,有力地推动了人工智能与传统电销的深度融合发展。
人工智能趋势分析,语音识别领域突飞猛进发展前景广阔
3、人工智能产业将与智慧城市建设协同发展
智慧城市的发展将在安防、交通监控、医疗、智能社区等多个领域全面刺激人工智能产业发展。未来,各行业的应用需求以及消费者升级发展的需要将有效激活人工智能产品的活跃度,促进人工智能技术和产业发展。
4、中国人工智能应用将在服务机器人领域迎来突破
2015年已经有大量企业在服务机器人领域展开相关布局。从中国人工智能市场结构上看,服务机器人市场规模达到60亿元,占比29.4%,服务机器人基于日常生活中的广泛需求,有着广阔的市场空间。
人工智能趋势分析,语音识别领域突飞猛进发展前景广阔
可以看到,未来中国人工智能行业整体的发展趋势一片大好,而在前不久召开的十三届全国政协第一次双周协商座谈会上对于人工智能有如下的盘点和建议——
我国人工智能的成绩单亮眼:论文专利数量跻身世界前列,部分技术已经世界领先。而且,智能产品和应用大量涌现,一批领军企业快速成长……不过,在委员和专家看来,仍要重视我国人工智能发展中存在的问题与不足,尽快抢占科技制高点,才能在这场“马拉松”中立于不败之地。
语音识别技术发展史与行业最佳实践全解析
原标题:语音识别技术发展史与行业最佳实践全解析
在人工智能技术的探索征程里,语音语义识别技术一直扮演着先驱的角色,不管是在技术探索还是商业落地方面都走在了前面。近两年来随着深度学习技术的进一步深入,其识别准确率更是得以大大提升。为教育、客服、电信等传统行业的产业升级带来了一大助力,在车载、家居、医疗、智能硬件等领域又开辟出了新的商业应用探索实践。语音语义技术目前发展到了哪个阶段?NLP技术在企业日常业务中能发挥怎样的作用?在十亿级别日活的微信端有何应用案例?在腾讯云海量客户场景下又为企业带来了怎样的助力?9月13日,TVPAI技术闭门会语音语义专题遍邀行业大咖,为行业找寻更多解题思路。微信语音识别理论和实践在语音识别技术的落地过程中,微信是探索得比较深入的一个代表。现在的微信不仅可以非常方便地将语音转换为文字,甚至可以识别出语音中蕴含的情绪,在转化出的文字中用贴切的emoji表情表达情感。微信智聆语音技术负责人卢鲤老师向与会者介绍了语音识别技术的发展历程,他表示如果我们想更客观地判断一项技术的今天和明天,回顾其发展历程是很有必要的。语音识别发展历史回顾语音识别技术的研究早在上世纪5、60年代就已经开始了,传统语音识别使用Hybrid框架,该系统具备一个明显的层次结构,包括声学模型、词典、语言模型三个部分。对传统Hybrid系统而言,声学模型是其中非常重要的部分,后续技术的诸多改进也是面向声学模型进行的。2009年以后,语音识别技术迎来了一次较大的发展。业界主流的观点认为这是因为语音识别技术搭上了深度学习发展的快车,卢鲤老师表示这是其中一个重要原因,但不是唯一原因。这个过程中,GPU等硬件设施的发展提供了基础,互联网尤其移动互联网的飞速发展带来更多的场景,使得语音识别技术从实验室到广泛民用市场。在语音识别技术的发展过程中,卢鲤老师重点介绍了DNN、TDNN、LSTM以及Transformer等模型的发展以及对性能带来的提升。从2014年以后,部分科学家开始在Hybrid系统以外尝试端到端的系统,相比前者,该系统输入语音,输出的就变成了文字。“语音识别技术领域没有完美的系统。Hybrid系统使用灵活,但整体拟合能力不如端到端系统;端到端系统数据整体建模能力强,但灵活度不及Hybrid系统。”微信智聆平台“微信智聆平台起步于2011年底,直到2017年才给自己取了个品牌的名字。当时是觉得效果做得不好,用户想吐槽的时候也没有具体对象。”卢鲤老师开玩笑着介绍了微信智聆平台的发展史,这个腾讯自主研发的语音技术平台,截至目前已经在C端、B端、G端等多个领域落地近百个产品,日请求量超30亿。在独立第三方机构SpeechIO的测试报告中名列前茅。微信智聆平台是目前在大规模提供服务的厂家中处于最好的几家之一,卢鲤老师介绍了微信智聆平台在性能提升方面所做的一些工作。首先是TLCBLSTM网络。LSTM网络结构的主要形式有两种,一种是单向,一种是双向。一般情况下,双向LSTM性能比单向的要高出10%左右,但双向LSTM却有着无法用在流式场景下的局限。TLCBLSTM就是一种既可以把LSTM用在流式场景下,同时又能保持双向10%性能优势的解决方案。在LSTM以外,微信智聆平台还实现了Transformer的网络结构。目前该系统的开发正在有序进行中,卢鲤老师指出这种Transformer的结构可以有效利用运行的并行性,无损地应用在流式系统中。除了对网络结构的改进以外,语音识别还有一个很重要的问题就是鲁棒性。影响鲁棒性的因素一般有录音设备、环境影响、原始录音的信号处理等几类。为此,微信智聆平台通过SpecAgument技术,强迫网络学习这类糟糕的数据,增强网络适应性。另外还收集了上百种不同的噪声以及房间混响,加入到原始信号去模拟不同场景,以及利用混合频带训练等方式,加强语音识别的鲁棒性。最后,在系统层面,智聆平台也做了Hybrid和端到端的系统结构,同时在实验室场景下针对二者的互补性做了一些相关的测试,具体见下图。面向应用场景训练好模型、做好系统仅仅只是万里长征的第一步,卢鲤老师以智聆平台为例分享了他认为在实用中需要考虑的点。第一,对语音识别的前端考虑。不同的场景对体验的要求不同,对前端的配置和要求也就不尽相同,也基于此可能造成识别的损失。第二,在线学习之难。通用的语音识别器无法覆盖所有场景,千万条句子和关键词的在线学习对算法也有很高要求。第三,方言识别之难。国内方言种类多、某一类方言下的子类彼此不相通,用户到底需要什么样的方言识别也仍旧是个问题。分享结束后,卢鲤老师在QA环节和观众讨论区都针对用户关注的技术、细节的问题做了细致的回复,此处限于篇幅不再赘述。腾讯云AI语音语义助力企业发展腾讯云AI语音语义与应用平台产品中心总经理周超向与会者汇报了腾讯云在AI落地过程中的实践与思考,他表示腾讯云未来将向业界提供深入各行业的全AI能力解决方案。企业AI需求盘点根据目前业界对企业AI能力需求的调查报告显示,计算机视觉目前是最受关注的企业AI能力,紧随其后的就是智能语音技术、自然语言处理技术的份额。在对AI技术趋势发展做分类,从技术的触发期、期望膨胀期、泡沫破灭期、启蒙爬升期、再到高原期的曲线可以很清晰地看出各AI技术所处的发展位置。企业选择部署AI的原因,最主要的3大构成是降低成本、提升效率、创新业务。在IDC2019年中国人工智能白皮书中显示,目前企业采纳AI后能对业务效能有优秀的提升的占比不高,AI落地企业的效果有较大的提升空间。今年以来,疫情影响推动了AI落地的应用,腾讯云在疫情期间协助抗疫所广泛采用的AI能力让人们看到了AI的强大。在此期间,企业营业受到极大影响,线上化、数字化的趋势在加速,在后疫情时代,出于降本增效的目的,线上线下结合的实践也会带来更多对AI能力的需求。与此同时,人工智能作为国家的新基建战略7大领域中的重要组成部分,为企业应用人工智能带来了更大的想象空间。腾讯云将企业部署AI面临的困境总结为两大挑战、三大问题:碎片化和场景化的挑战;行业知识的门槛、行业数据转换成AI所需语料的挑战、业务改造的成本的问题。在这样的背景之下,腾讯云希望向客户提供效果好、门槛低、场景化/个性化的AI能力特质,助力企业发展。腾讯云AI产品目前腾讯云AI语音语义产品架构从基础层到产品方案层分为:产品运营平台、基础模型服务、应用Paas服务和应用产品方案四个部分。在每个产品方向上,腾讯云AI都提供了详尽的AI能力,企业可以基于自己的业务场景,选择基础模型服务、应用PaaS服务、应用产品方案等不同层次的产品,降低企业应用AI能力的门槛。在企业客户的落地过程中,腾讯云观察到客户的需求非常全面,除了对语音语义能力的使用以外,还会用到其他相关能力进行结合。腾讯云也提出了一套全AI能力解决方案,在底层会结合包括人脸、车辆、物体识别、图像AI识别、OCR、生物分析、NLP等全AI能力,基于TiMatrix云智天枢AI应用平台,深入广泛的行业,打造泛政务民生、泛金融、工业、智慧零售、广电传媒、运营商等AI解决方案。周超老师以协同办公场景为例,介绍了腾讯云基于实时语音、图像处理的线上实时多人音视频会议案例。会议记录是会议的刚需,方便人们对重要的会议内容进行留档并回顾总结。随着深度学习的出现,语音识别技术越来越成熟,会议记录的整理形式也从极其耗费人力成本的人工记录越来越多的被语音识别自动转录所替代。腾讯云语音语义AI提供语音识别、自然语言处理技术,以及说话人分离、文本摘要提取等功能,解决会议记录场景下存在的各种痛点。除了协同办公场景,腾讯云AI能力在泛娱乐、政务民生、金融和呼叫中心等多个场景下均有非常具有代表性的案例。周超老师表示,腾讯云会继续深入各个行业去输出场景化的解决方案,同时提供完备的AI基础能力输出,满足客户二次开发、定制化的需求。“腾讯云AI希望建立一个与合作伙伴共赢的AI生态,在产品合作生态方面进行联合探索、联合开发,在市场共赢生态方面希望聚拢更多战略合作伙伴、渠道共享伙伴、认证合作伙伴。一起共建AI新生态,加速AI的落地化,解决碎片化、场景化的难题。”针对用户提问的小公司缺乏AI技术人才,但AI能力又是刚需,腾讯云如何帮助解决的问题,周超老师也非常细致地做了解答,他表示不管是底层AI能力的开放还是解决方案的需求,都可以通过腾讯云的AI产品予以解决,非常欢迎各位用户去试用。腾讯云NLP能力在法务领域的应用实践法大大合同智能化负责人刘谦带来了腾讯云AI能力在法务场景下的应用实践,也是一次非常典型的腾讯云与客户共建AI产品的代表案例。法务行业现状与痛点刘谦老师向与会者介绍了法务人群的工作日常,这个场景下从业人员的工作一般分为合同、合规、咨询、部门需求、争议解决五大类别,这其中又以合同占比最大,一般达到日常工作的70%左右。刘谦老师总结了合同审查的痛点有以下几类:合同审阅工作量大,响应时间长;日常合同审核内容重复,效率低;合同审核标准不统一,易出错;内控体系难以贯彻执行,风险高;相对方风险难以评估把控。合同审查痛点植根于法务行业长期基于人工服务的传统模式。从源头上来说,法务部门属于职能部门而非销售部门,天生事多人少,有限的部门人力预算需要解决的是持续增长的法务风控需求。从过程上来看,需要人工处理大量合同文本,业务需求排队等待,工作量大且重复繁琐,效率低下。从结果上看,响应滞后。一方面是公司业务快速发展变化,另一方面是职能部门的被动跟进,流程没有打通。在这样的行业现状与痛点之下,法大大选择和腾讯云合作,联合开发AI产品,提供客户价值。打造联合AI产品合同审查领域的人工智能早在2016年就一直有很多人在聊,但最近5年来在国内其实没有一个特别好的产品实例。要么是底层能力的缺失,要么是对行业的理解不够,而在技术层面上还面临着三大核心难题亟待解决。首先是数据样本非常有限。从2013年最高法的裁判文书网上线以来,陆续被公开的裁判文书有一亿多份。看似样本量很大,但细分在刑法、民法等大类及其下的各个小类之后,可能每个类别数量平均下来不过数千甚至数百份。这在AI的训练集里只能算小样本数。其次是合同样本差异非常大。对合同数据来说,因为行业、业务类型、每个客户的不同特点,甚至包括一些客户有意或者无意的不规范操作,导致每一类合同,不同场景之间的差异都非常大。最后是法务审核要求非常准确,精准识别只是前提条件,召回率、准确率都必须同时做到高标准,否则就会有很大的风控漏洞。法大大选择与腾讯云合作,在底层采用腾讯云AI的技术支持,同时加上法大大自身在法务行业的多年积累,通过连接优图实验室、腾讯云AI语义算法团队与法大大开发团队一起精诚协作,最终打造了这样一款解法务场景燃眉之急的AI产品。具体合作模式如下:该产品目前已可满足三层合同审阅需求,最终的目的是希望基于业务场景、系统流程和法律Know-how,给参与合同全生命周期的多种角色人群,提供7x24的智能法务合同审核支持。“目前实际使用中,可以帮助客户提升平均85%的效率,合同审核环节从以前的小时计到现在的六七分钟。一些普通、常见的合同审核甚至已经不再需要法务人力支持,业务人员可以自己审核完成,客户满意度相当高。”分享最后,刘谦老师也对评论区讨论问题做了精彩的解答,由于篇幅所限,此处不再赘述。圆桌论道:AI在产业落地中的难与不难鲍捷:人工智能已经有过多次高潮和低谷,我最早接触人工智能是在1998年,当时是针对医疗影像的应用。后来也在法务、国防等领域有过从业经历,可以说人工智能传统四大领域的医疗、法务、政府、金融我都有过涉及。我个人目前在做金融方向的AI应用,也非常看好金融这个领域。在人工智能的各个落地方向上,其实有一些共同的特性,核心就是三个方面:一个是数据必须有边界,第二个是业务必须有边界,第三个是一旦出错是否会导致不可逆的后果。因此在人工智能落地的方向上也可以按照这几个维度去套用检测,L5级别的自动驾驶在我看来就不是一个值得追求的方向,因为它的三大要素都不具备。但在金融、医疗、工业、政务等方向却是值得探索的,我个人认为目前凡是跟流程自动化有关的工作,其实都是值得去探索的方向,这是我的考虑。徐增林:学术界对人工智能的关注可能与工业界不同,我们所关注的技术未必在当下就能推向落地,但却有非常大的研究价值,例如我们研究的认知启发的神经网络和量子启发的神经网络是解决当前深度学习对大数据和海量计算资源依赖问题的重要途径。我比较赞同鲍捷老师关于AI边界的观点,AI落地确实要抓好赛道和场景。技术层面上,因为现在是基于5G和互联网基础设施(包括边缘计算和云计算),再加上人工智能+增强现实算法的结合,技术上可能会有一定的突破。如果让我预测一个未来AI爆款产品的领域,我个人认为可能会出现在医疗健康领域,未来的AI会越来越懂医生,医生会慢慢的AI化。周超:腾讯云AI帮助各类企业做业务的落地,首先关注的是AI入场以后可以帮助企业降低成本,第二关注AI的替换可以提高企业效率,第三这个替换本身就是具备创新性的。在这个原则判断下,目前腾讯云的AI已经在多个行业,包括医疗、教育、政务、文旅、金融、能源等行业企业中深度落地。腾讯云所提供的全AI能力的解决方案都是可以做一个应用和落地去改善行业、企业的业务流程。在这个过程中腾讯云不会做到面面俱到,而是会以提供开放的基础能力以及与合作伙伴深度共建的方式共同探索。卢鲤:个人认为语音识别技术还远未到非常成熟的地步,单纯准确率数字目前来说本身没有太大意义。这背后的逻辑其实就两个原因,第一无法覆盖全部场景,第二无法覆盖所有人群。使用场景、使用人群、地域口音方言等因素综合影响下,语音识别技术还有很长的路要走。我们未来努力的方向也就是覆盖更多的场景,覆盖更多的人群,让更多的场景、更多的人都能很方便的使用语音识别这个技术来提高效率。刘谦:法大大在做AI产品落地的过程中,首先考虑的产品规划就是围绕合同展开的,在想明白这个产品逻辑和实际痛点以后延伸开去,发现用户的需求又不断处于变化中,从简单的电子合同签署到管理诉求再到分析诉求,这样反过来也给我们的产品发展规划带来了益处,因为我们找到了真实的客户价值所在。和腾讯云的合作给了我们非常强的模型调优能力和数据处理的准确性,大大提升了产品效果,客户也十分信任。这对法务、业务和公司都是一个多方共赢的局面。在圆桌讨论环节,几位嘉宾还就AI创业方向选择、学术研究方向等议题做了精彩的论述。本场闭门会主持人腾讯云AI语音语义与应用平台产品中心专家产品经理王天也给出了自己对AI落地的未来趋势判断:结语人工智能寻觅了60年的价值,要从实践中追寻。TVP组织的这次AI技术闭门会,以计算机视觉、AI语音语义2大热门技术风口为话题,为业界输出了6小时无保留的经验分享,邀请12位学术界、工业界从业大咖论道技术与商业趋势,只为穷尽AI技术跨过概念鸿沟走向落地的那些可能。在这场技术交流与商业思维碰撞的盛宴上,我们看到了计算机视觉的全新应用,看到了AI语音语义的发展脉络,看到了从灵感迸发到产品落地的创业故事,也看到了死磕技术永不言败的探索精神。时代赋予技术以风口,商业赋予技术以舞台,开发者赋予技术的,是无限的可能。关于TVP技术闭门会TVP,即腾讯云最具价值专家(TencentCloudValuableProfessional),是腾讯云授予云计算领域技术专家的一个奖项。TVP计划致力打造与行业技术专家的交流平台,构建云计算技术生态,实现“用科技影响世界”的美好愿景。TVP技术闭门会,是为TVP打造的专属技术闭门研讨会,旨在为大家提供一个开放、平等、知无不言的交流环境,便于TVP们针对热门技术、前沿科技、技术管理等话题进行深入探讨。国内外语音识别技术发展现状探讨
语音识别的意思是将人说话的内容和意思转换为计算机可读的输入,例如按键、二进制编码或者字符序列等。与说话人的识别不同,后者主要是识别和确认发出语音的人而非其中所包含的内容。语音识别的目的就是让机器听懂人类口述的语言,包括了两方面的含义:第一是逐字逐句听懂而不是转化成书面的语言文字;第二是对口述语言中所包含的命令或请求加以领会,做出正确回应,而不仅仅只是拘泥于所有词汇的正确转换。自从1952年,AT&TBell实验室的Davis等人研制了第一个可十个英文数字的特定人语音增强系统一Audry系统1956年,美国普林斯顿大学RCA实验室的Olson和Belar等人研制出能10个单音节词的系统,该系统采用带通滤波器组获得的频谱参数作为语音增强特征。1959年,Fry和Denes等人尝试构建音素器来4个元音和9个辅音,并采用频谱分析和模式匹配进行决策。这就大大提高了语音识别的效率和准确度。从此计算机语音识别的受到了各国科研人员的重视并开始进入语音识别的研究。60年代,苏联的MaTIn等提出了语音结束点的端点检测,使语音识别水平明显上升;Vintsyuk提出了动态编程,这一提法在以后的识别中不可或缺。60年代末、70年代初的重要成果是提出了信号线性预测编码(LPC)技术和动态时间规整(DTW)技术,有效地解决了语音信号的特征提取和不等长语音匹配问题;同时提出了矢量量化(VQ)和隐马尔可夫模型(HMM)理论。语音识别技术与语音合成技术结合使人们能够摆脱键盘的束缚,取而代之的是以语音输入这样便于使用的、自然的、人性化的输入方式,它正逐步成为信息技术中人机接口的关键技术。一:语音识别技术发展现状-语音识别系统的分类语音识别系统可以根据对输入语音的限制加以分类。如果从说话者与识别系统的相关性考虑,可以将识别系统分为三类:(1)特定人语音识别系统。仅考虑对于专人的话音进行识别。(2)非特定人语音系统。识别的语音与人无关,通常要用大量不同人的语音数据库对识别系统进行学习。(3)多人的识别系统。通常能识别一组人的语音,或者成为特定组语音识别系统,该系统仅要求对要识别的那组人的语音进行训练。如果从说话的方式考虑,也可以将识别系统分为三类:(1)孤立词语音识别系统。孤立词识别系统要求输入每个词后要停顿。(2)连接词语音识别系统。连接词输入系统要求对每个词都清楚发音,一些连音现象开始出现。(3)连续语音识别系统。连续语音输入是自然流利的连续语音输入,大量连音和变音会出现。如果从识别系统的词汇量大小考虑,也可以将识别系统分为三类:(1)小词汇量语音识别系统。通常包括几十个词的语音识别系统。(2)中等词汇量的语音识别系统。通常包括几百个词到上千个词的识别系统。(3)大词汇量语音识别系统。通常包括几千到几万个词的语音识别系统。随着计算机与数字信号处理器运算能力以及识别系统精度的提高,识别系统根据词汇量大小进行分类也不断进行变化。目前是中等词汇量的识别系统,将来可能就是小词汇量的语音识别系统。这些不同的限制也确定了语音识别系统的困难度。二:语音识别技术发展现状-语音识别的方法汇总分析目前具有代表性的语音识别方法主要有动态时间规整技术(DTW)、隐马尔可夫模型(HMM)、矢量量化(VQ)、人工神经网络(ANN)、支持向量机(SVM)等方法。动态时间规整算法(DynamicTImeWarping,DTW)是在非特定人语音识别中一种简单有效的方法,该算法基于动态规划的思想,解决了发音长短不一的模板匹配问题,是语音识别技术中出现较早、较常用的一种算法。在应用DTW算法进行语音识别时,就是将已经预处理和分帧过的语音测试信号和参考语音模板进行比较以获取他们之间的相似度,按照某种距离测度得出两模板间的相似程度并选择最佳路径。 隐马尔可夫模型(HMM)是语音信号处理中的一种统计模型,是由Markov链演变来的,所以它是基于参数模型的统计识别方法。由于其模式库是通过反复训练形成的与训练输出信号吻合概率最大的最佳模型参数而不是预先储存好的模式样本,且其识别过程中运用待识别语音序列与HMM参数之间的似然概率达到最大值所对应的最佳状态序列作为识别输出,因此是较理想的语音识别模型。矢量量化(VectorQuanTIzaTIon)是一种重要的信号压缩方法。与HMM相比,矢量量化主要适用于小词汇量、孤立词的语音识别中。其过程是将若干个语音信号波形或特征参数的标量数据组成一个矢量在多维空间进行整体量化。把矢量空间分成若干个小区域,每个小区域寻找一个代表矢量,量化时落入小区域的矢量就用这个代表矢量代替。矢量量化器的设计就是从大量信号样本中训练出好的码书,从实际效果出发寻找到好的失真测度定义公式,设计出最佳的矢量量化系统,用最少的搜索和计算失真的运算量实现最大可能的平均信噪比。在实际的应用过程中,人们还研究了多种降低复杂度的方法,包括无记忆的矢量量化、有记忆的矢量量化和模糊矢量量化方法。人工神经网络(ANN)是20世纪80年代末期提出的一种新的语音识别方法。其本质上是一个自适应非线性动力学系统,模拟了人类神经活动的原理,具有自适应性、并行性、鲁棒性、容错性和学习特性,其强大的分类能力和输入—输出映射能力在语音识别中都很有吸引力。其方法是模拟人脑思维机制的工程模型,它与HMM正好相反,其分类决策能力和对不确定信息的描述能力得到举世公认,但它对动态时间信号的描述能力尚不尽如人意,通常MLP分类器只能解决静态模式分类问题,并不涉及时间序列的处理。尽管学者们提出了许多含反馈的结构,但它们仍不足以刻画诸如语音信号这种时间序列的动态特性。由于ANN不能很好地描述语音信号的时间动态特性,所以常把ANN与传统识别方法结合,分别利用各自优点来进行语音识别而克服HMM和ANN各自的缺点。近年来结合神经网络和隐含马尔可夫模型的识别算法研究取得了显著进展,其识别率已经接近隐含马尔可夫模型的识别系统,进一步提高了语音识别的鲁棒性和准确率。支持向量机(Supportvectormachine)是应用统计学理论的一种新的学习机模型,采用结构风险最小化原理(StructuralRiskMinimization,SRM),有效克服了传统经验风险最小化方法的缺点。兼顾训练误差和泛化能力,在解决小样本、非线性及高维模式识别方面有许多优越的性能,已经被广泛地应用到模式识别领域。三:语音识别技术发展现状-国外研究语音识别的研究工作可以追溯到20世纪50年代AT&T贝尔实验室的Audry系统,它是第一个可以识别十个英文数字的语音识别系统。但真正取得实质性进展,并将其作为一个重要的课题开展研究则是在60年代末70年代初。这首先是因为计算机技术的发展为语音识别的实现提供了硬件和软件的可能,更重要的是语音信号线性预测编码(LPC)技术和动态时间规整(DTW)技术的提出,有效的解决了语音信号的特征提取和不等长匹配问题。这一时期的语音识别主要基于模板匹配原理,研究的领域局限在特定人,小词汇表的孤立词识别,实现了基于线性预测倒谱和DTW技术的特定人孤立词语音识别系统;同时提出了矢量量化(VQ)和隐马尔可夫模型(HMM)理论。随着应用领域的扩大,小词汇表、特定人、孤立词等这些对语音识别的约束条件需要放宽,与此同时也带来了许多新的问题:第一,词汇表的扩大使得模板的选取和建立发生困难;第二,连续语音中,各个音素、音节以及词之间没有明显的边界,各个发音单位存在受上下文强烈影响的协同发音(Co-articulation)现象;第三,非特定人识别时,不同的人说相同的话相应的声学特征有很大的差异,即使相同的人在不同的时间、生理、心理状态下,说同样内容的话也会有很大的差异;第四,识别的语音中有背景噪声或其他干扰。因此原有的模板匹配方法已不再适用。实验室语音识别研究的巨大突破产生于20世纪80年代末:人们终于在实验室突破了大词汇量、连续语音和非特定人这三大障碍,第一次把这三个特性都集成在一个系统中,比较典型的是卡耐基梅隆大学(CarnegieMellonUniversity)的Sphinx系统,它是第一个高性能的非特定人、大词汇量连续语音识别系统。 这一时期,语音识别研究进一步走向深入,其显著特征是HMM模型和人工神经元网络(ANN)在语音识别中的成功应用。HMM模型的广泛应用应归功于AT&TBell实验室Rabiner等科学家的努力,他们把原本艰涩的HMM纯数学模型工程化,从而为更多研究者了解和认识,从而使统计方法成为了语音识别技术的主流。统计方法将研究者的视线从微观转向宏观,不再刻意追求语音特征的细化,而是更多地从整体平均(统计)的角度来建立最佳的语音识别系统。在声学模型方面,以Markov链为基础的语音序列建模方法HMM(隐式Markov链)比较有效地解决了语音信号短时稳定、长时时变的特性,并且能根据一些基本建模单元构造成连续语音的句子模型,达到了比较高的建模精度和建模灵活性。在语言层面上,通过统计真实大规模语料的词之间同现概率即N元统计模型来区分识别带来的模糊音和同音词。另外,人工神经网络方法、基于文法规则的语言处理机制等也在语音识别中得到了应用。20世纪90年代前期,许多著名的大公司如IBM、苹果、AT&T和NTT都对语音识别系统的实用化研究投以巨资。语音识别技术有一个很好的评估机制,那就是识别的准确率,而这项指标在20世纪90年代中后期实验室研究中得到了不断的提高。比较有代表性的系统有:IBM公司推出的ViaVoice和DragonSystem公司的NaturallySpeaking,Nuance公司的NuanceVoicePlatform语音平台,Microsoft的Whisper,Sun的VoiceTone等。其中IBM公司于1997年开发出汉语ViaVoice语音识别系统,次年又开发出可以识别上海话、广东话和四川话等地方口音的语音识别系统ViaVoice‘98。它带有一个32,000词的基本词汇表,可以扩展到65,000词,还包括办公常用词条,具有“纠错机制”,其平均识别率可以达到95%。该系统对新闻语音识别具有较高的精度,是目前具有代表性的汉语连续语音识别系统。四:语音识别技术发展现状-国内研究我国语音识别研究工作起步于五十年代,但近年来发展很快。研究水平也从实验室逐步走向实用。从1987年开始执行国家863计划后,国家863智能计算机专家组为语音识别技术研究专门立项,每两年滚动一次。我国语音识别技术的研究水平已经基本上与国外同步,在汉语语音识别技术上还有自己的特点与优势,并达到国际先进水平。中科院自动化所、声学所、清华大学、北京大学、哈尔滨工业大学、上海交通大学、中国科技大学、北京邮电大学、华中科技大学等科研机构都有实验室进行过语音识别方面的研究,其中具有代表性的研究单位为清华大学电子工程系与中科院自动化研究所模式识别国家重点实验室。清华大学电子工程系语音技术与专用芯片设计课题组,研发的非特定人汉语数码串连续语音识别系统的识别精度,达到94.8%(不定长数字串)和96.8%(定长数字串)。在有5%的拒识率情况下,系统识别率可以达到96.9%(不定长数字串)和98.7%(定长数字串),这是目前国际最好的识别结果之一,其性能已经接近实用水平。研发的5000词邮包校核非特定人连续语音识别系统的识别率达到98.73%,前三选识别率达99.96%;并且可以识别普通话与四川话两种语言,达到实用要求。中科院自动化所及其所属模式科技(Pattek)公司2002年发布了他们共同推出的面向不同计算平台和应用的“天语”中文语音系列产品——PattekASR,结束了中文语音识别产品自1998年以来一直由国外公司垄断的历史。 五:语音识别技术发展现状-当前亟待解决的问题语音识别系统的性能受到许多因素的影响,包括不同说话人的发音方式、说话方式、环境噪音、传输信道衰落等等。具体要解决的问题有四点:①增强系统的鲁棒性,也就是说如果条件状况变得与训练时很不相同,系统的性能下降不能是突变的。②增加系统的适应能力,系统要能稳定连续的适应条件的变化,因为说话人存在着年龄、性别、口音、语速、语音强度、发音习惯等方面的差异。所以,系统应该有能力排除掉这些差异。达到对语音的稳定识别。③寻求更好的语言模型,系统应该在语言模型中得到尽可能多的约束,从而解决由于词汇量增长所带来的影响。④进行动力学建模,语音识别系统提前假定片段和单词是相互独立的,但实际上词汇和音素的线索要求对反映了发声器官运动模型特点的整合。所以,应该进行动力学建模,从而将这些信息整合到语音识别系统中去。六:语音识别技术发展现状-语音识别系统的最新发展语音识别技术发展到今天,特别是中小词汇量非特定人语音识别系统识别精度已经大于98%,对特定人语音识别系统的识别精度就更高。这些技术已经能够满足通常应用的要求。由于大规模集成电路技术的发展,这些复杂的语音识别系统已经完全可以制成专用芯片,大量生产。在西方经济发达国家,大量的语音识别产品已经进入市场和服务领域。一些用户交换机、电话机、手机已经包含了语音识别拨号功能、语音记事本、语音智能玩具等产品,同时也包括语音识别与语音合成功能。人们可以通过电话网络用语音识别口语对话系统查询有关的机票、旅游、银行信息。调查统计表明,多达85%以上的人对语音识别的信息查询服务系统的性能表示满意。可以预测,在近5年内,语音识别系统的应用将更加广泛,各种各样的语音识别系统产品将不断出现在市场上。语音识别技术在人工邮件分拣中的作用也日益显现,发展前景诱人。一些发达国家的邮政部门已经使用了这一系统,语音识别技术逐渐成为邮件分拣的新技术。它可以克服手工分拣单纯依靠分拣员记忆力的不足,解决人员成本过高的问题,提高邮件处理的效率和效益。就教育领域来讲,语音识别技术的最直接的应用就是帮助用户更好地练习语言技巧。语音识别技术的另一个发展分支就是电话语音识别技术的发展,贝尔实验室是这方面的先驱,电话语音识别技术将能够实现电话查询、自动接线以及一些专门业务如旅游信息等的操作。银行应用了语音理解技术的声讯查询系统后,可不分昼夜地为客户提供二十四小时的电话银行理财服务。而证券业方面,若是采用电话语音识别声讯系统的话,用户想查询行情便可以直接讲出股票名称或代码,而系统确认用户的要求后,会自动读出最新的股票价,这将大大方便用户。目前在114查号台还有大量的人工服务,如果采用语音技术,就可让计算机自动接听用户的需要,然后回放查询的电话号码,从而节约了人力资源。
更多恩智浦(NXP)及科技资讯请关注:NXP中文官方:https://www.nxp.com/zh-Hans/NXP中文技术论坛:https://www.nxpic.org.cn/NXP新浪微博:https://weibo.com/nxpsemiconductors
2023年中国AI语音识别行业市场规模及发展趋势分析 数据底层技术升级推动准确率提升
1、中国AI语音市场需求爆发,数据服务等技术提供强力支撑
在过去五年间,中国AI语音的需求逐渐爆发,产品及服务主要包括智能音箱、智能车载和智能硬件及消费及互联网增值服务。从市场规模来看,2020年,中国AI语音行业市场规模突破100亿元,达到114亿元左右,2015-2020年年均复合增长率约为49%。
从产业链来看,中国AI语音识别市场上游主要为数据服务提供商(包含数据标注企业)与云服务的企业。语音识别解码过程中包含了声学模型和语言模型的识别建模和模型训练两个部分,在运行过程中训练数据量和计算量需求极大。
在此过程中,数据标注企业通过分类、画框、标注、注释等,对语音数据进行处理,并标记特征供机器学习,最终实现计算机能够自主识别。
2、中国数据标注行业高速增长,语音类数据需求量大
从数据标注产业来看,到2019年,数据标注行业市场规模为30.9亿元,到2020年行业市场规模突破36亿元,预计2025年市场规模将突破100亿元,说明我国数据标注行业处于高速发展阶段。
按数据类型划分,中国人工智能数据标注市场以语音、图像、NLP领域的标注服务为主。其中,2018年语音类数据标注服务市场规模为6.6亿元,语音类数据采集与标注服务市场规模为2.8亿元。
2019年,语音类数据整体需求规模占比较2018年略有下滑,但仍在40%左右的水平,说明语音类数据在数据标注服务市场中的地位较为重要,市场需求量大。
注:2018年为各类数据在人工智能数据资源定制服务市场中的占比,2019年为各类数据在AI数据标注市场中整体需求占比。
3、数据底层技术升级,语音识别准确率逐步提升
在过去5-10年,Al语音识别技术的快速商业化的主要原因在于技术端的快速发展,如计算能力的提升、算法框架的优化和大数据的升级等。其中,高质量、精细化的标注数据直接影响算法的准确性。
从底层数据来看,更加贴近真实使用场景的语料库也为语音识别技术提供了更加有效的训练素材,从而大幅提升了Al语音识别产品及服务的使用体验。
由此可见,在数据底层技术升级的影响下,语音识别技术准确率得到提升,为Al语音识别的商用渗透提供了强大的市场驱动力。
更多数据及分析请参考于前瞻产业研究院《中国人工智能行业市场前瞻与投资战略规划分析报告》,同时前瞻产业研究院还提供产业大数据、产业研究、产业链咨询、产业图谱、产业规划、园区规划、产业招商引资、IPO募投可研、招股说明书撰写等解决方案。