博舍

简要介绍语音识别技术在各领域的应用 语音识别技术主要应用包括

简要介绍语音识别技术在各领域的应用

语音识别作为信息技术中一种人机接口的关键技术,具有重要的研究意义和广泛的应用价值。介绍了语音识别技术发展的历程,具体阐述了语音识别概念、基本原理、声学建模方法等基本知识,并对语音识别技术在各领域的应用作了简要介绍。

语言是人类相互交流最常用、最有效、最重要和最方便的通信形式,语音是语言的声学表现,与机器进行语音交流是人类一直以来的梦想。随着计算机技术的飞速发展,语音识别技术也取得突破性的成就,人与机器用自然语言进行对话的梦想逐步接近实现。语音识别技术的应用范围极为广泛,不仅涉及到日常生活的方方面面,在军事领域也发挥着极其重要的作用。它是信息社会朝着智能化和自动化发展的关键技术,使人们对信息的处理和获取更加便捷,从而提高人们的工作效率。

1语音识别技术的发展

语音识别技术起始于20世纪50年代。这一时期,语音识别的研究主要集中在对元音、辅音、数字以及孤立词的识别。

20世纪60年代,语音识别研究取得实质性进展。线性预测分析和动态规划的提出较好地解决了语音信号模型的产生和语音信号不等长两个问题,并通过语音信号的线性预测编码,有效地解决了语音信号的特征提取。

2O世纪70年代,语音识别技术取得突破性进展。基于动态规划的动态时间规整(DynamicTimeWarping,DTW)技术基本成熟,特别提出了矢量量化(VectorQuantization,VQ)和隐马尔可夫模型(HiddenMarkovModel,HMM)理论。

20世纪80年代,语音识别任务开始从孤立词、连接词的识别转向大词汇量、非特定人、连续语音的识别,识别算法也从传统的基于标准模板匹配的方法转向基于统计模型的方法。在声学模型方面,由于HMM能够很好的描述语音时变性和平稳性,开始被广泛

案例分享

本案例获得CHIMA2020医院新兴技术创新应用典型案例“医学人工智能创新应用”方向二等奖。

01案例概要

国务院于2017年正式印发《新一代人工智能发展规划》,随后多部委陆续颁发相关政策,包括:科技部于2019年8月正式印发《国家新一代人工智能开放创新平台建设工作指引》等,进一步明确了我国新一代人工智能发展的战略目标:预期到2030年,人工智能理论、技术与应用总体达到世界领先水平,我国成为世界主要人工智能创新中心。随着医疗信息化技术的不断完善,如何通过人工智能技术为医务工作者提供帮助,成为医疗信息化领域的重要研究方向。

近五年,北京协和医院(以下简称“我院”)陆续引人工智能技术,尤其是将语音识别技术应用到临床,包括:病房、医技科室、手术休息区等区域,在语音病例录入等方面的研究已经取得了良好效果。2018年,我院患者APP中成功实现语音模块嵌入,患者持手机即可进行语音查询医生介绍和出诊信息等功能。

基于上述成功项目的经验基础,结合语音识别技术最新发展动态,我院于2018年开始积极探讨语音识别技术在医技科室的应用。以超声医学科为例,一套完整的检查报告流程包括:患者叫号、病情问询、超声检查操作、检查内容记录、书写检查内容和报告,打印报告和签字确认等。一方面,单个患者等检查时间长、医生操作内容繁多、候诊患者等待时间长且体验差;另一方面,医生双手同时操作超声设备,造成检查操作和书写诊断过程分离,医生在叫号、检查、诊断、打印等流程切换,往返于叫号程序、超声设备、电子病历、打印机等场景,部分情况下还会采用人工助手协助,增加了工作中的人力成本。

为缓解超声科医生工作强度高、工作效率较低等问题,我院率先尝试并探索了基于语音识别技术的超声检查模式创新,实现医生通过语音操控超声系统和填写超声报告,为医生减负的同时提升超声检查效率。

02服务对象及覆盖范围

(1)服务对象:医院的检查科室,如:超声科、放射科等。

(2)覆盖范围:在超声科部分诊室开展使用。

03实践与探索

(1)语音操作覆盖检查全流程:通过前期调研和问题梳理,我们制定出一套适应超声检查的超声助手软件产品,实现全流程语音操控,保证超声检查医生在不需要鼠标、键盘的情况下,可以完成所有检查报告书写工作(包括:选择图像、查阅历史检查、复查患者、检查数值录入等)。

(2)硬件产品选型和定制开发:考虑到超声医学科环境较为复杂,固定式麦克风、鹅颈麦克风都难以适用此场景,所以我们需要定制开发移动麦克风的硬件进行采音。硬件产品选型过程中经三次改版,从两个维度考量:一方面是指向性麦克风,指向性是话筒对来自空间各个方向声音灵感度的一个描述,以心形指向性麦克风为例,在指向性正向语音信号不衰减,在反向和侧面语音信号急剧衰减;另一方面是麦克风近讲特性,在指定距离(如一米外)的录音时信号急剧衰减。

我院研发定制了头戴式无线麦克风,结合指向性和近讲性两个维度,在声源上实现对环境噪声的有效抑制,如图1所示。此外,在麦克风内部采用减震、加固等方法,降低了麦克风自身的震动和噪声。

               

        图1麦克风指向性效果图

(3)无效语音过滤等关键技术:在实际采音过程中,语音内容不仅包括医生检查报告信息,而且包括医生与患者口语交流的内容。考虑到超声医学科的场景—不同病房,在检查过程中医生与患者的交流频繁,经常出现口语化内容。因此,需要对医生口述的内容进行无效语音过滤,才能形成有效的录入和检查报告。此外,在语音识别技术与超声系统融合的过程中,还涉及多项关键技术,如图2所示,包括:超声医学科复杂医学环境下的语音抗噪音处理的技术、不同角色语音识别结果的分类技术、日常口语内容书面化技术、语音识别文本的结构化技术、语音识别内容的完整性技术、在不连续识别文本下智能标点符号标记技术和语音识别系统与超声医学科业务系统结合下产品易用性和便捷性的实现方式等。

图2超声语音应用关键技术分解图

(4)语音应用集成方案设计:将语音识别应用到超声系统中,实现语音命令控制、语音书写等功能,系统集成方案如图3所示。语音识别系统与原超声系统是各自独立的两个应用程序,将语音识别系统的嵌入到原超声系统中,形成新的智能语音超声系统。语音识别系统提供语音指令、语音模板编辑、自由文本录入等功能,智能语音超声系统提供系统状态以方便语音识别系统内部进行识别场景的转换。

图3语音应用集成方案

在运行过程中,语音系统与超声系统双方不断的进行状态、指令、模板和自由文本的交互和通信。双方系统的交互流程如图4所示,当超声系统调用语音系统接口时,语音系统接口会去侦测语音识别系统是否已启动,如果未启动则自动启动语音识别系统。当超声系统卸载语音系统接口时,且语音系统接口的引用计数为0时,由语音系统接口关闭语音识别系统。

图4超声系统和语音应用之间的交互

04成果分享

通过不断攻克技术难关,我院历时13个月,完成基于智能语音识别技术的超声助手应用软件开发工作和硬件定制工作。目前,实现与超声系统完美集成的超声助手,已经在我院超声医学科的门诊进行推广,实际应用场景如图5所示。经3个月的系统测试和试运行,超声科用户反馈良好。

图5超声医学科应用场景图

为准确评估超声助手的工作效果,我院组织了50人团队,专门针对测试模板使用便捷性和使用效率问题进行分析。并在采用不同模板录入的情况下,对比超声助手和人工助手的工作时长,结果如表1所示。可见,医生借助超声助手可以实现到语音操控超声系统、语音录入超声报告,平均时长为62.6秒;使用同类模板时,操作熟练的人工助手(超声报告录入员)的工作时长为62.5秒。两者比值接近1:1,超声助手的工作效率可以媲美人工。

表1采用不同模板事超声助手和人工助手的检查时长对比表

05难点与挑战

在本案例中,重点攻克是语音信号处理难点,具体可以分为:“听不清”、“谁在说”和“说什么”的问题。语音识别技术应用于超声医学科,首先要解决的是提高声源质量,对噪声进行处理,计划从声源采集、语音识别技术的声学模型两个方面入手进行技术研究。在实际的检查诊断过程中,医生和患者会进行交流。例如医生在检查过程中说到病理指标,患者会进行询问,而医生会进行解答或者安抚。在这个过程中,医生在检查过程中口述的检查结果是有效内容;患者口述的内容是无效内容,需要分离医生和患者口述的内容。除患者口述内容外,还有医生回答患者的内容,医生引导患者的内容,虽然这些内容由医生口述,但仍属于无效内容,需要使用语义分离技术去除无效内容。

(1)攻克语音信号处理难点,优化声学模型

通过定制麦克风,医生口述方向上的语音能量和相反方向上的语音能量比达到了30db,开发人员设计开发基础能量的语音信号处理方法,过滤掉低能量的语音信号,保留高能量的语音信号,即保留医生口述方向上的语音信号。在医生工作的位置放置录音设备,录制环境噪声、设备噪声,采集了长达300个小时的声音数据,覆盖了远、中、近三个距离范围。通过对声音数据进行清洗,与原有语音数据一同进行训练,得到了优化的声学模型。

(2)挑战说话人分离技术,优化语言模型

通过对超声数据进行统计,对已有语言模型的适用性进行评估,明确了模型调整方向,进行超声专项数据收集、整理、标注和训练,构建超声医学科的专科语言模型。在保证整体医学领域识别率的前提下,提高在噪声环境下识别结果对医院个性化语音数据的倾向。

在确定录音设备方案的基础上,结合超声科的实际场景,确定采用较为成熟的基于距离的说话人分离技术方案,该方案利用两个相邻窗之间声学特征分布的距离大小来衡量它们之间的相似性,从而达到区分的目的。本案中使用贝叶斯信息准则(BayesianInformationCriterion,BIC)来进行说话人分离。

(3)挑战无效内容分离技术,提升识别准确率

在前述技术实现的基础上,可以规避大量的无效语音,少量被识别的无效语音,转化为了无效的内容。通过自然语言理解和自然语言处理的引入,结合深度神经网络(DeepNeuralNetworks,DNN)模型的构建,对有效和无效的内容进行区分,进一步达到分离的效果。通过梳理超声科12大类检查项目的200M正面语料数据、3G反面语料数据,清洗、标注、训练,形成了DNN分离模型。

结合声源抗噪和声学模型优化,在超声科实际工作环境中进行统计,语音识别准确率达到96%;在没有使用无效语音过滤技术时的语音识别准确率为83%。如图6所示,经过采用无效语音过滤技术,语音识别准确率提高了13%。使用分离模型对识别结果进行过滤,有效内容的正向测试集准确率达到98.9%,无效内容的反向测试集准确率达到96.0%。

图6针对是否采用无效语音过滤技术的语音识别准确率对比图

06下一步发展规划

(1)如何与现有超声系统深度集成

目前语音识别技术应用到超声医学科室,主要技术架构是在超声系统上进行的集成,医生通过语音指令,跳转到语音应用的模板编辑界面,进行检查和诊断的相关语音操作,完成之后再跳转回超声系统。后期需要将业务逻辑从语音应用中提取出来,深度集成到超声系统中,语音应用负责实现语音采集、处理,语音识别,书面化、结构化、指令化,将相应的结果提供给超声系统,由超声系统完成模板编辑,语音指令等相关的操作。

(2)如何与医生现有工作模式结合

目前语音录入和键盘录入的速度差不多,可以通过录入元素后自动跳转到下一个元素的方式增加录入效率,提高使用流畅度。后期需要针对医生和录入员组合方式,深入走访和沟通,找到在这种工作方式中的痛点,例如如何应用语音识别技术,来减少医生和录入员在沟通过程中的信息丢失和降低沟通频度。尽可能低的影响医生工作习惯的前提下,和现有工作模式流畅结合。

(3)录音方案如何进一步改进

当前的录音方案,使用的是头戴式无线麦克风。其具有指向性稳定、降噪性能突出、移动方便的特点。但是在实际使用过程中发现,部分医生会佩戴眼镜,部分医生由于工作需要会佩戴口罩和帽子,如果医生佩戴了口罩、眼镜、帽子,往往对佩戴头戴式的麦克风有一定的排斥心理。因此,需要进一步思考如何对录音方案做改进,提升舒适性、便捷性和稳定性,在造型上更加多样化,在保证抗噪性能的基础上,让医生不排斥甚至乐于使用。

07总结与展望

语音超声助手的实践案例验证了语音在超声医学科辅助医生开展检查工作的可行性,让语音识别技术在超声医学科成功落地,推动了智慧医院建设在超声医学科的进程。在实际应用中,无论是全语音操控、识别率、麦克风抗噪能力、无效语音过滤能力、结构化语音录入速度等均达到了预期,达到了实际上线的标准,并有进一步优化改进的空间。语音超声助手作为一个典型的人工智能应用案例,不仅有自身的实用价值,而且其研究方法和技术积累也具有可复制性,具有较高的临床实践推广意义。

浅谈语音识别技术的发展趋势与应用前景

一、语音识别技术定义

语音识别技术,也被称为自动语音识别AutomaticSpeechRecognition,(ASR),其目标是将人类的语音中的词汇内容转换为计算机可读的输入,例如按键、二进制编码或者字符序列。与说话人识别及说话人确认不同,后者尝试识别或确认发出语音的说话人而非其中所包含的词汇内容。

语音识别技术的应用包括语音拨号、语音导航、室内设备控制、语音文档检索、简单的听写数据录入等。语音识别技术与其他自然语言处理技术如机器翻译及语音合成技术相结合,可以构建出更加复杂的应用,例如语音到语音的翻译。

二、语音识别技术原理

语音识别系统提示客户在新的场合使用新的口令密码,这样使用者不需要记住固定的口令,系统也不会被录音欺骗。文本相关的声音识别方法可以分为动态时间伸缩或隐马尔可夫模型方法。文本无关声音识别已经被研究很长时间了,不一致环境造成的性能下降是应用中的一个很大的障碍。

其工作原理:

动态时间伸缩方法使用瞬间的、变动倒频。1963年Bogertetal出版了《回声的时序倒频分析》。通过交换字母顺序,他们用一个含义广泛的词汇定义了一个新的信号处理技术,倒频谱的计算通常使用快速傅立叶变换。

从1975年起,隐马尔可夫模型变得很流行。运用隐马尔可夫模型的方法,频谱特征的统计变差得以测量。文本无关语音识别方法的例子有平均频谱法、矢量量化法和多变量自回归法。

平均频谱法使用有利的倒频距离,语音频谱中的音位影响被平均频谱去除。使用矢量量化法,语者的一套短期训练的特征向量可以直接用来描绘语者的本质特征。但是,当

人工智能之语音识别技术【科普】

03语音增强

主要任务就是消除环境噪声对语音的影响。目前,比较常见的语音增强方法分类很多。其中基于短时谱估计增强算法中的谱减法及其改进形式是最为常用的,这是因为它的运算量较小,容易实时实现,而且增强效果也较好。此外,人们也在尝试将人工智能、隐马尔科夫模型、神经网络和粒子滤波器等理论用于语音增强,但目前尚未取得实质性进展。

声学特征提取

人通过声道产生声音,声道的形状决定了发出怎样的声音。声道的形状包括舌头,牙齿等。如果我们可以准确的知道这个形状,那么我们就可以对产生的音素进行准确的描述。声道的形状在语音短时可以由功率谱的包络中显示出来。因此,准确描述这一包络的特征就是声学特征识别步骤的主要功能。接收端接收到的语音信号经过上文的预处理以后便得到有效的语音信号,对每一帧波形进行声学特征提取便可以得到一个多维向量。这个向量便包含了一帧波形的内容信息,为后续的进一步识别做准备

本文主要介绍使用最多的MFCC声学特征。

01MFCC简介

MFCC是Mel-FrequencyCepstralCoefficients的缩写,顾名思义MFCC特征提取包含两个关键步骤:转化到梅尔频率,然后进行倒谱分析

Mel频率倒谱系数的缩写。Mel频率是基于人耳听觉特性提出来的,它与Hz频率成非线性对应关系。Mel频率倒谱系数(MFCC)则是利用它们之间的这种关系,计算得到的Hz频谱特征

02MFCC提取流程

MFCC参数的提取包括以下几个步骤:

预滤波:CODEC前端带宽为300-3400Hz的抗混叠滤波器。

A/D变换:8kHz的采样频率,12bit的线性量化精度。

预加重:通过一个一阶有限激励响应高通滤波器,使信号的频谱变得平坦,不易受到有限字长效应的影响。

分帧:根据语音的短时平稳特性,语音可以以帧为单位进行处理,实验中选取的语音帧长为32ms,帧叠为16ms。

加窗:采用哈明窗对一帧语音加窗,以减小吉布斯效应的影响。

快速傅立叶变换(FastFourierTransformation,FFT):将时域信号变换成为信号的功率谱。

三角窗滤波:用一组Mel频标上线性分布的三角窗滤波器(共24个三角窗滤波器),对信号的功率谱滤波,每一个三角窗滤波器覆盖的范围都近似于人耳的一个临界带宽,以此来模拟人耳的掩蔽效应。

求对数:三角窗滤波器组的输出求取对数,可以得到近似于同态变换的结果。

离散余弦变换(DiscreteCosineTransformation,DCT):去除各维信号之间的相关性,将信号映射到低维空间。

谱加权:由于倒谱的低阶参数易受说话人特性、信道特性等的影响,而高阶参数的分辨能力比较低,所以需要进行谱加权,抑制其低阶和高阶参数。

倒谱均值减(CepstrumMeanSubtraction,CMS):CMS可以有效地减小语音输入信道对特征参数的影响。

差分参数:大量实验表明,在语音特征中加入表征语音动态特性的差分参数,能够提高系统的识别性能。在本系统中,我们也用到了MFCC参数的一阶差分参数和二阶差分参数。

短时能量:语音的短时能量也是重要的特征参数,本系统中我们采用了语音的短时归一化对数能量及其一阶差分、二阶差分参数。

MFCC提取一般流程

模式匹配 和语言处理

通过语音特征分析以后接下来就是模式匹配和语言处理

声学模型是识别系统的底层模型,并且是语音识别系统中最关键的一部分。声学模型的目的是提供一种有效的方法计算语音的特征矢量序列和每个发音模板之间的距离。声学模型的设计和语言发音特点密切相关。声学模型单元大小(字发音模型、半音节模型或音素模型)对语音训练数据量大小、系统识别率,以及灵活性有较大的影响。必须根据不同语言的特点、识别系统词汇量的大小决定识别单元的大小。

语言模型对中、大词汇量的语音识别系统特别重要。当分类发生错误时可以根据语言学模型、语法结构、语义学进行判断纠正,特别是一些同音字则必须通过上下文结构才能确定词义。语言学理论包括语义结构、语法规则、语言的数学描述模型等有关方面。目前比较成功的语言模型通常是采用统计语法的语言模型与基于规则语法结构命令语言模型。语法结构可以限定不同词之间的相互连接关系,减少了识别系统的搜索空间,这有利于提高系统的识别。语音识别过程实际上是一种认识过程。就像人们听语音时,并不把语音和语言的语法结构、语义结构分开来,因为当语音发音模糊时人们可以用这些知识来指导对语言的理解过程,但是对机器来说,识别系统也要利用这些方面的知识,只是如何有效地描述这些语法和语义还有困难:

小词汇量语音识别系统。通常包括几十个词的语音识别系统。中等词汇量的语音识别系统。通常包括几百个词至上千个词的识别系统。大词汇量语音识别系统。通常包括几千至几万个词的语音识别系统。这些不同的限

制也确定了语音识别系统的困难度。模式匹配部是语音识别系统的关键组成部分,它一般采用“基于模式匹配方式的语音识别技术”或者采用“基于统计模型方式的语音识别技术”。前者主要是指“动态时间规整(DTW法”,后者主要是指“隐马尔可夫(HMM)法”。

隐马尔可夫模型(HMM)是语音信号处理中的一种统计模型,是由Markov链演变来的,所以它是基于参数模型的统计识别方法。由于其模式库是通过反复训练形成的与训练输出信号吻合概率最大的最佳模型参数而不是预先储存好的模式样本,且其识别过程中运用待识别语音序列与HMM参数之间的似然概率达到最大值所对应的最佳状态序列作为识别输出,因此是较理想的语音识别模型。

动态时间归整)算法:在孤立词语音识别中,最为简单有效的方法是采用DTW(DynamicTimeWarping,动态时间归整)算法,该算法基于动态规划(DP)的思想,解决了发音长短不一的模板匹配问题,是语音识别中出现较早、较为经典的一种算法,用于孤立词识别。HMM算法在训练阶段需要提供大量的语音数据,通过反复计算才能得到模型参数,而DTW算法的训练中几乎不需要额外的计算。所以在孤立词语音识别中,DTW算法仍然得到广泛的应用。

小结:语音识别在移动终端上的应用最为火热,语音对话机器人、智能音箱、语音助手、互动工具等层出不穷,许多互联网公司纷纷投入人力、物力和财力展开此方面的研究和应用。语音识别技术也将进入工业、家电、通信、汽车电子、医疗、家庭服务、消费电子产品等各个领域。尤其是在智能家居系统中语音识别将成为人工智能在家庭重要的入口,同时,未来随着手持设备的小型化,智能穿戴化也将成为语音识别技术的重要应用领域。返回搜狐,查看更多

更所资讯请关注我们!一个有维度的人工智能平台!dmindAI精彩等你来

版权声明:本文内容由互联网用户自发贡献,该文观点仅代表作者本人。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如发现本站有涉嫌抄袭侵权/违法违规的内容,一经查实,本站将立刻删除。

上一篇

下一篇