博舍

语音识别研究综述 人工智能在语音识别的应用现状研究意义和价值

语音识别研究综述

语言是人类最原始直接的一种交流方式,通俗易懂、便于理解.随着科技的发展,语言交流不再只存在于人与人之间,如何让机器“听懂”人类的语言并做出反应成为人工智能的重要课题,语音智能交互技术应运而生.作为其中重要一环的语音识别技术近年来不断发展,走出了实验室,随着人工智能进入人们的日常生活中.当今市场上语音识别技术相关的软件、商品涉及人类生活的方方面面,语音识别的实用性已经得到充分的印证.如今语音识别技术已经成为人类社会智能化的关键一步,能够极大提高人们生活的便捷度.

1语音识别技术的发展历程

语音识别技术始于20世纪50年代,贝尔实验室研发了10个孤立数字的语音识别系统,此后,语音识别相关研究大致经历了3个发展阶段.第1阶段,从20世纪50年代到90年代,语音识别仍处于探索阶段.这一阶段主要通过模板匹配—即将待识别的语音特征与训练中的模板进行匹配—进行语音识别.典型的方法包括动态时间规整(dynamictimewarping,DTW)技术和矢量量化(vectorquantification,VQ).DTW依靠动态规划(dynamicprogramming,DP)技术解决了语音输入输出不定长的问题;VQ则是对词库中的字、词等单元形成矢量量化的码本作为模板,再用输入的语音特征矢量与模板进行匹配.总体而言,这一阶段主要实现了小词汇量、孤立词的语音识别.20世纪80年代至21世纪初为第2阶段,这一阶段的语音识别主要以隐马尔科夫模型(hiddenMarkovmodel,HMM)为基础的概率统计模型为主,识别的准确率和稳定性都得到极大提升.该阶段的经典成果包括1990年李开复等研发的SPHINX系统[1],该系统以GMM-HMM(Gaussianmixturemodel-hiddenMarkovmodel)为核心框架,是有史以来第一个高性能的非特定人、大词汇量、连续语音识别系统.GMM-HMM结构在相当长时间内一直占据语音识别系统的主流地位,并且至今仍然是学习、理解语音识别技术的基石.此外,剑桥推出了以HMM为基础的语音识别工具包HTK(hiddenMarkovmodeltoolkit)[2].21世纪至今是语音识别的第3阶段.这一阶段的语音识别建立在深度学习基础上,得益于神经网络对非线性模型和大数据的处理能力,取得了大量成果.2009年Mohamed等[3]提出深度置信网络(deepbeliefnetwork,DBN)与HMM相结合的声学模型在小词汇量连续语音识别中取得成功.2012年深度神经网络与HMM相结合的声学模型DNN-HMM在大词汇量连续语音识别(largevocabularycontinuousspeechrecognition,LVCSR)中取得成功[4],掀起利用深度学习进行语音识别的浪潮.此后,以卷积神经网络(convolutionalneuralnetwork,CNN)、循环神经网络(recurrentneuralnetwork,RNN)等常见网络为基础的混合识别系统和端到端识别系统都获得了不错的识别结果和系统稳定性.迄今为止,以神经网络为基础的语音识别系统仍旧是国内外学者的研究热点.

我国的语音识别则起步于国家的“863计划”和“973计划”,中科院声学所等研究所以及顶尖高校尝试实现长时语音的汉语识别工作,如今中文语音识别技术已经达到了国际水准.2015年清华大学建立了第一个开源的中文语音数据库THCHS-30[5].2016年上海交通大学提出的非常深卷积网络(verydeepconvolutionalneuralnetworks,VDCNN)[6]提高了噪声语音识别的性能,并在此基础上进一步提出了非常深卷积残差网络(verydeepconvolutionalresidualnetwork,VDCRN)[7].百度于2014年、2016年依次推出了DeepSpeech[8]及其改进版本[9],并在2017年提出ColdFusion[10]以便于更好地利用语言学信息进行语音识别,该系统以LSTM-CTC(longshort-termmemory-connectionisttemporalclassification)的端到端模型为基础,在不同的噪声环境下实现了英语和普通话的语音识别.2018年科大讯飞提出的深度全序列卷积神经网络(deepfull-sequenceconvolutionneuralnetworks,DFCNN)[11]直接对语音信号进行建模,该模型采用的大量叠加卷积层能够储存更多历史信息,获得了良好的识别效果.同年,阿里巴巴提出低帧率深度前馈记忆网络(lowerframerate-deepfeedforwardsequentialmemorynetworks,LFR-DFSMN)[12],将低帧率算法和DFSMN算法相结合,使错误率降低了20%,解码速度却提升了近3倍.

总体而言,当前主流语音识别技术主要在大词汇量连续语音数据集上,基于深度神经网络进行模型构建和训练,面向不同应用场景需求和数据特点对现有的神经网络不断改进,相比于传统的统计方法取得了极大的性能提升.

2语音识别基础2.1语音识别概念

语音识别是利用机器对语音信号进行识别和理解并将其转换成相应文本和命令的技术,涉及到心理学、信号处理、统计学、数学和计算机等多门学科.其本质是一种模式识别,通过对未知语音和已知语音的比较,匹配出最优的识别结果.

根据面向的应用场景不同,语音识别存在许多不同的类型:从对说话人的要求考虑可分为特定人和非特定人系统;从识别内容考虑可分为孤立词识别和连续语音识别、命令及小词汇量识别和大词汇量识别、规范语言识别和口语识别;从识别的速度考虑还可分为听写和自然语速的识别等[13].

2.2传统语音识别基本原理

通常,语音识别过程大致分为两步:第1步,首先对语音信号提取特定的声学特征,然后对声学特征进行“学习”或者说是“训练”,即建立识别基本单元的声学模型和进行语言文法分析的语言模型;第2步是“识别”,根据识别系统的类型选择能够满足要求的识别方法,采用语音分析方法分析出这种识别方法所要求的语音特征参数,按照一定的准则和测度与系统模型进行比较,通过判决得出识别结果.

设一段语音信号经过特征提取得到特征向量序列为X=[x1,x2,…,xN],其中xi是一帧的特征向量,i=1,2,…,N,N为特征向量的数目.该段语音对应的文本序列设为W=[w1,w2,…,wM],其中wi为基本组成单元,如音素、单词、字符,i=1,2,…,M,M为文本序列的维度.从贝叶斯角度,语音识别的目标就是从所有可能产生特征向量X的文本序列中找到概率最大的W*,可以用公式表示为式(1)优化问题:

$egin{split}{W^*}=&argmathop{max}limits_WPleft({Wleft|X ight.} ight)=argmathop{max}limits_Wfrac{{Pleft({Xleft|W ight.} ight)Pleft(W ight)}}{{Pleft(X ight)}}\&proptoargmathop{max}limits_WPleft({Xleft|W ight.} ight)Pleft(W ight)end{split}$(1)

由式(1)可知,要找到最可能的文本序列必须使两个概率P(X|W)和P(W)的乘积最大,其中P(X|W)为条件概率,由声学模型决定;P(W)为先验概率,由语言模型决定.声学模型和语言模型对语音信号的表示越精准,得到的语音系统效果越准确.

从语音识别系统的构成来讲,一套完整的语音识别系统包括预处理、特征提取、声学模型、语言模型以及搜索算法等模块,其结构示意图如图1所示.其中较为重要的特征提取、声学模型和语言模型将在第2.2节中详细阐述.

图1Fig.1图1语音识别系统结构图

预处理包括预滤波、采样、模/数转换、预加重、分帧加窗、端点检测等操作.其中,信号分帧是将信号数字化后的语音信号分成短时信号作为识别的基本单位.这主要是因为语音信号是非平稳信号,且具有时变特性,不易分析;但其通常在短时间范围(一般为10–30ms)内其特性基本不变,具有短时平稳性,可以用来分析其特征参数.

搜索模块是指在训练好声学模型和语言模型后,根据字典搜索最优路径,即最可能的输出词序列.传统的语音识别解码建立在加权有限状态转换器(weightedfinitestatetransducer,WFST)所构成的动态网络上,将HMM状态、词典和语法等结合起来.目前端到端模型中主流的搜索算法为BeamSearch等.

2.2.1特征提取

通常,在进行语音识别之前,需要根据语音信号波形提取有效的声学特征.特征提取的性能对后续语音识别系统的准确性极其关键,因此需要具有一定的鲁棒性和区分性.目前语音识别系统常用的声学特征有梅尔频率倒谱系数(Mel-frequencycepstrumcoefficient,MFCC)、感知线性预测系数(perceptuallinearpredictivecepstrumcoefficient,PLP)、线性预测倒谱系数(linearpredictioncepstralcoefficient,LPCC)、梅尔滤波器组系数(Melfilterbank,Fbank)等.

MFCC是最为经典的语音特征,其提取过程如图2所示.MFCC的提取模仿了人耳的听觉系统,计算简单,低频部分也有良好的频率分辨能力,在噪声环境下具有一定的鲁棒性.因此,现阶段语音识别系统大多仍采用MFCC作为特征参数,并取得了不错的识别效果.

图2Fig.2图2MFCC的特征提取过程2.2.2声学模型

声学模型是对等式(1)中的P(X|W)进行建模,在语音特征与音素之间建立映射关系,即给定模型后产生语音波形的概率,其输入是语音信号经过特征提取后得到的特征向量序列.声学模型整个语音识别系统中最重要的部分,只有学好了发音,才能顺利和发音词典、语言模型相结合得到较好的识别性能.

GMM-HMM是最为常见的一种声学模型,该模型利用HMM对时间序列的建模能力,描述语音如何从一个短时平稳段过渡到下一个短时平稳段;此外,HMM的隐藏状态和观测状态的数目互不相干,可以解决语音识别中输入输出不等长的问题.该声学模型中的每个HMM都涉及到3个参数:初始状态概率、状态转移概率和观测概率,其中观测概率依赖于特征向量的概率分布,采用高斯混合模型GMM进行建模.

GMM-HMM声学模型在语音识别领域有很重要的地位,其结构简单且区分度训练成熟,训练速度也相对较快.然而该模型中的GMM忽略时序信息,每帧之间相对孤立,对上下文信息利用并不充分.且随着数据量的上升,GMM需要优化的参数急剧增加,这给声学模型带来了很大的计算负担,浅层模型也难以学习非线性的特征变换.

深度学习的兴起为声学建模提供了新途径,学者们用深度神经网络(deepneuralnetwork,DNN)代替GMM估计HMM的观测概率,得到了DNN-HMM语音识别系统,其结构如图3所示.DNN-HMM采用DNN的每个输出节点来估计给定声学特征的条件下HMM某个状态的后验概率.DNN模型的训练阶段大致分为两个步骤:第1步是预训练,利用无监督学习的算法训练受限波尔兹曼机(restrictedBoltzmannmachine,RBM),RBM算法通过逐层训练并堆叠成深层置信网络(deepbeliefnetworks,DBN);第2步是区分性调整,在DBN的最后一层上面增加一层Softmax层,将其用于初始化DNN的模型参数,然后使用带标注的数据,利用传统神经网络的学习算法(如BP算法)学习DNN的模型参数.相比于GMM-HMM,DNN-HMM具有更好的泛化能力,擅长举一反三,帧与帧之间可以进行拼接输入,特征参数也更加多样化,且对所有状态只需训练一个神经网络.文献[4]证实了神经网络在大词汇量语音识别领域的出色表现.

图3Fig.3图3基于DNN-HMM的语音识别系统框架

通过将DNN取代GMM对HMM观测概率进行声学建模,DNN-HMM相比GMM-HMM在语音识别性能方面有很大提升;然而,DNN对于时序信息的上下文建模能力以及灵活性等方面仍有欠缺.针对这一问题,对上下文信息利用能力更强的循环神经网络RNN[14]和卷积神经网络CNN[15]被引入声学建模中.在RNN的网络结构中,当前时刻的输出依赖记忆与当前时刻的输入,这对于语音信号的上下文相关性建模非常有优势.然而,RNN存在因梯度消失和梯度爆炸而难以训练的问题,于是研究人员引入门控机制,得到梯度传播更加稳定的长短时记忆(longshort-termmemory,LSTM)网络.LSTM-RNN对语音的上下文信息的利用率更高,识别的准确率与鲁棒性也均有提升,这些在文献[16]中能得到证实.CNN的优势在于卷积的不变性和池化技术,对上下文信息有建模能力,对噪声具有鲁棒性,并且可以减少计算量.时延神经网络(timedelayneuralnetwork,TDNN)是CNN对大词汇量连续语音识别的成功应用[17].CLDNN(CNN-LSTM-DNN)综合了三者的优点,实验结果也证明了三者的结合得到了正向的收益[18].

总体而言,近年来语音识别中对声学模型的研究仍集中在神经网络,针对不同的应用场景和需求对上述经典网络结构进行综合和改进[19-21],以期训练更复杂、更强大的声学模型.

2.2.3语言模型

语言模型是用来预测字符(词)序列产生的概率,判断一个语言序列是否为正常语句,也就是解决如何计算等式(1)中的P(W).传统的语言模型n-gram[22]是一种具有强马尔科夫独立性假设的模型,它认为任意一个词出现的概率仅与前面有限的n–1个字出现的概率有关,其公式表达如下:

$egin{split}Pleft(W ight)=&prodlimits_{i=1}^m{P({w_i}|{w_1},{w_2},cdots,{w_{i-1}})}\&proptoprodlimits_{i=1}^m{P({w_i}|{w_{i-n+1}},cdots,{w_{i-1}})}end{split}$(2)$egin{split}&Pleft({{w_i}|{w_{i-n+1}},{w_{i-n+2}},cdots,{w_{i-1}}} ight)=hfill\&frac{{countleft({{w_{i-n+1}},{w_{i-n+2}},cdots,{w_{i-1}},{w_i}} ight)}}{{countleft({{w_{i-n+1}},{w_{i-n+2}},cdots,{w_{i-1}}} ight)}}hfillend{split}$(3)

然而,由于训练语料数据不足或者词组使用频率过低等常见因素,测试集中可能会出现训练集中未出现过的词或某个子序列未在训练集中出现,这将导致n-gram语言模型计算出的概率为零,这种情况被称为未登录词(out-of-vocabulary,OOV)问题.为缓解这个问题,通常采用一些平滑技术,常见的平滑处理有Discounting、Interpolation和Backing-off等.n-gram模型的优势在于其参数易训练,可解释性极强,且完全包含了前n–1个词的全部信息,能够节省解码时间;但难以避免维数灾难的问题,此外n-gram模型泛化能力弱,容易出现OOV问题,缺乏长期依赖.

随着深度学习的发展,语言模型的研究也开始引入深度神经网络.从n-gram模型可以看出当前的词组出现依赖于前方的信息,因此很适合用循环神经网络进行建模.Bengio等将神经网络用于语言模型建模[23],提出用词向量的概念,用连续变量代替离散变量,利用神经网络去建模当前词出现的概率与其前n–1个词之间的约束关系.这种模型能够降低模型参数的数量,具有一定的泛化能力,能够较好地解决数据稀疏带来的问题,但其对取得长距离信息仍束手无策.为进一步解决问题,RNN被用于语言模型建模[24].RNNLM中隐含层的循环能够获得更多上下文信息,通过在整个训练集上优化交叉熵来训练模型,使得网络能够尽可能建模出自然语言序列与后续词之间的内在联系.其优势在于相同的网络结构和超参数可以处理任意长度的历史信息,能够利用神经网络的表征学习能力,极大程度避免了未登录问题;但无法任意修改神经网络中的参数,不利于新词的添加和修改,且实时性不高.

语言模型的性能通常采用困惑度(perplexity,PPL)进行评价.PPL定义为序列的概率几何平均数的倒数,其公式定义如下:

$egin{split}&Pleft({{w_i}|{w_{i-n+1}},{w_{i-n+2}},cdots,{w_{i-1}}} ight)hfill\&=frac{{countleft({{w_{i-n+1}},{w_{i-n+2}},cdots,{w_{i-1}},{w_i}} ight)}}{{countleft({{w_{i-n+1}},{w_{i-n+2}},cdots,{w_{i-1}}} ight)}}hfillend{split}$(4)

PPL越小表示在给定历史上出现下一个预测词的概率越高,该模型的效果越好.

2.3端到端语音识别

传统的语音识别由多个模块组成,彼此独立训练,但各个子模块的训练目标不一致,容易产生误差累积,使得子模块的最优解并不一定是全局最优解.针对这个问题,学者们提出了端到端的语音识别系统,直接对等式(1)中的概率P(W|X)进行建模,将输入的语音波形(或特征矢量序列)直接转换成单词、字符序列.端到端的语音识别将声学模型、语言模型、发音词典等模块被容纳至一个系统,通过训练直接优化最终目标,如词错误率(worderrorrate,WER)、字错误率(charactererrorrate,CER),极大地简化了整个建模过程.目前端到端的语音识别方法主要有基于连接时序分类(connectionisttemporalclassification,CTC)[25]和基于注意力机制(attentionmodel)[26]两类方法及其改进方法.

CTC引入空白符号(blank)解决输入输出序列不等长的问题,主要思想是最大化所有可能对应的序列概率之和,无需考虑语音帧和字符的对齐关系,只需要输入和输出就可以训练.CTC实质是一种损失函数,常与LSTM联合使用.基于CTC的模型结构简单,可读性较强,但对发音词典和语言模型的依赖性较强,且需要做独立性假设.RNN-Transducer模型[27]是对CTC的一种改进,加入一个语言模型预测网络,并和CTC网络通过一层全连接层得到新的输出,这样解决了CTC输出需做条件独立性假设的问题,能够对历史输出和历史语音特征进行信息累积,更好地利用语言学信息提高识别准确率.

基于注意力机制的端到端模型最开始被用于机器翻译,能够自动实现两种语言的不同长度单词序列之间的转换.该模型主要由编码网络、解码网络和注意力子网络组成.编码网络将语音特征序列经过深层神经网络映射成高维特征序列,注意力网络分配权重系数,解码网络负责输出预测的概率分布.该模型不需要先验对齐信息,也不用音素序列间的独立性假设,不需要发音词典等人工知识,可以真正实现端到端的建模.2016年谷歌提出了一个Listen-Attend-Spell(LAS)模型[28],其结构框图如图4所示.LAS模型真正实现了端到端,所有组件联合训练,也无独立性假设要求.但LAS模型需要对整个输入序列之后进行识别,因此实时性较差,之后也有许多学者对该模型不断改进[29-31].

图4Fig.4图4LAS模型框架图

目前端到端的语音识别系统仍是语音识别领域的研究热点,基于CTC[32-34]、attention机制[35]以及两者结合的系统[36,37]都取得了非常不错的成果.其中Transformer-Transducer模型[38]将RNN-T模型中的RNN替换为Transformer提升了计算效率,还控制attention模块上下文时间片的宽度,满足流式语音识别的需求.2020年谷歌提出的ContextNet模型[39],采用Squeeze-and-Excitation模块获取全局信息,并通过渐进降采样和模型缩放在减小模型参数和保持识别准确率之间取得平衡.在Transformer模型捕捉长距离交互的基础上加入了CNN擅长的局部提取特征得到Conformer模型[40],实现以更少的参数达到更好的精度.实际上端到端的语音识别系统在很多场景的识别效果已经超出传统结构下的识别系统,但距其落地得到广泛商业应用仍有一段路要走.

3语音识别的难点与热点

语音识别作为人机交互的关键技术一直是科技应用领域的研究热点.目前,语音识别技术从理论研究到产品的开发都已取得了很多的成果,然而,相关研究及应用落地仍然面临很大挑战,具体可归纳为以下几方面:

鲁棒性语音识别:目前,理想条件下(低噪声加近场)的语音识别准确率已经达到一定程度.然而,在实际一些复杂语音环境下,如声源远场等情景,低信噪比、房间混响、回声干扰以及多声源信号干扰等因素,使得语音识别任务面临很大挑战.因此,针对复杂环境研究鲁棒语音识别是目前语音识别领域的研究难点和热点.当前,针对复杂环境下的语音识别研究大致可以分为4个方向:(1)在语音识别前端,利用信号处理技术提高信号质量:采用麦克风阵列技术采集远场声源信号,然后通过声源定位[41]、回声消除[42]、声源分离或语音增强[43]等提高语音信号质量.例如,文献[44]在基于深度学习的自适应声学回声消除(acousticechocancellation,AEC)中加入了背景关注模块以适应部署环境的变化,以提高语音信号质量;文献[45]以深度聚类为框架提出了结合频谱和空间信息的盲源分离方法;文献[46]利用以基于生成式对抗网络(generativeadversialnetworks,GAN)为基础框架的增强网络进行噪声抑制,从而提高目标语音信号质量;(2)寻找新的鲁棒性特征,尽可能消除非目标语音信号的影响:例如,伽马通滤波器倒谱系数(Gammatonefrequencycepstrumcoefficient,GFCC)[47]等听觉特征参数更适合拟合人耳基底膜的选择性,符合人耳听觉特征;或者,采用自动编码器[48]、迁移学习[49]等多种方式提取更鲁棒的特征;(3)模型的改进与自适应[50]:上海交通大学提出的VDCNN[6]以及VDCRN[7]通过加深卷积层提升算法的鲁棒性,文献[51]利用GAN中生成器与判别器的相互博弈和瓶颈特征构建声学模型,文献[52]采用teacher-studentlearning的方式以干净语音训练的声学模型作为教师模型训练噪声环境下的学生模型;(4)多模态数据融合[53]:当在高噪声环境或多说话人造成语音重叠的情况下,目标语音信号容易被噪声或其他非目标声源(干扰信号)“淹没”,这时仅凭拾音设备捕捉的“语音”信号往往无法获得良好的识别性能;这时,将语音信号和其他信号如声带的振动信号[54]、嘴部的图像信号[55]等进行融合,更好地提升识别系统的鲁棒性.例如,文献[56]以RNN-T为框架,提出多模态注意力机制对音频和视频信息进行融合,以提高识别性能;文献[57]同样基于RNN-T,但利用vision-to-phonememodel(V2P)提取视觉特征,连同音频特征以相同的帧频输入至编码器,取得了良好的识别性能.

低资源语音识别:这是对各种小语种语言识别研究的统称.小语种不同于方言,有独立完整的发音体系,各异性较强但数据资源匮乏,难以适应以汉语、英语为主的语音识别系统,声学建模需要利用不充分的数据资源训练得到尽可能多的声学特征.解决这一问题的基本思路可以概括为从主流语言的丰富资源中提取共性训练出可以公用的模型,在此基础上训练小语种模型.文献[58]为解决共享隐藏层中会学到不必要的特定信息这一问题,提出了一个共享层和特有层平行的模型,它通过对抗性学习确保模型能够学习更多不同语种间的不变特征.然而,小语种种类繁多,为了单独一种建立识别系统耗费过多资源并不划算,因此现在主要研究多语种融合的语音识别系统[59,60].

语音的模糊性:各种语言中都存在相似发音的词语,不同的讲话者存在不同的发音习惯以及口音、方言等问题,母语者和非母语者说同一种语言也存在不同的口音,难以针对单独的口音构建模型.针对多口音建模[61]的问题,现有的方法一般可以分为与口音无关和与口音相关两大类,其中与口音无关的模型普遍表现更好一些.文献[62]尝试通过特定口音模型的集合建立统一的多口音识别模型;文献[63]通过多任务学习将声学模型和口音识别分类器联合;文献[64]则基于GAN构建了预训练网络从声学特征中区分出不变的口音.

低计算资源:精度高效果好的神经网络模型往往需要大量的计算资源且规模巨大,但移动设备(如手机、智能家居等)计算能力和内存有限,难以支撑,因此需要对模型进行压缩及加速.目前针对深度学习模型采用的压缩方法有网络剪枝、参数量化、知识蒸馏等.文献[65]采用网络剪枝的方法构建了动态稀疏神经网络(dynamicsparsityneuralnetworks,DSNN),提供不同稀疏级别的网络模型,通过动态调整以适应不同资源和能量约束的多种硬件类型的能力.文献[66]通过量化网络参数减少内存占用并加快计算速度.知识蒸馏能够将复杂模型的知识迁入小模型,已应用于对语音识别系统的语言模型[67]、声学模型[68]和端到端模型[29,69,70]等进行压缩.文献[71]利用知识蒸馏将视听两模态的识别系统迁移至单听觉模型,缩小了模型规模,加快了训练速度,却并不影响精度.

4总结与展望4.1总结

本文主要对语音识别的发展、系统结构研究、热点及难点进行了阐述.目前主流的语音识别方法大多基于深度神经网络.这些方法大体分为两类:一类是采用一定的神经网络取代传统语音识别方法中的个别模块,如特征提取、声学模型或语言模型等;另一类是基于神经网络实现端到端的语音识别.相比于传统的识别方法,基于深度神经网络的语音识别方法在性能上有了显著的提升.在低噪音加近场等理想环境下,当前的语音识别技术研究已经达到了商业需求.然而,在实际应用中存在各种复杂情况,如声源远场、小语种识别、说话人口音、专业语言场景等,这些情况使得复杂场景下的语音识别应用落地仍面临挑战.此外,尽管当前深度学习在语音识别的应用确实提高了识别率等性能,但效果好的模型往往规模复杂且庞大、需要的数据资源较为冗余,不适合用于移动设备(如手机、智能穿戴设备等);此外,小语种、多口音、不同方言等的识别性能仍然差强人意.总之,当前语音识别领域已取得丰富的研究成果,但仍有很长一段路要走.

4.2展望

在未来很长一段时间内,基于深度神经网络的语音识别仍是主流;面向不同应用场景,根据语音信号特点对现有神经网络结构进行改进仍是未来研究重点.大体上,未来语音识别领域的研究方向可大致归纳如下.

(1)模型压缩与加速.尽管当前深度学习在语音识别的应用确实提高了识别率等性能,但效果好的模型往往规模复杂且庞大、需要的数据资源较为冗余,不适合用于移动设备(如手机、智能穿戴设备等),因此对基于深度神经网络的语音识别系统进行网络模型压缩和加速,将是未来语音识别的研究方向之一.

(2)数据迁移.在面对小样本数据或复杂问题时,迁移学习是一种有效的方式.在语音识别领域中,采用迁移学习的方式对小语种、方言口音或含噪语音进行识别也是未来的研究方向之一.

(3)多模态数据融合.对于一些复杂的语音场景(高噪声、混响、多源干扰等),可以利用语音信号和其他信号(如图像信号、振动信号等)进行融合,以提高语音识别性能,也是未来研究研究方向之一.

(4)多技术融合,提高认知智能.当前大多数语音识别算法只关注识别文字内容的正确性;然而,许多智能语音交互的应用(如QA问答、多轮对话等)还涉及到语义的理解.因此,将语音识别技术结合其他技术[72-75]如自然语言处理(naturallanguageprocessing,NLP)相结合以提升识别性能也是未来研究方向之一.

人工智能之语音识别技术【科普】

03语音增强

主要任务就是消除环境噪声对语音的影响。目前,比较常见的语音增强方法分类很多。其中基于短时谱估计增强算法中的谱减法及其改进形式是最为常用的,这是因为它的运算量较小,容易实时实现,而且增强效果也较好。此外,人们也在尝试将人工智能、隐马尔科夫模型、神经网络和粒子滤波器等理论用于语音增强,但目前尚未取得实质性进展。

声学特征提取

人通过声道产生声音,声道的形状决定了发出怎样的声音。声道的形状包括舌头,牙齿等。如果我们可以准确的知道这个形状,那么我们就可以对产生的音素进行准确的描述。声道的形状在语音短时可以由功率谱的包络中显示出来。因此,准确描述这一包络的特征就是声学特征识别步骤的主要功能。接收端接收到的语音信号经过上文的预处理以后便得到有效的语音信号,对每一帧波形进行声学特征提取便可以得到一个多维向量。这个向量便包含了一帧波形的内容信息,为后续的进一步识别做准备

本文主要介绍使用最多的MFCC声学特征。

01MFCC简介

MFCC是Mel-FrequencyCepstralCoefficients的缩写,顾名思义MFCC特征提取包含两个关键步骤:转化到梅尔频率,然后进行倒谱分析

Mel频率倒谱系数的缩写。Mel频率是基于人耳听觉特性提出来的,它与Hz频率成非线性对应关系。Mel频率倒谱系数(MFCC)则是利用它们之间的这种关系,计算得到的Hz频谱特征

02MFCC提取流程

MFCC参数的提取包括以下几个步骤:

预滤波:CODEC前端带宽为300-3400Hz的抗混叠滤波器。

A/D变换:8kHz的采样频率,12bit的线性量化精度。

预加重:通过一个一阶有限激励响应高通滤波器,使信号的频谱变得平坦,不易受到有限字长效应的影响。

分帧:根据语音的短时平稳特性,语音可以以帧为单位进行处理,实验中选取的语音帧长为32ms,帧叠为16ms。

加窗:采用哈明窗对一帧语音加窗,以减小吉布斯效应的影响。

快速傅立叶变换(FastFourierTransformation,FFT):将时域信号变换成为信号的功率谱。

三角窗滤波:用一组Mel频标上线性分布的三角窗滤波器(共24个三角窗滤波器),对信号的功率谱滤波,每一个三角窗滤波器覆盖的范围都近似于人耳的一个临界带宽,以此来模拟人耳的掩蔽效应。

求对数:三角窗滤波器组的输出求取对数,可以得到近似于同态变换的结果。

离散余弦变换(DiscreteCosineTransformation,DCT):去除各维信号之间的相关性,将信号映射到低维空间。

谱加权:由于倒谱的低阶参数易受说话人特性、信道特性等的影响,而高阶参数的分辨能力比较低,所以需要进行谱加权,抑制其低阶和高阶参数。

倒谱均值减(CepstrumMeanSubtraction,CMS):CMS可以有效地减小语音输入信道对特征参数的影响。

差分参数:大量实验表明,在语音特征中加入表征语音动态特性的差分参数,能够提高系统的识别性能。在本系统中,我们也用到了MFCC参数的一阶差分参数和二阶差分参数。

短时能量:语音的短时能量也是重要的特征参数,本系统中我们采用了语音的短时归一化对数能量及其一阶差分、二阶差分参数。

MFCC提取一般流程

模式匹配 和语言处理

通过语音特征分析以后接下来就是模式匹配和语言处理

声学模型是识别系统的底层模型,并且是语音识别系统中最关键的一部分。声学模型的目的是提供一种有效的方法计算语音的特征矢量序列和每个发音模板之间的距离。声学模型的设计和语言发音特点密切相关。声学模型单元大小(字发音模型、半音节模型或音素模型)对语音训练数据量大小、系统识别率,以及灵活性有较大的影响。必须根据不同语言的特点、识别系统词汇量的大小决定识别单元的大小。

语言模型对中、大词汇量的语音识别系统特别重要。当分类发生错误时可以根据语言学模型、语法结构、语义学进行判断纠正,特别是一些同音字则必须通过上下文结构才能确定词义。语言学理论包括语义结构、语法规则、语言的数学描述模型等有关方面。目前比较成功的语言模型通常是采用统计语法的语言模型与基于规则语法结构命令语言模型。语法结构可以限定不同词之间的相互连接关系,减少了识别系统的搜索空间,这有利于提高系统的识别。语音识别过程实际上是一种认识过程。就像人们听语音时,并不把语音和语言的语法结构、语义结构分开来,因为当语音发音模糊时人们可以用这些知识来指导对语言的理解过程,但是对机器来说,识别系统也要利用这些方面的知识,只是如何有效地描述这些语法和语义还有困难:

小词汇量语音识别系统。通常包括几十个词的语音识别系统。中等词汇量的语音识别系统。通常包括几百个词至上千个词的识别系统。大词汇量语音识别系统。通常包括几千至几万个词的语音识别系统。这些不同的限

制也确定了语音识别系统的困难度。模式匹配部是语音识别系统的关键组成部分,它一般采用“基于模式匹配方式的语音识别技术”或者采用“基于统计模型方式的语音识别技术”。前者主要是指“动态时间规整(DTW法”,后者主要是指“隐马尔可夫(HMM)法”。

隐马尔可夫模型(HMM)是语音信号处理中的一种统计模型,是由Markov链演变来的,所以它是基于参数模型的统计识别方法。由于其模式库是通过反复训练形成的与训练输出信号吻合概率最大的最佳模型参数而不是预先储存好的模式样本,且其识别过程中运用待识别语音序列与HMM参数之间的似然概率达到最大值所对应的最佳状态序列作为识别输出,因此是较理想的语音识别模型。

动态时间归整)算法:在孤立词语音识别中,最为简单有效的方法是采用DTW(DynamicTimeWarping,动态时间归整)算法,该算法基于动态规划(DP)的思想,解决了发音长短不一的模板匹配问题,是语音识别中出现较早、较为经典的一种算法,用于孤立词识别。HMM算法在训练阶段需要提供大量的语音数据,通过反复计算才能得到模型参数,而DTW算法的训练中几乎不需要额外的计算。所以在孤立词语音识别中,DTW算法仍然得到广泛的应用。

小结:语音识别在移动终端上的应用最为火热,语音对话机器人、智能音箱、语音助手、互动工具等层出不穷,许多互联网公司纷纷投入人力、物力和财力展开此方面的研究和应用。语音识别技术也将进入工业、家电、通信、汽车电子、医疗、家庭服务、消费电子产品等各个领域。尤其是在智能家居系统中语音识别将成为人工智能在家庭重要的入口,同时,未来随着手持设备的小型化,智能穿戴化也将成为语音识别技术的重要应用领域。返回搜狐,查看更多

更所资讯请关注我们!一个有维度的人工智能平台!dmindAI精彩等你来

人工智能对于人类社会有哪些价值

人工智能对于人类社会有哪些价值

2021-08-15

来自网络

作者:男和可科学

人工智能对于人类社会有哪些价值?人工智能技术为人类在环境、能源、医疗等领域面临的挑战,提供了颠覆性的发展机遇。

人工智能技术对于征服人类社会面临的一些最重大的挑战,包括在环境、能源、医疗等领域的问题,提供了颠覆性的发展机遇。在人工智能时代,全电动汽车技术也是对于社会经济和生活同时会产生极大正面以及负面影响的技术,而且它和无人驾驶技术有着紧密的联系。

1

人工智能对于生物医学的意义和价值

1.人工智能可以极大地提升人类战胜疾病的能力。随着人口的老龄化,重大疾病病人的增加已经是造成社会和个人经济负担以及家庭痛苦的主要原因之一。而人工智能的应用将在多方面颠覆性地提升人类战胜疾病的能力:(1)最近连续在国际顶级杂志发表的研究证明AI对皮肤癌等疾病的诊断精确性超过了医生;(2)IBM的沃森医疗机器人已经能够对疾病作出较准确的诊断;(3)手术机器人可以显著地提高手术的精准度;(4)可穿戴的生物医疗AI产品可以极大地提升人类监测自身健康水平的能力;(5)康复机器人可以有效地帮助病人康复;(6)智能机器人也将有效地陪伴病人、老人,这对很多只有一个孩子的家庭可以提供很好的帮助;(7)医学研究、医药研发、以及医疗器械研发已经到了“大数据时代”,只有通过机器深度学习等方法才能够有效地对医学大数据进行全面高效的数据分析,从而真正地实现精准医学、并创造出新的药物和医疗器械。

对重大疾病诊治能力的缺乏、医疗资源的紧缺、不断加大的医疗费用已是全球面临的三个重大问题,而人工智能在医学的应用很可能可以有效地推动这三个问题的解决。可以相信,随着人工智能生物医学应用研究和产业化的不断深入,相关人工智能产品将会越来越便宜、功能会越来越强,这样将会有效地减少医疗费用,并使人工智能产品成为医生的得力助手。

2.人工智能在生物学中的应用将极大地提升人类研究生命本质的能力。在基因组学研究已经获得了重大进展后,表型组学已经成为揭示生命本质的最重要的研究方向之一。而多维度、超大型的表型组数据库的分析迫切地需要人工智能的应用。

3.人工智能的应用将有力地推动制药业和医疗器械行业的发展。显然,具有人工智能的医疗器械会更加精确、能力会更强。而人工智能在制药业的应用将有力地推动新药物靶点的发现以及新药物的设计,也会显著提升药物临床实验大数据分析的速度和精确度。“通过对医学大数据的发掘发现新药物”这个方法已经被成功地应用在新药发现上。英国的BenevolentAI是欧洲最大的AI初创公司,其目标是运用AI研发药物,发展成为人们期盼已久的“药企2.0”。他们的核心技术是一个叫做JACS(JudgmentAugmentedCognitionSystem)的人工智能系统,它可以集中处理全球大量高度碎片化的信息,用以新药研发。自2013年以来,该公司已经开发出24个候选药物,而且有药物已经进入了临床IIb期试验阶段。

2

人工智能对于解决能源

和环境问题的意义和价值

1.人工智能对于解决环境问题的意义和价值

(1)人工智能技术可以作为一个关键的方法去发现环境污染的主要原因。(2)运用人工智能技术可以建立起减少环境污染的工作方案以及模拟其对社会经济影响的模型。(3)运用人工智能技术可以建立起强大的监控环境污染的装置。(4)电动汽车的普及将极大地推动大气污染问题的解决。

2.对解决能源问题的意义和价值

(1)运用人工智能技术可以建立起能源消耗的模型,并帮助发现能源浪费的原因。(2)运用人工智能技术可以研发出能够减少能源浪费的仪器和设备。(3)电动汽车的普及将极大地减少人类对石油和煤炭的依赖。

3

人工智能对于国家和城市管理的意义和价值

人工智能除了对环境和能源的管理有着很高价值以外,对于国家和城市管理还有着以下几方面的价值:

1.对交通管理的意义和价值。运用人工智能技术可以建立起交通状况的模型,并依据模型发现最优的减少拥堵的方法。例如阿里巴巴的“城市大脑”可以通过分析交通数据找出模式,以避免城市拥堵。它可以将城市交通运行的速度提升3-5%,有时甚至可以提升11%。运用人工智能技术可以研发出能够减少交通堵塞和交通事故的仪器和设备。

2.对分析国家和城市发展趋势的意义和价值。人工智能技术的发展使得复杂的国家和城市发展模型的建立成为了可能。

3.对国家安全的意义和价值。人工智能图像识别技术和语音识别技术将为提升国家安全提供有力的武器,例如其可被运用于海关对出入境人员的监测。

4.对监测和管理地震等重大自然灾害的意义和价值。人工智能技术将使人类获得前所未有的能力对地震等重大自然灾害加以预测,并建立起相应的管理和应对方案。

5.对气象预测的意义和价值。人工智能技术将使人类更为精准地预测气候的变化。例如IBM收购的TheWeatherCompany能够从世界各地的传感器收集海量天气数据,并对这些数据进行分析,其每天可提供2600万份天气预报。

4

人工智能对于教育的意义和价值

人工智能对于教育的意义和价值包括:人工智能产品可以很快地分析出一个学生知识和能力的优点和不足之处,然后设计出个性化的下一步学习方案。机器自动阅卷技术可以减少教师的工作负担。人工智能的教育产品可以使教育的内容更加丰富和生动。微软研发的虚拟英语老师---微软小英具有以下应用价值:为了掌握英语口语,学生需要和老师一对一练习。但老师没有能力同时指导几十个学生,而微软小英具有这样的能力。

5

人工智能对于金融行业的意义和价值

人工智能对于金融行业的意义和价值包括:为预测金融行业的总体发展趋势提供关键的方法。为保持金融市场的稳定、监测干扰金融市场的恶意行为提供了关键的方法。可以迅速地为个人、企业的投资规划提供建议。金融客服机器人可以提供高效的客服,同时降低运营成本。可以用来防止金融欺诈。例如蚂蚁金服研发出的人工智能生物识别机器人蚂可(Mark)被用来防止金融欺诈。

6

人工智能对于法律事务的意义和价值

人工智能对于法律事务的意义和价值包括:(1)人工智能将使法院审判体系和审判能力智能化。人工智能将在法庭的证据收集和案例分析等过程中获得广泛的应用。(2)算法裁判可能将成为法律的终极形态。计算法律学一直在探索用计算逻辑和代码来表达法律。英格兰和威尔士上诉法院大法官Briggs在在线法院的倡议中提出了算法裁判——人工智能可以代替法官直接作出裁判。(3)智能法律检索可能达到自动化的程度——智能系统自身可以理解一段事实陈述并自动识别其中的法律问题,然后完成检索并提供最佳法律信息,这将使人类律师从繁琐的法律检索工作中解脱出来。例如号称世界首个机器人律师的ROSS可以向律师呈现最相关的法律回答。(4)人工智能系统可能起草大部分的法律文件,律师的角色将从起草者变成审校者。美国已经发布一个软件工具,其可以很快地完成一个律师36万小时的工作量,帮助客户省下上百万美元。(5)“法律机器人”可能以低廉的价格提供法律服务,其可能使法律服务标准化、自动化。IBM已经制造出了法律界的AlphaGo---IBM-Waston-Legal。(6)人工智能在案件预测上具有巨大的潜能,而案件预测可以帮助当事人形成最佳的诉讼策略、也可以帮助法官实现公平正义。2016年,研究人员利用欧洲人权法院公开的判决书训练算法系统构建了模型,其预测案件判决结果的准确性达到了79%。

7

人工智能对于农业发展的意义和价值

生产出丰富、优质的农产品对于中国的社会经济持续稳定的发展具有核心的意义。而人工智能技术的应用将为农业生产的高效、持续稳定发展提供一个巨大的推动力,其应用包括:

1.人工智能在农业规划中的应用。人工智能将能够为农业规划提供一个颠覆性的技术:它可以根据当地的土壤和气候情况、农作物的经济效益和国家需求、对财力和工作量投入的需求等多维度的信息,设计出当地农作物生产的最佳方案。

2.农业机器人的应用。农业机器人在农业发展中可以起到强大的推动作用。例如美国BlueRiverTechnology公司开发的LettuceBot机器人能够判定一个植物是杂草或是长势不好的作物,并且会用农药喷雾选择性地杀死该植物。这一技术可以帮助农民减少90%的化学药剂使用。目前,LettuceBot机器人服务的生菜种植面积已经占到美国生菜种植的10%左右。美国爱荷华州的发明家DavidDorhout研发的智能播种机器人Prospero可以通过探测装置获取土壤信息,然后通过算法得出最优化的播种密度并自动播种。

3.评估农作物和土壤。美国已经研发出可以检测出14种作物的26种疾病的人工智能技术,其准确率高达99.35%。这将有效地防止由于误诊而导致的对农药或除草剂的滥用。

4.对于农业生产的卫星照片分析。OrbitalInsight等公司运用机器学习和计算机视觉算法来分析农作物耕作地区的卫星照片,从而可以建立预测农作物产量的模型、了解气候变化对农业的影响。

5.现场监测。Prospera公司等企业利用基于深度学习的计算机视觉技术,实时监测农作物长势。无人机厂商也在开展无人机在实时监测农作物长势中的应用。

8

人工智能对于生产效率提高的意义和价值

由于多种原因,以大数据为基础的智能制造将极大地提升生产的效率,从而会显著减小生产产品的费用以及价格:(1)机器人可以24小时工作;(2)机器人可以完成一些人难以完成的工作;(3)人工智能技术运用于设计,将可以帮助人们获得最佳的设计方案;(4)人工智能技术可以被用于企业智能升级、设备故障的预测等。可以预计,如同计算机的发展历程一样,机器人的性能也将会越来越好、价格会越来越低。

举一个实例:阿里巴巴的ET工业大脑将阿里云的计算能力和深度学习的能力集成到一起,在流程制造的数据化控制、工艺改良、生产线的升级换代、设备故障预测等方面发挥了作用。未来ET可以成为一个不断吸收专业知识的“大脑”,帮助企业实行智能升级。

9

人工智能对于提高生产安全性的意义和价值

人工智能技术可以通过以下途径提高生产的安全性:(1)在危险、有毒、极度环境(极冷、极热等环境)下运用特种机器人,将使人类从危险、不适的工作中解脱出来。(2)运用人工智能技术可以对企业实行智能升级、设备故障的预测等,从而使生产环境更加安全。

10

人工智能对于汽车和飞机驾驶的意义和价值

谷歌公司的GoogleX实验室研发中的全自动驾驶汽车正在测试过程中,其驾驶的距离已经超过48万公里。试验车辆使用照相机、雷达感应器和激光测距机来“看”交通状况,并使用详细地图进行导航。在美国,谷歌无人驾驶汽车已获得了加州、内华达州等州法律的允许可以上路行驶,并已于2015年开始路测。其主要价值在于:(1)显著地减少交通事故:据世界卫生组织统计,全球每年有124万人死于交通事故,这一数字在2030年可达到220万人。无人驾驶汽车可能大幅降低交通事故数量。如果美国公路上90%的汽车变成无人驾驶汽车,车祸数量将从每年600万起降至130万起,死亡人数从每年3.3万人降至1.13万人。(2)使人节约了开车的时间消耗:据CNBC网站报道,美国有1.4亿人每次的上下班路程需要超过30分钟的驾车。所以自动驾驶汽车将使很多人可以用以往开车的时间在车上做其它事情。

11

人工智能对于网络管理的意义和价值

(1)谷歌发布了“知识图谱”,该技术使谷歌搜索变得更加智能。在“知识图谱”里,储存着海量信息以帮助用户尽可能快地找到答案。谷歌还推出了RankBrain人工智能算法,它可以让谷歌搜索引擎在短时间内被优化。

(2)百度大脑由计算方法、计算能力、数据分析三部分组成,能够模拟人脑的工作机制。百度利用百度大脑的能力来大规模地提升其核心业务,其深度学习的研究显著提升了百度搜索的智能化程度。

(3)微软根据其在必应搜索(Bing)的研究和实践,建立了一个庞大的知识图谱,以帮助用户尽可能快地找到答案。

12

人工智能对于军事的意义和价值

人工智能在军事上的应用包括:(1)对于复杂战役情况的快速精准分析;(2)军事机器人可以完成如扫雷等特别危险的任务;(3)无人机在军事中的作用包括低空侦察及战场监视、电子干扰、气象资料搜集、散发传单以及营救飞行员等。

13

人工智能对于推动人类交流的意义和价值

人工智能应用于推动人类交流的例子包括:(1)MicrosoftTranslator能实现包括中文普通话在内9种不同语言之间的实时语音翻译,最多允许100人同时进行群组交流。(2)脸书的DeepText这一文本识别引擎能“以接近人类的准确率”识别超过20种语言的文字内容,并自动将文字翻译为十几种其他语言。(3)GooglePhotos可以识别出照片中的人脸是谁,如果将这些人和通讯录对应,它会建议照片应该分享给谁。

14

人工智能对于物流管理的意义和价值

人工智能对于物流管理的意义和价值包括:(1)物流机器人的应用可以提高仓库储存的效率。例如京东装备了物流机器人的仓库储存的效率是传统货架仓库储存的5倍以上。(2)Amazon和京东都开始了运用无人机提供送货服务。(3)运用人工智能管理物流也可以极大地提高效率。

15

人工智能可以提供各种智能化助理的服务

(1)科大讯飞的智能客服机器人“晓曼”融合了语音合成、语音识别、语义理解和人脸识别等技术,外部应用则包含了麦克风阵列、3D摄像头、身份证读卡器等设施。晓曼可以应对70%以上的营业厅客服业务。

(2)以微软小娜智能助理为例,用户只要向微软小娜提出问题,系统就能从繁杂的数据中,筛检出实时更新的相关业务信息,通过机器学习算法对其进行分析,然后以图表形式展示对业务发展趋势的预测。

(3)阿里小蜜是一个功能强大的客户支持聊天机器人,可以从不同方面帮助客户解决问题,包括商品退回、商品打包等。通过理解人声,阿里小蜜找出解决方案并给予客户反馈。阿里小蜜的应用可以节约约90%的人力成本。

(4)IBM的金融客服机器人已经可以很好地完成前台问题的回答。

16

人工智能对于提升日常

生活质量的意义和价值

人工智能对于提升日常生活质量的意义和价值包括:(1)家庭机器人或家庭智能助理将高效地管理家居生活,使得人类从日常生活的杂务中解脱出来,有更多的闲暇时间。例如在Alexa平台上开发基于语音的技能可以通过亚马逊的Echo智能音箱被消费者应用于家庭生活中。Alexa的技能增长速度越来越快,技能涵盖面越来越多。除了查询天气、询问问题等基本的功能,Alexa已经可以支持控制家用电器、Uber打车、查询菜谱等多方面的功能。(2)AmazonGo以及阿里巴巴推出的“无人实体店”可以使顾客去实体店购物不用付款、拿了商品就走。

13

人工智能对于推动人类交流的意义和价值

人工智能应用于推动人类交流的例子包括:(1)MicrosoftTranslator能实现包括中文普通话在内9种不同语言之间的实时语音翻译,最多允许100人同时进行群组交流。(2)脸书的DeepText这一文本识别引擎能“以接近人类的准确率”识别超过20种语言的文字内容,并自动将文字翻译为十几种其他语言。(3)GooglePhotos可以识别出照片中的人脸是谁,如果将这些人和通讯录对应,它会建议照片应该分享给谁。

14

人工智能对于物流管理的意义和价值

人工智能对于物流管理的意义和价值包括:(1)物流机器人的应用可以提高仓库储存的效率。例如京东装备了物流机器人的仓库储存的效率是传统货架仓库储存的5倍以上。(2)Amazon和京东都开始了运用无人机提供送货服务。(3)运用人工智能管理物流也可以极大地提高效率。

15

人工智能可以提供各种智能化助理的服务

(1)科大讯飞的智能客服机器人“晓曼”融合了语音合成、语音识别、语义理解和人脸识别等技术,外部应用则包含了麦克风阵列、3D摄像头、身份证读卡器等设施。晓曼可以应对70%以上的营业厅客服业务。

(2)以微软小娜智能助理为例,用户只要向微软小娜提出问题,系统就能从繁杂的数据中,筛检出实时更新的相关业务信息,通过机器学习算法对其进行分析,然后以图表形式展示对业务发展趋势的预测。

(3)阿里小蜜是一个功能强大的客户支持聊天机器人,可以从不同方面帮助客户解决问题,包括商品退回、商品打包等。通过理解人声,阿里小蜜找出解决方案并给予客户反馈。阿里小蜜的应用可以节约约90%的人力成本。

(4)IBM的金融客服机器人已经可以很好地完成前台问题的回答。

标签:

互联网资讯人工智能声明:本站发布的内容以原创、转载、分享网络内容为主,如有侵权,请联系电话:021-51697771-8029,邮箱:mj@cndns.com,我们将会在第一时间删除。文章观点不代表本站立场,如需处理请联系我们。上一篇  域名建站有哪些步骤下一篇  搞定这关键7步,实现私域电商巨量增长

分享给小伙伴

0

版权声明:本文内容由互联网用户自发贡献,该文观点仅代表作者本人。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如发现本站有涉嫌抄袭侵权/违法违规的内容,一经查实,本站将立刻删除。

上一篇

下一篇