语音情感识别的应用和挑战
语音情感识别的应用和挑战情感在人与人的交流中扮演者重要的角色。情感识别具有极大的应用价值,成功的检测人的情感状态对于社交机器人、医疗、教育质量评估和一些其他的人机交互系统都有着重要意义。本文的要点有:1、情感识别的基础知识和应用场景。2、语音情感识别技术的介绍以及面临的挑战。3、如何解决数据缺乏问题,我们的方案是什么。
1.什么是情感识别?情感是人对外部事件或对话活动的态度。人的情感一般分为:高兴、生气、悲伤、恐惧和惊喜等。机器对采集的信号进行分析,从而得到人的情感状态,这一过程就是情感识别。通常,能用来进行情绪识别的信号包括两个方面,一个是生理信号如呼吸、心率和体温,另一个是行为表现包括面部表情、语音和姿态等等。人脸与语音得益于简单的采集方式,经常被用来识别对象的情感。情感识别能帮助系统了解对象的情感状态以及其对某个话题或事务的态度。
在人工智能(AI)产品和人的交互过程中,如果能够准确地把握人当前的情感状态,根据情感状态做出回应,可以极大地提升用户对AI产品的体验。这在商品推荐,舆论监控,人机对话等方面都有着重要的意义。例如,在销售过程中,了解用户对商品的满意度,可以帮助平台制定更好的销售策略;在影视行业,了解观众对节目的喜怒哀乐,能帮助制定更精彩的剧情以及安排特定节目的上线时间;在人机对话中,掌握人的情感状态可以帮助智能机器人做出恰当的回复,并适时地表达安抚和谅解,提升用户体验;在舆论方面,行政部门通过了解群众对热门事件的情感倾向、掌握舆论导向,从而更及时有效的进行舆情监控,为制定政策提供支持。情感识别还能应用于许多现实的场景中。情感识别算法具有很高的研究价值。
考虑到采集难度、隐私等因素,本文的工作聚焦于使用语音来识别说话人情感的语音情感识别(SpeechEmotionRecognition,SER)任务。
2.语音情感识别技术介绍语音是日常生活中交流的主要媒介,它不仅传达了思想,还表达了说话人的情感状态。语音情感识别的目标是从语音中识别出人类的情感状态。其主要包含两个步骤:特征提取与分类器构建。
音频信号输入是近似连续的数值。提取音频特征通常首先对音频进行分帧,加窗,进行短时傅里叶变换(STFT)。然后得到了维度为T×DT imesDT×D的频谱特征,其中TTT表示帧数与时间长度相关,DDD是特征维度,每个维度对应不同的频率。有一些工作也会对此频谱进行一些mel滤波操作。频谱特征包含丰富的信息,比如说话内容、节奏、语气、语调等等。与情感相关的语音特征提取仍然是一个尚未成熟研究方向。深度学习的出现简化了人工特征提出过程,使用数据驱动的方法,利用情感标签作为监督信号来训练深度模型提取与情感相关的隐含语义特征。由于音频输入的序列化特点,深度特征提取通常也有基于CNN/GRU/LSTM方法,或者基于CRNN或CNN+Attention的方法。
传统的机器学习方法可以基于人工语音特征或者深度语音特征构建分类器,例如高斯混合模型(GMM),隐马尔科夫模型(HMM),支持向量机(SVM)等经典方法。此外,得益于深度学习的发展,基于神经网络的分类器可以与深度特征提取器一起端到端(end-to-end)训练,得到情感分类器。
3.语音情感识别面临的挑战我们前面介绍了语音情感分析中常用的方法,但语音情感识别在实际中也面临着一些挑战:
情感主观性与模糊性问题:语音情感识别是一个比较年轻的领域,在情感定义上缺乏官方标准。不同听者对同一段语音的情感可能有不同的观点。此外,一段语音往往有情感变化,主观性较强,导致许多研究工作没有普适性。
情感特征提取和选择问题:语音说话人各种各样,情感类别多变,语音片段长短不一等,这些问题导致人工设计特征无法涵盖全部情感信息。另一方面,深度特征虽然效果好,但不具有可解释性。
标注数据缺乏问题:深度学习方法取得很好的性能要求大量的高质量的标注数据。由于情感的主观性与模糊性,标注语音情感非常费时费力,同时要求大量专业人员。收集大量情感标注数据,是语音情感识别领域亟需解决的问题。
4.如何解决数据缺乏的问题?数据是深度学习的驱动力,大规模高质量的数据是深度学习取得成功的关键。然而,在很多实际问题中,由于标注代价问题,只存在少量的标注数据,这严重限制深度学习方法的发展。随着互联网社交平台的发展,每天都回生产大量的多媒体数据,大规模无标注的数据很容易获得。这就促进了能同时使用标注数据和无标注数据的半监督学习(Semi-SupervisedLearning)方法的发展。另一方面,多媒体数据通常情况下都包含多个模态,因此也有一些工作探索利用一个模态的标注知识去加强在另一个模态上的任务的效果。下面介绍这两种方法。
4.1半监督学习半监督学习一般有两个数据集,一个小规模的有标注数据集,一个大规模的无标注数据集。其目的是利用无标注数据来增强,监督学习的效果。经典半监督学习方法包含很多类别,例如self-training(自训练算法),generativemodels(生成模型),SVMs(半监督支持向量机),graph-basedmethods(图论方法),multiviewlearing(多视角算法)等等。下面介绍几类主要半监督学习方法。
简单自训练算法(self-training)self-training算法的步骤为:(1)首先利用标注训练集数据训练分类器;(2)利用分类器对无标注数据进行分类,并计算误差;(3)选择分类结果中误差较小的样本,将分类结果作为其标签,加入到训练集。循环次训练过程,直到所有的无标注数据被标注。多视角学习(multiviewlearing)这是self-training算法的一种。其假设每个数据可以从不同的角度进行分类。算法步骤如下:(1)在角度用标注数据集训练出不同的分类器;(2)用这些分类器从不同的角度对无标注数据进行分类;(3)根据多个分类结果来选出可信的无标签样本加入训练集。循环前面的训练过程。此方法的优点是不同角度的预测结果可以相互补充,从而提高分类精度。标签传播算法(LabelPropagationAlgorithm)标签传播算法是一种基于图的半监督算法,通过构造图结构来找无标签数据和有标签数据之间的关系,然后通过这个关系来进行标签传播。在深度学习上的半监督学习方法,叫做半监督深度学习。半监督深度学习主要包括三类:Fine-tune;基于深度学习的self-training算法;半监督的方式训练神经网络。
Fine-tune方式,利用无标签数据训练网络(重构自编码或基于伪标签训练),然后使用有标签数据在目标任务上进行微调。
基于深度学习方法的self-training,基本的步骤:(1)利用有标注数据训练深度模型;(2)利用深度模型作为分类器或者利用深度特征对无标签数据进行分类;(3)选择执行度高的加入有标签训练集,重复此过程。
半监督的方法训练深度网络包含许多技术,例如Pseudo-Label[1],LadderNetworks[2],TemporalEnsembling[3],Meanteachers[4]还有FixMatch等等。下面我们介绍几个主要的工作。
1.Pseudo-Label方法[1]此方法将网络对无标签数据的预测结果,作为无标签数据的标签,来训练网络。方法虽然简单,效果却很好。从下图我们可以看出,加了无标签数据之后,同一个类别的数据点聚集得更笼了。
TemporalEnsembling[3]TemporalEnsembling是Pseudo-Label方法的发展。其目标是构造更好的伪标签。下图给出了此方法的结构图,此方法有两种不同的实现,即πππ-model和temporalensembling。πππ-model的无监督代价是对同一个输入在不同的正则或数据增强的条件下模型输入应具有一致性,这样可以鼓励网络学习数据内部的不变性。Temporalensembling对每一次迭代的预测ziz_izi进行移动平均得个zi^hat{z_i}zi^作为无监督训练的监督信号。
Meanteacher[4]Meanteacher方法另辟蹊径,从模型的角度提高伪标签质量,其奉行“平均的就是最好的”原则。对每次迭代之后的student模型参数进行移动平均(weight-averaged)得到teacher模型,然后用teacher模型来构造高质量的伪标签,来监督student模型的无标签loss。
FixMatch[5]FixMatch发扬了TemporalEnsembling方法中的一致性正则化(consistencyregularization)原则,即同一个样本的不同增广,模型应该得到一致的结果,从而学习数据内部的不变性。因此FixMatch方法利用弱增广的样本生成一个伪标签,利用此伪标签来监督模型对强增广样本的输出。
4.2跨模态知识迁移跨模态知识迁移基于多媒体数据中各个模态之间的内在联系,将标注信息由一个模态向目标模态迁移从而实现数据标注。如下图所示,跨模态知识迁移包括视觉到语音的迁移,文本到图像的迁移等等。下面介绍几种经典的跨模态知识迁移工作。
基于跨媒体迁移的图像情感分析[6]此方法利用推特上成对的文本图像数据,完成图像情感分析任务,具体步骤如下图。其使用训练好的文本情感分类器,对文本进行情感分类,然后将标签直接给对应的图片。然后使用具有伪标注的图片训练图片情感分类器。
SoundNet[7]通过预训练的视频对象和场景识别网络实现从视觉模态到语音模态的知识迁移,利用迁移的标签训练语音模型,完成语音场景或语音对象分类。
EmotionRecognitioninSpeechusingCross-ModalTransferintheWild[8]此方法利用预训练好的人脸情感识别模型作为teacher模型,然后利用teacher模型的预测结果来训练语音情感识别模型。
5.我们的语音情感识别方案这一节将介绍我们处理标注数据缺乏的方案。
联合跨模态知识迁移与半监督学习方法为了解决语音情感识别领域数据缺乏的问题,我们在2021年提出了联合跨模态知识迁移与半监督学习的架构,该方法在CH-SMIS以及IEMOCAP数据集上取得了语音情感识别任务当前最优的结果,同时我们将此工作发表在SCI一区期刊knowledge-basedsystem上发表论文Combiningcross-modalknowledgetransferandsemi-supervisedlearningforspeechemotionrecognition。下面是我们的方案的架构图:
我们的方案基于两个观察:
直接跨模态标签迁移存在误差,因为人脸情感与语音语音情感之间的关系十分复杂,并不是完全一致。半监督学习方法,标注数据很少的情况下,表现并不好。模型的预测错误可能会不断的得到加强,导致模型在某些类别上精度很低。我们的方法收到了多视角学习思路的启发,利用视频数据中存在两种模态,在两个模态上识别情感,融合它们获得更加准确的伪标签。为了进行语音情感识别,本方案首先提取了语音的STFT特征,然后进行了Specaugment数据增广。因为Transformer在建模序列数据的成功,本方案采用了Transformer的encoder进行语音的编码,最后利用均值池化来得到语音特征并分类情感。
跨模态知识迁移为了进行跨模态情感迁移,本方案基于MobileNet模型利用大量的人脸表情数据集训练了一个性能强大的人脸表情识别模型。使用此模型对从视频中抽取的图片帧进行人脸表情识别。然后将多个帧识别的结果综合到一起得到整个视频段的人脸表情预测结果。
半监督语音情感识别受到FixMatch中一致性正则化假设的启发,我们设计了半监督语音情感识别方法。具体的,此方法对语音样本输入采取了两种类型的增广,利用强增广方法SpecAugment算法获得到语音严重扭曲版频谱特征,利用弱增广方法(特征上的dropout等)得到变化不大的语音特征。模型使用弱增广的样本生成伪标签,来监督强增广的样本的训练。
结合半监督学习与跨模态知识迁移在模型的每一次迭代中,本方法利用弱增广样本生成一个伪标签,然后将其与跨模态迁移的伪标签进行融合,以提高伪标签的质量。本工作探索了两种融合方法,一个是加权求和,一个是多视角一致性。得到高质量的伪标签之后,用此标签监督强增广样本的训练。
模型通过多次迭代,不断提升伪标签质量。
相对于半监督学习方法和跨模态方法,本方法在CH-SIMS和IEMOCAP数据集上均取得了最好的效果。结果如下:
参考文献[1]Pseudo-Label:TheSimpleandEfficientSemi-SupervisedLearningMethodforDeepNeuralNetworks[2]Semi-SupervisedLearningwithLadderNetworks[3]TemporalEnsemblingforSemi-supervisedLearning[4]Meanteachersarebetterrolemodels:Weight-averagedconsistencytargetsimprovesemi-superviseddeeplearningresults[5]FixMatch:SimplifyingSemi-SupervisedLearningwithConsistencyandConfidence[6]Cross-MediaLearningforImageSentimentAnalysisintheWild[7]SoundNet:LearningSoundRepresentationsfromUnlabeledVideo[8]EmotionRecognitioninSpeechusingCross-ModalTransferintheWild
人工智能应用:人脸识别应用领域以及未来的行业发展趋势
人脸识别的应用范围其实很广,除了大家通常所说的安防、考勤、门禁、刑侦、ATM等等,现在最火的短视频、直播都是要用到人脸识别的,比如动态贴纸,贴纸随着人脸的移动而相应的移动,就需要用到人脸识别技术。之前很火的脸龄测试、明星脸对比,也都需要用到该技术。
人脸识别应用领域:
1.、金融领域。人脸识别当前在金融领域的应用最为广泛,当前国内金融领域监管要求严格,金融相关产品都需要实名认证,并且具有较高的安全性要求,活体识别,银行卡ocr识别,身份证ocr识别,人证对比等在各大手机银行,金融app,保险app等都已经成为不可或缺的一个环节。
2、安保领域。目前大量的企业,住宅,社区,学校等安全管理越来越普及,人脸门禁系统已经成为非常普及的一种安保方式。
3、通行领域。很多城市的火车站已经安装了人脸识别通行设备,进行人证对比过检,有些城市的地铁站也可以通过人脸识别的方式进行地铁进出站通行。
4、泛娱乐领域。现在市场上火爆的美颜相机,网络直播,短视频等都是建立在人脸识别的基础上对人脸进行美颜和特效处理。
5、公安,司法领域。公安系统在追捕逃犯时也会利用人脸识别系统对逃犯进行定位,监狱系统目前也会对服刑人员通过人脸识别系统进行报警和安防。
6、自助服务设备。如银行的自动提款机,无人超市等。
7、考勤及会务。如工作考勤,会议出席人脸墙等。目前人脸识别市场上的巨头主要有商场,也有很多领域内巨头公司投资的小公司。
人脸识别行业发展趋势:
第一、基于大数据的大规模人脸搜索是人脸识别技术未来发展的重要方向。例如,在公安领域已经跨入大数据时代,一些传统技术瓶颈显现,因此,利用人脸识别技术将这些海量照片数据利用起来,提升整个公安信息化的管理水平,是未来人脸识别技术发展的重要方向。
第二、深度学习将人脸识别的准确度提升至肉眼级别,大大拓展了2D人脸识别的应用场景,并借助互联网金融爆发的东风,步入金融级应用并作为基础设施迅速普及。此外,随着互联网金融等业务身份认证的需求爆发,第三方认证服务平台将会出现,基于提供服务的平台型盈利模式发展空间巨大。
第三、随着三维测量技术的发展,基于3D的人脸识别算法能够弥补2D投影造成有效识别信息丢失的问题,对于人脸旋转、遮挡、极度相似的传统难点具有很好的解决方式,也逐渐成为人脸识别技术的另一重要发展路线,随着3D人脸库的完善以及设备成本的降低,3D技术将有很大发展空间。
第四、随着我国城市化进程的加速,社会稳定、城市安全等问题逐渐显现,而人脸识别技术是实现安全、安心城市的关键技术。因此,随着智慧城市的大规模建设,人脸识别技术的应用将是未来新趋势。
第五、安防行业的迅速发展,为人脸识别应用提供了可以发挥的舞台;另一方面,随着人脸识别技术的进一步发展,为安防行业开拓了新的市场。分析认为,智能视频分析将是大安防市场未来的方向之一,而人脸识别是其中非常重要的技术和应用。
第六、人脸识别技术由于其便利性、安全性,可在智能家居中用作门禁系统以及鉴权系统,因此智能家居与人脸识别技术的融合是未来发展的重点方向。智能家居中的人脸识别系统是结合嵌入式操作系统和嵌入式硬件平台建立的,加强了人脸识别技术与智能家居应用的结合度,具有概念新、实用性强等特点。
文章载自:
[1] 人脸识别应用领域以及未来的行业发展趋势[DB/OL]. https://www.toutiao.com/a6680784450940305924/,2019-04-17
人工智能发展与应用综述
人工智能发展与应用综述摘要自人工智能的概念在1956年被提出以来,研发者们就不断研究,六十多年的发展,在理论研究以及应用领域都已取得了喜人的成果,人工智能在医疗,交通,教育,商业,信息安全等领域已经深入国民生活。本文对人工智能概念进行解读,并对人工智能发展与应用进行综述,探索人工智能发展轨迹,以更好认识人工智能,对行业技术与发展有更深刻的理解。
关键词:人工智能发展应用综述总结1、引言人工智能的概念越来越深刻影响着人类的生活,如同蒸汽时代的蒸汽机,电气时代的发电机,信息时代的计算机,人工智能已经成为推动人类进入智能时代的决定性力量。当然,人工智能并不是凭空产生的,其发展具有一定的过程,在无数科学研究者,学者的辛勤努力下,人工智能研究的研究体系已经初见成果。人工智能的概念产生于欧美、日本等国家,并迅速风靡全球,可喜的是,根据清华大学发布的《人工智能发展研究报告2018》统计,我国已经成为全球人工智能投资融资规模最大的国家,我国人工智能在人脸识别,语音识别,安防监控,智能音箱,智能家居等人工智能应用领域处于国际前列。根据2017年,爱思唯尔文献数据库[1]统计结果,我国在人工智能领域发表的论文数量已居世界第一。当然,作为一项新兴事物,人工智能并非完美无缺,在许多方面仍然有较多的困难尚未攻克,本文对人工智能发展与应用进行综述[2、3],指导正确看待这一新兴事物,更好指导未来的技术发展。
2、人工智能以及核心概念由于“智能”这一概念难以确切定义,图灵用:“机器能够思考吗?”这一问题代替。图灵提出通过对机器进行“图灵测试”,以判断它是否具有智能。“图灵测试”就是让机器当做人,与人进行对话,如果有30%的测试人相信此机器是人类,那么这台机器被认为具有智能。美国斯坦福大学人工智能研究中心尼尔逊教授给人工智能下了这样的定义:人工智能是关于知识的学科,是怎样表示知识以及怎样获得知识并使用知识的科学。从实用观点来看,人工智能是一本知识工程学:以知识为对象,研究知识的获取,知识的表示方法和知识的使用。目前学术界将人工智能分为强人工智能和弱人工智能,强人工智能就是机器具有自我意识,要求机器有知觉有意识。弱人工智能是指没有知觉意识的智能,机器按照事先写好的程序进行工作,并不拥有智能。
(1)、机器学习机器学习[4]是人工智能的核心技术,是使机器拥有智能的主要途径,是指让机器模拟人的学习能力,以此来增强机器的性能。早在上个世纪图灵就给出了类似机器学习的想法,他设想让机器模仿儿童思维,使其接受正确的教育成长为一个成人的大脑。这种想法与当今学者研究的方向不谋而合。后来图灵与同事一起编写了程序去实践这种想法,机器能够做他们编写过的事情,除此之外,不会向人类一样在能力方面有更多的延伸。如何让机器自主的学习,在今天仍然是人工智能发展的难题。
(2)、人工神经网络是受人脑神经元的启发,试图设计与人脑结构类似的网络结构,模拟大脑处理信息的的过程,以提高运算速度。作为人工神经网络的一类,卷积神经网络已经广泛用于大型图像处理中。虽然人工神经网络无法与人类大脑媲美,在模式识别,医疗,智能机器人等领域取得的成果有目共睹。
(3)、专家系统是指依靠人类专家已有的知识建立的知识系统,是一种特定领域内大量知识与经验的程序系统。它应用人工智能技术,模拟人类专家求解问题的思维过程求解领域内的各种问题,其水平可以甚至超过人类专家的水平。目前专家系统开发最早应用最广泛的领域,多是医疗诊断,地质勘探,文化教育等领域。
3.发展历程回顾人工智能的发展可以有以下四个时期:孕育,形成,知识运用,综合集成四个阶段。孕育期:一般认为人工智能的最早工作是Warre基本出发点。Mcculloch跟WalterPitts完成的。他们提出一套人工神经元模型,两名普林顿大学数学系的研究生在1951年建造了第一台神经元网络计算机。不少早期工作可以被当做人工智能,古希腊的亚里士多德创立的演绎法,三段论的至今仍然是演绎推理的基本出发点。形成期:人工智能诞生于1956年的一次历史性聚会。几位来自美国的数学,神经学,心理学,信息科学和计算机科学的杰出科学家齐聚一堂,由麦卡锡提出了“人工智能(AI)”这一概念。会议过后,各地的科学家、学者纷纷研究相关知识,“人工智能”这一学科以及相关研究如雨后春笋一般形成。1969年的国际人工智能联合会议标志着人工智能得到国际的认可。知识应用期:1977年费根鲍姆在第五届国际人工智能大会上提出了知识工程的概念。从此之后,各类专家系统得以发展,大量的商品化专家系统和智能系统纷纷推出。专家系统的发展,也是得人工智能的发展范围扩大到了人类各个领域,并产生了巨大的经济效益。但是专家系统发展过程中也存在很多缺陷,应用领域窄,缺乏常识性知识,知识获取困难,不能访问现存的数据库等问题被逐渐暴露出来,人工智能面临着考验。综合形成期,在专家系统方面,从20世纪80年代末开始逐步向多技术,多方法的综合集成与多领域的综合应用型发展。大型专家系统开始采用了人工智能的多种语言,多种知识表示方法,多种推理机制和多种在控制策略相结合的方式,人工智能的发展进入综合形成期。目前,人工智能技术正在向大型分布式人工智能,大型分布式多专家协同系统,并行推理,多种专家系统开发工具,大型分布式人工开发环境和分布式环境下的多智能协同系统等方向发展。但是从目前来看,无论是人工智能理论还是实践都不够成熟,人工智能研究仍然需要科研工作者长期摸索。
4、人工智能的应用(1)、虚拟各人助理目前市面上的人工智能助理如:Siri,小娜等。个人助理能够帮助用户完成多项任务,多项服务,其推动力是人工智能技术。现阶段的人工助理一般具有基于上下文的对话能力,可以实现简单的人机对话,回答一些简单的问题。个人助理的应用包括语音识别,图像识别,深度学习等技术,其工作原理是“语音识别+云计算服务”。
(2)、自动驾驶谷歌公司一直致力于自动驾驶汽车的研究,2012年4月。谷歌公司宣布自动驾驶汽车已经行驶20万公里,这一数据已经接近汽车的最大里程数。我国自动驾驶技术的研究同样取得振奋人心的成果。2017年由海梁科技与深圳巴士集团等联合打造的自动驾驶客运巴士,正式进行线路的信息采集和试运行。
(3)、智慧医疗医疗一直是关系到国际民生的重要范畴。随着专家系统的不断发展完善,已有实例表明,人工智能可参与到医疗建设中。Watson[5]是IBM公司研发的采用认知计算系统的人工智能平台,watson肿瘤系统是其产品之一,可以作为辅助诊疗手段,与医院数据对接,实现病例数据的信息共享,还可以为临床医生在诊断过程中推荐诊疗方案,苏北人民医院2017年正式引入此系统,开启了智慧医疗的新时代。
5、我国人工智能发展趋势与展望人工智能技术发展至今60多年,其概念已经逐渐清晰,在生物,医疗,交通等领域孕育出了突破性的成果,但是人工智能技术能否发展到人类的水平仍然不能给出确切的答案。目前人工智能面临的问题主要是:
(1)、体系结构受限受限于冯诺依曼体系结构,目前人工智能系统在感知,认识方面无法突破瓶颈。这主要是由于传统的冯诺依曼体系结构采用的是存储程序的方法,程序是事先设定的,无法随着外界的改变而改变,这也是限制人工智能发展的关键。不过,我们有理由相信,在不久的未来能够克服这种制约。
(2)、社会问题困扰如果人工智能真的发展到与人类智慧媲美的程度,又会引发一系列的问题。一方面心理学上,“恐怖谷”理论就是假如机器人接近人类的时候,我们会对其产生莫名的厌恶和惧怕。另一方面,人工智能带来的社会问题同样困扰着人类,以自动驾驶汽车为例,3-18美国自动驾驶车辆车祸致人死亡的事件给自动驾驶技术的发展带来不小的冲击,事故责任的划分成为一大难题。目前人工智能的发展,主要是在弱人工智能发展并取得显著的成果,在强人工智能的研究上仍在开展,存在很多问题,有很大的发展空间,从目前的一些前瞻性研究可以看出人工智能可能会向以下几个方面发展:模糊处理,并行化,神经网络和机器情感。人工智能的下一个突破可能是赋予计算机情感能力。
参考文献
[1]中央人民政府驻香港特别行政区联络办公室副主任中国科学院院士谭铁牛.人工智能的发展趋势及对策[N].中华工商时报,2019-02-25(003).[2]张妮,徐文尚,王文文.人工智能技术发展及应用研究综述[J].煤矿机械,2009,30(02):4-7.[3]杨俊龙,柳作栋.人工智能技术发展及应用综述[J].计算机产品与流通,2018(03):132-133.[4]陈彦淇.简析人工智能的发展与应用[J].科技传播,2019(04):162-163+170.[5]曹敦煜.人工智能在心脏疾病诊疗中的应用[J].科技传播,2019(04):141-142.
[盘点]国内外语音识别行业现状
原标题:[盘点]国内外语音识别行业现状
OFweek机器人网讯:随着机器学习和人工智能的热闹,国内语音行业也可谓是百花齐放,尤其是最近几年,不仅涌现了很多国内外的小公司,而且巨头们也开始加速语音识别行业的布局。本文就详细盘点一番国内外的大型公司,并对他们掌握的技术进行分析,同时预测一下未来的语音识别趋势,期望带给行业内外的专业人士些许参考,借此更进一步推进整个行业的发展。
1、国外语音识别行业收购盘点和技术分析
传统语音识别行业贵族Nuance逐渐没落
任何时候提到语音识别,都不能避过Nuance这家公司,这家公司曾经在语音领域一统江湖,世界上有超过80%的语音识别都用过Nuance识别引擎技术,其语音产品可以支持超过50种语言,在全球拥有超过20亿用户,几乎垄断了金融和电信行业。就算现在,仍旧是瘦死的骆驼比马大,Nuance依旧是全球最大的语音技术公司,掌握着全球最多的语音技术专利。苹果语音助手Siri、三星语音助手S-Voice、各大航空公司和顶级银行的自动呼叫中心,刚开始都是采用他们的语音识别引擎技术。Nuance已经登陆了纳斯达克,三星、苹果和百度都和它传过绯闻,传言多次收购,但是全都无疾而终。
事实上,Nuance有点过于自大了,语音技术即便冠绝全球,但是在具体应用上,差距就没有那么大了。语音识别技术并非高不可攀,实际上一款用户体验较好的语音识别系统,很大程度上依靠数据和经验,专利和算法什么的并没有那么重要。聪明人自然很多,所以巨头们只需考虑挖到专业人士或者收购初创公司,自主研发出不逊于Nuance的语音识别技术也不是太难的事情,又何必花费巨资看Nuance脸色呢。
苹果收购Siri、Novauris