自然语言处理
自然语言处理(NaturalLanguageProcessing,NLP)是人工智能涉及到的非常重要的技术之一,其目的是用自然语言实现人机交互,涉及到计算机科学、人工智能、语言学等众多学科。实现人机间自然语言通信意味着要使计算机既能理解自然语言文本的意义,即自然语言理解,也能以自然语言文本来表达给定的意图、思想等,即自然语言生成。因此,自然语言处理大体包括了自然语言理解和自然语言生成两个部分。无论实现自然语言理解,还是自然语言生成,都远不如人们原来想象的那么简单。具体来说,造成困难的根本原因是自然语言文本和对话的各个层次上广泛存在的各种各样的歧义性或多义性(ambiguity)。例如,在口语中,词与词之间通常是连贯的,而界定字词边界通常使用的办法是截取能让给定的上下文最为通顺且在文法上无误的一种最佳组合。在书写上,汉语也没有词与词之间的边界。有时不同的边界截取会产生不一样的语义,例如,在一些对联中,由于没有标点,不同的词语边界截取就会产生不一样的意思。除此之外,还包括多音字、多义词、不同的口音等,这些都给计算机理解人类自然语言造成了很大障碍。因此,从1949年美国人威弗提出的机器翻译设计方案之后,自然语言处理技术的发展经历了多个阶段,从最早利用语法规则、单词或短语对应进行翻译,到现在以大规模真实语料库和大规模、信息丰富的信息词典为基础,强调对大规模真实文本的处理能力。即:(1)对系统输入,要求研制的自然语言处理系统能处理大规模的真实文本,而不是如以前的研究性系统那样,只能处理很少的词条和典型句子。只有这样,研制的系统才有真正的实用价值。(2)对系统的输出,鉴于真实地理解自然语言是十分困难的,对系统并不要求能对自然语言文本进行深层的理解,但要能从中抽取有用的信息。例如,对自然语言文本进行自动地提取索引词,过滤,检索,自动提取重要信息,进行自动摘要等。从现有的理论和技术现状看,针对具体应用、具有相当自然语言处理能力的实用系统已经出现,有些已商品化,甚至开始产业化,但是,通用的、高质量的自然语言处理系统,仍然是较长期的努力目标。
自然语言处理NLP的百年发展简史
这一系列颠覆性的研究成果在学术界引发轰动,激发了人工智能(AI)的思潮,同时也催生了自然语言处理(NLP)和计算机技术的发展。
NLP的早期理论基础人们最早对NLP的探索始于对机器翻译的研究。1947年,美国科学家韦弗(W.Weaver)博士和英国工程师布斯(A.D.Booth)提出了利用计算机进行语言自动翻译的设想,机器翻译(MachineTranslation)从此步入历史舞台。
1957年,麻省理工学院的语言学教授诺姆·乔姆斯基(NoamChomsky)在他出版的《句法结构》一书中,革新了语言的概念,提出“要使计算机理解语言,就必须更改句子的结构。”以此为目标,乔姆斯基创建了一种语法,称为“阶段结构语法”,该语法能够有条不紊地将自然语言句子翻译为计算机可以使用的格式。
1958年夏天,同样来自麻省理工学院的人工智能研究先驱约翰·麦卡锡(JohnMcCarthy)参与IBM资讯研究部的工作,研究符号运算及应用需求。但IBM旗下的Fortran表处理语言却未能支持符号运算的递归、条件表达式、动态存储分配及隐式回收等功能。于是麦卡锡带领由MIT学生组成的团队开发了一门全新的表处理语言LISP,赋予了编程语言更强的数学计算能力。LISP语言后来也被称为人工智能的“母语”,成为早期人工智能研究人员的编程语言。
1964年,首个自然语言对话程序ELIZA诞生,该程序是由麻省理工学院人工智能实验室的德裔计算机科学家约瑟夫·维岑鲍姆(JosephWeizenbaum)使用一种名为MAD-SLIP的类LISP语言编写,运行在MIT实验室中36位的分时系统IBM7094(早期的晶体管大型计算机)上。
由于当时的计算能力有限,ELIZA只是通过重新排列句子并遵循相对简单的语法规则来实现与人类的简单交流。用户通过电动打字机和打印机与程序进行远程交互,当用户键入一个句子并按Enter键时,消息被发送到服务端系统,ELIZA扫描邮件中是否存在关键字,并在新句子中使用该关键字以形成响应,返回打印给用户。这种对话方式,给人的印象是计算机可以理解对话,又不必为对话提供任何新内容,仅用200行代码就产生了理解和参与的错觉。
在这一时期,虽然有了一定的理论基础以及像Eliza这样的初级产品,但在历时近12年并耗资近2000万美元后,机器翻译的成本还是远高于人工翻译,并且仍然没有任何计算机能够真正实现基本的对话。于是在1966年,美国国家研究委员会(NRC)和自动语言处理咨询委员会(ALPAC)停止了对自然语言处理和机器翻译相关项目的资金支持,AI和NLP的发展因此陷入停滞。此时,许多学者认为人工智能和自然语言处理的研究进入了死胡同。人类早期结合语言学与统计学对AI/NLP的初步探索以失败告终。
NLP的回归直到1980年,在美国的卡内基梅隆大学召开了第一届机器学习国际研讨会,标志着机器学习研究在全世界的重新兴起。在某种程度上来说,长达14年的真空期也让NLP界有时间冷静下来寻求新的突破。于是,早期的机器翻译概念被推翻,新的思想促进了新的研究。
早期的自然语言处理研究中,很流行语言学和统计学的混合,大多数NLP系统都使用复杂的“手写”逻辑规则。而现在,这一理念被纯粹的统计学所取代。20世纪80年代,得益于计算能力的稳定增长以及机器学习的发展,研究人员开始对AI和NLP进行根本性的重新定位,用简单的近似法取代了深入的分析法,评估过程也变得更加量化。
经过一些挫折后,一种前馈神经网络模型MLP由伟博斯在1981年的神经网络反向传播(BP)算法中具体提出。当然BP仍然是今天神经网络架构的关键因素。有了这些新思想,神经网络的研究又加快了。1985-1986年,一些神经网络研究学者先后提出了MLP与BP训练相结合的理念。
随后,一个非常著名的ML算法由罗斯·昆兰(RossQuinlan)在1986年提出,我们称之为决策树算法,更准确的说是ID3算法。这是另一个主流机器学习的重要里程碑。与黑盒神经网络模型截然不同的是,决策树ID3算法也被作为一个软件,通过使用简单的规则和清晰的参考可以找到更多的现实生活中的使用情况。
决策树是一个预测模型,他代表的是对象属性与对象值之间的一种映射关系。树中每个节点表示某个对象,而每个分叉路径则代表的某个可能的属性值,而每个叶节点则对应从根节点到该叶节点所经历的路径所表示的对象的值。决策树仅有单一输出,若欲有复数输出,可以建立独立的决策树以处理不同输出。中决策树是一种经常要用到的技术,可以用于分析数据,同样也可以用来作预测。在90年代,随着互联网的出现,用于自然语言过程分析的统计模型迅速普及。纯粹的统计学NLP方法在线上文本的巨大流量方面已变得非常有价值。n元模型(n-gram)在数字识别和跟踪大量的语言数据方面也已经变得非常有用。
语言模型简单来说就是一串词序列的概率分布。具体来说,语言模型的作用是为一个长度为m的文本确定一个概率分布P,表示这段文本存在的可能性。在实践中,如果文本的长度较长,P(wi|w1,w2,...,wi−1)的估算会非常困难。因此,研究者们提出使用一个简化模型:n元模型(n-grammodel)。在n元模型中估算条件概率时,只需要对当前词的前n-1个词进行计算。在n元模型中,传统的方法一般采用频率计数的比例来估算n元条件概率。当n较大时,机会存在数据稀疏问题,导致估算结果不准确。因此,在百万词级别的语料中,一般也就用到三元模型。为了缓解n元模型估算概率时遇到的数据稀疏问题,研究者们提出了神经网络语言模型。1997年,LSTM递归神经网络(RNN)模型被引入,并在2007年找到了语音和文本处理的利基市场。目前,神经网络模型被认为是NLP对文本和语音生成理解的最前沿研究。
2001年,法国AI专家约书亚·本吉奥(YoshioBengio)发表了一篇论文,提出了一种全新的语言神经网络模型。该模型使用前馈神经网络描述了一种不使用连接来形成循环的人工神经网络。在这种类型的网络中,数据仅在一个方向上移动,从输入节点到任何隐藏节点,再到输出节点。前馈神经网络没有循环,与递归神经网络有很大不同。
本吉奥带来的全新思路启发了之后的很多基于神经网络的NLP学术研究,在工业界也得到了广泛使用,助力了NLP的应用在未来几年的加速落地。此外,还有梯度消失(gradientvanishing)的细致分析,word2vec的雏形,以及如今实现的机器翻译技术都有本吉奥的贡献。
当代NLP研究经过长期的发展,自然语言处理(NLP)被人们系统地定义为人工智能中的一门分支学科。除了机器翻译与人机交互以外,NLP还包含以下高级功能的研究:
内容分类:语言文档摘要,包括内容警报,重复检测,搜索和索引。主题发现和建模:捕获文本集合的主题和含义,并对文本进行高级分析。上下文提取:自动从基于文本的源中提取结构化数据。情绪分析:识别存储在大量文本中的总体情绪或主观意见,用于意见挖掘。文本到语音和语音到文本的转换:将语音命令转换为文本,反之亦然。文档摘要:自动创建摘要,压缩大量文本。机器翻译:自动将一种语言的文本或语音翻译成另一种语言。在2011年,苹果公司的Siri成为世界上第一个成功被普通消费者使用的NLP/AI助手之一。在Siri中,自动语音识别模块将所有的单词转换为数字解释的概念。然后,语音命令系统会将这些概念与预定义的命令进行匹配,从而启动特定的操作。例如,如果Siri问:“您想听一下您的余额吗?”它会理解你将要回答的“是”或“否”,并采取相应的行动。
通过使用机器学习技术,所有者的口语模式不必与预定义的表达式完全匹配。对于NLP系统来说,声音必须合理地接近才能正确翻译含义。通过使用反馈循环,NLP引擎可以显着提高其翻译的准确性,并增加系统的词汇量。训练有素的系统会理解“我在哪里可以得到大数据的帮助?”这样的字眼。“我在哪里可以找到大数据专家?”或“我需要大数据方面的帮助”,并提供适当的答复。
对话管理器与NLP的组合,使开发一个能够真正与人类对话的系统成为可能。2014年6月8日,一个名为尤金·古斯特曼(EugeneGoostman)的电脑聊天程序成功让参与测试的33%人类裁判相信它是一个13岁的男孩,成为有史以来首台通过图灵测试的计算机。
NLP的未来近年来,在NLP领域中,使用语言模型预训练方法在多项NLP任务上都取得了突破性进展,广泛受到了各界的关注。
前文提到,目前神经网络在进行训练的时候基本都是基于后向传播(BP)算法,通过对网络模型参数进行随机初始化,然后通过BP算法利用例如SGD这样的优化算法去优化模型参数。那么预训练的思想就是,该模型的参数不再是随机初始化,而是先有一个任务进行训练得到一套模型参数,然后用这套参数对模型进行初始化,再进行训练。即通过在大量的语料上预训练语言模型,然后再将预训练好的模型迁移到具体的下游NLP任务,从而提高模型的能力。
得益于目前硬件算力的提升,预训练语言模型的参数规模呈指数倍增长。其中,GPT模型是OpenAI在2018年提出的一种新的ELMo算法模型,该模型在预训练模型的基础上,只需要做一些微调即可直接迁移到各种NLP任务中,因此具有很强的迁移能力。2019年推出的GPT-2拥有15亿参数,到了2020年推出的GPT-3已经拥有惊人的1750亿参数,不仅能轻松通过图灵测试,还能完成包括写代码在内的大部分NLP任务。
神经网络之父、图灵奖获得者杰弗里·辛顿(GeoffreyHinton)表示,“鉴于GPT-3在未来的惊人前景,可以得出结论:生命、宇宙和万物的答案,就只是4.398万亿个参数而已。”这一观点也引发了人们的广泛讨论,被认为是对NLP发展尽头的预言。当未来人类的算力不断突破极限时,包含全人类文明的GPT-N是否会是NLP的终点呢?
参考链接:https://www.dataversity.net/author/keith-foote/
本站文章除注明转载外,均为本站原创或编译。欢迎任何形式的转载,但请务必注明出处,尊重他人劳动共创开源社区。
转载请注明:文章转载自OSCHINA社区[http://www.oschina.net]
本文标题:自然语言处理NLP发展简史
本文地址:https://www.oschina.net/news/117939/history-of-nlp返回搜狐,查看更多
自然语言处理简介及主要研究方向
百度词条:自然语言处理是计算机科学领域与人工智能领域中的一个重要方向。它研究能实现人与计算机之间用自然语言进行有效通信的各种理论和方法。自然语言处理是一门融语言学、计算机科学、数学于一体的科学。因此,这一领域的研究将涉及自然语言,即人们日常使用的语言,所以它与语言学的研究有着密切的联系,但又有重要的区别。自然语言处理并不是一般地研究自然语言,而在于研制能有效地实现自然语言通信的计算机系统,特别是其中的软件系统。因而它是计算机科学的一部分。
自然语言处理(NLP)是计算机科学,人工智能,语言学关注计算机和人类(自然)语言之间的相互作用的领域。
Naturallanguageprocessing(NLP)isafieldofcomputerscience,artificialintelligenceandcomputationallinguisticsconcernedwiththeinteractionsbetweencomputersandhuman(natural)languages,and,inparticular,concernedwithprogrammingcomputerstofruitfullyprocesslargenaturallanguagecorpora.Challengesinnaturallanguageprocessingfrequentlyinvolvenaturallanguageunderstanding(NLU),naturallanguagegeneration(frequentlyfromformal,machine-readablelogicalforms),connectinglanguageandmachineperception,dialogsystems,orsomecombinationthereof.
随着深度学习的发展,LSTM的应用取得的突破,极大地促进了NLP的发展。
自然语言处理的主要范畴有以下:
文本朗读(Texttospeech)/语音合成(Speechsynthesis) 语音识别(Speechrecognition) 中文自动分词(Chinesewordsegmentation) 词性标注(Part-of-speechtagging) 句法分析(Parsing) 自然语言生成(Naturallanguagegeneration) 文本分类(Textcategorization) 信息检索(Informationretrieval) 信息抽取(Informationextraction) 文字校对(Text-proofing) 问答系统(Questionanswering)给一句人类语言的问定,决定其答案。典型问题有特定答案(像是加拿大的首都叫什么?),但也考虑些开放式问句(像是人生的意义是是什么?)
机器翻译(Machinetranslation)将某种人类语言自动翻译至另一种语言
自动摘要(Automaticsummarization)产生一段文字的大意,通常用于提供已知领域的文章摘要,例如产生报纸上某篇文章之摘要
文字蕴涵(Textualentailment)自然语言处理目前研究的难点
单词的边界界定在口语中,词与词之间通常是连贯的,而界定字词边界通常使用的办法是取用能让给定的上下文最为通顺且在文法上无误的一种最佳组合。在书写上,汉语也没有词与词之间的边界。
词义的消歧许多字词不单只有一个意思,因而我们必须选出使句意最为通顺的解释。
句法的模糊性自然语言的文法通常是模棱两可的,针对一个句子通常可能会剖析(Parse)出多棵剖析树(ParseTree),而我们必须要仰赖语意及前后文的资讯才能在其中选择一棵最为适合的剖析树。
有瑕疵的或不规范的输入例如语音处理时遇到外国口音或地方口音,或者在文本的处理中处理拼写,语法或者光学字元识别(OCR)的错误。
语言行为与计划句子常常并不只是字面的意思;例如,“你能把盐递过来吗”,一个好的回答应当是动手把盐递过去;在大多数上下文环境中,“能”将是糟糕的回答,虽说回答“不”或者“太远了我拿不到”也是可以接受的。再者,如果一门课程去年没开设,对于提问“这门课程去年有多少学生没通过?”回答“去年没开这门课”要比回答“没人没通过”好。 当前自然语言处理研究的发展趋势:
第一,传统的基于句法-语义规则的理性主义方法受到质疑,随着语料库建设和语料库语言学的崛起,大规模真实文本的处理成为自然语言处理的主要战略目标。 第二,统计数学方法越来越受到重视,自然语言处理中越来越多地使用机器自动学习的方法来获取语言知识。 第三,浅层处理与深层处理并重,统计与规则方法并重,形成混合式的系统。 第四,自然语言处理中越来越重视词汇的作用,出现了强烈的“词汇主义”的倾向。词汇知识库的建造成为了普遍关注的问题。 第五,统计自然语言处理统计自然语言处理运用了推测学、机率、统计的方法来解决上述,尤其是针对容易高度模糊的长串句子,当套用实际文法进行分析产生出成千上万笔可能性时所引发之难题。处理这些高度模糊句子所采用消歧的方法通常运用到语料库以及马可夫模型(Markovmodels)。统计自然语言处理的技术主要由同样自人工智能下与学习行为相关的子领域:机器学习及资料采掘所演进而成。——转自维基百科。
自然语言处理技术的进展和趋势
2019年,技术进展方面主要体现在预训练语言模型、跨语言NLP/无监督机器翻译、知识图谱发展+对话技术融合、智能人机交互、平台厂商整合AI产品线。
1 预训练语言模型
随着2018年底Google提出预训练语言模型BERT,在多项NLP任务上获得更优效果,预训练语言模型的研究与应用被学术界和工业界视为NLP领域的一项重大突破,将NLP问题的解决方式从以往的为每个任务单独设计复杂的模型逐渐演变成了预训练+微调的范式,让众多NLP应用能够享受到大语料预训练模型带来的红利,在通用的预训练模型的基础上加入简单的任务层,并结合自己场景的少量语料就可以获得一个不错的领域NLP模型。
至此开启了自然语言处理的新篇章。
在2019年,各个研究机构和公司在BERT的基础上进一步创新,纷纷提出了自己的预训练模型,如:Facebook发布的RoBERTa,CMU发布的XLNet,Stanford发布的ELECTRA,还有百度的ERNIE模型,阿里的structBERT模型,华为的NEZHA,哈工大和科大讯飞也都提出了自己的模型,不断刷新NLP任务的最好成绩。
这新的工作总结起来,主要来自训练任务设计和训练算法两个方面。
训练任务设计
进行更加精细的语义粒度建模,包括引入更细粒度的建模对象和更加精细的刻画语义关联。
比如“全词Mask”或者“KnowledgeMasking”,技术在MLM预训练任务中Mask整个词而不是单个Token,进而提升了任务难度使得BERT学到更多语义信息,哈工大和科大讯飞联合发布的中文BERT模型以及NEZHA模型中得到了应用;再比如引入更多类型的句间关系,从而能够更加准确描述语义关联性,进而提升语义匹配等方面能力,这在阿里和蚂蚁团队的BERT模型中得到体现。
利用新的机器学习方法建模
包括CMU和Google联合发布的XLNet使用了Autoencoder和Auto-regressive两种方案;斯坦福大学提出的ELECTRA模型,引入对抗机制来进行更好的MLM学习。华盛顿大学和Facebook联合发布的SpanBERT模型还引入了Span预测任务。这些方案应用更学习方法来建模文字之间的联系,从而提升模型效果。
训练算法设计
针对模型的易用性的问题,减少模型参数,或者降低模型的复杂度,包括Google发布的ALBERT使用了词表embedding矩阵的分解与中间层的共享。
提高训练速度的优化
包括混合精度训练,用FP16来进行权重,激活函数和梯度等的表示;LAMB优化器通过一个自适应式的方式为每个参数调整learningrate,模型训练能够采用很大的BatchSize;这些方法极大地提高了训练速度。
阿里的structBERT模型通过引入更多模型和任务结构化信息,提升语言表示能力。在Gluebenchmark上多次名列前矛和保持领先位置。通过蒸馏和CPU加速,RT提高了10x,finetuned的模型给多个业务场景带来了明显提升,上线了AliNLP平台。
预训练语言模型在大规模无监督文本上进行预训练,将得到的词和句子的表示迁移到广泛的下游任务上,包括文本匹配,文本分类,文本抽取,阅读理解,机器问答等不同的场景。如阿里语言模型在MSMARCO问答评测,TRECDeepLearning评测上都取得了第一名的好成绩。
下游的任务可以在低资源的情况下快速获得一个不错的解决方案,极大的提升了NLP算法的应用落地能力。
2 跨语言NLP/无监督机器翻译
作为预训练语言模型的扩展,Facebook的研究人员提出了跨语言的语言模型预训练“Cross-lingualLanguageModelPretraining”,仅使用单语数据的无监督训练和使用平行语料的有监督训练的条件下,模型有效学习了跨语言文本表征,在多语言分类和无监督机器学习等任务上,都比之前的最优结果有显著的提升。
继2018年Google预训练语言模型BERT横扫主流NLP任务之后,2019年 Facebook发布了新型跨语言预训练语言模型XLM,实现不同语言在统一嵌入空间的表征共享,并在无监督机器翻译任务上带来显著的质量提升。在探索大规模、多语言神经机器翻译方向上,Google、阿里巴巴等进行了有效探索,通过同时在数十乃至数百种语向的平行语料上训练一个模型,而不是对各个语向分别建模,实现语义映射关系共享,不仅压缩了模型数量,同时普遍提升了小语种翻译效果。
过去一年来,多语言NLP技术的研究成果主要集中在机器翻译(特别是无监督的机器翻译),跨语言词向量,多语言NER,依存句法分析,词对齐和多语言词典生成等方向。
由于跨语言词向量的学习/映射是其中的关键步骤,目前的无监督/跨语言的NLP任务在相近的语言之间(如英语/法语,英语/西班牙语等)效果最好,在不同的语言家族间(如英语/越南语)效果还是有较大提升空间。
3 知识图谱发展+对话技术融合
随着数据量的积累和应用对数据质量和结构要求的提升,近几年知识图谱又成为一项热点技术开始被关注。
知识图谱技术领域在2019年的发展,包括领域知识图谱的构建和整合(金融、企业等)、图谱平台化标准能力的建设(schema定义+构建+调用)、图谱应用算法建设(基于图谱数据的图模型+规则推理等);并基于构建的图谱数据和能力,开始在更多的业务场景得到应用(搜索推荐内容理解和挖掘、金融风控和决策、对话理解和内容生成等)。
在知识图谱和对话结合的技术方向,对话技术在问答和任务式对话近几年已形成了一定的技术框架和业务覆盖,开始需要解决一些对知识理解+答案专业性要求更高的领域场景(理财助理等)。
对话技术结合知识图谱的领域知识完整度+结构化质量优势来进行覆盖,可以解决相应场景下语料标注(意图理解)和专家配置(对话流程+响应生成)上的不足,进一步提升对话覆盖和响应质量。融合知识图谱对话这个方向,在2020年会有更多的真实场景落地和覆盖。
4 智能人机交互
自然语言理解和深度问答匹配技术在学术和工业界持续发发展,并且已经在全域业务和场景有了大规模应用,基于预训练语言模型进一步带来性能的提升。
机器阅读理解成为低成本通用技术,围绕百科、政策法规、商品详情页、说明书等场景构建应用中台能力,接入效率有了很大提升。结合图-文的多模态VQA问答技术在行业中率先孵化,理解商品详情页长图进行问答成为一项新的竞争力。对话(Dialog)技术能力进一步发展,但是在端到端的基于数据驱动的对话状态跟踪和对话策略还是只能在限定范围内进行探索,工业场景基于对话平台构建的任务型机器人成为了主流的实现方案。多语言技术实现新语言的快速拓展,基于Cross-Lingual构建多语言语言模型,在远距离语言对在英->中、英->泰远距离语言对上超越Google,拓展一个新语言从去年的2个月缩短到2周。对话生成技术开始取得突破,基于结构化知识的引入提升生成的可控性,卖点的生成带来导购转化率的提升。5 平台厂商整合AI产品线
随着AI技术发展和AI应用的需求,AI技术框架的成熟(Tensorflow、PyTorch等),AI技术能力逐渐被标准化为一系列AI平台类产品,面向企业和开发者,提供更低门槛和更高效率的AI应用支持。
对话类平台,Google从2016年开始发布Assistant对话助手,这几年陆续发布了GoogleHome(现在整合到Nest智能家居品牌),Duplex语音电话,以及收购了API.AI对话开发平台;今年Google已基本整合这些对话产品线,基本布局了对话现有的平台+终端,现成一个整体的对话产品线。
AI类平台方面,Amazon自2017年发布SageMaker机器学习平台产品,今年进一步基于SageMaker整合AI开发过程,同时打通下游技术框架和上游AI应用,整合AI产品线。类似阿里的机器学习平台PAI,定位成面向企业和开发者的一站式机器学习平台。
2019年,应用与产品方面主要体现在机器翻译、对话系统、多轮对话智能服务、智能语音应用持续发展。
6 机器翻译
机器翻译的产品发展延续了之前的趋势,在通用领域(新闻),特定领域(电商,医疗等)扩展了更多的语言方向,支持了更丰富的业务场景,并持续带来商业价值。阿里巴巴在翻译干预和智能泛化方向进行了卓有成效的探索,把业务知识更好地融合到神经网络翻译框架中,大大提升了垂直场景下关键信息的翻译准确率。
高价值和高敏感内容的翻译目前仍离不开人工,因此在计算机辅助翻译(CAT)引入智能算法实现人机协同翻译,以及机器翻译后编辑(MTPE)等新型生产模式,也受到越来越多的关注。阿里巴巴、腾讯在自动后编辑(APE)、交互式翻译(IMT)都开始有产品推出,并在实际业务中落地。
除了文本翻译之外,更多的多模态翻译应用场景出现,如语音翻译在会议同传,双语字幕,翻译机硬件上的尝试(阿里二十周年年会上马老师和逍遥子演讲也以实时双语字幕的形式展示)。
结合OCR,机器翻译和合图技术的图片翻译在支付宝扫一扫,微信,搜狗翻译机上得到应用。随着卖家直播的兴起,直播视频翻译的场景和需求也会越来越多。但是受限于直播场景中复杂的领域,专业的术语,快速的语速和有时嘈杂的背景环境,直播翻译对于语音识别和机器翻译的挑战也是非常巨大。
7 对话系统
对话系统的语言覆盖进一步提升,基于多语言迁移能力快速拓展了法语、阿拉伯语、台湾话的对话系统,目前已支持11个语种,及马来语-英语和泰语-英语的混合语言理解,为Lazada和AE带来解决率的大幅提升。对话系统支持了更大规模的商家和企业,支撑了超过50+的集团经济体客户,店小蜜拓展了通用包、行业包、店铺包的知识定位能力,累计承载百万级活跃商家,日均千万级对话轮次。钉钉小蜜基于企业智能助理承载了40W日均活跃企业。对话系统的交互形式进一步丰富,直播小蜜实现了从商品相关问题的被动回答,到主动和用户展开开放式对话的转变,带来cdau破百万。VQA等多模态理解能力落地店小蜜及经济体小蜜,提升用户交互体验的同时大幅降低商家配置成本。热线小蜜的语音交互能力作为典型案例获2019MITTechnologyReviewer十大突破技术提名,并沉淀了面向多领域的外呼场景,并在多个生态输出。8 多轮对话智能服务
多轮交互在智能服务场景(客服机器人)在解决用户模糊问题,提高用户使用体验方面起到的重要的作用。模糊问题指用户问题描述不完整,如“怎么开通”,这句话没有说明是哪个业务,这类问题占客服机器人总提问量的30%。
蚂蚁智能服务团队设计了基于标签的多轮交互方案,首先离线挖掘标签,并审核,标签包括业务标签(花呗,备用金...)和诉求标签(怎么开通,如何还款...),通过向用户反问标签列表的形式澄清用户问题。
已有的问题澄清方法主要通过直接推荐完整澄清问题的方案,但定义什么是好的澄清问题仍然不明确,蚂蚁团队设计了一个基于强化学习推荐标签列表的方案做问题澄清,整个标签推荐是一个序列决策的过程,在用户点击了标签之后,我们会把点击的标签和原始的用户问题一起作为澄清后的问题。
整个优化的目标是,目标是最大化整个标签列表对潜在澄清问题的覆盖率,同时保持不同标签对潜在澄清问题集合的有效划分,因此,在强化学习过程中,相应设计了基于信息增益的奖励(Reward)。
基于强化学习方法的多轮交互上线后,蚂蚁客服机器人场景共解决了33%的模糊问题,机器人综合场景转人工率绝对下降1.2%。
9 人机对话构建新的交互入口
场景驱动的个性化多轮对话技术,助推人机对话场景扩充,同时语音语义一体化的上下文语义理解技术,持续提升多轮对话达成率。
天猫精灵在过去一年中,将人机对话能力扩充到二哈电话助手,语音购物,新人使用引导等复杂的交互场景,更是在双十一期间,创造了语音购物100万订单的记录。
天猫精灵在去年的315推出了防骚扰电话助手“二哈”,开启了全新的人机对话交互场景:作为用户的替身完成对话。“二哈”的对话场景是在垂直领域内的开放式多轮对话,目的是通过对话来识别来电意图,并代替用户来获取必要信息。在“二哈”中我们提出了基于多轮对话上下文的机器阅读理解技术,用以理解来电意图和关键信息;基于对于来电内容的理解,我们基于Transformer构建了对话策略模型,用以选择策略和生成对话。针对“二哈”的对话场景,我们提出使用图灵测试通过率来衡量对话的质量,亦即当来电在整个对话中都没有意识到是机器在与其通话时,可以认为“二哈”通过了图灵测试。“二哈”目前的图灵测试通过率达到了87%,有效的帮助了用户应对陌生来电,节省用户时间。
通过人机对话的方式去完成复杂的任务,比如点咖啡、购物等,往往需要机器和用户进行多次对话交互,同时在不同的任务场景下,对话机器人需要掌握各自领域的知识,才能和用户对答如流。比如在语音购物场景,天猫精灵具备跨行业的智能导购员能力,吸收各行业导购员的销售经验,在用户进行语音购物的时候,以最终的成交转化为目标,像商场的销售员一样主动进行多轮对话形式的购物引导,深入挖掘用户购物需求并结合用户画像进行精准推荐。且对不同的用户,天猫精灵可以采用最适合TA的对话方式,做到个性化多轮对话。
多轮对话的达成,是建立在一系列的单轮交互都达成的基础上的,而如果整体任务的达成率是简单的单轮达成率的乘积关系的话,多轮对话的达成率将很难提升。而打破简单乘积关系的关键在于,每一轮对话理解的时候,需要充分利用上下文信息。
在天猫精灵上,我们进行了上下文语音语义理解的探索。首先在语音解码的环节,我们将多轮对话中,上文提到的实体信息构建成memory,通过attention机制让解码器网络感知到这些对话场景信息,显著提升了多轮对话场景的语音识别精度,然后在语义理解环节,我们独创了具备跨轮attention能力的端到端上下文继承模型,实现更高效的对话场景恢复的能力。从而让线上多轮对话的错误率下降了58.5%,有效保障了复杂多轮对话场景的扩充。
10 智能语音应用持续发展
智能音箱,近几年基本上国内外大玩家都已陆续进入市场(AmazonAlexa、GoogleHome/Nest、天猫精灵、小米小爱、百度小度),2019年进入竞争格局;2019年智能音箱出货量仍然在增加,但增速下降。
智能音箱仍然以音乐播放等软件类服务为主,但进一步应用创新仍依赖智能家居和IoT设备的进一步普及。
智能语音电话,2018年GoogleI/O大会展示了Duplex的语音电话助手demo。2019年智能语音电话开始更多地应用到真实业务领域,包括电销、金融、政务等领域的应用都在增长,以提升用户服务覆盖+降低人工成本。
蚂蚁智能语音电话2019年也在安全(核身)、金融(保险回访、微贷催收)、支付(客户激活)等更多金融场景应用和落地。
智能语音类应用,所面向的用户场景强依赖对话语音交互,推动了NLP技术和语音技术的发展;随着技术和产品的发展成熟,以及用户接受度的提高,2020年的应用规模和领域会进一步扩大。
2020趋势:NLP进一步推动人工智能从感知智能向认知智能的演进站在新的一个十年,智能人机交互、多模态融合、结合领域需求的NLP解决方案建设、知识图谱结合落地场景等将会有突破性变化。
1 智能人机交互
语言模型将在智能人机交互中扮演更重要的角色,形成更丰富的形式,混合100种语言的多语言语言模型,以及融合图像-文本和语音-文本多模态语言模型将崭露头角,在不同语言、不同模态、不同领域的小样本场景下带来全面的能力提升。
多语言交互从不同语言理解上升到不同文化的理解,通过跨文化理解技术深入当地文化实现地道的对话交互。以在线文本为核心的交互方式将全面转变为结合视频、图像、语音、文本的多模态人机交互。基于数据驱动的对话状态跟踪和对话策略将逐渐替代规则式策略,使得多轮对话技术进一步演进,带来更自然的对话体验。知识图谱将广泛融入问答和对话的各类深度学习模型,通过先验知识及推理能力的融入,使得模型更为白盒化,在对话的理解和生成过程中带来更好的可控性和可解释性。对话系统在小样本情况下的冷启动能力提升带来应用构建成本的大幅下降,对话系统从主要为大体量的客户服务,拓展为更普惠的、广泛的支持海量规模、各行业的小企业及小商家,并进一步走向海外,使得更多不同国家、不同语言和不同文化的用户进入智能服务时代。2 多模态融合
随着5G和边缘计算的逐步成熟和普及,将带来视频、图像、文本、语音等模态的全面融合,语言模型朝着多模态融合的方向发展,在在线场景下实现混合模态的理解,将能融合理解用户经过多轮对话发送的图片、语音和文字内容,并以多模态的形式进行回复;对话系统产品中将全面实现多模态交互能力,直播和IOT大屏交互将全面应用视频+图像+文本多模态技术带来丰富的交互体验,流畅的全双工语音对话机器人将被普遍应用,实现边听边想、边听边猜、主动抢话等类人交互能力。在语音交互场景下通过声学信号+文字信号,识别用户交流中的情绪变化,在IOT互动场景下实现基于摄像头、麦克风的拟态生命;3 结合领域需求的NLP解决方案建设
过去NLP算法多以平台/API的方式输出通用模型,相应地也在各种云上建立了通用NLP算法平台(AmazonComprehend,微软AzureTextAnalytics,谷歌云NaturalLanguage,阿里NLP,百度NLP等)。
但是在业务场景中,每种场景领域都有自己的特定的需求,产生了相应的场景数据。通用模型结合场景数据进行领域自适应训练,从而输出的领域定制模型会更好地满足业务需求。
4 知识图谱结合落地场景
面向新的一个十年,通过NLP和知识图谱两大核心技术来构建行业知识图谱,机器能够通过知识图谱挖掘隐性关系,洞察“肉眼”无法发现的关系和逻辑,用于最终的业务决策,实现更深层次的业务场景落地。从发展方向来说,可以分为下面几个方面:
优化知识抽取能力:结合已有的知识和NLP技术能力进一步提高非结构化数据理解能力,应用预训练语言模型、信息抽取、实体链接等相关的技术,对非结构化及半结构化数据进行抽取和转换,形成知识图谱形式的知识,以及和知识图谱里面的结构化的知识进行链接。与行业知识沉淀:在行业知识图谱解决方案实际的落地过程中,面临重重挑战,行业知识图谱的构建,本身就需要数据积累和基于业务场景的数据理解,而构建和积累行业知识图谱,将是认知智能时代的核心竞争力。在行业数据构建时,对知识的准确性要求非常高,实体通常需要较多且具有行业意义。需要针对多源异构数据融合,基于可动态变化的“概念—实体—属性—关系”数据模型,对各种类型的数据进行抽象建模。智能可信的知识推理:基于过去已知知识进行知识推理,理解行业事件知识驱动知识推理传导,利用行业规则逻辑结合深度模型进行推理,使其能够在业务的推理和辅助决策上带来更加智能化的体验。以上是我们对于NLP技术过去一年发展的回顾和今年趋势的思考。一家之言难免疏漏或者以偏概全。抛砖引玉,希望能够得到更多同学们的思考和指正。比尔·盖茨曾说过,“语言理解是人工智能皇冠上的明珠”。要达到这样的高度,还需要技术和应用上的突破发展期待在下一个十年的开始,我们一起让NLP技术发展更加迅速,应用场景更加丰富,推动认知智能的发展更进一步。