博舍

自然语言处理(1)——绪论与概述 自然语言处理所涉及的领域是哪些方面的问题

自然语言处理(1)——绪论与概述

NLP学习笔记(1)——绪论与概述1.基本概念(1)语言学(2)语音学(3)计算语言学,ComputationalLinguistics(4)自然语言理解,NaturalLanguageUnderstanding(5)自然语言处理,NaturalLanguageProcessing(6)中文信息处理2.HLT的产生与发展(1)产生(2)发展3.研究内容:4.基本问题和主要困难(1)基本问题(2)主要困难(3)总而言之,NLU所面临的挑战5.NLP的基本研究方法(1)理性主义(2)经验主义6.研究现状:1.基本概念

什么是语言学、什么是语音学?自然语言理解、自然语言处理、计算语言学,以及中文信息处理,它们又有什么关系?

在本节中,将对自然语言处理相关的概念进行解释与辨析。

(1)语言学《现代语言学词典》中是这样注解的:语言学是指对语言的科学研究《现代汉语词典》中则这样解释:语言学:研究语言的本质、结构和发展规律的科学语音和文字是语言的两个基本属性语言学包括:(1)历时语言学(历史语言学)(2)共时语言学(3)描述语言学(4)对比语言学(5)结构语言学等等(2)语音学定义:语音学是研究人类发音特点,特别是语音发音特点,并提出各种语音描述、分类和转写方法的科学语音学包括:(1)发音语音学:研究发音器官如何产生语音(2)声学语音学:研究口耳之间传递语音的物理属性(3)听觉语音学:研究人通过耳、听觉神经和大脑对语音的知觉反应(3)计算语言学,ComputationalLinguistics计算语言学是通过建立形式化的计算模型来分析、理解和生成自然语言的学科,是人工智能和语言学的分支学科。计算语言学与内容相近的自然语言处理相比较:计算语言学更加侧重基础理论和方法的研究。(4)自然语言理解,NaturalLanguageUnderstanding自然语言理解是探索人类自身语言能力和语言思维活动的本质,研究模仿人类语言认知过程的自然语言处理方法和实现技术的一门学科。这是人工智能早期研究的领域之一,也是人工智能最重要的研究方向之一。关于概念中**“理解”**的标准:换言之,如何判断计算机系统的智能?体现在与有意识的个体(即人)相比较来说如何。具体表现为三个方面:(1)计算机系统的表现如何?(2)反应如何?(3)相互作用如何即:(1)act(2)react(3)interact判断或比较的方法,可以通过图灵实验来完成。(5)自然语言处理,NaturalLanguageProcessing自然语言处理时研究如何利用计算机技术对语言文本(句子、篇章或话语等)进行处理和加工的一门学科,研究内容包括对词法、句法、语义和语用等信息的识别、分类、提取、转换、和生成等各种处理方法和实现技术。自然语言处理研究的语言,可以大体上划分为三个不同的语系:(1)屈折语:用词的形态变化表示愈发关系,如英语、法语等语言;(2)黏着语:词内有专门表示愈发意义的附加成分,词根或词干与附加成分的结合并不紧密,如日语、韩语、土耳其语等等;(3)孤立语:也叫分析语。形态变化少、语法关系靠词序和虚词来表示,如汉语(6)中文信息处理

是针对中文的自然语言处理技术。

至此,我们可以回答本节开头提到的问题:“自然语言理解、自然语言处理、计算语言学,以及中文信息处理,它们又有什么关系?”对于中文信息处理和自然语言处理的关系:中文信息处理是专门针对中文的语言信息技术研究,是自然语言处理学科下的一个分支。对于自然语言处理(NLP)、计算语言学(CL)、自然语言理解(NLU)三者的关系,它们相互交叉又有所不同,可以统称为人类语言技术(HumanLanguageTechnology,HLT),如下图所示。有些资料中甚至将三者互相划上了等号。

2.HLT的产生与发展(1)产生1946年,世界上第一台计算机ENIAC诞生1954年,Georgetown大学在IBM的协助下,实践了世界上第一个MT系统,实现俄译英翻译,该系统于当年一月份在纽约公开演示随后十余年中,MT研究在国际上出现热潮,一批自然语言人机接口系统和对话系统相继出现。1956年,进行人工智能夏季研讨会(达特茅斯会议)随着MT(机器翻译)研究的进展,各种自然语言处理技术应运而生,形成了这一语言学与计算机技术相结合的新兴学科。1962年美国成立“机器翻译和计算语言学协会(AssociationforMachineTranslationandComputationalLinguistics)”并组织召开了第一节国际计算语言学学术年会(ACL)1965年杂志MachineTranslation改名为MachineTranslationandComputationalLinguistics60年代中期成立了国际计算语言学委员会(TheInternationalCommitteeonComputationalLinguistics,ICCL)1965年组织召开了第一届国际计算语言学大会(TheInternationalConferenceonComputationalLinguistics,CONING)(2)发展

其发展历程:

20世纪60年代(1960s)中期之前:萌芽期20世纪60年代(1960s)中后期:步履维艰。1966年美国科学院发表ALPAC报告,术语ComputationalLinguistics正式出现。20世纪70年代(1970s)中后期到1980s后期:复苏20世纪80年代(1980s)后期至今:蓬勃发展3.研究内容:

按照应用目标来划分,NLP广义上包括:

机器翻译:一种语言到另一种的自动翻译。如谷歌、百度、有道等信息检索:即情报检索,利用计算机系统从大量的文档中找到符合用户需求的相关信息,如谷歌、百度等搜索引擎自动文摘:将源文档的主要内容或者某方面的信息自动提取出来,并形成原文档的摘要或缩写,可用于观点挖掘。应用如电子图书管理、情报获取问答系统:如人机对话系统社区问答:如百度知道(利用用户群体智慧)信息过滤:通过计算机系统自动识别和过滤哪些满足特定条件的文档信息信息抽取:从指定文档中抽取出用户感兴趣的信息。如实体关系抽取和社会网络文档分类情感分类:图书管理、网络内容监控文字编辑和自动校对:排版、印刷和书籍编撰语言教学文字识别语音识别:文字录入、人机通讯、语音翻译文语转换/语音合成:朗读系统、人机语音接口说话人识别/认同/验证:信息安全与防伪

由于我们将语音识别、合成和说话人识别等以语音为研究对象的技术独立出来,称为语音技术,其他以文本为处理对象的研究内容作为自然语言处理的主体。

各个研究方向之间的关系如下:

4.基本问题和主要困难(1)基本问题

形态学问题:研究词由有意义的基本单位-词素的构成问题,即分词问题(词的长度问题)的研究

语法学问题:研究句子结构成分之间的相互关系和组成句子序列的规则,即语法。试图建立快速有效的句子结构分析方法。

语义学问题:研究如何从一个语句中的词的意义,以及这些词在该语句中句法结构中的作用来推导出该句的意义。

语用学问题:研究在不同上下文中语句的应用,以及上下文对语句理解所产生的的影响。狭义上看,语用学处理的是语言结构中有形式体现的那些语境;广义上看,语用学处理的是研究语义学未能涵盖的那些意义。.

语音学问题:研究语音特性、语音描述、分类及转写方法啊等

(2)主要困难大量歧义现象:词法歧义:比如说断句存在的问题词性歧义:同一个词的多种词性导致的歧义结构歧义:语法结构上导致的歧义语义歧义:使用缩略语和隐喻的表达方式而产生的歧义语音歧义:同音词现象多音字及韵律等歧义:一字多音,以及韵律、声调、语气等产生的影响大量未知语言现象:包括,新词、人名地名术语;旧单词的新含义;新句法和新句型(3)总而言之,NLU所面临的挑战普遍存在的不确定性:从词法、句法、语义、语用和语音的各个层面未知语言现象的不可预测性:新的词汇、术语、语义、语法无处不在始终面临的数据不充分性:有限的语言集合永远无法涵盖开放的语言现象语言知识表达的复杂性:语义知识的模糊性和错综复杂的关联性难以用常规方法有效地描述,为语义计算带来了极大的困难机器翻译中映射单元的不对等性

由于机器翻译中映射单元的不对等性:词法表达不相同、句法结构不一致、语义概念不对等,机器翻译需要从大量复杂多样的不确定性中寻找确定性结论

人脑理解语言,是一个复杂的思维过程,设计到常识与背景知识、语言学、心理学、逻辑学、认知科学等等各个领域

5.NLP的基本研究方法

——理性主义与经验主义的合谋其中理性主义方法是基于规则的方法,采用知识库+推理系统的模式,依赖于符号处理系统其中经验主义方法是基于统计的方法,采用语料库+统计模型的模式

(1)理性主义求解问题的基本思路:基于规则的分析方法建立符号处理系统符号处理系统则包括:规则库的开发(语法规则设计)、词典的标注(标注词性)、推导算法的设计(包括归约、推导、歧义消解等)三部分其NLP的组成采用知识库+推理系统的方法理论基础:Chomsky的文法理论(2)经验主义求解问题的思路:基于大规模真实语料(语言数据)建立计算方法这个求解过程包括:大规模真实数据的收集、标注(需要有真实性、代表性、标注信息……)、建立统计模型(考虑模型的复杂性、有效性、参数训练方法等)其NLP的组成采用语料库+统计模型的方法理论基础:统计学、信息论、机器学习

目前现行的研究方法是进行“理性主义与经验主义的合谋”,使用符号智能+计算智能,建立融合方法

6.研究现状:

(1)部分问题得到了解决,可以为人们提供辅助性的帮助(2)基础问题研究仍任重而道远(3)社会需求日益迫切(4)许多技术离真正实用的目标还有相当的距离,尚未建立起有效、完善的理论体系。

【NLP 自然语言处理】自然语言处理技术难点和挑战

一、**NLP技术对标注数据依赖性较高,难以在标注数据稀缺的任务、语言或领域内发挥作用。**此前小米首席NLP科学家王斌在接受InfoQ采访时也曾表示,获得大规模的高质量标注数据永远是个难题。当前主流方法的效果取决于标注数据的规模和质量。为解决这一问题,可以采用基于大规模无监督数据的预训练模型,或者尝试半监督或无监督的方法,包括零样本学习(Zero-ShotLearning)或小样本学习(Few-ShotLearning)方法。

二、第二是轻量级优质模型问题。当前的主流模型需要消耗大量资源进行训练,这种趋势目前看来有增无减。如何得到轻量级的优质模型是一个挑战性问题。可能的解决方法对现有模型的裁剪甚至另辟新路提出新的模型。

三、另一方面的挑战是长期性的,即如何让机器像人一样掌握自然语言。这是一个很复杂的综合问题,因为语言与认知是相关的。人类用语言表达自己的思维和逻辑,一个人的语言背后是一个智能个体的思维和知识体系。如果希望机器能够理解自然语言,那么它就需要拥有思维能力和自己的知识体系,在这一点上,可以说自然语言处理技术涉及到了人工智能的终极命题。

四、缺乏独立的运用场景。在产品化方面,自然语言处理的对应场景多样性比较高,且NLP相关产品中用户的交互体验直接与技术相关,因此如何在目前的技术水平下设计合适的产品是非常重要的命题。潘晟锋坦言,这一方面没有捷径可以走,必须深入到不同的场景中去,要对场景做充分的调研与了解,才能更好地将技术与场景结合相对而言,NLP技术一直在工业界平稳落地,不论是搜索、推荐、信息流、互联网金融还是社交网络,NLP技术生态评论都在其中起着十分重要的作用,正是因为应用已经非常广,加上NLP技术本身处于底层支撑地位,给人的感官不明显,所以给人造成了落地、商业化进展很慢的假象。成熟的落地场景指的是场景清晰、目标明确且单一、大众认知普及、理解一致,且具有很好的同质性以便让技术具有很高的可扩展性。对于NLP来说,目前主要的制约还是在于场景非常分散且复杂,自然语言的场景通常很难同时具备上面所说的几个性质。

五、NLP应用场景:目前NLP主要在推荐系统、翻译系统、语音搜索等应用场景上,多起到辅助实际业务的作用。以电商场景为例,商品检索和推荐等环节都有NLP技术的使用。

六、在应用方面,文本生成技术值得期待。随着文本生成技术的发展,在未来我们也许会看到生成技术被越来越多地用到现有的一些场景中来,同时可能也会出现一些以生成技术为支点的新场景出现,内容创作的想象空间很大。据李浩然介绍,京东AI已将文本生成技术落地到商品营销文案自动生成场景中,其在生成效率和营销效果上超过人类水平。

七、**自然语言是人工智能领域最难、最重要的技术。**一些大型的模型已经有非常高的类智能的表现。这些技术的运用会越来越广泛,也许在几年内我们就会看到NLP技术被用到越来越多的场景中去。

自然语言处理技术的进展和趋势

2019年,技术进展方面主要体现在预训练语言模型、跨语言NLP/无监督机器翻译、知识图谱发展+对话技术融合、智能人机交互、平台厂商整合AI产品线。

1 预训练语言模型

随着2018年底Google提出预训练语言模型BERT,在多项NLP任务上获得更优效果,预训练语言模型的研究与应用被学术界和工业界视为NLP领域的一项重大突破,将NLP问题的解决方式从以往的为每个任务单独设计复杂的模型逐渐演变成了预训练+微调的范式,让众多NLP应用能够享受到大语料预训练模型带来的红利,在通用的预训练模型的基础上加入简单的任务层,并结合自己场景的少量语料就可以获得一个不错的领域NLP模型。

至此开启了自然语言处理的新篇章。

在2019年,各个研究机构和公司在BERT的基础上进一步创新,纷纷提出了自己的预训练模型,如:Facebook发布的RoBERTa,CMU发布的XLNet,Stanford发布的ELECTRA,还有百度的ERNIE模型,阿里的structBERT模型,华为的NEZHA,哈工大和科大讯飞也都提出了自己的模型,不断刷新NLP任务的最好成绩。

这新的工作总结起来,主要来自训练任务设计和训练算法两个方面。

训练任务设计

进行更加精细的语义粒度建模,包括引入更细粒度的建模对象和更加精细的刻画语义关联。

比如“全词Mask”或者“KnowledgeMasking”,技术在MLM预训练任务中Mask整个词而不是单个Token,进而提升了任务难度使得BERT学到更多语义信息,哈工大和科大讯飞联合发布的中文BERT模型以及NEZHA模型中得到了应用;再比如引入更多类型的句间关系,从而能够更加准确描述语义关联性,进而提升语义匹配等方面能力,这在阿里和蚂蚁团队的BERT模型中得到体现。

利用新的机器学习方法建模

包括CMU和Google联合发布的XLNet使用了Autoencoder和Auto-regressive两种方案;斯坦福大学提出的ELECTRA模型,引入对抗机制来进行更好的MLM学习。华盛顿大学和Facebook联合发布的SpanBERT模型还引入了Span预测任务。这些方案应用更学习方法来建模文字之间的联系,从而提升模型效果。

训练算法设计

针对模型的易用性的问题,减少模型参数,或者降低模型的复杂度,包括Google发布的ALBERT使用了词表embedding矩阵的分解与中间层的共享。

提高训练速度的优化

包括混合精度训练,用FP16来进行权重,激活函数和梯度等的表示;LAMB优化器通过一个自适应式的方式为每个参数调整learningrate,模型训练能够采用很大的BatchSize;这些方法极大地提高了训练速度。

阿里的structBERT模型通过引入更多模型和任务结构化信息,提升语言表示能力。在Gluebenchmark上多次名列前矛和保持领先位置。通过蒸馏和CPU加速,RT提高了10x,finetuned的模型给多个业务场景带来了明显提升,上线了AliNLP平台。

预训练语言模型在大规模无监督文本上进行预训练,将得到的词和句子的表示迁移到广泛的下游任务上,包括文本匹配,文本分类,文本抽取,阅读理解,机器问答等不同的场景。如阿里语言模型在MSMARCO问答评测,TRECDeepLearning评测上都取得了第一名的好成绩。

下游的任务可以在低资源的情况下快速获得一个不错的解决方案,极大的提升了NLP算法的应用落地能力。

2 跨语言NLP/无监督机器翻译

作为预训练语言模型的扩展,Facebook的研究人员提出了跨语言的语言模型预训练“Cross-lingualLanguageModelPretraining”,仅使用单语数据的无监督训练和使用平行语料的有监督训练的条件下,模型有效学习了跨语言文本表征,在多语言分类和无监督机器学习等任务上,都比之前的最优结果有显著的提升。

继2018年Google预训练语言模型BERT横扫主流NLP任务之后,2019年 Facebook发布了新型跨语言预训练语言模型XLM,实现不同语言在统一嵌入空间的表征共享,并在无监督机器翻译任务上带来显著的质量提升。在探索大规模、多语言神经机器翻译方向上,Google、阿里巴巴等进行了有效探索,通过同时在数十乃至数百种语向的平行语料上训练一个模型,而不是对各个语向分别建模,实现语义映射关系共享,不仅压缩了模型数量,同时普遍提升了小语种翻译效果。

过去一年来,多语言NLP技术的研究成果主要集中在机器翻译(特别是无监督的机器翻译),跨语言词向量,多语言NER,依存句法分析,词对齐和多语言词典生成等方向。

由于跨语言词向量的学习/映射是其中的关键步骤,目前的无监督/跨语言的NLP任务在相近的语言之间(如英语/法语,英语/西班牙语等)效果最好,在不同的语言家族间(如英语/越南语)效果还是有较大提升空间。

3 知识图谱发展+对话技术融合

随着数据量的积累和应用对数据质量和结构要求的提升,近几年知识图谱又成为一项热点技术开始被关注。

知识图谱技术领域在2019年的发展,包括领域知识图谱的构建和整合(金融、企业等)、图谱平台化标准能力的建设(schema定义+构建+调用)、图谱应用算法建设(基于图谱数据的图模型+规则推理等);并基于构建的图谱数据和能力,开始在更多的业务场景得到应用(搜索推荐内容理解和挖掘、金融风控和决策、对话理解和内容生成等)。

在知识图谱和对话结合的技术方向,对话技术在问答和任务式对话近几年已形成了一定的技术框架和业务覆盖,开始需要解决一些对知识理解+答案专业性要求更高的领域场景(理财助理等)。

对话技术结合知识图谱的领域知识完整度+结构化质量优势来进行覆盖,可以解决相应场景下语料标注(意图理解)和专家配置(对话流程+响应生成)上的不足,进一步提升对话覆盖和响应质量。融合知识图谱对话这个方向,在2020年会有更多的真实场景落地和覆盖。

4 智能人机交互

自然语言理解和深度问答匹配技术在学术和工业界持续发发展,并且已经在全域业务和场景有了大规模应用,基于预训练语言模型进一步带来性能的提升。

机器阅读理解成为低成本通用技术,围绕百科、政策法规、商品详情页、说明书等场景构建应用中台能力,接入效率有了很大提升。结合图-文的多模态VQA问答技术在行业中率先孵化,理解商品详情页长图进行问答成为一项新的竞争力。对话(Dialog)技术能力进一步发展,但是在端到端的基于数据驱动的对话状态跟踪和对话策略还是只能在限定范围内进行探索,工业场景基于对话平台构建的任务型机器人成为了主流的实现方案。多语言技术实现新语言的快速拓展,基于Cross-Lingual构建多语言语言模型,在远距离语言对在英->中、英->泰远距离语言对上超越Google,拓展一个新语言从去年的2个月缩短到2周。对话生成技术开始取得突破,基于结构化知识的引入提升生成的可控性,卖点的生成带来导购转化率的提升。

5 平台厂商整合AI产品线

随着AI技术发展和AI应用的需求,AI技术框架的成熟(Tensorflow、PyTorch等),AI技术能力逐渐被标准化为一系列AI平台类产品,面向企业和开发者,提供更低门槛和更高效率的AI应用支持。

对话类平台,Google从2016年开始发布Assistant对话助手,这几年陆续发布了GoogleHome(现在整合到Nest智能家居品牌),Duplex语音电话,以及收购了API.AI对话开发平台;今年Google已基本整合这些对话产品线,基本布局了对话现有的平台+终端,现成一个整体的对话产品线。

AI类平台方面,Amazon自2017年发布SageMaker机器学习平台产品,今年进一步基于SageMaker整合AI开发过程,同时打通下游技术框架和上游AI应用,整合AI产品线。类似阿里的机器学习平台PAI,定位成面向企业和开发者的一站式机器学习平台。

2019年,应用与产品方面主要体现在机器翻译、对话系统、多轮对话智能服务、智能语音应用持续发展。

6 机器翻译

机器翻译的产品发展延续了之前的趋势,在通用领域(新闻),特定领域(电商,医疗等)扩展了更多的语言方向,支持了更丰富的业务场景,并持续带来商业价值。阿里巴巴在翻译干预和智能泛化方向进行了卓有成效的探索,把业务知识更好地融合到神经网络翻译框架中,大大提升了垂直场景下关键信息的翻译准确率。

高价值和高敏感内容的翻译目前仍离不开人工,因此在计算机辅助翻译(CAT)引入智能算法实现人机协同翻译,以及机器翻译后编辑(MTPE)等新型生产模式,也受到越来越多的关注。阿里巴巴、腾讯在自动后编辑(APE)、交互式翻译(IMT)都开始有产品推出,并在实际业务中落地。

除了文本翻译之外,更多的多模态翻译应用场景出现,如语音翻译在会议同传,双语字幕,翻译机硬件上的尝试(阿里二十周年年会上马老师和逍遥子演讲也以实时双语字幕的形式展示)。

结合OCR,机器翻译和合图技术的图片翻译在支付宝扫一扫,微信,搜狗翻译机上得到应用。随着卖家直播的兴起,直播视频翻译的场景和需求也会越来越多。但是受限于直播场景中复杂的领域,专业的术语,快速的语速和有时嘈杂的背景环境,直播翻译对于语音识别和机器翻译的挑战也是非常巨大。

7 对话系统

对话系统的语言覆盖进一步提升,基于多语言迁移能力快速拓展了法语、阿拉伯语、台湾话的对话系统,目前已支持11个语种,及马来语-英语和泰语-英语的混合语言理解,为Lazada和AE带来解决率的大幅提升。对话系统支持了更大规模的商家和企业,支撑了超过50+的集团经济体客户,店小蜜拓展了通用包、行业包、店铺包的知识定位能力,累计承载百万级活跃商家,日均千万级对话轮次。钉钉小蜜基于企业智能助理承载了40W日均活跃企业。对话系统的交互形式进一步丰富,直播小蜜实现了从商品相关问题的被动回答,到主动和用户展开开放式对话的转变,带来cdau破百万。VQA等多模态理解能力落地店小蜜及经济体小蜜,提升用户交互体验的同时大幅降低商家配置成本。热线小蜜的语音交互能力作为典型案例获2019MITTechnologyReviewer十大突破技术提名,并沉淀了面向多领域的外呼场景,并在多个生态输出。

8 多轮对话智能服务

多轮交互在智能服务场景(客服机器人)在解决用户模糊问题,提高用户使用体验方面起到的重要的作用。模糊问题指用户问题描述不完整,如“怎么开通”,这句话没有说明是哪个业务,这类问题占客服机器人总提问量的30%。

蚂蚁智能服务团队设计了基于标签的多轮交互方案,首先离线挖掘标签,并审核,标签包括业务标签(花呗,备用金...)和诉求标签(怎么开通,如何还款...),通过向用户反问标签列表的形式澄清用户问题。

已有的问题澄清方法主要通过直接推荐完整澄清问题的方案,但定义什么是好的澄清问题仍然不明确,蚂蚁团队设计了一个基于强化学习推荐标签列表的方案做问题澄清,整个标签推荐是一个序列决策的过程,在用户点击了标签之后,我们会把点击的标签和原始的用户问题一起作为澄清后的问题。

整个优化的目标是,目标是最大化整个标签列表对潜在澄清问题的覆盖率,同时保持不同标签对潜在澄清问题集合的有效划分,因此,在强化学习过程中,相应设计了基于信息增益的奖励(Reward)。

基于强化学习方法的多轮交互上线后,蚂蚁客服机器人场景共解决了33%的模糊问题,机器人综合场景转人工率绝对下降1.2%。

9 人机对话构建新的交互入口

场景驱动的个性化多轮对话技术,助推人机对话场景扩充,同时语音语义一体化的上下文语义理解技术,持续提升多轮对话达成率。

天猫精灵在过去一年中,将人机对话能力扩充到二哈电话助手,语音购物,新人使用引导等复杂的交互场景,更是在双十一期间,创造了语音购物100万订单的记录。

天猫精灵在去年的315推出了防骚扰电话助手“二哈”,开启了全新的人机对话交互场景:作为用户的替身完成对话。“二哈”的对话场景是在垂直领域内的开放式多轮对话,目的是通过对话来识别来电意图,并代替用户来获取必要信息。在“二哈”中我们提出了基于多轮对话上下文的机器阅读理解技术,用以理解来电意图和关键信息;基于对于来电内容的理解,我们基于Transformer构建了对话策略模型,用以选择策略和生成对话。针对“二哈”的对话场景,我们提出使用图灵测试通过率来衡量对话的质量,亦即当来电在整个对话中都没有意识到是机器在与其通话时,可以认为“二哈”通过了图灵测试。“二哈”目前的图灵测试通过率达到了87%,有效的帮助了用户应对陌生来电,节省用户时间。

通过人机对话的方式去完成复杂的任务,比如点咖啡、购物等,往往需要机器和用户进行多次对话交互,同时在不同的任务场景下,对话机器人需要掌握各自领域的知识,才能和用户对答如流。比如在语音购物场景,天猫精灵具备跨行业的智能导购员能力,吸收各行业导购员的销售经验,在用户进行语音购物的时候,以最终的成交转化为目标,像商场的销售员一样主动进行多轮对话形式的购物引导,深入挖掘用户购物需求并结合用户画像进行精准推荐。且对不同的用户,天猫精灵可以采用最适合TA的对话方式,做到个性化多轮对话。

多轮对话的达成,是建立在一系列的单轮交互都达成的基础上的,而如果整体任务的达成率是简单的单轮达成率的乘积关系的话,多轮对话的达成率将很难提升。而打破简单乘积关系的关键在于,每一轮对话理解的时候,需要充分利用上下文信息。

在天猫精灵上,我们进行了上下文语音语义理解的探索。首先在语音解码的环节,我们将多轮对话中,上文提到的实体信息构建成memory,通过attention机制让解码器网络感知到这些对话场景信息,显著提升了多轮对话场景的语音识别精度,然后在语义理解环节,我们独创了具备跨轮attention能力的端到端上下文继承模型,实现更高效的对话场景恢复的能力。从而让线上多轮对话的错误率下降了58.5%,有效保障了复杂多轮对话场景的扩充。

10 智能语音应用持续发展

智能音箱,近几年基本上国内外大玩家都已陆续进入市场(AmazonAlexa、GoogleHome/Nest、天猫精灵、小米小爱、百度小度),2019年进入竞争格局;2019年智能音箱出货量仍然在增加,但增速下降。

智能音箱仍然以音乐播放等软件类服务为主,但进一步应用创新仍依赖智能家居和IoT设备的进一步普及。

智能语音电话,2018年GoogleI/O大会展示了Duplex的语音电话助手demo。2019年智能语音电话开始更多地应用到真实业务领域,包括电销、金融、政务等领域的应用都在增长,以提升用户服务覆盖+降低人工成本。

蚂蚁智能语音电话2019年也在安全(核身)、金融(保险回访、微贷催收)、支付(客户激活)等更多金融场景应用和落地。

智能语音类应用,所面向的用户场景强依赖对话语音交互,推动了NLP技术和语音技术的发展;随着技术和产品的发展成熟,以及用户接受度的提高,2020年的应用规模和领域会进一步扩大。

2020趋势:NLP进一步推动人工智能从感知智能向认知智能的演进

站在新的一个十年,智能人机交互、多模态融合、结合领域需求的NLP解决方案建设、知识图谱结合落地场景等将会有突破性变化。

1 智能人机交互

语言模型将在智能人机交互中扮演更重要的角色,形成更丰富的形式,混合100种语言的多语言语言模型,以及融合图像-文本和语音-文本多模态语言模型将崭露头角,在不同语言、不同模态、不同领域的小样本场景下带来全面的能力提升。

多语言交互从不同语言理解上升到不同文化的理解,通过跨文化理解技术深入当地文化实现地道的对话交互。以在线文本为核心的交互方式将全面转变为结合视频、图像、语音、文本的多模态人机交互。基于数据驱动的对话状态跟踪和对话策略将逐渐替代规则式策略,使得多轮对话技术进一步演进,带来更自然的对话体验。知识图谱将广泛融入问答和对话的各类深度学习模型,通过先验知识及推理能力的融入,使得模型更为白盒化,在对话的理解和生成过程中带来更好的可控性和可解释性。对话系统在小样本情况下的冷启动能力提升带来应用构建成本的大幅下降,对话系统从主要为大体量的客户服务,拓展为更普惠的、广泛的支持海量规模、各行业的小企业及小商家,并进一步走向海外,使得更多不同国家、不同语言和不同文化的用户进入智能服务时代。

2 多模态融合

随着5G和边缘计算的逐步成熟和普及,将带来视频、图像、文本、语音等模态的全面融合,语言模型朝着多模态融合的方向发展,在在线场景下实现混合模态的理解,将能融合理解用户经过多轮对话发送的图片、语音和文字内容,并以多模态的形式进行回复;对话系统产品中将全面实现多模态交互能力,直播和IOT大屏交互将全面应用视频+图像+文本多模态技术带来丰富的交互体验,流畅的全双工语音对话机器人将被普遍应用,实现边听边想、边听边猜、主动抢话等类人交互能力。在语音交互场景下通过声学信号+文字信号,识别用户交流中的情绪变化,在IOT互动场景下实现基于摄像头、麦克风的拟态生命;

3 结合领域需求的NLP解决方案建设

过去NLP算法多以平台/API的方式输出通用模型,相应地也在各种云上建立了通用NLP算法平台(AmazonComprehend,微软AzureTextAnalytics,谷歌云NaturalLanguage,阿里NLP,百度NLP等)。

但是在业务场景中,每种场景领域都有自己的特定的需求,产生了相应的场景数据。通用模型结合场景数据进行领域自适应训练,从而输出的领域定制模型会更好地满足业务需求。

4 知识图谱结合落地场景

面向新的一个十年,通过NLP和知识图谱两大核心技术来构建行业知识图谱,机器能够通过知识图谱挖掘隐性关系,洞察“肉眼”无法发现的关系和逻辑,用于最终的业务决策,实现更深层次的业务场景落地。从发展方向来说,可以分为下面几个方面:

优化知识抽取能力:结合已有的知识和NLP技术能力进一步提高非结构化数据理解能力,应用预训练语言模型、信息抽取、实体链接等相关的技术,对非结构化及半结构化数据进行抽取和转换,形成知识图谱形式的知识,以及和知识图谱里面的结构化的知识进行链接。与行业知识沉淀:在行业知识图谱解决方案实际的落地过程中,面临重重挑战,行业知识图谱的构建,本身就需要数据积累和基于业务场景的数据理解,而构建和积累行业知识图谱,将是认知智能时代的核心竞争力。在行业数据构建时,对知识的准确性要求非常高,实体通常需要较多且具有行业意义。需要针对多源异构数据融合,基于可动态变化的“概念—实体—属性—关系”数据模型,对各种类型的数据进行抽象建模。智能可信的知识推理:基于过去已知知识进行知识推理,理解行业事件知识驱动知识推理传导,利用行业规则逻辑结合深度模型进行推理,使其能够在业务的推理和辅助决策上带来更加智能化的体验。

以上是我们对于NLP技术过去一年发展的回顾和今年趋势的思考。一家之言难免疏漏或者以偏概全。抛砖引玉,希望能够得到更多同学们的思考和指正。比尔·盖茨曾说过,“语言理解是人工智能皇冠上的明珠”。要达到这样的高度,还需要技术和应用上的突破发展期待在下一个十年的开始,我们一起让NLP技术发展更加迅速,应用场景更加丰富,推动认知智能的发展更进一步。

版权声明:本文内容由互联网用户自发贡献,该文观点仅代表作者本人。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如发现本站有涉嫌抄袭侵权/违法违规的内容,一经查实,本站将立刻删除。

上一篇

下一篇