博舍

什么是 NLP (自然语言处理) 自然语言处理技术应用领域图片大全

什么是 NLP (自然语言处理)

NLP(自然语言处理)到底是做什么?

NLP的全称是NaturalLanguageProcessing,翻译成中文称作:自然语言处理。它是计算机和人工智能的一个重要领域。顾名思义,该领域研究如何处理自然语言。

自然语言就是我们人类市场交流所使用的语音和字符系统。就目前而言,NLP所研究的对象,以字符系统——也就是我们通常说的“文字”——为主。

为什么要处理自然语言?

为什么要处理文字呢?因为有需求啊!

我们用文字描述事物、经历和思想。形成的文献资料,除了被阅读,往往还需要进行很多其他操作。

比如,被翻译成其他语种;对内容进行摘要;在其中查找某个问题的答案;或者,了解其中提到了哪些人事物,以及它们之间的关系如何,等等。

虽然所有这些需求,都可以通过人工阅读文献来解决,但“浩如烟海”的文献量导致人工文字处理的产能严重不足。

NLP的发展历程

上世纪40年代计算机被发明,用机器而非人力来处理信息成为可能。早在1950年代,自然语言处理就已经成为了计算机科学的一个研究领域。

不过一直到1980年代,NLP系统是以一套复杂的人工订制规则为基础,计算机只是机械地执行这些规则,或者做一些诸如字符匹配,词频统计之类的简单计算。

1980年代末期,机器学习的崛起为NLP引入了新的思路。刚性的文字处理人工规则日益被柔性的、以概率为基础的统计模型所替代。

近些年来,随着深度学习的发展,各类神经网络也被引入NLP领域,成为了解决问题的技术。

这里要注意了:自然语言处理(NLP)指以计算机为工具解决一系列现实中和自然语言相关的问题,机器学习、深度学习是解决这些问题的具体手段。

当我们关注NLP这一领域时,要分清本末,要做的事情是本,做事的方式方法是末。如果神经网络能够解决我们的问题,我们当然应该采用,但并不是只要去解决问题,就一定要用神经网络。

常见的NLP任务

NLP要处理的问题纷繁复杂,而且每一个问题都要结合相应场景和具体需求才好讨论。

不过这些问题也有相当多的共性,基于这些共性,我们将千奇百怪的待解决NLP问题抽象为若干任务。

例如:分词、词嵌入、新词发现、拼写提示、词性标注、实体抽取、关系抽取、事件抽取、实体消歧、公指消解、文本分类、机器翻译、自动摘要、阅读理解等等,都是常见的NLP任务。

从NLP任务到技术实现

针对这些任务,NLP研究人员探索出了很多方法,这些方法又对应于不同类型的技术。

在工作中,当我们遇到问题的时候,往往需要先将其对应到一个或多个任务,再在该任务的常用实现方法中选取一种适合我们使用的来执行任务。

【举个例子】:我们要基于若干文献构建一个知识图谱,知识图谱的两大核心要素是实体和关系,那么当然首先我们面临的任务就是从这些文献中抽取实体和关系。

实体抽取是一项非常常见的NLP任务,实现它的方法有多种,大体而言分为两个方向:

   i)基于实体名字典进行字符匹配抽取;

  ii)用序列预测模型进行抽取。

      序列预测模型又可以选用机器学习模型,比如条件随机场(CRF);或选用神经网络,比如CRF+LSTM,或CRF+BERT等。

具体选哪种方法呢?那就要看我们需要抽取的实体类型、文献类型和文献量了。

如果现在是从少量专业文献(例如论文、说明书、研究报告等)中抽取一些列专业名词表示的实体,那么用字典匹配方便直接代价小,可以一试。

如果是要从海量的各类文献中抽取一些通用的实体,那么借助模型则可能效果更佳。

具体用机器学习模型还是神经网络呢?这又和我们拥有的标注数据与计算资源有关,如果不差钱,想标多少数据,想训练多大模型都不在乎,上神经网络自然可以追求高准确率,但如果资源捉襟见肘,可能机器学习模型更加实用。

“众智汇”愿景

尽职尽才,允公允能 —— 本社群不定期举行线上分享,组织群友分享知识、经验、资源,以达到让我们每个人的职业生涯得到最大程度的发展的目的。

欢迎扫面下列二维码关注“悦思悦读”公众微信号

自然语言处理技术的进展和趋势

2019年,技术进展方面主要体现在预训练语言模型、跨语言NLP/无监督机器翻译、知识图谱发展+对话技术融合、智能人机交互、平台厂商整合AI产品线。

1 预训练语言模型

随着2018年底Google提出预训练语言模型BERT,在多项NLP任务上获得更优效果,预训练语言模型的研究与应用被学术界和工业界视为NLP领域的一项重大突破,将NLP问题的解决方式从以往的为每个任务单独设计复杂的模型逐渐演变成了预训练+微调的范式,让众多NLP应用能够享受到大语料预训练模型带来的红利,在通用的预训练模型的基础上加入简单的任务层,并结合自己场景的少量语料就可以获得一个不错的领域NLP模型。

至此开启了自然语言处理的新篇章。

在2019年,各个研究机构和公司在BERT的基础上进一步创新,纷纷提出了自己的预训练模型,如:Facebook发布的RoBERTa,CMU发布的XLNet,Stanford发布的ELECTRA,还有百度的ERNIE模型,阿里的structBERT模型,华为的NEZHA,哈工大和科大讯飞也都提出了自己的模型,不断刷新NLP任务的最好成绩。

这新的工作总结起来,主要来自训练任务设计和训练算法两个方面。

训练任务设计

进行更加精细的语义粒度建模,包括引入更细粒度的建模对象和更加精细的刻画语义关联。

比如“全词Mask”或者“KnowledgeMasking”,技术在MLM预训练任务中Mask整个词而不是单个Token,进而提升了任务难度使得BERT学到更多语义信息,哈工大和科大讯飞联合发布的中文BERT模型以及NEZHA模型中得到了应用;再比如引入更多类型的句间关系,从而能够更加准确描述语义关联性,进而提升语义匹配等方面能力,这在阿里和蚂蚁团队的BERT模型中得到体现。

利用新的机器学习方法建模

包括CMU和Google联合发布的XLNet使用了Autoencoder和Auto-regressive两种方案;斯坦福大学提出的ELECTRA模型,引入对抗机制来进行更好的MLM学习。华盛顿大学和Facebook联合发布的SpanBERT模型还引入了Span预测任务。这些方案应用更学习方法来建模文字之间的联系,从而提升模型效果。

训练算法设计

针对模型的易用性的问题,减少模型参数,或者降低模型的复杂度,包括Google发布的ALBERT使用了词表embedding矩阵的分解与中间层的共享。

提高训练速度的优化

包括混合精度训练,用FP16来进行权重,激活函数和梯度等的表示;LAMB优化器通过一个自适应式的方式为每个参数调整learningrate,模型训练能够采用很大的BatchSize;这些方法极大地提高了训练速度。

阿里的structBERT模型通过引入更多模型和任务结构化信息,提升语言表示能力。在Gluebenchmark上多次名列前矛和保持领先位置。通过蒸馏和CPU加速,RT提高了10x,finetuned的模型给多个业务场景带来了明显提升,上线了AliNLP平台。

预训练语言模型在大规模无监督文本上进行预训练,将得到的词和句子的表示迁移到广泛的下游任务上,包括文本匹配,文本分类,文本抽取,阅读理解,机器问答等不同的场景。如阿里语言模型在MSMARCO问答评测,TRECDeepLearning评测上都取得了第一名的好成绩。

下游的任务可以在低资源的情况下快速获得一个不错的解决方案,极大的提升了NLP算法的应用落地能力。

2 跨语言NLP/无监督机器翻译

作为预训练语言模型的扩展,Facebook的研究人员提出了跨语言的语言模型预训练“Cross-lingualLanguageModelPretraining”,仅使用单语数据的无监督训练和使用平行语料的有监督训练的条件下,模型有效学习了跨语言文本表征,在多语言分类和无监督机器学习等任务上,都比之前的最优结果有显著的提升。

继2018年Google预训练语言模型BERT横扫主流NLP任务之后,2019年 Facebook发布了新型跨语言预训练语言模型XLM,实现不同语言在统一嵌入空间的表征共享,并在无监督机器翻译任务上带来显著的质量提升。在探索大规模、多语言神经机器翻译方向上,Google、阿里巴巴等进行了有效探索,通过同时在数十乃至数百种语向的平行语料上训练一个模型,而不是对各个语向分别建模,实现语义映射关系共享,不仅压缩了模型数量,同时普遍提升了小语种翻译效果。

过去一年来,多语言NLP技术的研究成果主要集中在机器翻译(特别是无监督的机器翻译),跨语言词向量,多语言NER,依存句法分析,词对齐和多语言词典生成等方向。

由于跨语言词向量的学习/映射是其中的关键步骤,目前的无监督/跨语言的NLP任务在相近的语言之间(如英语/法语,英语/西班牙语等)效果最好,在不同的语言家族间(如英语/越南语)效果还是有较大提升空间。

3 知识图谱发展+对话技术融合

随着数据量的积累和应用对数据质量和结构要求的提升,近几年知识图谱又成为一项热点技术开始被关注。

知识图谱技术领域在2019年的发展,包括领域知识图谱的构建和整合(金融、企业等)、图谱平台化标准能力的建设(schema定义+构建+调用)、图谱应用算法建设(基于图谱数据的图模型+规则推理等);并基于构建的图谱数据和能力,开始在更多的业务场景得到应用(搜索推荐内容理解和挖掘、金融风控和决策、对话理解和内容生成等)。

在知识图谱和对话结合的技术方向,对话技术在问答和任务式对话近几年已形成了一定的技术框架和业务覆盖,开始需要解决一些对知识理解+答案专业性要求更高的领域场景(理财助理等)。

对话技术结合知识图谱的领域知识完整度+结构化质量优势来进行覆盖,可以解决相应场景下语料标注(意图理解)和专家配置(对话流程+响应生成)上的不足,进一步提升对话覆盖和响应质量。融合知识图谱对话这个方向,在2020年会有更多的真实场景落地和覆盖。

4 智能人机交互

自然语言理解和深度问答匹配技术在学术和工业界持续发发展,并且已经在全域业务和场景有了大规模应用,基于预训练语言模型进一步带来性能的提升。

机器阅读理解成为低成本通用技术,围绕百科、政策法规、商品详情页、说明书等场景构建应用中台能力,接入效率有了很大提升。结合图-文的多模态VQA问答技术在行业中率先孵化,理解商品详情页长图进行问答成为一项新的竞争力。对话(Dialog)技术能力进一步发展,但是在端到端的基于数据驱动的对话状态跟踪和对话策略还是只能在限定范围内进行探索,工业场景基于对话平台构建的任务型机器人成为了主流的实现方案。多语言技术实现新语言的快速拓展,基于Cross-Lingual构建多语言语言模型,在远距离语言对在英->中、英->泰远距离语言对上超越Google,拓展一个新语言从去年的2个月缩短到2周。对话生成技术开始取得突破,基于结构化知识的引入提升生成的可控性,卖点的生成带来导购转化率的提升。

5 平台厂商整合AI产品线

随着AI技术发展和AI应用的需求,AI技术框架的成熟(Tensorflow、PyTorch等),AI技术能力逐渐被标准化为一系列AI平台类产品,面向企业和开发者,提供更低门槛和更高效率的AI应用支持。

对话类平台,Google从2016年开始发布Assistant对话助手,这几年陆续发布了GoogleHome(现在整合到Nest智能家居品牌),Duplex语音电话,以及收购了API.AI对话开发平台;今年Google已基本整合这些对话产品线,基本布局了对话现有的平台+终端,现成一个整体的对话产品线。

AI类平台方面,Amazon自2017年发布SageMaker机器学习平台产品,今年进一步基于SageMaker整合AI开发过程,同时打通下游技术框架和上游AI应用,整合AI产品线。类似阿里的机器学习平台PAI,定位成面向企业和开发者的一站式机器学习平台。

2019年,应用与产品方面主要体现在机器翻译、对话系统、多轮对话智能服务、智能语音应用持续发展。

6 机器翻译

机器翻译的产品发展延续了之前的趋势,在通用领域(新闻),特定领域(电商,医疗等)扩展了更多的语言方向,支持了更丰富的业务场景,并持续带来商业价值。阿里巴巴在翻译干预和智能泛化方向进行了卓有成效的探索,把业务知识更好地融合到神经网络翻译框架中,大大提升了垂直场景下关键信息的翻译准确率。

高价值和高敏感内容的翻译目前仍离不开人工,因此在计算机辅助翻译(CAT)引入智能算法实现人机协同翻译,以及机器翻译后编辑(MTPE)等新型生产模式,也受到越来越多的关注。阿里巴巴、腾讯在自动后编辑(APE)、交互式翻译(IMT)都开始有产品推出,并在实际业务中落地。

除了文本翻译之外,更多的多模态翻译应用场景出现,如语音翻译在会议同传,双语字幕,翻译机硬件上的尝试(阿里二十周年年会上马老师和逍遥子演讲也以实时双语字幕的形式展示)。

结合OCR,机器翻译和合图技术的图片翻译在支付宝扫一扫,微信,搜狗翻译机上得到应用。随着卖家直播的兴起,直播视频翻译的场景和需求也会越来越多。但是受限于直播场景中复杂的领域,专业的术语,快速的语速和有时嘈杂的背景环境,直播翻译对于语音识别和机器翻译的挑战也是非常巨大。

7 对话系统

对话系统的语言覆盖进一步提升,基于多语言迁移能力快速拓展了法语、阿拉伯语、台湾话的对话系统,目前已支持11个语种,及马来语-英语和泰语-英语的混合语言理解,为Lazada和AE带来解决率的大幅提升。对话系统支持了更大规模的商家和企业,支撑了超过50+的集团经济体客户,店小蜜拓展了通用包、行业包、店铺包的知识定位能力,累计承载百万级活跃商家,日均千万级对话轮次。钉钉小蜜基于企业智能助理承载了40W日均活跃企业。对话系统的交互形式进一步丰富,直播小蜜实现了从商品相关问题的被动回答,到主动和用户展开开放式对话的转变,带来cdau破百万。VQA等多模态理解能力落地店小蜜及经济体小蜜,提升用户交互体验的同时大幅降低商家配置成本。热线小蜜的语音交互能力作为典型案例获2019MITTechnologyReviewer十大突破技术提名,并沉淀了面向多领域的外呼场景,并在多个生态输出。

8 多轮对话智能服务

多轮交互在智能服务场景(客服机器人)在解决用户模糊问题,提高用户使用体验方面起到的重要的作用。模糊问题指用户问题描述不完整,如“怎么开通”,这句话没有说明是哪个业务,这类问题占客服机器人总提问量的30%。

蚂蚁智能服务团队设计了基于标签的多轮交互方案,首先离线挖掘标签,并审核,标签包括业务标签(花呗,备用金...)和诉求标签(怎么开通,如何还款...),通过向用户反问标签列表的形式澄清用户问题。

已有的问题澄清方法主要通过直接推荐完整澄清问题的方案,但定义什么是好的澄清问题仍然不明确,蚂蚁团队设计了一个基于强化学习推荐标签列表的方案做问题澄清,整个标签推荐是一个序列决策的过程,在用户点击了标签之后,我们会把点击的标签和原始的用户问题一起作为澄清后的问题。

整个优化的目标是,目标是最大化整个标签列表对潜在澄清问题的覆盖率,同时保持不同标签对潜在澄清问题集合的有效划分,因此,在强化学习过程中,相应设计了基于信息增益的奖励(Reward)。

基于强化学习方法的多轮交互上线后,蚂蚁客服机器人场景共解决了33%的模糊问题,机器人综合场景转人工率绝对下降1.2%。

9 人机对话构建新的交互入口

场景驱动的个性化多轮对话技术,助推人机对话场景扩充,同时语音语义一体化的上下文语义理解技术,持续提升多轮对话达成率。

天猫精灵在过去一年中,将人机对话能力扩充到二哈电话助手,语音购物,新人使用引导等复杂的交互场景,更是在双十一期间,创造了语音购物100万订单的记录。

天猫精灵在去年的315推出了防骚扰电话助手“二哈”,开启了全新的人机对话交互场景:作为用户的替身完成对话。“二哈”的对话场景是在垂直领域内的开放式多轮对话,目的是通过对话来识别来电意图,并代替用户来获取必要信息。在“二哈”中我们提出了基于多轮对话上下文的机器阅读理解技术,用以理解来电意图和关键信息;基于对于来电内容的理解,我们基于Transformer构建了对话策略模型,用以选择策略和生成对话。针对“二哈”的对话场景,我们提出使用图灵测试通过率来衡量对话的质量,亦即当来电在整个对话中都没有意识到是机器在与其通话时,可以认为“二哈”通过了图灵测试。“二哈”目前的图灵测试通过率达到了87%,有效的帮助了用户应对陌生来电,节省用户时间。

通过人机对话的方式去完成复杂的任务,比如点咖啡、购物等,往往需要机器和用户进行多次对话交互,同时在不同的任务场景下,对话机器人需要掌握各自领域的知识,才能和用户对答如流。比如在语音购物场景,天猫精灵具备跨行业的智能导购员能力,吸收各行业导购员的销售经验,在用户进行语音购物的时候,以最终的成交转化为目标,像商场的销售员一样主动进行多轮对话形式的购物引导,深入挖掘用户购物需求并结合用户画像进行精准推荐。且对不同的用户,天猫精灵可以采用最适合TA的对话方式,做到个性化多轮对话。

多轮对话的达成,是建立在一系列的单轮交互都达成的基础上的,而如果整体任务的达成率是简单的单轮达成率的乘积关系的话,多轮对话的达成率将很难提升。而打破简单乘积关系的关键在于,每一轮对话理解的时候,需要充分利用上下文信息。

在天猫精灵上,我们进行了上下文语音语义理解的探索。首先在语音解码的环节,我们将多轮对话中,上文提到的实体信息构建成memory,通过attention机制让解码器网络感知到这些对话场景信息,显著提升了多轮对话场景的语音识别精度,然后在语义理解环节,我们独创了具备跨轮attention能力的端到端上下文继承模型,实现更高效的对话场景恢复的能力。从而让线上多轮对话的错误率下降了58.5%,有效保障了复杂多轮对话场景的扩充。

10 智能语音应用持续发展

智能音箱,近几年基本上国内外大玩家都已陆续进入市场(AmazonAlexa、GoogleHome/Nest、天猫精灵、小米小爱、百度小度),2019年进入竞争格局;2019年智能音箱出货量仍然在增加,但增速下降。

智能音箱仍然以音乐播放等软件类服务为主,但进一步应用创新仍依赖智能家居和IoT设备的进一步普及。

智能语音电话,2018年GoogleI/O大会展示了Duplex的语音电话助手demo。2019年智能语音电话开始更多地应用到真实业务领域,包括电销、金融、政务等领域的应用都在增长,以提升用户服务覆盖+降低人工成本。

蚂蚁智能语音电话2019年也在安全(核身)、金融(保险回访、微贷催收)、支付(客户激活)等更多金融场景应用和落地。

智能语音类应用,所面向的用户场景强依赖对话语音交互,推动了NLP技术和语音技术的发展;随着技术和产品的发展成熟,以及用户接受度的提高,2020年的应用规模和领域会进一步扩大。

2020趋势:NLP进一步推动人工智能从感知智能向认知智能的演进

站在新的一个十年,智能人机交互、多模态融合、结合领域需求的NLP解决方案建设、知识图谱结合落地场景等将会有突破性变化。

1 智能人机交互

语言模型将在智能人机交互中扮演更重要的角色,形成更丰富的形式,混合100种语言的多语言语言模型,以及融合图像-文本和语音-文本多模态语言模型将崭露头角,在不同语言、不同模态、不同领域的小样本场景下带来全面的能力提升。

多语言交互从不同语言理解上升到不同文化的理解,通过跨文化理解技术深入当地文化实现地道的对话交互。以在线文本为核心的交互方式将全面转变为结合视频、图像、语音、文本的多模态人机交互。基于数据驱动的对话状态跟踪和对话策略将逐渐替代规则式策略,使得多轮对话技术进一步演进,带来更自然的对话体验。知识图谱将广泛融入问答和对话的各类深度学习模型,通过先验知识及推理能力的融入,使得模型更为白盒化,在对话的理解和生成过程中带来更好的可控性和可解释性。对话系统在小样本情况下的冷启动能力提升带来应用构建成本的大幅下降,对话系统从主要为大体量的客户服务,拓展为更普惠的、广泛的支持海量规模、各行业的小企业及小商家,并进一步走向海外,使得更多不同国家、不同语言和不同文化的用户进入智能服务时代。

2 多模态融合

随着5G和边缘计算的逐步成熟和普及,将带来视频、图像、文本、语音等模态的全面融合,语言模型朝着多模态融合的方向发展,在在线场景下实现混合模态的理解,将能融合理解用户经过多轮对话发送的图片、语音和文字内容,并以多模态的形式进行回复;对话系统产品中将全面实现多模态交互能力,直播和IOT大屏交互将全面应用视频+图像+文本多模态技术带来丰富的交互体验,流畅的全双工语音对话机器人将被普遍应用,实现边听边想、边听边猜、主动抢话等类人交互能力。在语音交互场景下通过声学信号+文字信号,识别用户交流中的情绪变化,在IOT互动场景下实现基于摄像头、麦克风的拟态生命;

3 结合领域需求的NLP解决方案建设

过去NLP算法多以平台/API的方式输出通用模型,相应地也在各种云上建立了通用NLP算法平台(AmazonComprehend,微软AzureTextAnalytics,谷歌云NaturalLanguage,阿里NLP,百度NLP等)。

但是在业务场景中,每种场景领域都有自己的特定的需求,产生了相应的场景数据。通用模型结合场景数据进行领域自适应训练,从而输出的领域定制模型会更好地满足业务需求。

4 知识图谱结合落地场景

面向新的一个十年,通过NLP和知识图谱两大核心技术来构建行业知识图谱,机器能够通过知识图谱挖掘隐性关系,洞察“肉眼”无法发现的关系和逻辑,用于最终的业务决策,实现更深层次的业务场景落地。从发展方向来说,可以分为下面几个方面:

优化知识抽取能力:结合已有的知识和NLP技术能力进一步提高非结构化数据理解能力,应用预训练语言模型、信息抽取、实体链接等相关的技术,对非结构化及半结构化数据进行抽取和转换,形成知识图谱形式的知识,以及和知识图谱里面的结构化的知识进行链接。与行业知识沉淀:在行业知识图谱解决方案实际的落地过程中,面临重重挑战,行业知识图谱的构建,本身就需要数据积累和基于业务场景的数据理解,而构建和积累行业知识图谱,将是认知智能时代的核心竞争力。在行业数据构建时,对知识的准确性要求非常高,实体通常需要较多且具有行业意义。需要针对多源异构数据融合,基于可动态变化的“概念—实体—属性—关系”数据模型,对各种类型的数据进行抽象建模。智能可信的知识推理:基于过去已知知识进行知识推理,理解行业事件知识驱动知识推理传导,利用行业规则逻辑结合深度模型进行推理,使其能够在业务的推理和辅助决策上带来更加智能化的体验。

以上是我们对于NLP技术过去一年发展的回顾和今年趋势的思考。一家之言难免疏漏或者以偏概全。抛砖引玉,希望能够得到更多同学们的思考和指正。比尔·盖茨曾说过,“语言理解是人工智能皇冠上的明珠”。要达到这样的高度,还需要技术和应用上的突破发展期待在下一个十年的开始,我们一起让NLP技术发展更加迅速,应用场景更加丰富,推动认知智能的发展更进一步。

版权声明:本文内容由互联网用户自发贡献,该文观点仅代表作者本人。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如发现本站有涉嫌抄袭侵权/违法违规的内容,一经查实,本站将立刻删除。

上一篇

下一篇