博舍

自然语言处理的研究现状及发展趋势 自然语言处理作为人工智能领域最重要的一个研究方向

自然语言处理的研究现状及发展趋势

AI中国网https://www.cnaiplus.com

自然语言处理(NaturalLanguageProcessing,简称NLP)是计算机科学领域与人工智能领域中的一个重要方向。它研究能实现人与计算机之间用自然语言进行有效通信的各种理论和方法。实现人机间自然语言通信意味着要使计算机既能理解自然语言文本的意义,也能以自然语言文本来表达给定的意图、思想等;前者称为自然语言理解,后者称为自然语言生成。近年来,NLP非常火,吸引着人们对它进行研究,并越来越多地应用于各个行业。正如国际知名学者周海中先生曾经所言:“自然语言处理是极有吸引力的研究领域,它具有重大的理论意义和实用价值。”

NLP融计算机科学、语言学、自动化、数学等为一体,是一门综合性的科学。因此,这一领域的研究将涉及自然语言,即人们日常使用的语言,所以它与语言学的研究有着密切的联系,但又有重要的区别。NLP并不是一般地研究自然语言,而是研制能有效地实现自然语言通信的计算机系统,特别是其中的软件系统;因而它是计算机科学的一部分。可以说,NLP是计算机科学、语言学、自动化、数学以及人工智能、知识工程等交叉学科关注计算机和自然语言之间的相互作用的领域。近年来,人工智能技术高速发展,已被应用到各个领域,机械、电子、经济甚至哲学,都有所涉及;人们对它的需求也从计算智能、感知智能到了以NLP为代表的认知智能的层面。没有成功的NLP,就不会有真正的认知智能。因此,NLP被视为人工智能极具吸引力的研究领域以及人工智能必须优先解决的核心问题之一,也被喻为人工智能技术上的“皇冠”。

由于人工智能包括感知智能(比如图像识别、语言识别和手势识别等)和认知智能(主要是语言理解知识和推理),而语言在认知智能起到最核心的作用。如果能把语言问题解决了,人工智能最难的部分也就基本解决了。美国微软公司创始人比尔▪盖茨先生曾经表示,“语言理解是人工智能领域皇冠上的明珠。”前微软公司全球执行副总裁沈向洋先生也在公开演讲时说:“懂语言者得天下……下一个十年,人工智能的突破在自然语言的理解……人工智能对人类影响最为深刻的就是自然语言方面。”由于理解自然语言需要关于外在世界的广泛知识以及运用操作这些知识的能力,所以NLP也被视为解决人工智能完备(AI-complete)的核心问题之一。可以说,NLP目前是人工智能领域的关键核心技术,对它的研究也是充满魅力和挑战的。

NLP涉及的领域较多,主要包括机器翻译、语义理解和对话系统等。它目前面临四大挑战:一是在词法、句法、语义、语用和语音等不同层面存在不确定性;二是新的词汇、术语、语义和语法导致未知语言现象的不可预测性;三是数据资源的不充分使其难以覆盖复杂的语言现象;四是语义知识的模糊性和错综复杂的关联性难以用简单的数学模型描述,语义计算需要参数庞大的非线性计算。例如在对话系统中,深度学习目前已成为对话系统的一项基本技术;神经网络被应用于传统任务导向型对话系统的不同组成部分。近年来,端到端的框架不仅在非面向任务的聊天对话系统中流行,在面向任务的对话系统中也逐步流行起来,但是仍远非完美。又如在语义识别方面,需要对句法进行剖析,因此剖析在对话系统、信息抽娶语法检查中都起着非常重要的作用。

大约20世纪90年代开始,NLP领域发生了巨大的变化,各类分析模型的提出和面向真实语料大规模语义知识库的构建都为其发展提供了坚实的基矗这种巨变有两个明显的特征:(1)对系统的输入,要求研制的NLP系统能处理大规模的真实文本,而不是如以前的研究性系统那样,只能处理很少的词条和典型句子。只有这样,研制的系统才有真正的实用价值。(2)对系统的输出,鉴于真实地理解自然语言是十分困难的,对系统并不要求能对自然语言文本进行深层的理解,但要能从中抽取有用的信息。同时,由于强调了“大规模”和“真实文本”,所以下面两方面的基础性工作也得到了重视和加强:(1)大规模真实语料库的研制。大规模的经过不同深度加工的真实文本的语料库,是研究自然语言统计性质的基础;如果没有这样的语料库,统计方法只能是无源之水。(2)大规模、信息丰富的词典的编制工作。因此规模为几万,十几万,甚至几十万词,含有丰富的信息(如包含词的搭配信息)的计算机可用词典对NLP的重要性是很明显的。

目前存在的问题主要有两个方面:一方面,迄今为止的语法都限于分析一个孤立的句子,上下文关系和谈话环境对本句的约束和影响还缺乏系统的研究,因此分析歧义、词语省略、代词所指、同一句话在不同场合或由不同的人说出来所具有的不同含义等问题,尚无明确规律可循,需要加强语义学和语用学的研究才能逐步解决。另一方面,人理解一个句子不是单凭语法,还运用了大量的有关知识,包括生活知识和专门知识,这些知识无法全部贮存在计算机里。因此一个书面理解系统只能建立在有限的词汇、句型和特定的主题范围内;计算机的贮存量和运转速度大大提高之后,才有可能适当扩大范围。要实现人机间自然语言通信,必须解决NLP文本和对话的各个层次上广泛存在的各种各样的歧义性或多义性,如果解决了这一问题,那么人机间的有效通信。

如果说NLP是人工智能的皇冠,那么语义表示和理解技术就是皇冠上的明珠。目前人工智能领域的发展态势,在语义这一块已经到了重兵集结的程度。句法分析技术的进步,使得我们有希望从结构和算法方向逼近更加精准的语义解析;应用领域数据转化为知识的实践方兴未艾,知识图谱的技术栈里算力充足工具齐全,使得我们有希望从表示的方向为语义架桥铺路添砖加瓦。语义结构表示框架中,现有的知识图谱可以完美描述实体、关系、属性(状态)及其值这三类要素;但是剩下的还有事件、时间、空间、因果条件、逻辑模态等,我们必须对现有的知识图谱结构进行改造,才能适应这些语义要素的表示。

由于语言工程、认知科学等主要局限于实验室,目前来看数据处理可能是NLP应用场景最多的一个发展方向。实际上,自从进入大数据时代,各大平台就没有停止过对用户数据的深度挖掘。要想提取出有用的信息,仅提取关键词、统计词频等是远远不够的,必须对用户数据(尤其是发言、评论等)进行语义上的理解。另外,利用离线大数据统计分析的方法进行NLP任务的研究是目前非常有潜力的一种研究范式,尤其是谷歌、推特、百度等科技企业在这类应用上的成功经验,引领了目前大数据研究的浪潮。

NLP是为各类企业及开发者提供的用于文本分析及挖掘的核心工具,已经广泛应用在电商、金融、物流、医疗、文化娱乐等行业客户的多项业务中。它可帮助用户搭建内容搜索、内容推荐、舆情识别及分析、文本结构化、对话机器人等智能产品,也能够通过合作,定制个性化的解决方案。由于理解自然语言,需要关于外在世界的广泛知识以及运用操作这些知识的能力,所以NLP也被视为解决强人工智能的核心问题之一,其未来一般也因此密切结合人工智能技术发展,尤其是设计一个模仿人脑的神经网络。

训练NLP文本解析人工智能系统需要采集大量多源头数据集,对科学家来说是一项持续的挑战:需要使用最新的深度学习模型,模仿人类大脑中神经元的行为,在数百万甚至数十亿的注释示例中进行训练来持续改进。当下一种流行的NLP解决方案是预训练,它改进了对未标记文本进行训练的通用语言模型,以执行特定任务;它的思想就是,该模型的参数不再是随机初始化,而是先有一个任务进行训练得到一套模型参数,然后用这套参数对模型进行初始化,再进行训练,以获得更好的预测性见解。

我们目前已进入一个以互联网为主要标志的海量信息时代,而这些海量信息大部分是以自然语言表示的。一方面,有关的海量信息可为计算机学习自然语言提供更多的“素材”;另一方面,这也为NLP提供更加宽广的应用舞台。例如,作为NLP的重要应用,搜索引擎逐渐成为人们获取信息的重要工具,出现了以谷歌、百度等为代表的搜索引擎巨头;机器翻译也从实验室走入寻常百姓家;基于NLP的中文输入法(如搜狗、微软、谷歌等输入法)成为计算机用户的必备工具;带有语音识别的计算机和手机也正大行其道,协助用户更有效地生活、工作和学习。

现在,NLP领域已经有了大量的人工标注知识,而深度学习可以通过有监督学习得到相关的语义知识,这种知识和人类总结的知识应该存在某种对应关系,尤其是在一些浅层语义方面。因为人工标注,本质上已经给深度学习提供了学习的目标;只是深度学习可以不眠不休地学习,这种逐步靠拢学习目标的过程,可能远比人类总结过程来得更快、更好。这一点,从谷歌公司旗下DeepMind研究团队开发的围棋软件AlphaGo短时间内连胜两位人类围棋高手的事实,似乎能够得到验证。

深度学习在NLP中的应用非常广泛,可以说横扫NLP的各个应用,从底层的分词、语言模型、句法分析、词性标注、语音识别等到高层的语义理解、语用阐释、对话管理、知识问答等方面都几乎都有深度学习的模型,并且取得了不错的效果。有关研究已从传统的机器学习算法转变成更有表现力的深度学习模型,如卷积神经网络和回归神经网络。不过,目前的深度学习技术还不具备理解和使用自然语言所必需的概念抽象和逻辑推理能力,这方面还有待今后进一步的研究。

有关NLP文本分析的研究目前主要集中于文本表示模型的选择和特征词选择算法的选取上。由于NLP文本是非结构化的数据,要想从大量的文本中挖掘有用的信息就必须首先将文本转化为可处理的结构化形式。人们通常采用向量空间模型来描述文本向量,但是如果直接用分词算法和词频统计方法得到的特征项来表示文本向量中的各个维,那么这个向量的维度将是非常的大。因此,必须对文本向量做进一步净化处理,在保证原文含义的基础上,找出对文本特征类别最具代表性的文本特征。为了解决这个问题,最有效的办法就是通过特征选择来降维。

长文本的智能解析是颇具挑战性的任务,如何从纷繁多变、信息量庞杂的冗长文本中获取关键信息,一直是文本领域难题;这一难题有待解决。另外,训练NLP文本解析人工智能系统需要采集大量多源头数据集,对科学家来说是一项持续的挑战:需要使用最新的深度学习模型,模仿人类大脑中神经元的行为,在数百万甚至数十亿的注释示例中进行训练来持续改进。当下一种流行的NLP解决方案是预训练,它改进了对未标记文本进行训练的通用语言模型,以执行特定任务。

互联网搜索引擎已经有一段时间让人们使用会话语言和术语来在线搜索事物。现在,谷歌公司的云端硬盘用户已经可以使用这一功能。用户可以搜索存储在谷歌云端硬盘中的文件和内容,就像使用谷歌搜索提供的对云端硬盘内置NLP的新支持一样。该功能使用户可以使用通常用词组表达的查询以及在实际对话中将要使用的查询来更轻松地找到所需的内容。谷歌公司在在线和移动搜索、移动应用程序以及GoogleTranslate等服务中广泛使用NLP;该公司在这一领域的研究是为提高机器阅读和理解人类语言能力所做的更广泛努力的一部分。随着谷歌调整其算法,NLP应该会随着时间的推移变得更好。

近年来,NLP处于快速发展阶段。各种词表、语义语法词典、语料库等数据资源的日益丰富,词语切分、词性标注、句法分析等技术的快速进步,各种新理论、新方法、新模型的出现推动了NLP研究的繁荣。互联网技术的普及与世界经济社会一体化的潮流对NLP技术的迫切需求,为NLP研究发展提供了强大的市场动力。NLP研究成果在服务应用的同时,而且还促进新兴学科,如生物信息学等的发展。另外,对于NLP的认识正促使计算机的体系结构发生着变化,NLP能力的提升将是下一代计算机追求的重要目标。

英国剑桥量子计算公司(CQC)最近宣布,他们利用自然语言的“固有量子”结构,开辟了一个全新的可能应用领域。其通过将语法句子翻译成量子线路,然后在量子计算机上实现生成的程序,并实际执行问答。这是第一次在量子计算机上执行NLP。通过使用CQC的一流的、平台无关的可重定目标编译器t|ket??,这些程序在IBM量子计算机上成功执行并得到结果,整个突破朝着实现“意义感知”和“语法知悉”的NLP方向迈出了有意义的一大步--这是计算机时代早期以来计算机科学家及计算语言学家追寻的梦想。

美国哈佛大学医学院的研究人员借助NLP技术日前开发出一种工具,可以评估新冠肺炎(COVID-19)患者的病例、社交媒体和健康卫生数据。他们率先努力通过使用机器学习技术查看来自各种来源的数据和信息(包括患者记录、社交媒体和公共卫生数据)来寻找新冠肺炎病毒的解决方案。借助NLP工具,他们还可以搜索有关新冠肺炎病毒的在线信息,并了解爆发的当前位置。另外,研究人员还利用NLP技术对新冠肺炎、药物和疫苗等密集展开研究,同时包括临床诊断与治疗以及流行病学研究等。

一个完整的NLP系统通常包含语音识别、语义识别、语音合成三部分;其中,中国的一些科技企业在语音识别和语音合成已处世界领先地位。语音识别是指让计算机“听到”人的语音,目前已经比较成熟,尤其汉语的语音识别领先英语;如百度、搜狗、科大讯飞,识别率均已达到97%左右。语音合成是指计算机将“回复”给人的语句,通过合成音频的形式,利用扬声器外放;目前,科大讯飞的语音合成技术代表了世界领先水平。

中国阿里达摩院的NLP研究团队最近提出优化模型StructBERT,能让机器更好地掌握人类语法,加深对自然语言的理解。使用该模型好比给机器内置一个“语法识别器”,使机器在面对语序错乱或不符合语法习惯的词句时,仍能准确理解并给出正确的表达和回应,大大提高机器对词语、句子以及语言整体的理解力。这一技术已广泛使用于阿里旗下阿里小蜜、蚂蚁金服、优酷等业务。阿里达摩院的语言模型和阅读理解技术也被用于行业赋能,推进人工智能技术在医疗、电力、金融等行业的落地。据悉,StructBERT模型最近被评为全球性能最强的NLP系统。

根据市场分析机构MordorIntelligence的一份报告,2019年全球NLP市场价值为109亿美元,预计到2025年将达到348亿美元,复合年增长率为21.5%。该报告指出,在过去的几年中,深度学习架构和算法在市场格局中取得了令人瞩目的进步,而语音分析解决方案正在主导着这一市场,因为传统的基于文本的分析已不足以处理复杂的业务问题。

总之,随着互联网的普及和海量信息的涌现,作为人工智能领域的研究热点和关键核心技术,NLP正在人们的生活、工作、学习中扮演着越来越重要的角色,并将在科技进步与社会发展的过程中发挥越来越重要的作用。

文/林峰(作者单位:美国波士顿大学工学院)

AI中国网https://www.cnaiplus.com

本文网址:

自然语言处理的研究现状及发展趋势

导读:自然语言处理(NaturalLanguageProcessing,简称NLP)是计算机科学领域与人工智能领域中的一个重要方向。它研究能实现人与计算机之间用自然语言进行有效通信的各种理论和方法。实现人机间自然语言通信意味着要使计算机既能理解自然语言文本的意义,也能以...

自然语言处理(NaturalLanguageProcessing,简称NLP)是计算机科学领域与人工智能领域中的一个重要方向。它研究能实现人与计算机之间用自然语言进行有效通信的各种理论和方法。实现人机间自然语言通信意味着要使计算机既能理解自然语言文本的意义,也能以自然语言文本来表达给定的意图、思想等;前者称为自然语言理解,后者称为自然语言生成。近年来,NLP非常火,吸引着人们对它进行研究,并越来越多地应用于各个行业。正如国际知名学者周海中先生曾经所言:“自然语言处理是极有吸引力的研究领域,它具有重大的理论意义和实用价值。”

 

 

NLP融计算机科学、语言学、自动化、数学等为一体,是一门综合性的科学。因此,这一领域的研究将涉及自然语言,即人们日常使用的语言,所以它与语言学的研究有着密切的联系,但又有重要的区别。NLP并不是一般地研究自然语言,而是研制能有效地实现自然语言通信的计算机系统,特别是其中的软件系统;因而它是计算机科学的一部分。可以说,NLP是计算机科学、语言学、自动化、数学以及人工智能、知识工程等交叉学科关注计算机和自然语言之间的相互作用的领域。近年来,人工智能技术高速发展,已被应用到各个领域,机械、电子、经济甚至哲学,都有所涉及;人们对它的需求也从计算智能、感知智能到了以NLP为代表的认知智能的层面。没有成功的NLP,就不会有真正的认知智能。因此,NLP被视为人工智能极具吸引力的研究领域以及人工智能必须优先解决的核心问题之一,也被喻为人工智能技术上的“皇冠”。

由于人工智能包括感知智能(比如图像识别、语言识别和手势识别等)和认知智能(主要是语言理解知识和推理),而语言在认知智能起到最核心的作用。如果能把语言问题解决了,人工智能最难的部分也就基本解决了。美国微软公司创始人比尔·盖茨先生曾经表示,“语言理解是人工智能领域皇冠上的明珠。”前微软公司全球执行副总裁沈向洋先生也在公开演讲时说:“懂语言者得天下……下一个十年,人工智能的突破在自然语言的理解……人工智能对人类影响最为深刻的就是自然语言方面。”由于理解自然语言需要关于外在世界的广泛知识以及运用操作这些知识的能力,所以NLP也被视为解决人工智能完备(AI-complete)的核心问题之一。可以说,NLP目前是人工智能领域的关键核心技术,对它的研究也是充满魅力和挑战的。

NLP涉及的领域较多,主要包括机器翻译、语义理解和对话系统等。它目前面临四大挑战:一是在词法、句法、语义、语用和语音等不同层面存在不确定性;二是新的词汇、术语、语义和语法导致未知语言现象的不可预测性;三是数据资源的不充分使其难以覆盖复杂的语言现象;四是语义知识的模糊性和错综复杂的关联性难以用简单的数学模型描述,语义计算需要参数庞大的非线性计算。例如在对话系统中,深度学习目前已成为对话系统的一项基本技术;神经网络被应用于传统任务导向型对话系统的不同组成部分。近年来,端到端的框架不仅在非面向任务的聊天对话系统中流行,在面向任务的对话系统中也逐步流行起来,但是仍远非完美。又如在语义识别方面,需要对句法进行剖析,因此剖析在对话系统、信息抽娶语法检查中都起着非常重要的作用。

大约20世纪90年代开始,NLP领域发生了巨大的变化,各类分析模型的提出和面向真实语料大规模语义知识库的构建都为其发展提供了坚实的基矗这种巨变有两个明显的特征:(1)对系统的输入,要求研制的NLP系统能处理大规模的真实文本,而不是如以前的研究性系统那样,只能处理很少的词条和典型句子。只有这样,研制的系统才有真正的实用价值。(2)对系统的输出,鉴于真实地理解自然语言是十分困难的,对系统并不要求能对自然语言文本进行深层的理解,但要能从中抽取有用的信息。同时,由于强调了“大规模”和“真实文本”,所以下面两方面的基础性工作也得到了重视和加强:(1)大规模真实语料库的研制。大规模的经过不同深度加工的真实文本的语料库,是研究自然语言统计性质的基础;如果没有这样的语料库,统计方法只能是无源之水。(2)大规模、信息丰富的词典的编制工作。因此规模为几万,十几万,甚至几十万词,含有丰富的信息(如包含词的搭配信息)的计算机可用词典对NLP的重要性是很明显的。

目前存在的问题主要有两个方面:一方面,迄今为止的语法都限于分析一个孤立的句子,上下文关系和谈话环境对本句的约束和影响还缺乏系统的研究,因此分析歧义、词语省略、代词所指、同一句话在不同场合或由不同的人说出来所具有的不同含义等问题,尚无明确规律可循,需要加强语义学和语用学的研究才能逐步解决。另一方面,人理解一个句子不是单凭语法,还运用了大量的有关知识,包括生活知识和专门知识,这些知识无法全部贮存在计算机里。因此一个书面理解系统只能建立在有限的词汇、句型和特定的主题范围内;计算机的贮存量和运转速度大大提高之后,才有可能适当扩大范围。要实现人机间自然语言通信,必须解决NLP文本和对话的各个层次上广泛存在的各种各样的歧义性或多义性,如果解决了这一问题,那么人机间的有效通信。

如果说NLP是人工智能的皇冠,那么语义表示和理解技术就是皇冠上的明珠。目前人工智能领域的发展态势,在语义这一块已经到了重兵集结的程度。句法分析技术的进步,使得我们有希望从结构和算法方向逼近更加精准的语义解析;应用领域数据转化为知识的实践方兴未艾,知识图谱的技术栈里算力充足工具齐全,使得我们有希望从表示的方向为语义架桥铺路添砖加瓦。语义结构表示框架中,现有的知识图谱可以完美描述实体、关系、属性(状态)及其值这三类要素;但是剩下的还有事件、时间、空间、因果条件、逻辑模态等,我们必须对现有的知识图谱结构进行改造,才能适应这些语义要素的表示。

由于语言工程、认知科学等主要局限于实验室,目前来看数据处理可能是NLP应用场景最多的一个发展方向。实际上,自从进入大数据时代,各大平台就没有停止过对用户数据的深度挖掘。要想提取出有用的信息,仅提取关键词、统计词频等是远远不够的,必须对用户数据(尤其是发言、评论等)进行语义上的理解。另外,利用离线大数据统计分析的方法进行NLP任务的研究是目前非常有潜力的一种研究范式,尤其是谷歌、推特、百度等科技企业在这类应用上的成功经验,引领了目前大数据研究的浪潮。

NLP是为各类企业及开发者提供的用于文本分析及挖掘的核心工具,已经广泛应用在电商、金融、物流、医疗、文化娱乐等行业客户的多项业务中。它可帮助用户搭建内容搜索、内容推荐、舆情识别及分析、文本结构化、对话机器人等智能产品,也能够通过合作,定制个性化的解决方案。由于理解自然语言,需要关于外在世界的广泛知识以及运用操作这些知识的能力,所以NLP也被视为解决强人工智能的核心问题之一,其未来一般也因此密切结合人工智能技术发展,尤其是设计一个模仿人脑的神经网络。

训练NLP文本解析人工智能系统需要采集大量多源头数据集,对科学家来说是一项持续的挑战:需要使用最新的深度学习模型,模仿人类大脑中神经元的行为,在数百万甚至数十亿的注释示例中进行训练来持续改进。当下一种流行的NLP解决方案是预训练,它改进了对未标记文本进行训练的通用语言模型,以执行特定任务;它的思想就是,该模型的参数不再是随机初始化,而是先有一个任务进行训练得到一套模型参数,然后用这套参数对模型进行初始化,再进行训练,以获得更好的预测性见解。

我们目前已进入一个以互联网为主要标志的海量信息时代,而这些海量信息大部分是以自然语言表示的。一方面,有关的海量信息可为计算机学习自然语言提供更多的“素材”;另一方面,这也为NLP提供更加宽广的应用舞台。例如,作为NLP的重要应用,搜索引擎逐渐成为人们获取信息的重要工具,出现了以谷歌、百度等为代表的搜索引擎巨头;机器翻译也从实验室走入寻常百姓家;基于NLP的中文输入法(如搜狗、微软、谷歌等输入法)成为计算机用户的必备工具;带有语音识别的计算机和手机也正大行其道,协助用户更有效地生活、工作和学习。

现在,NLP领域已经有了大量的人工标注知识,而深度学习可以通过有监督学习得到相关的语义知识,这种知识和人类总结的知识应该存在某种对应关系,尤其是在一些浅层语义方面。因为人工标注,本质上已经给深度学习提供了学习的目标;只是深度学习可以不眠不休地学习,这种逐步靠拢学习目标的过程,可能远比人类总结过程来得更快、更好。这一点,从谷歌公司旗下DeepMind研究团队开发的围棋软件AlphaGo短时间内连胜两位人类围棋高手的事实,似乎能够得到验证。

深度学习在NLP中的应用非常广泛,可以说横扫NLP的各个应用,从底层的分词、语言模型、句法分析、词性标注、语音识别等到高层的语义理解、语用阐释、对话管理、知识问答等方面都几乎都有深度学习的模型,并且取得了不错的效果。有关研究已从传统的机器学习算法转变成更有表现力的深度学习模型,如卷积神经网络和回归神经网络。不过,目前的深度学习技术还不具备理解和使用自然语言所必需的概念抽象和逻辑推理能力,这方面还有待今后进一步的研究。

有关NLP文本分析的研究目前主要集中于文本表示模型的选择和特征词选择算法的选取上。由于NLP文本是非结构化的数据,要想从大量的文本中挖掘有用的信息就必须首先将文本转化为可处理的结构化形式。人们通常采用向量空间模型来描述文本向量,但是如果直接用分词算法和词频统计方法得到的特征项来表示文本向量中的各个维,那么这个向量的维度将是非常的大。因此,必须对文本向量做进一步净化处理,在保证原文含义的基础上,找出对文本特征类别最具代表性的文本特征。为了解决这个问题,最有效的办法就是通过特征选择来降维。

长文本的智能解析是颇具挑战性的任务,如何从纷繁多变、信息量庞杂的冗长文本中获取关键信息,一直是文本领域难题;这一难题有待解决。另外,训练NLP文本解析人工智能系统需要采集大量多源头数据集,对科学家来说是一项持续的挑战:需要使用最新的深度学习模型,模仿人类大脑中神经元的行为,在数百万甚至数十亿的注释示例中进行训练来持续改进。当下一种流行的NLP解决方案是预训练,它改进了对未标记文本进行训练的通用语言模型,以执行特定任务。

互联网搜索引擎已经有一段时间让人们使用会话语言和术语来在线搜索事物。现在,谷歌公司的云端硬盘用户已经可以使用这一功能。用户可以搜索存储在谷歌云端硬盘中的文件和内容,就像使用谷歌搜索提供的对云端硬盘内置NLP的新支持一样。该功能使用户可以使用通常用词组表达的查询以及在实际对话中将要使用的查询来更轻松地找到所需的内容。谷歌公司在在线和移动搜索、移动应用程序以及GoogleTranslate等服务中广泛使用NLP;该公司在这一领域的研究是为提高机器阅读和理解人类语言能力所做的更广泛努力的一部分。随着谷歌调整其算法,NLP应该会随着时间的推移变得更好。

近年来,NLP处于快速发展阶段。各种词表、语义语法词典、语料库等数据资源的日益丰富,词语切分、词性标注、句法分析等技术的快速进步,各种新理论、新方法、新模型的出现推动了NLP研究的繁荣。互联网技术的普及与世界经济社会一体化的潮流对NLP技术的迫切需求,为NLP研究发展提供了强大的市场动力。NLP研究成果在服务应用的同时,而且还促进新兴学科,如生物信息学等的发展。另外,对于NLP的认识正促使计算机的体系结构发生着变化,NLP能力的提升将是下一代计算机追求的重要目标。

英国剑桥量子计算公司(CQC)最近宣布,他们利用自然语言的“固有量子”结构,开辟了一个全新的可能应用领域。其通过将语法句子翻译成量子线路,然后在量子计算机上实现生成的程序,并实际执行问答。这是第一次在量子计算机上执行NLP。通过使用CQC的一流的、平台无关的可重定目标编译器t|ket??,这些程序在IBM量子计算机上成功执行并得到结果,整个突破朝着实现“意义感知”和“语法知悉”的NLP方向迈出了有意义的一大步--这是计算机时代早期以来计算机科学家及计算语言学家追寻的梦想。

美国哈佛大学医学院的研究人员借助NLP技术日前开发出一种工具,可以评估新冠肺炎(COVID-19)患者的病例、社交媒体和健康卫生数据。他们率先努力通过使用机器学习技术查看来自各种来源的数据和信息(包括患者记录、社交媒体和公共卫生数据)来寻找新冠肺炎病毒的解决方案。借助NLP工具,他们还可以搜索有关新冠肺炎病毒的在线信息,并了解爆发的当前位置。另外,研究人员还利用NLP技术对新冠肺炎、药物和疫苗等密集展开研究,同时包括临床诊断与治疗以及流行病学研究等。

一个完整的NLP系统通常包含语音识别、语义识别、语音合成三部分;其中,中国的一些科技企业在语音识别和语音合成已处世界领先地位。语音识别是指让计算机“听到”人的语音,目前已经比较成熟,尤其汉语的语音识别领先英语;如百度、搜狗、科大讯飞,识别率均已达到97%左右。语音合成是指计算机将“回复”给人的语句,通过合成音频的形式,利用扬声器外放;目前,科大讯飞的语音合成技术代表了世界领先水平。

中国阿里达摩院的NLP研究团队最近提出优化模型StructBERT,能让机器更好地掌握人类语法,加深对自然语言的理解。使用该模型好比给机器内置一个“语法识别器”,使机器在面对语序错乱或不符合语法习惯的词句时,仍能准确理解并给出正确的表达和回应,大大提高机器对词语、句子以及语言整体的理解力。这一技术已广泛使用于阿里旗下阿里小蜜、蚂蚁金服、优酷等业务。阿里达摩院的语言模型和阅读理解技术也被用于行业赋能,推进人工智能技术在医疗、电力、金融等行业的落地。据悉,StructBERT模型最近被评为全球性能最强的NLP系统。

根据市场分析机构MordorIntelligence的一份报告,2019年全球NLP市场价值为109亿美元,预计到2025年将达到348亿美元,复合年增长率为21.5%。该报告指出,在过去的几年中,深度学习架构和算法在市场格局中取得了令人瞩目的进步,而语音分析解决方案正在主导着这一市场,因为传统的基于文本的分析已不足以处理复杂的业务问题。

总之,随着互联网的普及和海量信息的涌现,作为人工智能领域的研究热点和关键核心技术,NLP正在人们的生活、工作、学习中扮演着越来越重要的角色,并将在科技进步与社会发展的过程中发挥越来越重要的作用。

文/林峰(作者单位:美国波士顿大学工学院)

赞助本站

相关热词:自然语言处理研究现状发展趋势

【NLP】一文汇总自然语言处理主要研究方向

NLP专栏已经发了相当数目的文章,从基础的机器学习到最新的预训练语言模型;从简单的文本分类到复杂的信息抽取、聊天机器人。今天我们做一个回顾和总结,聊聊我们从事的自然语言处理研究或者工作,究竟是怎么一回事,介绍一下自然语言处理的各大研究方向及其特点。

所谓自然语言处理,即NLP,就是通过用计算机来处理人类的语言、文字,从而可以代替人类做一些文书类的工作,例如咨询、售后、海量数据处理以及公文阅读与处理等。基于此,NLP领域延伸处理种类繁多的任务,这里我总结了文本向量化、序列标注任务、文本分类、信息提取、以及复杂应用场景五大类NLP任务,做一个介绍。

作者&编辑|小Dream哥

1文本向量化 

文本的向量化可谓是NLP进入深度学习时代的标志。所谓文本的向量化(embedding),就是将文本用一定维度的向量来表示,也可以理解为文本的数值化。通过embedding,文本的语义、句法等特征得以表征,便于下游模型的处理。

例如,“人/如果/没有/梦想/,/跟/咸鱼/还有/什么/差别”,向机器学习模型直接输入字符串显然是不明智的,不便于模型进行计算和文本之间的比较。那么,我们需要一种方式来表示一个文本,这种文本表示方式要能够便于进行文本之间的比较,计算等。最容易想到的,就是对文本进行向量化的表示。例如,根据语料库的分词结果,建立一个词典,每个词用一个向量来表示,这样就可以将文本向量化了。

词的向量化,最早尝试是词袋模型,后来证明,词袋模型无法表征词序特征,并且会带来维度灾难;YoshuaBengio在2003年《ANeuralProbabilisticLanguageModel》一文中提出了一种神经网络的方法,用于语言模型的计算,词向量作为副产品后来却引起了业界的关注。2008年Collobert和Weston展示了第一个能有效利用预训练词嵌入的研究工作,他们提出的神经网络架构,构成了当前很多方法的基础。这一项研究工作还率先将词嵌入作为NLP任务的高效工具。不过词嵌入真正走向NLP主流还是Mikolov等人在2013年做出的研究《DistributedRepresentationsofWordsandPhrasesandtheirCompositionality》。Mikolov等研究者在这篇论文中提出了连续词袋模型CBOW和Skip-Gram模型,通过引入负采样等可行性的措施,这两种方法都能学习高质量的词向量。基于此,ELMO提出了一种相同词能够根据语境生成不同词向量的模型。高质量的词向量的获得,结合LSTM、CNN等神经网络抽取器,使得NER,文本分类以及信息抽取等任务获得了长足的进步。

此外,基于词向量的思想,从2018年开始,NLP中预训练模型开始流行,BERT、GPT、ALBERT以及XLNET等模型不断刷榜。

笔者曾经写过的词向量即预训练语言模型相关的文章有:

【NLP-词向量】词向量的由来及本质

【NLP-词向量】从模型结构到损失函数详解word2vec

【NLP】聊聊NLP中的attention机制

【NLP】理解NLP中网红特征抽取器Tranformer

【NLP】深入浅出解析BERT原理及其表征的内容

【NLP】GPT:第一个引入Transformer的预训练模型

【NLP】XLnet:GPT和BERT的合体,博采众长,所以更强

2序列标注任务

序列标注任务是NLP里非常基础和重要的任务,例如分词、NER等都属于序列标注任务,包括一些预测span的阅读理解任务也可归于此列。

分词通常是中文自然语言处理的第一步(随着深度学习模型表征能力越来越强,慢慢证明,分词未必是必要的);NER是非常重要和基础的信息抽取任务,在非常多的场景中都需要用到,例如聊天机器人中的槽位抽取、文本结构化过程中的实体抽取等等。

早期的序列标注任务,例如分词,NER等主要是用HMM、CRF等机器学习模型;随着深度学习的兴起,LSTM+CRF变成序列标注任务的主流方法;当然,因为LSTM的若干缺点,不少NLP的从业者坚持使用CNN,因而基于膨胀卷积的序列标注模型得以提出。随着transformer的提出,利用BERT等预训练模型做NER这类任务开始变得流行,特别是抽取一些相对较长和复杂的实体,例如地址等。需要特别提出的是,有些情况下,正则匹配也是实体抽取的一种有效手段,可作为补充,例如时间实体等。

笔者曾经写过的序列标注相关的文章有:

【NLP-NER】什么是命名实体识别?

【NLP-NER】命名实体识别中最常用的两种深度学习模型

【NLP-NER】如何使用BERT来做命名实体识别

【NLP实战系列】Tensorflow命名实体识别实战

【每周NLP论文推荐】NLP中命名实体识别从机器学习到深度学习的代表性研究

3文本分类

文本分类是一个不难理解的概念,即通过计算机对输入文本进行分类,例如判断“你真是个帅哥啊”这句话是褒义还是贬义。文本分类的应用场景很多,例如情感分类、机器人中的意图识别等。

听上去,分类问题似乎是个不难解决的问题,实际上文本分类有它的难度。当类别非常多或者类别与类别之间差异很小时,文本分类就开始变得困难;再者,有时需要考虑额外特征才能分类正确,例如常常需要根据说话者语气,才能判断“你真是个帅哥啊”这句话是讽刺还是真心的赞美。

早期有一些基于传统机器学习的文本分类,例如基于某种词语特征的的贝叶斯模型,SVM分类器等。

随着深度学习的发展,LSTM+softmax/CNN+softmax模型变成了一种非常流行的文本分类架构,基于此Fasttext、textCNN等便捷高效的开源文本分类工具也开始流行。此外,结合Attention等技巧与概念能够一定程度的提高模型的效果。

文本分类还有另外一种模式,即通过将文本向量化,再通过聚类获得类别,NLTK等开源NLP工具都有便捷的Doc2vecAPI。如果觉得效果不好,可以试试BERT的【CLS】向量。此外,还可以增加TF-IDF模块,构建更有表达能力的DocVec。

笔者曾经写过的文本分类相关的文章有:

【NLP实战系列】朴素贝叶斯文本分类实战

【NLP实战】基于ALBERT的文本相似度计算

4信息提取任务 

信息提取(IE)的目标是将文本信息转化为结构化信息,起初用于定位自然语言文档中的特定信息。广泛的看,信息提取其实是一个非常宽泛的概念,从文本提出感兴趣的内容就可以称为信息提取。在NLP中常常用实体抽取、关系抽取以及事件抽取等手段进行信息抽取。

实体抽取是序列标记问题,上面已经介绍过,关系抽取以及事件抽取则通常转化为分类的任务。关系抽取常常需要先确认subject以及object。所以,关系抽取任务常常伴随着实体抽取的要求。

早期,信息提取多使用正则和传统的机器学习方法。随着深度学习的快速发展,信息提取技术也开始迅速发展。实体抽取与关系抽取从Pipline的方式进化到end-to-end的方式。使用的特征抽取器也逐步进化,从LSTM/CNN到transformer。需要特别提出的是,BERT在信息抽取方面表现出色,基于BERT和阅读理解任务来做信息抽取,是一种非常别致的方式。

笔者曾经写过的信息抽取相关的文章有:

【文本信息抽取与结构化】目前NLP领域最有应用价值的子任务之一

【文本信息抽取与结构化】详聊文本的结构化【上】

【文本信息抽取与结构化】详聊文本的结构化【下】

【文本信息抽取与结构化】详聊如何用BERT实现关系抽取

【每周NLP论文推荐】掌握实体关系抽取必读的文章

5 场景任务

此外,NLP还有一些复杂的应用场景,他们可能是多种NLP技术的应用和综合,例如聊天机器人、知识图谱、文本搜索以及文本推荐系统等。

搜索是NLP技术最早得到大规模应用的技术,例如百度搜索、知乎话题搜索以及各大互联网公司的query搜索技术,都涉及到语义匹配或文本分类技术。此外,大型的搜索引擎,知识图谱的搭建是必须的。

推荐系统在一定层面来说是跟搜索场景相反的。搜索是基于用户的意图,在文本库中寻找匹配项;推荐则相反,通常基于积累的用户信息,给用户推荐可能感兴趣的内容。推荐系统常常涉及用户画像、标签定义等过程,需要一定程度的依赖NLP技术。

聊天机器人是目前NLP技术应用最多的场景,基于NLP技术构建一个能够替代客服、销售、办公文员是这一任务的终极目标。目前,聊天机器人已经以各种形态出现在人们面前,有站在银行门口迎接顾客的迎宾机器人,有放在卧室床头的智能音箱,有呆在各个APP首页的助手机器人等等。在聊天机器人中,运用了文本分类、语义匹配、对话管理、实体识别等大量的NLP技术。要做好是一件难度大、超复杂的任务。

知识图谱是AI时代一个非常重要基础设施,大规模结构化的知识网络的搭建,能够重塑很多的智能场景。

关于搜索和推荐系统我们会在后面的系列文章中进行介绍,关于知识图谱和聊天机器人我们已经写了大量的文章进行介绍,感兴趣的同学可以看看,:

【NLP-ChatBot】我们熟悉的聊天机器人都有哪几类?

【NLP-ChatBot】搜索引擎的最终形态之问答系统(FAQ)详述

【NLP-ChatBot】能干活的聊天机器人-对话系统概述

【每周NLP论文推荐】对话管理中的标志性论文介绍

【每周NLP论文推荐】开发聊天机器人必读的重要论文

【知识图谱】人工智能技术最重要基础设施之一,知识图谱你该学习的东西

【知识图谱】知识表示:知识图谱如何表示结构化的知识?

【知识图谱】如何构建知识体系:知识图谱搭建的第一步

【知识图谱】获取到知识后,如何进行存储和便捷的检索?

【知识图谱】知识推理,知识图谱里最“人工智能”的一段

6 培养计划

目前,NLP不仅是一个发展迅速的学科,业界的需求也比较大。不少人想要学习,却没有门道,浪费了大量时间。为此,我们推出了《系统性入门自然语言处理》这样一个培养计划,旨在帮助想要入门自然语言处理的同学,少走弯路,少趟坑,节约宝贵的时间。

计划由小Dream哥全面负责,小群交流以及专门答疑,包括深度学习与神经网络、自然语言处理的基本任务、自然语言处理预训练模型、聊天机器人以及知识图谱5大部分的内容,20个实战的项目,帮助感兴趣的同学打下扎实的基础。

目前在网易云课堂更新的部分内容让如下:

还有来自学员的点赞:

感兴趣的同学可以阅读今日第二条推文中的详细介绍,微信联系jen104了解。

知识星球推荐

扫描上面的二维码,就可以加入我们的星球,助你成长为一名合格的自然语言处理算法工程师。

知识星球主要有以下内容:

(1)聊天机器人。

(2)知识图谱。

(3)NLP预训练模型。

转载文章请后台联系

侵权必究

往期精选

【杂谈】备战3月春招!深入掌握模型优化,人脸算法,图像质量等24个核心领域!

【总结】循序渐进,有三AI不得不看的技术综述(超过100篇核心干货)

【杂谈】2020年有三AI计算机视觉培养计划详解,该不该学&怎么学CV的简单讨论

人工智能主要研究方向

人工智能主要分为自然语言处理(NLP)、计算机视觉(CV)、数据挖掘(DM)三个大方向

自然语言处理(NLP):它是计算机科学,人工智能,语言学关注计算机和人类(自然)语言之间的相互作用的领域,研究能实现人与计算机之间用自然语言进行有效通信的各种理论和方法。主要分类包括机器翻译、文本分类、知识图谱、文本相似度计算、语音识别、情感计算、自动摘要、聊天机器人等等

计算机视觉(CV):一门研究如何使机器“看”的科学,使用计算机及相关设备对生物视觉的一种模拟,研究如何运用照相机和计算机来获取我们所需的,被拍摄对象的数据与信息的学问。主要分类包括行人检测、人脸识别、自动驾驶、图像分类、目标检测、智能安防等等

数据挖掘(DM):数据挖掘是指从大量的数据中通过算法搜索隐藏于其中信息的过程,主要分类有广告计算、推荐系统、用户画像、各类预测分类任务等等,DM多领域也需要用到NLP的知识。

例子:AlphaGo属于深度学习,深度学习可以应用于搜索技术,数据挖掘,机器学习,自然语言处理等很多领域

 

版权声明:本文内容由互联网用户自发贡献,该文观点仅代表作者本人。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如发现本站有涉嫌抄袭侵权/违法违规的内容,一经查实,本站将立刻删除。

上一篇

下一篇