博舍

自然语言处理简介及主要研究方向 自然语言处理学什么专业的

自然语言处理简介及主要研究方向

百度词条:

自然语言处理是计算机科学领域与人工智能领域中的一个重要方向。它研究能实现人与计算机之间用自然语言进行有效通信的各种理论和方法。自然语言处理是一门融语言学、计算机科学、数学于一体的科学。因此,这一领域的研究将涉及自然语言,即人们日常使用的语言,所以它与语言学的研究有着密切的联系,但又有重要的区别。自然语言处理并不是一般地研究自然语言,而在于研制能有效地实现自然语言通信的计算机系统,特别是其中的软件系统。因而它是计算机科学的一部分。

自然语言处理(NLP)是计算机科学,人工智能,语言学关注计算机和人类(自然)语言之间的相互作用的领域。

 

Naturallanguageprocessing(NLP)isafieldofcomputerscience,artificialintelligenceandcomputationallinguisticsconcernedwiththeinteractionsbetweencomputersandhuman(natural)languages,and,inparticular,concernedwithprogrammingcomputerstofruitfullyprocesslargenaturallanguagecorpora.Challengesinnaturallanguageprocessingfrequentlyinvolvenaturallanguageunderstanding(NLU),naturallanguagegeneration(frequentlyfromformal,machine-readablelogicalforms),connectinglanguageandmachineperception,dialogsystems,orsomecombinationthereof.

随着深度学习的发展,LSTM的应用取得的突破,极大地促进了NLP的发展。

自然语言处理的主要范畴有以下: 

文本朗读(Texttospeech)/语音合成(Speechsynthesis) 语音识别(Speechrecognition) 中文自动分词(Chinesewordsegmentation) 词性标注(Part-of-speechtagging) 句法分析(Parsing) 自然语言生成(Naturallanguagegeneration) 文本分类(Textcategorization) 信息检索(Informationretrieval) 信息抽取(Informationextraction) 文字校对(Text-proofing) 问答系统(Questionanswering) 

给一句人类语言的问定,决定其答案。典型问题有特定答案(像是加拿大的首都叫什么?),但也考虑些开放式问句(像是人生的意义是是什么?) 

机器翻译(Machinetranslation) 

将某种人类语言自动翻译至另一种语言 

自动摘要(Automaticsummarization) 

产生一段文字的大意,通常用于提供已知领域的文章摘要,例如产生报纸上某篇文章之摘要 

文字蕴涵(Textualentailment)

自然语言处理目前研究的难点 

单词的边界界定 

在口语中,词与词之间通常是连贯的,而界定字词边界通常使用的办法是取用能让给定的上下文最为通顺且在文法上无误的一种最佳组合。在书写上,汉语也没有词与词之间的边界。 

词义的消歧 

许多字词不单只有一个意思,因而我们必须选出使句意最为通顺的解释。 

句法的模糊性 

自然语言的文法通常是模棱两可的,针对一个句子通常可能会剖析(Parse)出多棵剖析树(ParseTree),而我们必须要仰赖语意及前后文的资讯才能在其中选择一棵最为适合的剖析树。 

有瑕疵的或不规范的输入 

例如语音处理时遇到外国口音或地方口音,或者在文本的处理中处理拼写,语法或者光学字元识别(OCR)的错误。 

语言行为与计划 

句子常常并不只是字面的意思;例如,“你能把盐递过来吗”,一个好的回答应当是动手把盐递过去;在大多数上下文环境中,“能”将是糟糕的回答,虽说回答“不”或者“太远了我拿不到”也是可以接受的。再者,如果一门课程去年没开设,对于提问“这门课程去年有多少学生没通过?”回答“去年没开这门课”要比回答“没人没通过”好。 当前自然语言处理研究的发展趋势: 

第一,传统的基于句法-语义规则的理性主义方法受到质疑,随着语料库建设和语料库语言学的崛起,大规模真实文本的处理成为自然语言处理的主要战略目标。 第二,统计数学方法越来越受到重视,自然语言处理中越来越多地使用机器自动学习的方法来获取语言知识。 第三,浅层处理与深层处理并重,统计与规则方法并重,形成混合式的系统。 第四,自然语言处理中越来越重视词汇的作用,出现了强烈的“词汇主义”的倾向。词汇知识库的建造成为了普遍关注的问题。 第五,统计自然语言处理 

统计自然语言处理运用了推测学、机率、统计的方法来解决上述,尤其是针对容易高度模糊的长串句子,当套用实际文法进行分析产生出成千上万笔可能性时所引发之难题。处理这些高度模糊句子所采用消歧的方法通常运用到语料库以及马可夫模型(Markovmodels)。统计自然语言处理的技术主要由同样自人工智能下与学习行为相关的子领域:机器学习及资料采掘所演进而成。——转自维基百科。

知识图谱与自然语言处理

    最近,在学习AI领域中,非常前沿的一项技术——知识图谱。知识图谱和自然语言处理有着紧密的联系,都属于比较顶级的AI技术。在AI金字塔中处于认知层面。目前,人工智能在学习数据的内在表示,或者根据算法训练得到的模型来进行结果的预测和判别方面表现出了强大的能力,尤其是在感知层面上,比如目前的计算机视觉领域,对于很多人肉眼无法判别的事物,而模型却能作出高精度的识别,并且也有了非常多的工业级的落地产品投入使用。然而在认知层面,目前AI的发展还并未成熟,需要很长的一段路要走,比如NLP和知识图谱。这些领域需要复杂的背景知识和前后上下文的认知和推理以及理解,比如,有一堆数据,我想让模型自己学习和推理出正确的知识,以及知识和知识之间的联系,来学会举一反三。是不是瞬间觉得这才是AI要研究的“智能”。

    知识图谱,这个概念是谷歌在2012年提出的,当时主要是为了将传统的Keyword-Base搜索模型向基于语义的搜索升级。知识图谱可以用来更高的查询复杂的关联信息,从语义层面理解用户意图,改进搜索质量。相比于传统的机器学习算法,我们都明白,利用这些算法训练得到的模型虽然在预测能力上很不错,但是在数据的描述能力上非常弱,知识图谱刚好弥补了这部分的薄弱点。

知识图谱经历了如下几个阶段的演变:

从发展的过程来看,知识图谱是在NLP的基础上发展而来的。关于知识图谱的概念,并没有严格的定义。但一般来讲,知识图谱主要目标是用来描述真实世界中存在的各种实体和概念,以及他们之间的关系,通过这种关系来描述实体之间的关联,比如YoshuaBengio和蒙特利尔大学的关系,和Hinton之间的关系,和NLP之间的关系等等。知识图谱还可以通过人为构建和定义,去描述各种概念之间的弱的关系,比如”上学“和”放学“。具体一点,知识图谱,简单理解就是一个知识库,我们利用这个知识库,给定你要查询的内容,然后到知识库中去进行关联分析和推理,试图让机器理解你的意图,反馈和你查询相关内容的更多关联信息。举个例子,用NLP中的所有研究领域构建知识图谱。然后询问“NLP中的机器翻译的研究学习路线”。知识图谱会查询"NLP"、“机器翻译”和“研究学习”在所有的学习图谱中的直接关系和间接关系,然后给你推荐几个最佳的学习路线。目前,知识图谱在自然语言处理领域有两大类的应用:1)搜索和问答领域。2)自然语言理解类的场景,比如在具体的机器翻译领域,句法分析相关的工作。目前在业界,典型的应用场景如下:

既然知识图谱的核心元素是知识库。那么什么是知识库呢?简单来讲,知识库包含了所有规则的集合,通过这些规则将事实和数据相联系起来,是一种基于知识的系统,具有智能性。目前常见的知识库有很多,如下图所示:

上图所示的内容均为目前比较流行的知识库。比如NLP中常用的WordNet。更通俗的理解,知识库就是大量知识的汇聚。比如我们可以从维基百科,百度百科,搜狗百科等网站获取大量的知识,但是这些知识是由非结构化的自然语言组合而来的,虽然这样有助于人们阅读,但是并不适合计算机处理。所以为了让计算机方便处理和理解,我们需要更加形式化、简洁化的方式来表示知识,因此,引入了三元组。三元组的模型简单的可以表示为(实体,实体关系,实体)。如果把实体看作是结点,把实体关系(包括属性、特征、类别等等)看作是一条边,那么包含了大量三元组的知识库就成为了一个庞大的知识图。实体有时也称为topic,实体关系也可以分为两种,一种是属性(或者称为特征),一种是关系。如下图所示:

                                       图1:JustinBieber知识图

其中蓝色方块表示topic,橙色椭圆包括属性值,他们都属于知识库的实体;蓝色直线表示关系,橙色直线表示属性,他们都统称为知识库的实体关系,都可以用三元组刻画实体和实体之间的关系。

    属性和关系最大的区别在于,属性所在的三元组对应的两个实体,常常是一个topic和一个字符串,如上图所示的Type/Gender,对应的三元组(JustinBieber,Type,Person),而关系所在的三元组所对应的两个实体,常常是两个topic。如关系Place_of_brith,对应的三元组(JustinBieber,Place_of_Brith,London)。

    通过知识图谱,不仅可以将互联网的信息表达成更接近人类认知世界的形式,而且提供了一种更好的组织、管理和利用海量信息的方式。知识图谱在NLP中得到了大量的应用,如下图所示:

                                      图2:知识图谱在NLP中的应用

从上图可以看出,在NLP领域,知识图谱的应用主要集中在搜索和推荐领域,问答系统(其本质也是搜索和推荐的延伸)。在语义搜索这一块,知识图谱的搜索不同于常规的搜索,常规的搜索是根据keyword找到对应的网页集合,然后通过PageRank等算法去给网页集合内的网页进行排名,然后展示给用户;基于知识图谱的搜索是在已有的图谱知识库中遍历知识,然后将查询到的知识返回给用户,通常如果路径正确,查询出来的知识只有1个或几个,并且相当精准。在问答系统中,系统同样会首先在知识图谱的帮助下对用户使用自然语言提出的问题进行语义分析和句法分析,进而将其转化成结构化形式的查询语句,然后在知识图谱中查询答案。

版权声明:本文内容由互联网用户自发贡献,该文观点仅代表作者本人。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如发现本站有涉嫌抄袭侵权/违法违规的内容,一经查实,本站将立刻删除。

上一篇

下一篇