自然语言处理简单介绍
目录
1 自然语言处理概述
2 自然语言处理过程与方法
3 中文语料库
4 自然语言处理应用举例
5参考资料
1 自然语言处理概述
1.1概念分析
自然语言处理(NLP,NaturalLanguageProcessing)是使用自然语言同计算机进行通讯的技术,自然语言处理是计算机科学领域与人工智能领域的一个重要方向。它研究能实现人与计算机之间用自然语言进行有效通信的各种理论和方法。相对于诸如计算机语言之类人造语言而言,自然语言是指我们日常生活中使用的语言,如中文,英语等。随着通信和计算机相关技术的发展,自然语言处理的应用需求也越来越大,它不断推进AI技术应用的升级,帮助各个产业实现数字化转型。
1.2发展历程
20世纪50年代是人工智能与自然语言处理的萌芽期,出现了许多奠基性的工作。
20世纪80年代后,统计模型给人工智能和自然语言处理领域带来了革命性的进展,人们开始标注语料库用于开发和测试NLP模块,1988年隐马尔可夫模型被用于词性标注,1990年IBM公布了第一个统计机器翻译系统,1995年出现第一个健壮的句法分析器。
2010年之后语料库规模、硬件计算力都得到了很大提升,为神经网络的复兴创造了条件。但随着标注数据的增加,传统模型的准确率提升越来越不明显,人们需要更复杂的模型,于是深层的神经网络重新回归研究者的视野。
2020年,NLP技术仍然在快速发展的车道上。例如内容生成方向,以GPT-3为代表的预训练技术不仅在NLP、甚至在整个AI领域都受到了广泛关注。人机对话方向,谷歌去年初发布了Meena、Facebook发布了Blenderbot等一系列聊天机器人推动了人机对话技术的发展。同时NLP也推动了多模态智能、数字内容生成、图神经网络等技术的发展。
1.3难点
自然语言处理的困难关键在于消除歧义问题,如词法分析、句法分析、语义分析等过程中存在的歧义问题,简称为消歧。同一种语言形式可能具有多种含义,而正确的消歧需要大量的知识,包括语言学知识和世界知识。尤其是中文的词与词之间缺少天然的分隔符,于是中文文字处理比英文等西方语言多一步确定词边界的工序,即“中文自动分词”任务。自动分词处于中文自然语言处理的底层,意味着它是理解语言的第一道工序,但正确的单词切分又需要取决于对文本语义的正确理解。NLP中基于上下文的挑战,如讽刺、特定领域的语言、歧义和基于方面的情感分析,将用现有的方法加以解释,以克服这些挑战。
2自然语言处理过程与方法
2.1过程任务
自然语言处理过程的层次任务包括数据输入源、词法分析、信息抽取、语法分析,下面做简要分析。(1)数据输入源:自然语言处理系统的输入源有语音、图像与文本。其中,语音和图像虽然正引起越来越大的关注,但受制于存储容量和传输速度,它们的信息总量还是没有文本多。(2)词法分析:中文分词、词性标注和命名实体识别都是围绕词语进行分析,所以统称词法分析。词法分析主要任务是将文本分隔为有意义的词语,确定每个词语的类别和浅层的歧义消除,并且识别出一些较长的专有名词。(3)信息抽取:根据这些单词与标签,可以抽取出一部分有用的信息,从简单的高频词到高级算法提取出的关键词,也可以根据词语之间的统计学信息抽取出关键短语乃至句子,更大颗粒度的文本对用户更加友好。(4)语法分析:句法分析分为句法结构分析和依存关系分析。以获取整个句子的句法结构为目的称为完全句法分析,而以获得局部成分为目的的句法分析称为局部分析,依存关系分析简称依存分析。
2.2处理方法简介
从广义的角度来讲,目前自然语言处理的研究从大的角度可分为两类方法,理性主义与经验主义方法。理性主义方法主张建立符号处理系统,经验主义方法主张通过建立特定的数学模型。例如基于规则的专家系统、基于统计的学习方法、基于经典机器学习的方法、基于深度学习的方法等。
3中文语料库
3.1语料库集合
语料(语言材料)是语言学研究的内容,是构成语料库的基本单元。我们把一个文本集称为语料库,当有几个这样的文本集合的时候,我们称之为语料库集合。
3.2语料库介绍
(1)词性标注语料库指的是切分并为每个词语指定一个词性的语料。当前最大的汉语词性标注语料库是《汉语词性标注语料库》,它是对人民日报1998年全文(约2600万字)进行了人工词性标注的语料库。(2)汉语中常用的句法分析语料库主要是汉语树库,树库大体上分为短语结构树库和依存结构树库。短语结构可以用来提取短语,目的是分析句子的产生过程,一般采用句子的结构成分描述句子的结构。依存结构树库是根据句子的依存结构而建立的树库。依存结构描述的是句子中词与词间直接的句法关系,相应的树结构也称为依存树。(3)文本分类语料库指的是人工标注了所属分类的文章构成的语料库。相较于上面介绍的语料库,文本分类语料库的数据量明显要大得多。
4自然语言处理应用举例
(1)情感分析是一种有趣的NLP和数据挖掘任务,用于衡量人们的观点倾向。利用RNN,LSTM等技术的情感分析有助于检查顾客对商品或服务是否满意。人们愿意在社交网络上分享他们的观点,搜索负面文本和识别主要的投诉可以显著地帮助改变概念、改进产品和广告,并减少不满的程度。反过来,明确的正面评论会提高消费者的购买需求。
(2)问答系统是一种涉及到构建能够用自然语言自动回答人类提出的问题的系统。比如Siri、谷歌等虚拟助理。在回答用户问题时,要正确理解用户所提出的问题,抽取其中关键的信息,在已有的语料库或者知识库中进行检索和匹配,然后将获取的答案反馈给用户。
(3)个性化推荐。自然语言处理可以依据大数据和历史行为记录,学习出用户的兴趣爱好,预测出用户对给定物品的评分或偏好,实现对用户意图的精准理解,同时对语言进行匹配计算,实现精准匹配。
(4)网络舆情管理逐渐成为维护社会安全稳定的重要部分,利用诸如人工智能、NLP等计算机专业知识来识别并管理社交平台的异常舆论是相关行业从业者应行之事,同时树立并弘扬科学且正确的价值观同样重要,这也需要我们在教育领域不断探索适合各年龄阶段受众人群的教育方法。
5参考资料
[1]ShaikT,TaoX,LiY,etal.AReviewoftheTrendsandChallengesinAdoptingNaturalLanguageProcessingMethodsforEducationFeedbackAnalysis[J].IEEEAccess,2022.
[2]LiJ,ChenX,HovyE,etal.Visualizingandunderstandingneuralmodelsinnlp[J].arXivpreprintarXiv:1506.01066,2015.
[3]https://www.infoq.cn/article/FLfNXYHX24wbtqwpL3KU
[4]https://zhuanlan.zhihu.com/p/80630002
[5]https://www.ai-indeed.com/aboutNews/1842.html
什么是 NLP (自然语言处理)
NLP(自然语言处理)到底是做什么?
NLP的全称是NaturalLanguageProcessing,翻译成中文称作:自然语言处理。它是计算机和人工智能的一个重要领域。顾名思义,该领域研究如何处理自然语言。
自然语言就是我们人类市场交流所使用的语音和字符系统。就目前而言,NLP所研究的对象,以字符系统——也就是我们通常说的“文字”——为主。
为什么要处理自然语言?
为什么要处理文字呢?因为有需求啊!
我们用文字描述事物、经历和思想。形成的文献资料,除了被阅读,往往还需要进行很多其他操作。
比如,被翻译成其他语种;对内容进行摘要;在其中查找某个问题的答案;或者,了解其中提到了哪些人事物,以及它们之间的关系如何,等等。
虽然所有这些需求,都可以通过人工阅读文献来解决,但“浩如烟海”的文献量导致人工文字处理的产能严重不足。
NLP的发展历程
上世纪40年代计算机被发明,用机器而非人力来处理信息成为可能。早在1950年代,自然语言处理就已经成为了计算机科学的一个研究领域。
不过一直到1980年代,NLP系统是以一套复杂的人工订制规则为基础,计算机只是机械地执行这些规则,或者做一些诸如字符匹配,词频统计之类的简单计算。
1980年代末期,机器学习的崛起为NLP引入了新的思路。刚性的文字处理人工规则日益被柔性的、以概率为基础的统计模型所替代。
近些年来,随着深度学习的发展,各类神经网络也被引入NLP领域,成为了解决问题的技术。
这里要注意了:自然语言处理(NLP)指以计算机为工具解决一系列现实中和自然语言相关的问题,机器学习、深度学习是解决这些问题的具体手段。
当我们关注NLP这一领域时,要分清本末,要做的事情是本,做事的方式方法是末。如果神经网络能够解决我们的问题,我们当然应该采用,但并不是只要去解决问题,就一定要用神经网络。
常见的NLP任务
NLP要处理的问题纷繁复杂,而且每一个问题都要结合相应场景和具体需求才好讨论。
不过这些问题也有相当多的共性,基于这些共性,我们将千奇百怪的待解决NLP问题抽象为若干任务。
例如:分词、词嵌入、新词发现、拼写提示、词性标注、实体抽取、关系抽取、事件抽取、实体消歧、公指消解、文本分类、机器翻译、自动摘要、阅读理解等等,都是常见的NLP任务。
从NLP任务到技术实现
针对这些任务,NLP研究人员探索出了很多方法,这些方法又对应于不同类型的技术。
在工作中,当我们遇到问题的时候,往往需要先将其对应到一个或多个任务,再在该任务的常用实现方法中选取一种适合我们使用的来执行任务。
【举个例子】:我们要基于若干文献构建一个知识图谱,知识图谱的两大核心要素是实体和关系,那么当然首先我们面临的任务就是从这些文献中抽取实体和关系。
实体抽取是一项非常常见的NLP任务,实现它的方法有多种,大体而言分为两个方向:
i)基于实体名字典进行字符匹配抽取;
ii)用序列预测模型进行抽取。
序列预测模型又可以选用机器学习模型,比如条件随机场(CRF);或选用神经网络,比如CRF+LSTM,或CRF+BERT等。
具体选哪种方法呢?那就要看我们需要抽取的实体类型、文献类型和文献量了。
如果现在是从少量专业文献(例如论文、说明书、研究报告等)中抽取一些列专业名词表示的实体,那么用字典匹配方便直接代价小,可以一试。
如果是要从海量的各类文献中抽取一些通用的实体,那么借助模型则可能效果更佳。
具体用机器学习模型还是神经网络呢?这又和我们拥有的标注数据与计算资源有关,如果不差钱,想标多少数据,想训练多大模型都不在乎,上神经网络自然可以追求高准确率,但如果资源捉襟见肘,可能机器学习模型更加实用。
“众智汇”愿景
尽职尽才,允公允能 —— 本社群不定期举行线上分享,组织群友分享知识、经验、资源,以达到让我们每个人的职业生涯得到最大程度的发展的目的。
欢迎扫面下列二维码关注“悦思悦读”公众微信号
探索自然语言处理领域的最新进展与挑战
自然语言处理(NLP)是人工智能领域中最受关注的领域之一,它涉及计算机和人类语言之间的交互。NLP的应用范围非常广泛,包括机器翻译、语音识别、文本分类、情感分析等等。本文将介绍NLP的基本概念和入门知识,以帮助初学者快速上手。
首先,我们需要了解NLP中的一些基本概念。NLP主要涉及自然语言处理和自然语言生成两个方面。自然语言处理是指对文本进行分析和处理,以使计算机能够理解自然语言。而自然语言生成则是指将计算机生成的信息转化为自然语言。在这两个方面中,有几个重要的概念需要了解:
Tokenization:将文本拆分成词语或单词的过程。Part-of-speechtagging:将每个词语标记为名词、动词、形容词等等。Namedentityrecognition:识别文本中的人名、地名、组织名等等。Sentimentanalysis:分析文本中的情感和态度。除了这些基本概念之外,还有一些必要的工具和框架需要掌握,例如Python编程语言、NLTK(自然语言工具包)、spaCy等等。掌握这些工具和框架可以帮助您更好地进行NLP实验和研究。
接下来,让我们来看看如何开始学习NLP。首先,您需要了解NLP领域的一些常用技术和算法,例如基于规则的方法、朴素贝叶斯算法、支持向量机(SVM)等等。您还需要掌握一些数据处理和可视化技能,例如数据清理、数据可视化和探索性数据分析。这些技能将帮助您更好地理解和处理自然语言数据。
除了掌握技能和算法之外,还需要进行实际的项目练习。您可以选择一些经典的NLP项目,例如垃圾邮件过滤、情感分析、文本分类等等。通过这些实际项目,您可以更好地理解NLP技术和算法,并且获得实际项目经验。
在自然语言处理(NLP)的领域中,深度学习模型已经被证明是非常成功的。这些模型可以学习自然语言的语义和结构,并在诸如情感分析、机器翻译、自动问答等任务上取得出色的表现。下面将介绍一些常用的深度学习模型以及它们在NLP中的应用。
循环神经网络(RNN)循环神经网络是一种递归神经网络,它的前一个输出会被作为下一个输入的一部分,以此实现对序列数据的处理。由于自然语言是一种序列数据,因此循环神经网络在NLP中得到了广泛应用。其中,长短时记忆网络(LSTM)和门控循环单元(GRU)是两种常用的循环神经网络结构。
卷积神经网络(CNN)卷积神经网络是一种用于图像处理的神经网络,但是它也可以用于NLP中的文本分类任务。在文本分类任务中,我们可以将文本看做是一维序列数据,将卷积神经网络应用于文本数据中,并使用一维卷积操作提取特征,然后将这些特征传递到全连接层进行分类。
注意力机制(AttentionMechanism)注意力机制是一种能够将不同部分的信息组合在一起的方法。在NLP中,我们可以使用注意力机制来解决机器翻译任务。当我们将一个句子从一种语言翻译到另一种语言时,某些单词在目标语言中可能不存在,而某些单词可能有多种翻译。在这种情况下,我们需要一种机制来选择正确的单词进行翻译。注意力机制就是这样一种机制,它可以根据上下文中的单词选择正确的翻译单词。
生成对抗网络(GAN)生成对抗网络是一种能够生成新样本的深度学习模型,它由生成器和判别器两部分组成。在NLP中,生成对抗网络可以用于生成文本,例如自动写作、聊天机器人等。生成器会根据一些输入数据生成新的文本,而判别器则会判断这个文本是否为真实的文本。通过不断优化生成器和判别器,生成对抗网络可以不断生成更加逼真的文本。
另外,NLP研究还涉及到自然语言生成(NaturalLanguageGeneration,NLG)、对话系统(DialogueSystems)、情感分析(SentimentAnalysis)、文本分类(TextClassification)、信息抽取(InformationExtraction)、机器翻译(MachineTranslation)等方面。在这些方向上,也有很多经典的论文值得一读。
除了阅读论文,还有一些其他的学习方法可以帮助你更好地掌握NLP知识。比如,你可以参加NLP的相关课程,如斯坦福大学的CS224N或者多伦多大学的CSC413/2516。此外,参加相关的竞赛和项目也是一个很好的学习方式,如Kaggle、NLPCC、SemEval等竞赛。
最后,如果你想要深入研究NLP,还可以考虑阅读相关的专业书籍,如《SpeechandLanguageProcessing》、《FoundationsofStatisticalNaturalLanguageProcessing》、《NeuralNetworkMethodsinNaturalLanguageProcessing》等。
总之,要想学好NLP,阅读论文是必不可少的一步。通过阅读经典论文,你可以更好地了解NLP的基本概念和最新进展,同时也可以学习到一些重要的技术和方法。同时,结合其他学习方法,如参加相关的课程、竞赛和项目,阅读相关的书籍,可以帮助你更好地掌握NLP知识,成为一名优秀的NLP研究者或者从业者。
希望这篇文章能够帮助你更好地入门NLP,同时也为你提供了一些学习NLP的有效方法。需要相关z料可以关注g众Hao【Ai技术星球】回复(123)必领 还有500g人工智能学习z料领(内含电子书、论文合集、最新技术资料、行业报告等)~~自然语言处理领域的研究方向
原标题:自然语言处理领域的研究方向一、自然语言处理概述
自然语言处理是一个传统的研究领域,近年来也出现了很多创新的领域,比如计算机视觉交叉的应用以及跟机器人科学地交叉。自然语言的理解和处理是人工智能领域的传统任务,是人工智能的终极目标之一,也依然是最困难的任务之一。多年以来,“图灵测试”被广泛认为是标准的人工智能评测任务。经历了长时间的一本正经的胡说八道的争议,目前人们普遍广泛接受的观点是:理解语言是迈向人工智能的关键一步。(这可谓是一句废话)。自然语言处理在工业界也有巨大的应用前景。以Google,Facebook,Microsoft为代表的一些顶尖公司,以及子子孙孙无穷尽的创业公司以自然语言处理技术为核心,开展了大量有影响力,值得关注的工作。这些研究工作中有一些开启了人工智能的新篇章,但有一些又宛如智障。
二、自然语言处理中的主要任务
词性标注与(中文)分词。
词性标注是自然语言处理中最基础的研究领域之一。分词则是中文自然语言处理里的重要任务。当前词性标注任务已经较为成熟,发展空间已经不是很大,而中文分词则基本不被外国高校所关注。
语法解析
语法解析长久以来是自然语言理解的核心方法,旨在通过解析语言的语法结构来理解语义。语法解析的研究已持续数十年,做出突破难度较大,国内高校对于这一方向的努力一直不是很多。如何科学地把语法解析结果应用在其它任务中,是当前NLP和计算语言学领域所有研究者共同感兴趣的话题。这是一个意识形态问题,搞自然语言的学者很多觉得用到语言学的知识更能体现逼格。但语言学结论近年来的确没有受到足够的重视。
语言模型
语言模型的基本任务是通过上文预测下文。预测准确率越高,语言模型性能越好,标志着模型对于该语言的学习/拟合能力越强。从应用的角度上说,有利于文本表示学习的性能。Bengio老人家03年的神经语言模型现在基本上已经是必引用的文献了,虽然多数引用它的人可能也没仔细看过
信息检索
信息检索包括文本检索和多媒体检索,是搜索引擎的核心技术,也是自然语言处理领域的重要应用。NLP领域关注的信息检索主要是通过短文本检索长文档的任务,也有通过文本检索图片的任务。信息检索目前主要关注的问题是搜索结果的排序和个性化推荐。
信息抽取
信息抽取旨在从非结构化的文本数据中抽取结构化的目标信息。这是一个热点的任务,但是当前模型大多只能进行单一任务的信息抽取,效果也不是特别好。因此将来一段时间,信息抽取还会是一个热门话题。该任务也是其它行业对人工智能最热切的期待之一。行业外的人经常问自然语言处理能不能做这个做那个,大多数是在问能不能从非结构化的海量文本中提取特定的某些信息。这也是所谓大数据公司或者大数据服务提供商的核心技术。信息抽取和数据挖掘有很多交叉和重叠.申请时如果是做这一方面,可以考虑同时申自然语言处理和数据挖掘。反过来如果当前研究方向是数据挖掘,也可以考虑套磁自然语言处理领域对信息抽取感兴趣的老师。
展开全文语义表示
语义表示是当前诸多NLP任务的基础之一,目标是将字,词,句,文章的语义表示在合适的向量空间中,以此为基础提高各项任务中模型的性能。随着机器学习的发展,语义表示已成为自然语言处理的一大核心。尤其最近深度学习很火,这一领域也是火得不行。
文本分类
文本分类旨在将不同的文本进行分类,以进行进一步的处理。例如百度曾通过文本分类结果作为广告推荐的依据。目前大多数关于文本分类的研究主要目的是证明文本表示模型的优越性。
机器翻译
有关机器翻译这一任务的研究已延续数十年。与词性标注,语法解析任务不同,机器翻译模型的性能依然不够强。当前流行的方法是应用深度学习实现高性能的机器翻译。这一任务依然任重道远。学术界,工业界都相当关注。
对话系统
对话系统的目标是实现能和人类对话的机器人,这是一个难以实现,难以评测的任务。近年来学术界和工业界对深度学习在对话系统中的应用很感兴趣。该任务会一直是一个热门话题。最近几年研究人员关于对话系统进行了深入的哲学探讨,大家都很期待做出靠谱的应用。
问答系统
问答系统可以说是一个简单版的对话系统,通常是在进行关于特定领域内知识的问答。近年来也有人提出阅读理解式的问答(类似高考英语阅读理解),以及关于给定图像进行问答的任务。问答系统比对话系统更容易实现和评测,但也存在问答系统面临的诸多问题。
情感计算
情感计算旨在分析社交网络发言、电商平台评论等文本的情感倾向,有较为广阔的应用前景,也受到了广泛关注。目前的情感计算主要是建立在强大的语义表示模型上。
三、NLP领域的任务分为两个类别:
第一类是人工智能NLP。包括词性标注,分词,语法解析,语言模型,信息检索,信息抽取,语义表示,文本分类。这些任务发展较为成熟,各种相关工作的主要目的是提高当前模型的性能。
第二类是人工智障NLP。包括机器翻译,对话系统,问答系统。目前模型的性能尚不尽如人意,有些任务上甚至没有足够多的,真正有影响力的工作。
四、美国名校NLP领域教授及研究组的列表
MITNLPGroup:ReginaBarzilay,TommiJaakkola
http://nlp.csail.mit.edu/
HarvardNLPGroup:AlexandarRush
http://nlp.seas.harvard.edu/
StanfordNLPGroup:ChrisManning,DanJurafsky,PercyLiang
http://nlp.stanford.edu/
BerkeleyNLPGroup:DanKlein
http://nlp.cs.berkeley.edu/
CMUNLP:TomMitchell,etc
http://www.cs.cmu.edu/~nasmith/nlp-cl.html
ColumbiaNLP:MichealCollins,DavidBlei
http://www.cs.columbia.edu/nlp/people.cgi
CornellNLPGroup:LillianLee
http://nlp.cornell.edu/
UIUCNLPGroup:
http://nlp.cs.illinois.edu/
UPennNLPGroup
http://nlp.cis.upenn.edu/people.php
UMICHNLP:DragomirR.Radev
http://web.eecs.umich.edu/~radev/
NorthwesternNLPGroup:KnightLab
http://knightlab.northwestern.edu/tag/natural-language-processing/返回搜狐,查看更多
责任编辑: