什么是 NLP (自然语言处理)
NLP(自然语言处理)到底是做什么?
NLP的全称是NaturalLanguageProcessing,翻译成中文称作:自然语言处理。它是计算机和人工智能的一个重要领域。顾名思义,该领域研究如何处理自然语言。
自然语言就是我们人类市场交流所使用的语音和字符系统。就目前而言,NLP所研究的对象,以字符系统——也就是我们通常说的“文字”——为主。
为什么要处理自然语言?
为什么要处理文字呢?因为有需求啊!
我们用文字描述事物、经历和思想。形成的文献资料,除了被阅读,往往还需要进行很多其他操作。
比如,被翻译成其他语种;对内容进行摘要;在其中查找某个问题的答案;或者,了解其中提到了哪些人事物,以及它们之间的关系如何,等等。
虽然所有这些需求,都可以通过人工阅读文献来解决,但“浩如烟海”的文献量导致人工文字处理的产能严重不足。
NLP的发展历程
上世纪40年代计算机被发明,用机器而非人力来处理信息成为可能。早在1950年代,自然语言处理就已经成为了计算机科学的一个研究领域。
不过一直到1980年代,NLP系统是以一套复杂的人工订制规则为基础,计算机只是机械地执行这些规则,或者做一些诸如字符匹配,词频统计之类的简单计算。
1980年代末期,机器学习的崛起为NLP引入了新的思路。刚性的文字处理人工规则日益被柔性的、以概率为基础的统计模型所替代。
近些年来,随着深度学习的发展,各类神经网络也被引入NLP领域,成为了解决问题的技术。
这里要注意了:自然语言处理(NLP)指以计算机为工具解决一系列现实中和自然语言相关的问题,机器学习、深度学习是解决这些问题的具体手段。
当我们关注NLP这一领域时,要分清本末,要做的事情是本,做事的方式方法是末。如果神经网络能够解决我们的问题,我们当然应该采用,但并不是只要去解决问题,就一定要用神经网络。
常见的NLP任务
NLP要处理的问题纷繁复杂,而且每一个问题都要结合相应场景和具体需求才好讨论。
不过这些问题也有相当多的共性,基于这些共性,我们将千奇百怪的待解决NLP问题抽象为若干任务。
例如:分词、词嵌入、新词发现、拼写提示、词性标注、实体抽取、关系抽取、事件抽取、实体消歧、公指消解、文本分类、机器翻译、自动摘要、阅读理解等等,都是常见的NLP任务。
从NLP任务到技术实现
针对这些任务,NLP研究人员探索出了很多方法,这些方法又对应于不同类型的技术。
在工作中,当我们遇到问题的时候,往往需要先将其对应到一个或多个任务,再在该任务的常用实现方法中选取一种适合我们使用的来执行任务。
【举个例子】:我们要基于若干文献构建一个知识图谱,知识图谱的两大核心要素是实体和关系,那么当然首先我们面临的任务就是从这些文献中抽取实体和关系。
实体抽取是一项非常常见的NLP任务,实现它的方法有多种,大体而言分为两个方向:
i)基于实体名字典进行字符匹配抽取;
ii)用序列预测模型进行抽取。
序列预测模型又可以选用机器学习模型,比如条件随机场(CRF);或选用神经网络,比如CRF+LSTM,或CRF+BERT等。
具体选哪种方法呢?那就要看我们需要抽取的实体类型、文献类型和文献量了。
如果现在是从少量专业文献(例如论文、说明书、研究报告等)中抽取一些列专业名词表示的实体,那么用字典匹配方便直接代价小,可以一试。
如果是要从海量的各类文献中抽取一些通用的实体,那么借助模型则可能效果更佳。
具体用机器学习模型还是神经网络呢?这又和我们拥有的标注数据与计算资源有关,如果不差钱,想标多少数据,想训练多大模型都不在乎,上神经网络自然可以追求高准确率,但如果资源捉襟见肘,可能机器学习模型更加实用。
“众智汇”愿景
尽职尽才,允公允能 —— 本社群不定期举行线上分享,组织群友分享知识、经验、资源,以达到让我们每个人的职业生涯得到最大程度的发展的目的。
欢迎扫面下列二维码关注“悦思悦读”公众微信号
什么是语言模型及其作用自然语言处理中的重要组成部分
语言模型是自然语言处理(NLP)中的一种模型,用于预测一个给定上下文中下一个词或字符的概率分布。它是一个统计模型,通过学习大量文本数据中的语言规律和模式,来对语言的结构和概率进行建模。
语言模型的作用有以下几个方面:
生成文本:语言模型可以用于生成新的文本,即在给定一段初始文本的情况下,模型能够自动预测下一个最可能出现的词或字符。这对于自动文本生成、机器翻译、对话系统等任务非常有用。
文本评估和纠错:语言模型可以用于评估一段文本的流畅性和合理性。通过计算给定文本序列的概率,可以判断其是否符合语言规则和上下文的连贯性。在自然语言处理中,语言模型常常被用于纠正语法错误、拼写错误和语义错误。
信息检索和推荐系统:语言模型可以用于对查询进行建模,根据查询的上下文和语义,预测用户可能感兴趣的相关词汇或文本片段。这在信息检索、搜索引擎和推荐系统中具有重要的应用。
对话系统:语言模型可以用于对话系统中的自然语言理解和生成。它可以帮助系统理解用户的意图,生成自然流畅的回复,并保持对话的连贯性和一致性。
文本分类和情感分析:语言模型可以用于对文本进行分类和情感分析。通过学习语言模型,可以捕捉文本中的关键特征和上下文信息,从而对文本进行分类,如情感分类、主题分类等。
总之,语言模型在自然语言处理中扮演着重要的角色,能够对语言的结构和概率进行建模,从而在文本生成、文本评估、信息检索、对话系统、文本分类等任务中发挥作用。
整理了有关人工智能的籽料,有图像处理opencv自然语言处理、机器学习、数学基础等人工智能资料,深度学习神经网络+CV计算机视觉学习(两大框架pytorch/tensorflow+源free免费提供关注v❤公众H:AI技术星球 回复暗号 123