什么是自然语言处理(NLP)定义+应用一次性看个明白
不懂什么是自然语言处理?它在商业智能中又有哪些应用?带着这样的疑问,慧都网将从定义和应用两个方向,通过3分钟的时间快速了解自然语言处理(NLP)。
语言是一项基本的沟通工具。人类使用语言来传递信息和意义,人类善于用语言来描述现实世界。我们通常会通过语义线索来实现这一点,语义线索可以是文字,符号或者图像,它能提供与现实世界中所代表的事物更紧密的联系。当人们看到文本时,他们通常能理解其中的含义。而当计算机看到文本时,它们只能看到字符串,无法将其对应到现实世界的事物或者理解其中包含的想法。随着人类越来越依赖于计算系统,计算机理解文本和语言也变得越来越重要。这就是自然语言处理(NLP)的作用。现在,机器学习和人工智能正在不断发展,自然语言处理正是计算机与人类交流之间的桥梁。
什么是自然语言处理?自然语言处理是计算机科学和计算语言学中的一个领域,用于研究人类(自然)语言和计算机之间的相互作用。语义是指单词之间的关系和意义。自然语言处理的重点是帮助计算机利用信息的语义结构(数据的上下文)来理解含义。
例如,统计图表可能非常抽象。下图是一个对数图表,展示了各种动物的大脑和体重之间的关系。
现在,如果我们应用语义来更好地表达此图的含义,它将如下所示:
第二张图表使用了与每个动物相关的图像。然后图表立即变得更有意义了,因为我们的视觉系统不必识别前一图像中杂乱的文本标签。
同样地,计算机使用语义来为单词和文本分配含义和意图。这能允许计算机和最终用户之间的对话。
自然语言处理的例子自然语言已经渗透到日常生活中。最常见的自然语言技术有Alexa,Siri和GoogleAssistant等,这些技术能够通过识别语音模式来推断意义并提供适当的响应。NLP也是一些Gmail功能的基础。例如Gmail使用NLP来自动解析并理解电子邮件的内容,它能够检测到像会议邀请,包裹发货通知和提醒等的内容。
NLP使用强大的解析,语法规则和算法来从人们的话语中获得意图。话语是通用语言中的语句或问题片段,由一系列的关键字组成。
NLP另一个常见的例子是网络搜索引擎。当您在搜索引擎中输入短语时,它将根据其他类似的搜索行为提供建议。您还可以在社交媒体网站上的搜索功能中看到它。例如,搜索“我认识的居住在奥斯汀的人”,这将显示在该地区的朋友列表。
自然语言如何影响商业智能如今,商业智能(BI)供应商正在为可视化提供自然语言界面,以便用户可以自然地与他们的数据进行交互,在他们想到问题时提出问题。在BI市场中,自然语言通常被归类在“智能分析”中,与机器学习和人工智能的应用有关。
自然语言处理能够为所有层次的用户(从初级到高级)开放数据分析,因为使用该技术来获得见解并不需要深入了解BI工具。
“每个人都渴望获得有关数据的见解。自然语言是解决这一问题的一种重要方式。它能够让您询问有关数据的问题,而不需要考虑这样做的原理。”——Tableau自然语言团队的开发经理VidyaSetlur
在询问有关数据的问题时,人们通常不会从空白状态开始。我们经常会依赖上下文来激发我们的好奇心。同样地,在BI工具中,NLP系统利用对话中的上下文来理解用户查询背后的意图并进行进一步对话,从而创建更自然的对话体验。
例如,如果某人对他的数据有后续问题时,他不必复述问题以深入挖掘或澄清歧义。您可以使用BI工具“查找加利福尼亚附近的大地震”,然后提出一个后续问题,例如“德克萨斯附近怎么样?”而不需要在第二个问题中也提到地震。
上图是某人在Tableau自然语言功能中询问数据问题的例子,AskData。
BI工具中的自然语言功能能够让人们通过简单地与数据的交谈来获得洞察力。随着BI行业自然语言的日趋成熟,它将打破组织采用分析的障碍,并改变人们与数据交互的方式。
慧都BI提供Tableau的产品和技术服务,更有企业级BI业务分析解决方案,我们拥有包括Qlik、Tableau、PowerBI和IBMCognos全球领先的BI产品,并提供相关解决方案,让数据创造无限价值。
与此同时可以拨打慧都热线023-68661681或咨询慧都在线客服,我们将帮您转接BI专业团队,并发送相关资料给您!
自然语言处理发展,主要存在哪些难点
1.语言不规范,灵活性高
自然语言并不规范,虽然可以找一些基本规则,但是自然语言太灵活了,同一个意思可以用多种方式来表达,不管是基于规则来理解自然语言还是通过机器学习来学习数据内在的特征都显得比较困难。
2.错别字
在处理文本时,我们会发现有大量的错别字,怎么样让计算机理解这些错别字想表达的真正含义,也是NLP的一大难点
3.新词
我们处在互联网高速发展的时代,网上每天都会产生大量的新词,我们如何快速地发现这些新词,并让计算机理解也是NLP的难点
4.用词向量来表示词依然存在不足
上述,我们讲到,我们是通过词向量来让计算机理解词,但是词向量所表示的空间,它是离散,而不是连续,比如表示一些正面的词:好,很好,棒,厉害等,在“好”到“很好”的词向量空间中,你是不能找到一些词,从“好”连续到“很好”,所以它是离散、不连续的,不连续最大的问题就是不可导.计算机是处理可导的函数非常容易,不可导的话,计算量就上来了。当然现在也有一些算法是计算词向量做了连续近似化,但这肯定伴随着信息的损失。总之,词向量并不是最好的表示词的方式,需要一种更好的数学语言来表示词,当然可能我们人类的自然语言本身就是不连续的,或者人类无法创建出“连续”的自然语言。人工智能、大数据、云计算和物联网的未来发展值得重视,均为前沿产业,有兴趣的朋友,可以查阅多智时代,在此为你推荐几篇优质好文:自然语言理解过程主要有哪些层次,各层次的功能是怎么样?http://www.duozhishidai.com/article-1726-1.html如何快速入门NLP自然语言处理概述http://www.duozhishidai.com/article-11742-1.html什么是人脸识别,主要的应用于哪些场景?http://www.duozhishidai.com/article-1246-1.html
多智时代-人工智能和大数据学习入门网站|人工智能、大数据、物联网、云计算的学习交流网站
什么是 NLP (自然语言处理)
NLP(自然语言处理)到底是做什么?
NLP的全称是NaturalLanguageProcessing,翻译成中文称作:自然语言处理。它是计算机和人工智能的一个重要领域。顾名思义,该领域研究如何处理自然语言。
自然语言就是我们人类市场交流所使用的语音和字符系统。就目前而言,NLP所研究的对象,以字符系统——也就是我们通常说的“文字”——为主。
为什么要处理自然语言?
为什么要处理文字呢?因为有需求啊!
我们用文字描述事物、经历和思想。形成的文献资料,除了被阅读,往往还需要进行很多其他操作。
比如,被翻译成其他语种;对内容进行摘要;在其中查找某个问题的答案;或者,了解其中提到了哪些人事物,以及它们之间的关系如何,等等。
虽然所有这些需求,都可以通过人工阅读文献来解决,但“浩如烟海”的文献量导致人工文字处理的产能严重不足。
NLP的发展历程
上世纪40年代计算机被发明,用机器而非人力来处理信息成为可能。早在1950年代,自然语言处理就已经成为了计算机科学的一个研究领域。
不过一直到1980年代,NLP系统是以一套复杂的人工订制规则为基础,计算机只是机械地执行这些规则,或者做一些诸如字符匹配,词频统计之类的简单计算。
1980年代末期,机器学习的崛起为NLP引入了新的思路。刚性的文字处理人工规则日益被柔性的、以概率为基础的统计模型所替代。
近些年来,随着深度学习的发展,各类神经网络也被引入NLP领域,成为了解决问题的技术。
这里要注意了:自然语言处理(NLP)指以计算机为工具解决一系列现实中和自然语言相关的问题,机器学习、深度学习是解决这些问题的具体手段。
当我们关注NLP这一领域时,要分清本末,要做的事情是本,做事的方式方法是末。如果神经网络能够解决我们的问题,我们当然应该采用,但并不是只要去解决问题,就一定要用神经网络。
常见的NLP任务
NLP要处理的问题纷繁复杂,而且每一个问题都要结合相应场景和具体需求才好讨论。
不过这些问题也有相当多的共性,基于这些共性,我们将千奇百怪的待解决NLP问题抽象为若干任务。
例如:分词、词嵌入、新词发现、拼写提示、词性标注、实体抽取、关系抽取、事件抽取、实体消歧、公指消解、文本分类、机器翻译、自动摘要、阅读理解等等,都是常见的NLP任务。
从NLP任务到技术实现
针对这些任务,NLP研究人员探索出了很多方法,这些方法又对应于不同类型的技术。
在工作中,当我们遇到问题的时候,往往需要先将其对应到一个或多个任务,再在该任务的常用实现方法中选取一种适合我们使用的来执行任务。
【举个例子】:我们要基于若干文献构建一个知识图谱,知识图谱的两大核心要素是实体和关系,那么当然首先我们面临的任务就是从这些文献中抽取实体和关系。
实体抽取是一项非常常见的NLP任务,实现它的方法有多种,大体而言分为两个方向:
i)基于实体名字典进行字符匹配抽取;
ii)用序列预测模型进行抽取。
序列预测模型又可以选用机器学习模型,比如条件随机场(CRF);或选用神经网络,比如CRF+LSTM,或CRF+BERT等。
具体选哪种方法呢?那就要看我们需要抽取的实体类型、文献类型和文献量了。
如果现在是从少量专业文献(例如论文、说明书、研究报告等)中抽取一些列专业名词表示的实体,那么用字典匹配方便直接代价小,可以一试。
如果是要从海量的各类文献中抽取一些通用的实体,那么借助模型则可能效果更佳。
具体用机器学习模型还是神经网络呢?这又和我们拥有的标注数据与计算资源有关,如果不差钱,想标多少数据,想训练多大模型都不在乎,上神经网络自然可以追求高准确率,但如果资源捉襟见肘,可能机器学习模型更加实用。
“众智汇”愿景
尽职尽才,允公允能 —— 本社群不定期举行线上分享,组织群友分享知识、经验、资源,以达到让我们每个人的职业生涯得到最大程度的发展的目的。
欢迎扫面下列二维码关注“悦思悦读”公众微信号