什么是自然语言处理(NLP)定义+应用一次性看个明白
不懂什么是自然语言处理?它在商业智能中又有哪些应用?带着这样的疑问,慧都网将从定义和应用两个方向,通过3分钟的时间快速了解自然语言处理(NLP)。
语言是一项基本的沟通工具。人类使用语言来传递信息和意义,人类善于用语言来描述现实世界。我们通常会通过语义线索来实现这一点,语义线索可以是文字,符号或者图像,它能提供与现实世界中所代表的事物更紧密的联系。当人们看到文本时,他们通常能理解其中的含义。而当计算机看到文本时,它们只能看到字符串,无法将其对应到现实世界的事物或者理解其中包含的想法。随着人类越来越依赖于计算系统,计算机理解文本和语言也变得越来越重要。这就是自然语言处理(NLP)的作用。现在,机器学习和人工智能正在不断发展,自然语言处理正是计算机与人类交流之间的桥梁。
什么是自然语言处理?自然语言处理是计算机科学和计算语言学中的一个领域,用于研究人类(自然)语言和计算机之间的相互作用。语义是指单词之间的关系和意义。自然语言处理的重点是帮助计算机利用信息的语义结构(数据的上下文)来理解含义。
例如,统计图表可能非常抽象。下图是一个对数图表,展示了各种动物的大脑和体重之间的关系。
现在,如果我们应用语义来更好地表达此图的含义,它将如下所示:
第二张图表使用了与每个动物相关的图像。然后图表立即变得更有意义了,因为我们的视觉系统不必识别前一图像中杂乱的文本标签。
同样地,计算机使用语义来为单词和文本分配含义和意图。这能允许计算机和最终用户之间的对话。
自然语言处理的例子自然语言已经渗透到日常生活中。最常见的自然语言技术有Alexa,Siri和GoogleAssistant等,这些技术能够通过识别语音模式来推断意义并提供适当的响应。NLP也是一些Gmail功能的基础。例如Gmail使用NLP来自动解析并理解电子邮件的内容,它能够检测到像会议邀请,包裹发货通知和提醒等的内容。
NLP使用强大的解析,语法规则和算法来从人们的话语中获得意图。话语是通用语言中的语句或问题片段,由一系列的关键字组成。
NLP另一个常见的例子是网络搜索引擎。当您在搜索引擎中输入短语时,它将根据其他类似的搜索行为提供建议。您还可以在社交媒体网站上的搜索功能中看到它。例如,搜索“我认识的居住在奥斯汀的人”,这将显示在该地区的朋友列表。
自然语言如何影响商业智能如今,商业智能(BI)供应商正在为可视化提供自然语言界面,以便用户可以自然地与他们的数据进行交互,在他们想到问题时提出问题。在BI市场中,自然语言通常被归类在“智能分析”中,与机器学习和人工智能的应用有关。
自然语言处理能够为所有层次的用户(从初级到高级)开放数据分析,因为使用该技术来获得见解并不需要深入了解BI工具。
“每个人都渴望获得有关数据的见解。自然语言是解决这一问题的一种重要方式。它能够让您询问有关数据的问题,而不需要考虑这样做的原理。”——Tableau自然语言团队的开发经理VidyaSetlur
在询问有关数据的问题时,人们通常不会从空白状态开始。我们经常会依赖上下文来激发我们的好奇心。同样地,在BI工具中,NLP系统利用对话中的上下文来理解用户查询背后的意图并进行进一步对话,从而创建更自然的对话体验。
例如,如果某人对他的数据有后续问题时,他不必复述问题以深入挖掘或澄清歧义。您可以使用BI工具“查找加利福尼亚附近的大地震”,然后提出一个后续问题,例如“德克萨斯附近怎么样?”而不需要在第二个问题中也提到地震。
上图是某人在Tableau自然语言功能中询问数据问题的例子,AskData。
BI工具中的自然语言功能能够让人们通过简单地与数据的交谈来获得洞察力。随着BI行业自然语言的日趋成熟,它将打破组织采用分析的障碍,并改变人们与数据交互的方式。
慧都BI提供Tableau的产品和技术服务,更有企业级BI业务分析解决方案,我们拥有包括Qlik、Tableau、PowerBI和IBMCognos全球领先的BI产品,并提供相关解决方案,让数据创造无限价值。
与此同时可以拨打慧都热线023-68661681或咨询慧都在线客服,我们将帮您转接BI专业团队,并发送相关资料给您!
自然语言处理(NLP)之一:文本预处理(文本准备)
1.文本预处理概述和机器学习任务一样,自然语言处理任务的第一步工作也是文本(数据)准备或叫文本(数据)预处理。文本预处理的流程如下图所示:文本预处理工作以分词步骤为界,之前的文本标准化和文本清洗是语料级(篇章级)颗粒度文本处理,之后词的清洗、标准化和文本表示是单词级颗粒度文本处理。
语料级文本处理的作用对象是数据集中的每一篇语料,它比单词级文本处理效率更高,并且可以提前去除影响分词效果的障碍(如:英文中按空格分词,但与单词直接相邻的逗号等标点会产生非标准单词的分词结果(‘word,’标准形式应该是’word’))。
单词级文本处理执行在语料分词之后,它的处理对象是每篇语料中的每一个单词,主要执行单词的过滤、单词写法的标准化(如大写数字与阿拉伯数字书写形式的统一、统一英文单词不同时态、语态书写形式的统一等)、拼写纠错和文本表示四大步工作。
2.文本标准化2.1字符编码标准化(全角英文字符转半角)在计算机中,所有中文字符都是全角字符,而英文字母、阿拉伯数字及符号有全角和半角两种unicode编码方式。它们的全角字符unicode编码从65281~65374(十六进制0xFF01~0xFF5E),半角字符unicode编码从33~126(十六进制0x21~0x7E);而空格符比较特殊,全角unicode编码为12288(0x3000),半角为32(0x20)。
可见除空格符外,每个全角字符的unicode编码等于其半角字符的unicode编码加65248,因此字符unicode编码标准化实现代码如下:
#全角转半角deffull_to_half(text:str):#输入为一个句子_text=""forcharintext:inside_code=ord(char)#以一个字符(长度为1的字符串)作为参数,返回对应的ASCII数值ifinside_code==12288:#全角空格直接转换inside_code=32elif65281