博舍

自然语言处理合适于哪些使用场景NLP应用场景 自然语言处理所涉及的领域是哪些方面

自然语言处理合适于哪些使用场景NLP应用场景

人工智能已经成为大众耳熟能详的词汇,而自然语言处理(NLP)却很少有人了解。自然语言处理合适于哪些使用场景?它属于人工智能的一个子领域,是指用计算机对自然语言的形、音、义等信息进行处理,即对字、词、句、篇章的输入、输出、识别、分析、理解、生成等的操作和加工。它对计算机和人类的交互方式有许多重要的影响。

自然语言处理合适于哪些使用场景?

人类语言经过数千年的发展,已经成为一种微妙的交流形式,承载着丰富的信息,这些信息往往超越语言本身。自然语言处理将成为填补人类通信与数字数据鸿沟的一项重要技术。下面就介绍一下自然语言处理的几个常见应用:

1、机器翻译

随着通信技术与互联网技术的飞速发展、信息的急剧增加以及国际联系愈加紧密,让世界上所有人都能跨越语言障碍获取信息的挑战已经超出了人类翻译的能力范围。

机器翻译因其效率高、成本低满足了全球各国多语言信息快速翻译的需求。机器翻译属于自然语言信息处理的一个分支,能够将一种自然语言自动生成另一种自然语言又无需人类帮助的计算机系统。目前,谷歌翻译、百度翻译、搜狗翻译等人工智能行业巨头推出的翻译平台逐渐凭借其翻译过程的高效性和准确性占据了翻译行业的主导地位。

2、打击垃圾邮件

当前,垃圾邮件过滤器已成为抵御垃圾邮件问题的第一道防线。不过,有许多人在使用电子邮件时遇到过这些问题:不需要的电子邮件仍然被接收,或者重要的电子邮件被过滤掉。事实上,判断一封邮件是否是垃圾邮件,首先用到的方法是“关键词过滤”,如果邮件存在常见的垃圾邮件关键词,就判定为垃圾邮件。但这种方法效果很不理想,一是正常邮件中也可能有这些关键词,非常容易误判,二是将关键词进行变形,就很容易规避关键词过滤。

自然语言处理通过分析邮件中的文本内容,能够相对准确地判断邮件是否为垃圾邮件。目前,贝叶斯(Bayesian)垃圾邮件过滤是备受关注的技术之一,它通过学习大量的垃圾邮件和非垃圾邮件,收集邮件中的特征词生成垃圾词库和非垃圾词库,然后根据这些词库的统计频数计算邮件属于垃圾邮件的概率,以此来进行判定。

3、信息提取

金融市场中的许多重要决策正日益脱离人类的监督和控制。算法交易正变得越来越流行,这是一种完全由技术控制的金融投资形式。但是,这些财务决策中的许多都受到新闻的影响。因此,自然语言处理的一个主要任务是获取这些明文公告,并以一种可被纳入算法交易决策的格式提取相关信息。例如,公司之间合并的消息可能会对交易决策产生重大影响,将合并细节(包括参与者、收购价格)纳入到交易算法中,这或将带来数百万美元的利润影响。

4、文本情感分析

在数字时代,信息过载是一个真实的现象,我们获取知识和信息的能力已经远远超过了我们理解它的能力。并且,这一趋势丝毫没有放缓的迹象,因此总结文档和信息含义的能力变得越来越重要。情感分析作为一种常见的自然语言处理方法的应用,可以让我们能够从大量数据中识别和吸收相关信息,而且还可以理解更深层次的含义。比如,企业分析消费者对产品的反馈信息,或者检测在线评论中的差评信息等。

5、自动问答

随着互联网的快速发展,网络信息量不断增加,人们需要获取更加精确的信息。传统的搜索引擎技术已经不能满足人们越来越高的需求,而自动问答技术成为了解决这一问题的有效手段。自动问答是指利用计算机自动回答用户所提出的问题以满足用户知识需求的任务,在回答用户问题时,首先要正确理解用户所提出的问题,抽取其中关键的信息,在已有的语料库或者知识库中进行检索、匹配,将获取的答案反馈给用户。

6、个性化推荐

自然语言处理可以依据大数据和历史行为记录,学习出用户的兴趣爱好,预测出用户对给定物品的评分或偏好,实现对用户意图的精准理解,同时对语言进行匹配计算,实现精准匹配。例如,在新闻服务领域,通过用户阅读的内容、时长、评论等偏好,以及社交网络甚至是所使用的移动设备型号等,综合分析用户所关注的信息源及核心词汇,进行专业的细化分析,从而进行新闻推送,实现新闻的个人定制服务,最终提升用户粘性。

未来,自然语言处理的发展将使人工智能可以逐渐面对更加复杂的情况、解决更多的问题,也必将为我们带来一个更加智能化的时代。

免费分享一些我整理的人工智能学习资料给大家,包括一些AI常用框架实战视频、图像识别、OpenCV、NLQ、机器学习、计算机视觉、深度学习与神经网络等视频、课件源码、国内外知名精华资源、AI热门论文、行业报告等。

为了更好的系统学习AI,推荐大家收藏一份。

下面是部分截图,点击文末名片关注我的公众号【AI技术星球】发送暗号321领取(一定要发暗号321)

一、人工智能课程及项目【含课件源码】

二、国内外知名精华资源

三、人工智能论文合集

四、人工智能行业报告

学好人工智能,要多看书,多动手,多实践,要想提高自己的水平,一定要学会沉下心来慢慢的系统学习,最终才能有所收获。

点击下方名片,扫码关注公众号【AI技术星球】发送暗号321免费领取文中资料。

自然语言处理的关键技术

自然语言处理技术是所有与自然语言的计算机处理有关的技术的统称,其目的是使计算机理解和接受人类用自然语言输入的指令,完成从一种语言到另一种语言的翻译功能。自然语言处理技术的研究,可以丰富计算机知识处理的研究内容,推动人工智能技术的发展。下面我们就来了解和分析自然语言处理的关键技术。

 

一、 常用技术分类

 

1、   模式匹配技术

模式匹配技术主要是计算机将输入的语言内容与其内已设定的单词模式与输入表达式之间的相匹配的技术。例如计算机的辅导答疑系统,当用户输入的问题在计算机的答疑库里找到相匹配的答案时,就会完成自动回答问题的功能。但是不能总是保证用户输入的问题能得到相应的回答,于是很快这种简单匹配式答疑系统有了改进。答疑库中增加了同义词和反义词,当用户输入关键词的同义词或反义词时,计算机同样能完成答疑,这种改进后的系统被称为模糊匹配式答疑系统。

2、   语法驱动的分析技术

语法驱动的分析技术是指通过语法规则,如词形词性、句子成分等规则,将输入的自然语言转化为相应的语法结构的一种技术。这种分析技术可分为上下文无关文法、转换文法、ATN文法。上下文无关文法是最简单并且应用最为广泛的语法,其规则产生的语法分析树可以翻译大多数自然语言,但由于其处理的词句无关上下文,所以对于某些自然语言的分析是不合适的。转换文法克服了上下文无关文法中存在的一些缺点,其能够利用转换规则重新安排分析树的结构,即能形成句子的表层结构,又能分析句子的深层结构。但其具有较大的不确定性。ATN文法扩充了转移网络,比其他语法加入了测试集合和寄存器,它比转移文法更能准确地分析输入的自然语言,但也具有复杂性、脆弱性、低效性等缺点。

3、   语义文法

语义文法的分析原理与语法驱动相似,但其具有更大的优越性。语义文法中是对句子的语法和语义的共同分析,能够解决语法驱动分析中单一对语法分析带来的不足。它能够根据句子的语义,将输入的自然语言更通顺地表达出来,除去一些语法正确但不合语义的翻译。但是语义文法分析仍然有不容忽视的缺点,其分析的语句中有时会出现不合语法的现象,并且这类分析较为复杂,语义类难以确定,语义的规则太多……因此,语义文法技术仍需要改进措施。

4、   格框架约束分析技术

格框架是由一个头部和一组辅助概念组成的。头部一般是由主要动词构成,辅助概念也称“域”,以某种规范形式与头部相连。格框架定义规定了与头部相应的必有格、随意格和禁止格。在进行格框架约束分析技术时,输入的自然语言被转化为格内容,它既结合了语法驱动分析技术和语义文法分析技术的优点,又能够克服语义文法中不合文法的现象,解决语句的多义性问题。是计算机语言研究中的重大发展之一。

5、   系统文法

系统文法是从多个层次分析自然语言的分析方法,它强调句子的整体结构。其主要是从语法、语义和语音等层次来分析自然语言。每一层次又有三种不同的分析,分别为功用说明、特征说明和组成成分结构分析。系统文法可以根据自然语言的功能特性和组成成分来分析自然语言,但也有系统结构复杂等缺点。

6、   功能文法

功能文法是对句子的完全功能描述,它描述了自然语言的特征组合、功能分配、词语组成成分顺序,是一种既可以用于分析,也可以用于生成的文法。功能文法的分析形式是分析自然语言的主动句规则、主谓一致规则,构成相应的字典入口形式。有一种与功能文法相似的文法系统为词功能文法,它则更强调词典的功能。

7、   故事文法

故事文法的研究则显示计算机翻译输入的自然语言时,不仅仅从语句的语法、语义、结构的角度,还能够从整个故事的情节发展的角度将信息整合得准确到位。但此类文法一般只适用于处理较为简单的,文体较为形式化的故事描述,对于一些情节较为复杂的故事,则不一定能够精确描述。这种技术仍然有待进一步发展研究。

 

二、 中文自然语言处理的关键技术

 

1、   词法分析

词法分析包括词形和词汇两个方面。一般来讲,词形主要表现在对单词的前缀、后缀等的分析,而词汇则表现在对整个词汇系统的控制。在中文全文检索系统中,词法分析主要表现在对汉语信息进行词语切分,即汉语自动分词技术。通过这种技术能够比较准确的分析用户输入信息的特征,从而完成准确的搜索过程。它是中文全文检索技术的重要发展方向。

2、   句法分析

句法分析是对用户输入的自然语言进行词汇短语的分析,目的是识别句子的句法结构,实现自动句法分析过程。其基本方法有线图分析法、短语结构分析、完全句法分析、局部句法分析、依存句法分析等。

3、   语义分析

语义分析是基于自然语言语义信息的一种分析方法,其不仅仅是词法分析和句法分析这样语法水平上的分析,而是涉及到了单词、词组、句子、段落所包含的意义。其目的是从句子的语义结构表示言语的结构。中文语义分析方法是基于语义网络的一种分析方法。语义网络则是一种结构化的,灵活、明确、简洁的表达方式。

4、   语用分析

语用分析相对于语义分析又增加了对上下文、语言背景、环境等的分析,从文章的结构中提取到意象、人际关系等的附加信息,是一种更高级的语言学分析。它将语句中的内容与现实生活的细节相关联,从而形成动态的表意结构。

5、   语境分析

语境分析主要是指对原查询语篇以外的大量“空隙”进行分析从而更为正确地解释所要查询语言的技术。这些“空隙”包括一般的知识,特定领域的知识以及查询用户的需要等。它将自然语言与客观的物理世界和主观的心理世界联系起来,补充完善了词法、语义、语用分析的不足。

 

 

参考文献

【1】、熊回香、夏立新《自然语言处理技术在中文全文检索中的应用》2008

【2】陈肇熊、高庆狮《自然语言处理》1989

NLP(自然语言处理)涉及的范畴有哪些(6)信息抽取

信息抽取

信息抽取(InformationExtraction)是指从非结构化/半结构化文本(如网页、新闻、论文文献、微博等)中提取指定类型的信息(如实体、属性、关系、事件、商品记录等),并通过信息归并、冗余消除和冲突消解等手段将非结构化文本转换为结构化信息的一项综合技术。例如:

•从相关新闻报道中抽取出恐怖事件信息:时间、地点、袭击者、受害人、袭击目标、后果等;

•从体育新闻中抽取体育赛事信息:主队、客队、赛场、比分等;

•从论文和医疗文献中抽取疾病信息:病因、病原、症状、药物等

被抽取出来的信息通常以结构化的形式描述,可以为计算机直接处理,从而实现对海量非结构化数据的分析、组织、管理、计算、查询和推理,并进一步为更高层面的应用和任务(如自然语言理解、知识库构建、智能问答系统、舆情分析系统)提供支撑。

目前信息抽取已被广泛应用于舆情监控、网络搜索、智能问答等多个重要领域。与此同时,信息抽取技术是中文信息处理和人工智能的核心技术,具有重要的科学意义。

一直以来,人工智能的关键核心部件之一是构建可支撑类人推理和自然语言理解的大规模常识知识库。然而,由于人类知识的复杂性、开放性、多样性和巨大的规模,目前仍然无法构建满足上述需求的大规模知识库。

信息抽取技术通过结构化自然语言表述的语义知识,并整合来自海量文本中的不同语义知识,是构建大规模知识库最有效的技术之一。

每一段文本内所包含的寓意可以描述为其中的一组实体以及这些实体相互之间的关联和交互,因此抽取文本中的实体和它们之间的语义关系也就成为了理解文本意义的基础。

信息抽取可以通过抽取实体和实体之间的语义关系,表示这些语义关系承载的信息,并基于这些信息进行计算和推理来有效的理解一段文本所承载的语义。

1.命名实体识别

命名实体识别的目的是识别文本中指定类别的实体,主要包括人名、地名、机构名、专有名词等的任务。

命名实体识别系统通常包含两个部分:实体边界识别和实体分类。

其中实体边界识别判断一个字符串是否是一个实体,而实体分类将识别出的实体划分到预先给定的不同类别中去。

命名实体识别是一项极具实用价值的技术,目前中英文上通用命名实体识别(人名、地名、机构名)的F1值都能达到90%以上。命名实体识别的主要难点在于表达不规律、且缺乏训练语料的开放域命名实体类别(如电影、歌曲名)等。

2.关系抽取

关系抽取指的是检测和识别文本中实体之间的语义关系,并将表示同一语义关系的提及(mention)链接起来的任务。关系抽取的输出通常是一个三元组(实体1,关系类别,实体2),表示实体1和实体2之间存在特定类别的语义关系。

例如,句子“北京是中国的首都、政治中心和文化中心”中表述的关系可以表示为(中国,首都,北京),(中国,政治中心,北京)和(中国,文化中心,北京)。语义关系类别可以预先给定(如ACE评测中的七大类关系),也可以按需自动发现(开放域信息抽取)。

关系抽取通常包含两个核心模块:关系检测和关系分类。

其中关系检测判断两个实体之间是否存在语义关系,而关系分类将存在语义关系的实体对划分到预先指定的类别中。

在某些场景和任务下,关系抽取系统也可能包含关系发现模块,其主要目的是发现实体和实体之间存在的语义关系类别。例如,发现人物和公司之间存在雇员、CEO、CTO、创始人、董事长等关系类别。

3.事件抽取

事件抽取指的是从非结构化文本中抽取事件信息,并将其以结构化形式呈现出来的任务。

例如,从“毛泽东1893年出生于湖南湘潭”这句话中抽取事件{类型:出生,人物:毛泽东,时间:1893年,出生地:湖南湘潭}。

事件抽取任务通常包含事件类型识别和事件元素填充两个子任务。

事件类型识别判断一句话是否表达了特定类型的事件。事件类型决定了事件表示的模板,不同类型的事件具有不同的模板。

例如出生事件的模板是{人物,时间,出生地},而恐怖袭击事件的模板是{地点,时间,袭击者,受害者,受伤人数,…}。事件元素指组成事件的关键元素,事件元素识别指的是根据所属的事件模板,抽取相应的元素,并为其标上正确元素标签的任务。

4.信息集成

实体、关系和事件分别表示了单篇文本中不同粒度的信息。在很多应用中,需要将来自不同数据源、不同文本的信息综合起来进行决策,这就需要研究信息集成技术。

目前,信息抽取研究中的信息集成技术主要包括共指消解技术和实体链接技术。

共指消解指的是检测同一实体/关系/事件的不同提及,并将其链接在一起的任务,例如,识别“乔布斯是苹果的创始人之一,他经历了苹果公司几十年的起落与兴衰”这句话中的“乔布斯”和“他”指的是同一实体。

实体链接的目的是确定实体名所指向的真实世界实体。例如识别上一句话中的“苹果”和“乔布斯”分别指向真实世界中的苹果公司和其CEO史蒂夫·乔布斯。

版权声明:本文内容由互联网用户自发贡献,该文观点仅代表作者本人。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如发现本站有涉嫌抄袭侵权/违法违规的内容,一经查实,本站将立刻删除。

上一篇

下一篇