博舍

自然语言处理领域国内外著名会议和期刊 自然语言处理的相关技术有哪些

自然语言处理领域国内外著名会议和期刊

本文介绍自然语言处理(NaturalLanguageProcessing,NLP)领域的一些国内外著名会议和期刊。自然语言处理(NLP)和计算语言学(ComputationalLinguistics,CL)有很多重合之处。

国际会议

ACL、EMNLP、NAACL 和 COLING 可以说是NLP领域的四大顶会。其中ACL、EMNLP、NAACL都是一家的(均由ACL举办)。ACL是 CCF 推荐A类国际学术会议,EMNLP和COLING是B类,NAACL则是C类。

ACL

https://www.aclweb.org/portal

ACL 全称 TheAssociationforComputationalLinguistics,是自然语言处理与计算语言学领域(以下简称NLP/CL)最权威的国际专业学会,ACL成立于1962年,是自然语言处理(NLP)领域影响力最大、最具活力的顶级国际学术组织,每年举办一次。这个学会主办了NLP/CL领域最权威的国际会议,即ACL年会。1982年和1999年,ACL分别成立了欧洲分会(EACL)和北美分会(NAACL)两个区域性分会。近年来,亚太地区在自然语言处理方面的研究进步显著,2018年7月15日,第56届ACL年会在澳大利亚墨尔本举行。开幕仪式上,ACL主席MartiHearst正式宣布成立国际计算语言学学会亚太地区分会(AACL,TheAsia-PacificChapterofAssociationforComputationalLinguistics)。此次成立ACL亚太分会,将进一步促进亚太地区NLP相关技术和研究的发展。据悉,首届AACL会议预计在2020年举行,此后将每两年举行一次。

EMNLP

http://emnlp2018.org

EMNLP 全称 ConferenceonEmpiricalMethodsinNaturalLanguageProcessing。EMNLP是由ACL主办的,ACL学会下设多个特殊兴趣小组(SpecialInterestGroups,SIGs),聚集了NLP/CL不同子领域的学者,性质类似一个大学校园的兴趣社团。其中比较有名的诸如 SIGDAT(SpecialInterestGrouponLinguisticData&Corpus-basedApproachestoNaturalLanguageProcessing)、SIGNLL(SpecialInterestGrouponNaturalLanguageLearning)等。这些SIGs也会召开一些国际学术会议,其中比较有名的就是 SIGDAT 组织的 EMNLP 和 SIGNLL 组织的 CoNLL(ConferenceonComputationalNaturalLanguageLearning),均为每年举办一次。

NAACL

http://naacl.org

NAACL 全称 TheNorthAmericanChapteroftheAssociationforComputationalLinguistics,是ACL的的北美分会,当然也是由ACL主办。这里把NAACL单独列出来是因为相比于ACL的欧洲分会 EACL(之前是每三年举办一次,过去存在感不太强,据说从2020年开始将改为每年举办,相信会逐渐被大家重视起来),NAACL是每年举办一次,就目前而言,大家对它的认可度比EACL高。ACL、EMNLP、NAACL均为每年举办一次。因为是同一学术组织举办,所以会有些有意思的潜规则。例如ACL、EMNLP会在各大洲轮流举办,而每当ACL在北美举办时,当年NAACL就停办一次(同理,当ACL在欧洲举办时,当年EACL就停办一次)。

COLING

http://coling2018.org

COLING 全称 InternationalConferenceonComputationalLinguistics,1965年开办,它是由老牌NLP/CL学术组织 ICCL (TheInternationalCommitteeonComputationalLinguistics)组织的,每两年举办一次。不过可能由于不是每年举行,感觉最近几次会议的质量起伏比较大,从认可度上也确有被EMNLP赶超的趋势。

SemEval

http://alt.qcri.org/semeval2019/index.php?id=tasks

SemEval 全称 InternationalWorkshoponSemanticEvaluation,由ACL特殊兴趣小组 SIGLEX 组织。对于刚入门自然语言处理的同学,这是一个很好的平台,每年都会举办,包括哈工大讯飞在内的国内外诸多研究机构都有参与。

LREC

http://www.lrec-conf.org

LREC 全称 InternationalConferenceonLanguageResourcesandEvaluation,由 ELRA(EuropeanLanguageResourcesAssociation)组织。

NLP相关领域国际会议信息检索、数据挖掘领域

信息检索和数据挖掘与自然语言处理密切相关,这些领域的相关学术会议主要由美国计算机学会(AssociationforComputingMachinery,ACM)主办,包括SIGIR、CIKM、WWW、WSDM等。

SIGIR 全称 SpecialInterestGrouponInformationRetrieval

CIKM 全称 ConferenceonInformationandKnowledgeManagement

CIKM 全称 InternationalWorldWideWebConference

WSDM 全称 WebSearchandDataMining

人工智能领域

自然语言处理被认为是人工智能研究的重要内容之一,人工智能领域的两大国际顶会是 AAAI 和 IJCAI。

AAAI 全称 AssociationfortheAdvancementofArtificialIntelligence

IJCAI 全称 InternationalJointConferencesonArtificialIntelligence

机器学习领域

机器学习是人工智能的一大分支,因此和自然语言处理当然也密不可分。机器学习领域相关的学术会议主要包括 ICML、NIPS、UAI、AISTATS等。

ICML 全称 InternationalConferenceonMachineLearning

NIPS 全称 ConferenceonNeuralInformationProcessingSystems

UAI 全称 ConferenceonUncertaintyinArtificialIntelligence

AISTATS 全称 InternationalConferenceonArtificialIntelligenceandStatistics

国际期刊

与大部分计算机学科类似,由于技术发展迅速,NLP/CL领域更重视发表学术会议论文,原因是发表周期短,并可以通过会议进行交流。当然NLP/CL也有自己的旗舰学术期刊,最出名的当属 ComputationalLinguistics 和 TransactionsofACL(TACL)。此外也有一些与NLP/CL有关的期刊,如 TSLP(ACMTransactionsonSpeechandLanguageProcessing)、TALIP (ACMTransactionsonAsianLanguageInformationProcessing)等。

相关领域期刊:

AI 全称 ArtificialIntelligence

JAIR 全称 JournalofAIResearch

JMLR 全称 JournalofMachineLearningResearch

国内学术组织、学术会议与学术论文

与国际上相似,国内也有一个与NLP/CL相关的学会,叫做中国中文信息学会,通过学会的理事名单基本可以了解国内从事NLP/CL的主要单位和学者。学会每年组织很多学术会议,例如全国计算语言学学术会议 CCL(ChinaNationalConferenceonComputationalLinguistics)、全国青年计算语言学会议 YCCL、全国信息检索学术会议 CCIR (ChinaConferenceonInformationRetrieval)、全国机器翻译研讨会 CWMT (ChinaWorkshoponMachineTranslation)等等。

此外,计算机学会中文信息技术专委会组织的自然语言处理与中文计算会议 NLPCC (InternationalConferenceonNaturalLanguageProcessingandChineseComputing)也是最近崛起的重要学术会议。中文信息学会主编了一份历史悠久的《中文信息学报》,是国内该领域的重要学术期刊,发表过很多篇重量级论文。此外,国内著名的《计算机学报》、《软件学报》等期刊上也经常有NLP/CL论文发表,值得关注。

相关链接

ACLAnthology:https://aclanthology.coli.uni-saarland.de,ACL文选,由ACL学会网站建立,支持该领域绝大部分国际学术会议论文的免费下载,甚至包含了其他组织主办的学术会议,例如COLING、IJCNLP等,并支持基于Google的全文检索功能,可谓一站在手,NLP论文我有。

人工智能领域中国计算机学会推荐国际学术刊物/会议(CCF推荐期刊/会议)

NLP领域国际顶会(ACL/EMNLP/NAACLl等)的难度如何?

国内有哪些自然语言处理(NLP)专业比较厉害的985高校?

国内有哪些自然语言处理的牛人或团队?

中国中文信息学会青年工作委员会

初学者如何查阅自然语言处理(NLP)领域学术资料

自然语言处理之——句法分析

一. 摘要

在自然语言处理的一个重要分支领域——机器翻译中,句法分析占据着核心的地位,句法分析也是自然语言处理的核心技术,是机器理解语言的关键部分。句法分析的主要任务是识别出句子所包含的句法成分以及这些成分之间的关系,通常会以句法树来表示句法分析的结果。本次分享将介绍句法分析相关的技术。

二. 概述

句法分析是决定自然语言处理进度的关键部分。句法分析主要有一下两个障碍:歧义和搜索空间。自然语言区别于人工语言的一个重要特点就是它存在着大量的歧义现象。人们可以依靠大量的先验知识有效的消除掉歧义,而在机器学习中,机器在表示和获取方面存在严重的不足,所以很难向人一样进行语句的歧义消除。句法分析是一个极为复杂的任务,侯选树的个数会随着句子增多呈现指数级别的增长,搜索空间巨大。因此,必须要有合适的解码器,才能够做到在规定的时间内搜索到模型定义的最优解。

句法分析是通过词语组合分析得到句法结构的过程,而实现该过程的工具或程序被称为句法分析器。句法分析的种类很多,这里我们根据其侧重目标分为完全句法分析和局部句法分析两种。两者的差别在于,完全句法分析以获取整个句子的句法结构为目的;而局部句法分析只关注局部的一些成分。

句法分析中所用方法可以简单的分为基于规则和基于统计两个类别。首先基于规则的方法在处理大规模真实文本时,会存在语法规则覆盖有限的缺陷。随着基于统计学习模型的句法分析方法兴起,句法分析器的性能不断的提高。典型的就是PCFG,它在句法分析领域得到了很广泛的应用。统计句法分析模型本质上是一套面向候选树的评价方法,正确的句法树会被赋予一个较高的分值,对不合理的句法树则赋予较低的分值,最终将会选择分值最高的句法树作为最终句法分析的结果。

三. 句法分析的数据集和评测方法

统计分析方法是离不开语料数据集和评价体系做基础的。

句法分析的数据集:统计学习方法需要语料数据的支撑,相较于分词和词性标注,句法分析使用的数据集更复杂,它是一种树形的标注结构,已可以称为树库。

图1:句法树模型

英文宾州树库PTB(PennTreeBank),是目前使用最多的树库,具有很好的一致性和标注准确率。中文的树库起步建设较晚,目前比较著名的有中文宾州树库、清华树库、台湾中研院树库。宾夕法尼亚大学标注的汉语句法树库是绝大多数中文句法分析研究的基准语料库。

图2:树库汉语成分标记集

句法分析的评测方法:句法分析评测的主要任务是评测句法分析器生成的树结构与手工标注的树结构之间的相似度。主要通过两个方面评测其性能:满意度和效率。满意度指的是测试句法分析器是否合适某个特定的自然语言处理任务;而效率主要是对比句法分析器的运行时间。

目前主流的句法评测方法是PARSEVAL评测体系,这是一种粒度适中、较为理想的评测方法,主要指标有准确率、召回率、交叉括号数。其中准确率表示分析正确的短语个数在句法分析结果中占据的比例。也就是分析结果中与标准句法树中相匹配的短语个数占分析结果中所有短语个数的比例。召回率可以理解为分析得到的正确短语个数占标准分析树全部短语个数的比例。交叉括号表示分析得到的某一个短语的覆盖范围与标准句法分析结果的某个短语的覆盖范围存在重叠但不存在包含关系,即构成一个交叉括号。

四. 基于PCFG的句法分析

PCFG(ProbabilisticContextFreeGrammar)是基于概率的短语结构分析方法,是目前较成熟的句法分析模型,也可以认为是规则方法和统计方法的结合。

PCFG是一种生成式的方法,它的短语结构文法可以表示为一个五元组(X,V,S,R,P):

X是一个有限词汇的集合,其中的元素称为词汇或者终结符。

V是一个有限标注的集合,称为非终结符集合。

S称为文法的开始符号,并且包含于V。

R是有序偶对(α,β)的集合,就是产生的规则集。

P代表每个产生规则的统计概率。

PCFG用于解决以下的问题:

1)  基于PCFG可以计算分析树的概率值。

2)  若一个句子有多个概率树,可以依据概率值对所有的分析树进行排序。

3)  PCFG可以用于进行句法排歧,面对多个分析结果选择概率值最大的。

下面通过一个例子展示PCFG求解最优句法树的过程。首先有一个规则集:

图3:PCFG规则集

其中第一列表示规则,第二列表示规则成立的概率。

给定句子S:astronomerssawstarswithears,通过PCFG和上述的规则集,得到如下两个句法树:

图4:句法树展示图

然后计算两棵句法树的概率:

P(T1)=S×NP×VP×V×NP×NP×PP×P×NP

=1.0×0.1×0.7×1.0×0.4×0.18×1.0×1.0×0.18

=0.0009072

P(T2)=S×NP×VP×VP×V×NP×PP×P×NP

=1.0×0.1×0.3×0.7×1.0×0.18×1.0×1.0×0.18

=0.0006804

对比两棵句法树的最终概率值,选择T1作为最终的句法树。

五. 基于最大间隔马尔可夫网络的句法分析

最大间隔属于SVM(支持向量机)中的核心理论,而马尔可夫网络是概率图模型中一种具备一定结构处理关系能力的算法。最大间隔马尔可夫网络(Max-MarginMarkovNetworks)就是这两者的集合方法,能够解决复杂的结构化预测问题,尤为适合用于句法分析任务。这是一种判别式的句法分析方法,主要是通过多个特征来消除分析过程中的歧义。判别函数如下:

图5:最大间隔马尔可夫网络判别函数表达式

其中的(x,y)表示与x相对应的句法树y的特征向量,w表示特征权重。

类似SVM算法,最大间隔马尔可夫网络如果要实现多元分类,可以采用多个独立并且可以并行训练的二元分类器实现。每一个二元分类器识别一个短语标记,再通过组合多个二元分类器就可以完成句法分析任务,同时也可以通过并行的方式,提升训练速度。

总结

句法分析在自然语言处理中是非常重要的一个环节。本次的内容分享了常用的数据集和评测方法,PCFG和最大间隔马尔可夫网络两种句法分析。目前的句法分析的实际性能与理论性能还有较大的距离,因为语言学的理论和自然语言实际应用之间还有着较大的差异。

自然语言处理五年技术革新,快速梳理 NLP 发展脉络

来源:机器之心

机器之心发布

机器之心编辑部

机器之心《2020-2021全球AI技术趋势发展报告》节选:顶会趋势(NeurIPS)分析。

2021年伊始,机器之心发布《2020-2021全球AI技术趋势发展报告》,基于顶会、论文及专利等公共数据、机器之心专业领域数据仓库,通过数据挖掘定位七大趋势性AI技术领域。

此外,该报告还邀请了近100位专家学者通过问卷调查,形成对这七大技术领域近年发展情况、成熟度与未来趋势的综合总结,并基于2015-2020年间的开源论文与专利语料,结合机器之心自有的新闻舆论以及模型最佳表现(SOTA)等相关数据库进行了探索性数据分析,并形成了用以帮助技术趋势判定的量化指标SyncedIndicator(SI)。

为了方便从业者把握AI技术趋势,机器之心将持续刊载该该报告的节选内容,以下篇幅选自《2020-2021全球AI技术趋势发展报告》第三章「人类语言技术」。

「3-1 」人类语言技术

3-1-1  近年领域事件

根据机器之心整理的人工智能领域事件库数据,近5年(2015~2020)来人类语言技术领域的主要有以下大事件值得关注:

神经机器翻译、注意力机制与Transformer

自然语言处理的技术突破似乎总是从机器翻译领域开始的,作为NLP领域最早的研究领域之一,机器翻译是较能体现语言理解的一项重要技术任务,也是自深度学习兴起后技术突破最多最频繁的技术任务。机器翻译的核心技术涵盖了自然语言理解和生成两大基本问题,其技术路径的演变基本可以代表整个自然语言处理技术领域的主要技术方法演变:从最初的基于语法规则的机器翻译(RBMT),统计学兴起之后逐渐开始形成气候的统计机器翻译(SMT),以及近10年来基于神经网络的机器翻译(NMT),机器翻译领域通常是新技术首先得到测试验证的领域。2015年以来,正是神经机器翻译快速发展的时代,而其中贡献较为突出的当属搜索引擎行业的龙头企业谷歌,从2016年谷歌神经机器翻译(GNMT)的发布开始,将初期主要在CV领域活跃的Attention机制运用到了机器翻译领域,2017年又抛开深度学习领域一直被广泛使用的核心RNN网络、提出了单纯基于自注意力机制的Transformer模型架构,在模型泛化能力上看到了很大的可能性。2018年紧接着提出并开源了基于双向Transformer的大规模预训练语言模型BERT,刷新了当时多项不同类型的NLP下游任务的最佳表现,使人们看到了这类模型的巨大潜力,也自此掀起了NLP领域的大规模预训练语言模型研究与开发的热潮。

大规模预训练语言模型

2018~2019年里,尤其是2019年,大规模预训练语言模型似乎成为了NLP领域技术指标突破逃不开的技术方法。在ELMo之前,深度学习在自然语言处理的主要应用方向在于从词到句子级别的分布式表征,word2vec是此类方法的典型代表。虽然一时间预训练的词向量在诸多自然语言处理任务上取得了不错的进展,但词向量本身都是上下文无关的,也即同一个词的向量表示在不同语境中总是相同的,这就意味着词向量无法解决语言技术里很大的一个障碍,一词多义问题。因此研究人员们开始在具体的下游任务中基于词向量的序列来做编码,这种seq2seq端到端的思想迅速取代了word2vec的热潮,而谷歌在这个基础上研发出的自注意力机制模型transformer可算是这个思想的集大成者。也正是同一时间,来自华盛顿大学的研究者开发出了ELMo模型,通过语言模型来获得一个上下文相关的预训练表示,并通过定制成功地用在了多个不同的下游任务上取得领先的表现效果。而仅仅针对文本进行丰富的encoding尚不足以覆盖所有NLP下游任务,尤其是QA、阅读理解等包含问询关系等多种复杂模式的情况下,下游任务的网络会需要做更多不同的结构调整,同一个模型在多个不同任务、甚至同一任务不同数据集上的表现差别仍然有待提高,这也就促使了BERT的诞生。BERT类模型使用大规模语料数据采取更深程度的预训练,从而形成一个更为通用的模型基底。这比覆盖上下文语境含义的词向量更进一步,而涉及到下游任务时也仅需要定制一个非常轻量级的输出层而不需要对模型骨架做重大调整。

实用效率工具和数据集

当一个技术发展成熟到一定程度之后,我们会看到技术在研究层面的数据增加开始放缓,但在工程和应用层面的相关数据开始增加。而回顾过去五年的NLP领域事件,我们发现除了重要的具体模型算法之外,数据集和实用的开源工具成为该领域里不可忽视的组成部分。除了机器翻译领域Google开源的GNMT,OpenNMT也开源了其自研的神经机器翻译工具包,并且提供了Pytorch和TensorFlow两个不同框架的支持。

数据集Benchmark方面,问答数据集SQuAD经历了1.0、2.0两个代际,自然语言理解综合benchmarkGLUE也经历了一次到SuperGLUE的升级,中文领域也衍生出了类似的评价体系CLUE。随着预训练语言模型的火热与广泛应用,可以预见的是相关的数据集与评估指标还会有新的升级与换代。

Facebook开发并开源了实用文本分类库fastText,OpenAI在三代GPT版本更迭后,于今年的GPT-3发布后不久便开始提供对应的API服务。综合工具方面,微软联合创始人保罗艾伦建立的AllenInstituteforAI于今年正式推出了其自然语言处理工具包AllenNLP,提供完整的自然语言处理流程框架和相应工具。成立于2016年的Huggingface借助Transformer模型的东风,提供多种基于transformer架构模型的调用框架(包括BERT、GPT-2、Transformer-XL、RoBERTa、DistilBERT、BART,以及GoogleT5等近40种不同模型),同时兼容TensorFlow与pytorch。知名语音技术工具包Kaldi也于2017和2018年先后增加了TensorFlow和PyTorch的整合支持。

总体而言,NLP领域每年都有新突破,语音领域在2015~2017年发展迅猛,达到接近人类水平,而后归于稳定、小修小改重点解决局部问题。

*完整的人类语言技术相关影响力事件表请参看报告附录。

3-1-22019~2020年热门技术

根据2019-2020年度技术热词分析结果,该领域的整体热度在本篇报告覆盖的领域里面排第二,仅次于计算机视觉,领域内的技术热词以主流的自然语言处理下游技术任务为主(如机器翻译、问答系统、信息抽取、文本分类等),同时包括一些近年来讨论热度比较高的算法模型框架(如BERT、word2vec、Transformer等),语音识别、语音合成两个语音相关的技术词也同样榜上有名。

具体来说,神经机器翻译、语音识别以及BERT在论文、新闻的热词发现中均名列前茅,除此之外,新闻资讯中的技术热词多是大众讨论度比较高的技术词或偏口语化的技术词,如自然语言处理本身、聊天机器人、以及注意力机制,而论文中则会有比较多相对具体的基础技术任务如文本分类、命名体识别、语义解析等以及相对书面正式的技术词如自然语言理解、问答系统、机器阅读理解。报告、survey中呈现出的高频讨论技术词则多是归纳性质较强的技术任务或方法,如问答系统、序列到序列(seq2seq)、端到端(end2end)模型等。

以下为本领域在各项热门技术词挖掘中综合排名前100的技术词:

技术名词新闻挖掘论⽂挖掘报告/Survey⾃然语⾔处理✓⾃然语⾔理解✓⾃然语⾔推理✓机器翻译✓神经机器翻译✓✓问答系统✓✓对话系统✓聊天机器⼈✓机器阅读理解✓⽂本⾃动摘要⽂本分类✓情感分析✓语⾳识别✓✓语⾳合成⽂本⽣成✓命名体识别✓语义解析✓语法解析词性标注✓语⾔模型✓预训练模型✓ELMOGPTBERT✓✓Transformer✓注意⼒机制✓seq2seq✓word2vec✓词嵌⼊✓表3-1-2-1人类语言技术2019~2020年热门技术词

*为了分析的完整和可对比性,我们额外补充了语音合成、语法解析、文本自动摘要,以及ELMO、GPT等技术词

结合各AI技术分析报告文章、论文survey,社交网络观点、以及专家问卷结果,该人类语言技术章节分析主要从机器翻译、问答系统、阅读理解、文本分类、语音识别、语音合成等热门NLP和语音方面的技术任务,以及相关的热门技术方法如语言模型、序列到序列,词嵌入,BERT等分不同角度切入,从学界问卷、论文专利、以及新闻舆情多数据角度综合分析其本身以及相关技术近五年来的重要事件以及发展趋势,分析细节详情参见报告。

报告全文获取方式

方式二:成为机器之心PRO-VIP会员

自然语言处理发展,主要存在哪些难点

1.语言不规范,灵活性高

自然语言并不规范,虽然可以找一些基本规则,但是自然语言太灵活了,同一个意思可以用多种方式来表达,不管是基于规则来理解自然语言还是通过机器学习来学习数据内在的特征都显得比较困难。

2.错别字

在处理文本时,我们会发现有大量的错别字,怎么样让计算机理解这些错别字想表达的真正含义,也是NLP的一大难点

3.新词

我们处在互联网高速发展的时代,网上每天都会产生大量的新词,我们如何快速地发现这些新词,并让计算机理解也是NLP的难点

4.用词向量来表示词依然存在不足

上述,我们讲到,我们是通过词向量来让计算机理解词,但是词向量所表示的空间,它是离散,而不是连续,比如表示一些正面的词:好,很好,棒,厉害等,在“好”到“很好”的词向量空间中,你是不能找到一些词,从“好”连续到“很好”,所以它是离散、不连续的,不连续最大的问题就是不可导.计算机是处理可导的函数非常容易,不可导的话,计算量就上来了。当然现在也有一些算法是计算词向量做了连续近似化,但这肯定伴随着信息的损失。总之,词向量并不是最好的表示词的方式,需要一种更好的数学语言来表示词,当然可能我们人类的自然语言本身就是不连续的,或者人类无法创建出“连续”的自然语言。人工智能、大数据、云计算和物联网的未来发展值得重视,均为前沿产业,有兴趣的朋友,可以查阅多智时代,在此为你推荐几篇优质好文:自然语言理解过程主要有哪些层次,各层次的功能是怎么样?http://www.duozhishidai.com/article-1726-1.html如何快速入门NLP自然语言处理概述http://www.duozhishidai.com/article-11742-1.html什么是人脸识别,主要的应用于哪些场景?http://www.duozhishidai.com/article-1246-1.html

多智时代-人工智能和大数据学习入门网站|人工智能、大数据、物联网、云计算的学习交流网站

自然语言处理(4)——语料库和语言知识库

NLP学习笔记(4)——语料库和语言知识库1.基础知识2.语料库技术的发展第一个阶段:早期,20世纪五十年代中期之前二个阶段:沉寂时期,1957-20世纪八十年代初第三个阶段:复苏与发展时期,20世纪八十年代以后3.国内语料库的研究状况4.语料库的类型(a)按照其内容构成和目的进行划分:(b)按语言种类划分其他信息5.重点:语料库建设中存在的问题5.1对于语料库的设计,需要考虑的问题:5.2汉语语料库开发中存在的问题6.介绍一些典型语料库7.词汇知识库7.1WordNet7.2HowNet(知网)7.3概念层次网络1.基础知识

对于预先准备的知识材料,分为语言数据库(语料库)和知识库两种。对于语言数据句库:主要是大规模的语言数据,难点在于模型参数训练与评测标准的设置;对于知识库:包括词汇语义库,词法、句法规则库,常识库等等

语料库语言学的定义:基于语料库进行语言学研究

下面介绍其他几种定义,可能更有益于对其理解:

根据篇章结构对语言的研究称为语料库语言学基于现实生活中语言运用的实例进行的语言研究称为语料库语言学以语料为语言描写的起点或以语料为验证有关语言的假说的方法称为语料库语言学。

关于语料库语言学研究的内容:

语料库的建设与编纂语料库的加工和管理技术语料库的使用2.语料库技术的发展

掌握程度:分清三个阶段的各自时间节点,以及判断其低谷期、复苏的特征及原因

第一个阶段:早期,20世纪五十年代中期之前

二个阶段:沉寂时期,1957-20世纪八十年代初

沉寂的原因大概是由于句法理论的兴起,即NLP先验知识运用的另一分支,知识库的发展

第三个阶段:复苏与发展时期,20世纪八十年代以后

(1)其复苏的特征有二:

第一是第二代语料库相继建成第二是基于语料库的研究项目增多(2)其复苏的原因同样有二:(i)首先,得益于计算机的迅速发展,计算能力与速度的增强使得语料库技术有了用武之地;(ii)其次,转换生成语言学派对语料库的批判不都正确(如指责计算机分析语料是伪技术),有的是片面的甚至是错误的(如对语料数据价值的否定)3.国内语料库的研究状况

掌握情况要求:了解现状即可,代表性内容要进行记忆

4.语料库的类型

按照不同的标准,可以将语料库进行许多种划分

(a)按照其内容构成和目的进行划分:

(1)异质的:仅进行最简单的语料收集方法,没有事先规定和选材原则(2)同质的:与上一条相反,如美国TIPSTER项目只收集军事方面的文本内容(3)系统的:充分考虑语料的动态和静态问题、代表性和平衡问题以及语料库的规模等问题(4)专用的:如北美的人文科学语料库

(b)按语言种类划分

(1)单语语料库(2)双语的或多语的语料库对于非单语的语料库,要考虑是否要保证篇章对齐、句子对齐、结构对齐等问题

其他信息

(1)关于如何区分生语料和熟语料的方法:看语料是否被标注了:熟语料的特征——具有词性标注;有句法结构信息标注(树库);有语义信息标注(2)对于平衡语料库,着重考虑了语料的代表性和平衡性掌握要求为:对平衡语料库采集的规则要了解,可能考察选择判断

语料库采集的七项原则:-1-语料的真实性-2-可靠性-3-科学性-4-代表性-5-权威性-6-分布性-7-流通性

其中,语料的分布性还可以考虑语料的科学领域分布、地域分布、时间分布和语体分布

(3)一个好像不是很重要的问题:(4)关于平行语料库其两种含义:

第一种是在同一种语言的语料上的平行。其平行性表现为语料选取的时间、对象、比例、文本数、文本长度等几乎是一致的。举个例子:“国际英语语料库”,共有20个平行的子语料库,分别来自以英语为母语或官方语言和主要语言的国家,如英国、美国、加拿大、澳大利亚、新西兰等。建库的目的是对不同国家的英语进行对比研究。第二种是指在两种或多种语言之间的平行采样和加工。例如,机器翻译中的双语对齐语料库

(5)比较重要:共时语料库和历时语料库共时语料库:是为了对语言进行共时(同一时段)研究而建立的语料库。研究一个共时时空下的元素与元素之间的关系历时语料库:是为了对语言进行历时研究而建立的语料库。研究一个历时切面中元素与元素关系的演化

判断是否为历时语料库的4条规则(要求可以完成选判)-1-是否动态:语料库必须是开放的、动态的(基础)-2-文本是否具有量化的流通度属性:所有的语料都应该来自于大众传媒,具有与传媒特色相应的流通度属性。其量化的属性值也是动态的(随时间与条件、背景的变化,其流通度属性存在差异)(来源存在流通度属性)-3-深加工是否基于动态的加工方法:随语料库的动态变化采集,并进行动态地加工(加工过程的动态性)-4-是否取得动态的加工结果:语料的加工结果也应是动态的和历时的(加工结果的动态性)

5.重点:语料库建设中存在的问题

重点章节

5.1对于语料库的设计,需要考虑的问题:

(1)动态与静态:(2)代表性和平衡性:一个语料库具有代表性,是指在该语料库上获得的分析结果可以概括成为这种语言整体或其指定部分的特征。(3)规模:

(4)语料库的管理和维护

5.2汉语语料库开发中存在的问题

(1)语料库建设的规范问题

需要考虑或保证的是:粉刺标准是否已经确定和统一;词类标记集被普遍采用和遵循;文本属性规范如何体现(2)产权保护和国家语料库建设问题

6.介绍一些典型语料库

对于宾夕法尼亚大学树库的扩展:自PropBank开始,出现语义角色标注

一个例子:

自PropBank开始,出现语义角色标注自PropBank开始,语料库中开始出现语义角色标注

Nombank专注于标注树库中名次的词义和相关的论元信息;而原PropBank标注的是句子的语法结构,PropBank拓展中的目标是对原树库中的句法节点标注上特定的论元标记。对于NomBank中的中文属性库:

比较重要的是,针对语篇的UPenn语篇树库。综合PropBank针对于句子的语法结构,NomBank标注树库中名词的词义和相关论元信息,UPenn则标注语篇结构信息

上图左侧是一片完整的文档,在这篇文档中有若干个篇章关系。右侧则罗列出了该文档第一段的关系。下面对其关系进行分析。关系1、2为隐式关系(相关类型包括显式和隐式),关系1的参数Arg1与Arg2的范围分别标在左图的红色、蓝色方框中,其功能类型的判断为扩展类型。对于关系三,是一个显式的关系,其关联词(特属于显式的关系Explicit)为“其中”,功能类型是扩展类型。

在上文中的例子中,我们可以发现,PDTB(PennDiscourseTreeBank)风格下的标注体系允许两个篇章关系的文本之间存在覆盖、嵌套和交叉。

关于其对应的汉语篇章树库(CDTB)1.0中英篇章树库对比(要求了解即可)可以观察到,中文中的隐式关系比例要高于英文,其关联词没有明确的定义,且组合关联词的现象较多,用法灵活。中文中(CDTB)的Argument是根据语义定义的,其范围可以是某个短语也可以跨越几个段落,中文中的标点,(比较典型的如逗号)往往具有篇章关系指示功能。对于英文(PDTB)是依据位置定义的,显式关系中在句法上与关联词相连的为Arg2,其余部分定义为Arg1;非显式关系中的前依据定义为Arg1,后一句为Arg2.PDT的三个层次

7.词汇知识库

关于知识库,主要分为两种,WordNet与HowNet

需要掌握:关于WordNet,有哪四种关系关于HowNet,是什么样的关系,关系为单向还是双向的(不同关系的单、双向不同),关系中有多少种类型

7.1WordNet

WordNet是按语义关系来组织的,故而WordNet之中的关系表现为语义关系。关于WordNet的四种语义关系:

同义关系反义关系上下位关系(从属/上属关系)部分关系(部分/整体关系)

关于WordNet的应用:词汇消歧、语义推理、理解等

7.2HowNet(知网)

比较重要

关于知网的特色知网作为一个知识系统,名副其实地是一张网,其着力反映概念的共性和个性;同时还要反映概念之间和概念的属性之间的各种关系。知网描述的关系:-1-上下位关系(与WordNet共有)-2-同义关系(与WordNet共有)-3-反义关系(与WordNet共有)-4-对义关系-5-部件-整体关系(与WordNet共有)-6-属性-宿主关系-7-材料-成品关系-8-施事/经验者/关系主体-事件关系(如“一生”、“雇主”)-9-受事/内容/领属物等-事件关系(如“患者”、“雇员”)-10-工具-事件关系(如“手表”、“计算机”)-11-场所-事件关系(如“银行”、“医院”)-12-时间-事件关系(如“假日”、“孕期”)-13-值-属性关系(如“蓝”、“慢”)-14-实体-值关系(如“矮子”、“傻瓜”)-15-事件-角色关系(由加角色名体现,如“购物”、“盗墓”)-16-相关关系(如“谷物”、“煤田”)7.3概念层次网络

(HierarchicalNetworkofConcepts,HNC)

版权声明:本文内容由互联网用户自发贡献,该文观点仅代表作者本人。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如发现本站有涉嫌抄袭侵权/违法违规的内容,一经查实,本站将立刻删除。

上一篇

下一篇