博舍

《自然语言处理实战入门》 自然语言处理习题

《自然语言处理实战入门》

文章大纲自然语言处理基础知识自然语言处理与机器学习、深度学习基础参考文献

本文按照自然语言处理的基本逻辑分类组织一批笔试面试常见问题,并给出最本质的核心回答。希望你能用keyword抓住面试官的心

自然语言处理基础知识早期自然语言的处理思路可以分为哪两个流派?

答∶1948年,信息论创始人ClaudeElwoodShannon发表论文《通信的数学理论》,其中提到了把自然语言当作一个马尔科夫过程,把概率模型和熵的概念引入到了自然语言处理中。1956年,数学家StephenKleene发表了论文《神经网络事件表示法和有穷自动机》,提出了正则表达式的概念。语言学家AvramNoamChomsky在1956年提出了上下文无关语法在自然语言处理中的应用。这一系列的研究基本也表明了自然语言处理技术的两大阵营,基于概率的符号派和基于规则的随机派。

为什么基于规则的自然语言处理方法应用逐渐减少?

答∶基于规则的方法工作量大,可扩展性不高。比如一些早期的聊天系统只能在特定的领玻表现良好,当稍微超出预定的规则,将系统置于一个比较含糊和不确定的语境时,聊天系统就无法正常聊天了。

21世纪以来哪些具有里程碑意义的自然语言处理研究成果?

答∶基于神经网络的语言模型、多任务学习、循环神经网络、词向量、注意力机制等。

自然语言处理期末复习(1)n元模型

一、n元模型

1.语言建模:根据给定的语言样本估计概率P(s)的过程

2.语言模型:根据语言样本估计出的概率分布P称为语言L的语言模型。

3.马尔科夫假设:词wi的出现只与其前n-1个词有关

4.n元组(n-gram):只需要考虑n个词组成的片段。(n越大,模型需要的参数越多,历史信息越多,模型越准确)

5.如何建立n元模型:确定训练语料、对预料进行分词、句子边界标记,增加两个特殊词。建立n元模型的方法:(1)相对频率法(2)最大似然估计

6.数据稀疏问题:由于训练样本不足而导致所估计的分布不可靠的问题。

7.Zipf定律:词频和序号之间的关系:针对给定的语料库,若某个词w的词频是f,且该词在词频表中的序号为r,则fxr=k且k(大致)是一个常数

8.MLE估计值不是理想的参数估计值的解决办法:平滑

二、数据平滑:

①把在训练语料中出现过的n元组的概率适当减小

②把减小所得到的概率质量分配给训练语料中没有出现过的n元组

1.Add-one平滑:规定n元组比真实出现次数多一次,

2.加法平滑:训练语料中未出现的n元组的概率不再为0,而是一个大于0的较小的概率值,不是加1,而是加一个小于1的正数

3.留存估计:把训练语料分作两个部分

–训练语料(trainingset):用于初始的频率估计

–留存语料(heldoutdata):用于改善最初的频率估计

4.删除估计

如果有很多训练语料的话,可以使用留存估计

如果训练语料不多的话,可以…

–把训练语料分成两个部分part0和part1

–part0作为训练语料,part1作为留存语料建模

–part1作为训练语料,part0作为留存语料建模

–对两个模型加权平均,求得最后的模型

5.GoodTuring平滑

把出现n+1次的n元组所拥有的概率质量整体分配给出r次的n元组

①   把出现1次的n元组的概率质量分给出现0次的n元组

②    把出现2次的n元组的概率质量分给出现1次的n元组

组合使用Turing估计值和Good-Turing估计值

低频段尽量使用Turing估计值,高频段使用GoodTuring估计值

6.组合估计:高阶n元组的概率估值参考低阶n元组的概率估值。

组合模型:把不同阶别的n元组模型组合起来。

7.插值平滑:不同阶别的n元模型线形加权组合。

8.Jelinek-Mercer平滑:

简单线形插值平滑,权值λ固定不变,不管高阶模型估计值是否可靠,低阶模型均以同样的权重被加入模型,不合理。

–若高阶模型可靠,λ应该大

–若高阶模型不可靠,λ应该小

9.回退模型:在高阶模型可靠时,尽可能使用高阶模型。必要时,使用低阶模型

10.Katz平滑:是一种回退平滑模型。

三、熵

1.熵:设X是取有限个值的随机变量,若其概率分布为p(x),且x∈X,则X的熵定义为: 

通常a=2.

熵描述了随机变量的不确定性,熵描述了随机变量的平均信息量。

2.相对熵:设p(x)是随机变量X的真实分布密度,q(x)是通过统计手段得

到的X近似分布,则二者间相对熵定义为:

相对熵描述同一个随机变量的不同分布的差异,相对熵描述了因为错用分布密度而增加的信息量

3.交叉熵:设随机变量X的分布密度为p(x),q(x)是通过统计手段得

到的X的近似分布,则随机变量X的交叉熵定义为:

  

交叉熵用于比较两个近似的分布,交叉熵小的,是更好的近似分布。

4.三者关系:

 

版权声明:本文内容由互联网用户自发贡献,该文观点仅代表作者本人。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如发现本站有涉嫌抄袭侵权/违法违规的内容,一经查实,本站将立刻删除。

上一篇

下一篇