自然语言处理技术的工作原理与应用
自然语言处理(NLP)是人工智能的一个分支,它使计算机能够像人类一样理解、处理和生成语言。搜索引擎、机器翻译以及语音助理均由该技术提供支持。
自然语言处理技术的工作原理与应用
自然语言处理(NLP)的工作原理:自然语言处理(NLP)通过机器学习进行工作。机器学习系统像其他任何形式的数据一样存储单词及其组合方式。短语、句子、有时甚至整本书的内容都被输入机器学习引擎,并在其中使用语法规则或人们的现实语言习惯,或两者兼而有之进行处理。然后,计算机使用这些数据来查找模式并推断出接下来的结果。以翻译软件为例:在法语中,“我要去公园”是“Jevaisauparc”,因此机器学习预测“我要去商店”也将以“Jevaisau”开头。
自然语言处理技术的工作原理与应用
自然语言处理(NLP)的应用:机器翻译是一种功能强大的自然语言处理(NLP)应用程序,但是搜索是最常用的一种用法。每次人们在谷歌或Bing搜索引擎中查找内容时,都人为将数据输入到系统中。当单击搜索结果时,搜索引擎会将其解释为确认其找到的结果是正确的,并在以后使用这一信息更好地进行搜索。
聊天机器人的工作方式与其相同:它们与Slack、MicrosoftMessenger和其他聊天程序集成在一起,可以读取人们使用的语言,然后在键入触发短语时将其打开。当Siri和Alexa等语音助理听到诸如“嘿,Alexa”之类的短语时,它们就会有回应,而这就是为什么批评人士指责这些人工智能程序一直在进行监听的原因:如果不这样做,它们永远不知道人们什么时候需要它们。除非人们自己打开应用程序,否则自然语言处理(NLP)程序必须在后台运行,并等待这一短语的出现。
人工智能学习资料免费领取
牛客网自然语言处理(NLP)专项练习总结
牛客网自然语言处理(NLP)专项练习总结过拟合与欠拟合1.有助于解决模型训练过程中的过拟合问题的方法2.解决欠拟合的方法梯度消失1.下面哪些方法有助于解决深度网络的梯度消失问题激活函数1.Sigmoid、tanh和Relu机器学习算法1.k-meansEM算法SVM决策树1.决策树有哪些常用的启发函数卷积优化算法NLP相关1.LSTM2.Word2vecWord2vec是**无监督**学习word2vec两种类型:3.数据平滑4.数据预处理下面哪些技术跟中文分词有关句子结构相关性1.确定相关性的方法依存分析和句法分析命名实体识别知识图谱1.三元组表达形式文本相似度计算1.内积法遗传算法其他过拟合与欠拟合1.有助于解决模型训练过程中的过拟合问题的方法正则化DropoutBatch_Normalization提前终止训练
Dropout作用于每份小批量训练数据,由于其随机丢弃部分神经元的机制,相当于每次迭代都在训练不同结构的神经网络。
2.解决欠拟合的方法添加新特征减少正则化系数(×)正则化方法(×)集成学习方法:处理过拟合
梯度消失1.下面哪些方法有助于解决深度网络的梯度消失问题控制网络深度预训练+微调使用ReLU激活函数采用Batch_Normalization使用残差结构使用LSTM
激活函数1.Sigmoid、tanh和Relu从计算的角度,Sigmoid和tanh激活函数均需要计算指数,复杂度高,而Relu只需要一个阈值就可得到激活值。Relu的非饱和性可以有效的解决梯度消失问题,提供相对宽的激活边界Relu的单侧抑制提供了网络的稀疏表达能力
机器学习算法1.k-means不能自动识别类的个数,随机挑选初始点为中心点计算。
EM算法EM是一种迭代算法,用于含有隐变量的概率参数模型的最大似然估计或极大后验概率估计。最大优点是简单和稳定,但与梯度下降一样,容易陷入局部最优。EM算法
SVMSVM对缺失数据敏感,所以噪声鲁棒性不是很好。噪声鲁棒性好要数神经网络。
决策树1.决策树有哪些常用的启发函数最大信息增益最大信息增益率最大基尼系数决策树都有哪些算法?
决策树通过预剪枝和后剪枝提升模型的泛化能力。决策树是一种混合算法,它综合了多种不同的创建树的方法。决策树算法对离散属性和连续属性进行建模。(×)卷积卷积操作的本质特性包括稀疏交互和参数共享。优化算法梯度下降法牛顿法BFGSAdam中BFGS最快NLP相关1.LSTMLSTM的遗忘门使用的是什么激活函数?Sigmoid【译】理解LSTM(通俗易懂版)
Seq2Seq模型在解码时可以使用贪心法或BeamSearch方法。2.Word2vecWord2vec是无监督学习严格意义上来讲,Word2Vec并不是无监督学习。应该叫半监督学习(semi-supervised),因为虽然人类不用手工标注,但是本质上模型还是有类别学习,有反向传播的过程的。
无监督与监督学习的区别在于一个无教学值,一个有教学值。但是,有人认为他们的区别在于一般是采用聚簇等算法来分类不同样本。而监督学习一般是利用教学值与实际输出值产生的误差,进行误差反向传播修改权值来完成网络修正的。
word2vec两种类型:1、CBOW2、Skig-gram每种都有两种策略(加速优化策略):1、负采样2、层级softmax。层级softmax,使用了哈夫曼树,优化计算概率效率。负采样不使用哈夫曼树,而是利用简单的随机采样,这种用少量噪声词汇来估计的方法,类似蒙特卡洛方法。这使得不需要计算完整的概率模型,只需要训练一个二元分类模型,用来区分真实的目标词汇和采样的噪声词汇。提高训练速度,改善所得词向量的质量。
Word2vec利用当前特征词的上下文信息实现词向量编码,是语言模型的副产品Word2vec能够表示词汇之间的语义相关性Word2vec没有使用完全的深度神经网络模型Word2vec可以采用负采样的方式来节省计算开销3.数据平滑在统计语言模型中,通常以概率的形式描述任意语句的可能性,利用最大相似度估计进行度量,对于一些低频词,无论如何扩大训练数据,出现的频度仍然很低,数据平滑可以解决这一问题。自然语言处理:盘点一下数据平滑算法大数据处理平滑算法:Good-Turing估计
4.数据预处理因为文本数据在可用的数据中是非常无结构的,它内部会包含很多不同类型的噪点,所以要做数据预处理。以下不是自然语言数据预处理过程的是:词汇规范化对象标准化噪声移除(×)词汇关系统一化自然语言处理时,通常的文本清理流程是什么?中文文本挖掘预处理流程总结
下面哪些技术跟中文分词有关词语消歧未登录词识别词性标注(×)关系识别(×)句法分析(×)意图识别(×)槽位填充
句子结构在分析句子结构时,句子的内部组织结构用树来表示,组成的结构具有显著的特点是:递归中心词修饰语(×)循环相关性1.确定相关性的方法在大规模的语料中,挖掘词的相关性是一个重要的问题。以下哪一个信息不能用于确定两个词的相关性。互信息卡方检验最大似然比(×)最大熵
最大熵原理是一种选择随机变量统计特性最符合客观情况的准则,也称为最大信息原理。随机量的概率分布是很难测定,一般只能测得其各种均值(如数学期望、方差等)或已知某些限定条件下的值(如峰值、取值个数等),符合测得这些值的分布可有多种、以至无穷多种,通常,其中有一种分布的熵最大。选用这种具有最大熵的分布作为该随机变量的分布,是一种有效的处理方法和准则。这种方法虽有一定的主观性,但可以认为是最符合客观情况的一种选择。在投资时常常讲不要把所有的鸡蛋放在一个敏感词里,这样可以降低风险。在信息处理中,这个原理同样适用。在数学上,这个原理称为最大熵原理。
最大熵代表了整体分布的信息,通常具有最大熵的分布作为该随机变量的分布,不能体现两个词的相关性,但是卡方是检验两类事物发生的相关性。
依存分析和句法分析可以从新闻文本数据中分析出名词短语,动词短语,主语的技术是?依存分析和句法分析
命名实体识别1.命名实体识别是指出文本中的人名、地名等专有名词和时间等,其中有有监督的命名实体识别和无监督的命名实体识别,下列选项哪些是属于有监督的学习方法:决策树隐马尔可夫模型支持向量机(×)字典法
知识图谱1.三元组表达形式知识图谱中的三元组遵从一种三阶谓词逻辑的表达形式。(×)
命题逻辑和谓词逻辑是人工智能领域使用最早的知识表示方法,命题逻辑定义了具有真假值的原子命题,并通过或且非蕴含当且仅当等逻辑连接符将多个原子命题组合成复合命题;
一阶谓词逻辑在命题逻辑的基础上引入了全称量词:任何,和存在量词,使得一阶谓词逻辑可以量化实体概念,比如对于所有的海豚都有背鳍,这个所有的就是全称量词;二阶谓词逻辑可以量化集合,三阶谓词逻辑可以量化集合的集合,高阶谓词逻辑依此类推。—参考赵军《知识图谱》高等教育出版社
一阶谓词逻辑优点:结构性,能把事物的属性以及事物的各种语义联想显式的表达出来。严密性,有形式化的语法和语义,以及相关的逻辑推理。可实现性,可以转化为计算机内部形式,以便使用算法实现。
一阶谓词缺点:有限的可用性,一阶逻辑的逻辑归结只是半可判定性的。无法表示不确定性知识。
文本相似度计算1.内积法文本信息检索的一个核心问题是文本相似度计算,将查询条件和文本之间的相似程度数值化,从而方便比较。当文档和查询都表示成向量时,可以利用向量的内积的大小近似地表示两个向量之间的相关程度。
设有两个文档和查询抽取特征和去除停用词后分别是:文档d1:a、b、c、a、f、b、a、f、h文档d2:a、c查询q:a、c、a特征项集合为{a、b、c、d、e、f、g、h}
如果采用二值向量表示,那么利用内积法计算出q和d1、d2的相似度分别是(2,2)
https://blog.csdn.net/jasminexjf/article/details/98632271
解释:主要计算是否出现,并不涉及出现几次。考察的是文本的词集表示,注意与词袋表示区别。把特征项看作字典,如果文档中的词在特征项中出现则为1,否则为0.以题目为例,将文档和查询都表示成8维的向量。具体来说,d1的表示为[1,1,1,0,0,1,0,1],也就是对应于特征项中的每一项,分别在文档1中查询,如果文档1中出现,那么该位置1,否则为0.同理,文档2的向量表示为[1,0,1,0,0,0,0,0],查询项的表示为[1,0,1,0,0,0,0,0],然后分别做内积即可。注意词集模型并不考虑词在文本中出现的频率。
遗传算法遗传算法直接以适应度作为搜索信息,无需导数等其他辅助信息。其他《同义词词林》的词类分类体系中,将词分为大类、种类、小类,下列说法正确的是大类编号为大写拉丁字母,中类为小写字母,小类为阿拉伯两位数字大类12个,中类94个,小类1438个,标题词3933个Hapfield网络不仅有不动点吸引子,也有其它类型的吸引子。