《模式识别》期末考试考题汇总带答案
目录一、名词解释二、填空题三、简答题四、计算题一、名词解释样本(sample):所研究对象的一个个体。
样本集(sampleset):若干样本的集合。
类或类别(class):在所有样本上定义的一个子集,处于同一类的样本在我们所关心的某种性质上是不可区分的,即具有相同的模式。
特征(features):指用于表征样本的观测。
已知样本(knownsamples):指事先知道类别标号的样本。
未知样本(unknownsamples):指类别标号未知但特征已知的样本。
模式识别(patternrecognition):就是用计算的方法根据样本的特征将样本划分到一定的类别中去。
统计模式识别:用概率统计的观点和方法来解决模式识别问题。
贝叶斯决策(统计决策理论):是统计模式识别的基本方法和基础;是“最优分类器”:使平均错误率最小。
最小风险贝叶斯决策:最小错误率只考虑了错误,进一步可考虑不同错误所带来的损失(代价)。
Neyman-Pearson决策规则:限定一类错误率为常数而使另一类错误率最小的决策。
参数估计(parametricestimation):已知概率密度函数的形式,只是其中几个参数未知,目标是根据样本估计这些参数的值。
非参数估计:在一些情况下我们无法实现判断数据的分布情况。
统计量(statistics):样本的某种函数,用来作为对某参数的估计。
参数空间(parametricspace):待估计参数的取值空间。
估计量(estimation):。
贝叶斯估计:思路与贝叶斯决策类似,只是离散的决策状态变成了连续的估计。
最优超平面:一个超平面,如果它能够将训练样本没有错误地分开,并且两类训练样本中离超平面最近的样本与超平面之间的距离是最大的,则我们把这个超平面称作最优分类超平面(OptimalSeperatingHyperplane),简称最优超平面(OptimalHyperplane)。两类样本中离分类面最近的样本到分类面的距离称作分类间隔(margin),最优超平面也称作最大间隔超平面。
特征形成(特征获取、提取):直接观测到的或经过初步运算的特征——原始特征。
特征选择:从 个特征中选择 个,(人为选择、算法选择)。
特征提取(特征变换,特征压缩):将 个特征变为 个新特征——二次特征。
特征的评价准则:特征选择与提取的任务是找出一组对分类最好的特征。
二、填空题1、解决模式识别的方法可以归纳为基于知识的方法和基于数据的方法两大类。
2、一个模式识别问题往往包括以下五个阶段:问题的提出和定义、数据获取和预处理、特征提取和选择、分类器设计和性能评估、分类及结果解释。
3、模式识别应用举例:语音识别、说话人识别、字符与文字识别、复杂图像中特定目标的识别、根据地震勘探数据对地下储层性质的识别、利用基因表达数据进行癌症分类。
4、统计决策基本原理:根据各类特征的概率模型来估算后验概率,通过比较后验概率进行决策。
5、第一类错误率(Type-Ierrorrate)=假阳性率=假阳性样本数/总阴性样本数 第二类错误率(Type-IIerrorrate)=假阴性率=假阴性样本数/总阳性样本数
6、ROC曲线(ROCCurve)纵坐标:真阳性率(灵敏度);横坐标:假阳性率(1-特异度)。
7、估计概率密度的两种基本方法:参数方法(parametricmethods)和非参数方法(nonparametricmethods)。
8、贝叶斯估计基本思想:把待估计参数看作具有先验分布的随机变量,其取值与样本集有关,根据样本集估计。
9、从基于概率密度(估计)的分类器设计到基于样本的直接分类器设计思路:首先选定判别函数类和一定的目标(准则),利用样本集确定出函数类中的某些未知参数,使所选的准则最好。
10、基于样本直接设计分类器需要确定三个基本要素:一是分类器即判别函数的类型、二是分类器设计的目标或准则、三是在前两个要素明确后,如何设计算法利用样本数据搜索到最优的函数参数(即选择函数集中的函数)。
11、非线性分类器包括分段线性分类器、二次判别函数、神经网络和支持向量机等。
12、线性分类器包括Fisher线性判别器、感知器、最小平方误差判别器、最优分类超平面、线性支持向量机。
13、主成分分析目的:出发点是从一组特征中计算出一组按重要性从大到小排列的新特征,它们是原有特征的线性组合,并且相互之间是不相关的。
三、简答题1、简述模式识别系统的典型构成。
有已知样本情况:监督模式识别(supervisedPR):已知要划分的类别,并且能够获得一定数量的类别已知的训练样本,这种情况下建立分类器的问题属于监督学习问题,程总做监督模式识别,因为我们有训练样本来作为学习过程的"导师"。
处理监督模式识别问题的一般步骤:·分析问题:深入研究应用领域的问题,分析是否属于模式识别问题,把所研究的目标表示为一定的类别,分析给定数据或者可以观测的数据中哪些因素可能与分类有关。·原始特征获取:设计实验,得到已知样本,对样本实施观测和预处理,获取可能与样本分类有关的观测向量(原始特征)。·特征提取与选择:为了更好地进行分类,可能需要采用一定的算法对特征进行再次提取和选择。·分类器设计:选定一定的分类器方法,用已知样本进行分类器训练。·分类决策:利用一定的算法对分类器性能进行评价;对未知样本实施同样的观测、预处理和特征提取与选择,用所设计的分类器进行分类,必要时根据领域知识进行进一步的后处理。
无已知样本情况:非监督模式识别(unsupervisedPR):非监督模式识别称作聚类,在很多非监督模式识别问题中,答案并不一定是唯一的,特点是由于没有类别已知的训练样本,在没有其他额外信息的情况下,采用不同的方法和不同的假定可能会导致不同的结果。处理非监督模式识别问题的一般步骤:·分析问题:深入研究应用领域的问题,分析研究目标能否通过寻找适当的聚类来达到;如果可能,猜测可能的或希望的类别数目;分析给定数据或者可以观测的数据中哪些因素可能与聚类有关。·原始特征获取:设计实验,得到待分析的样本,对样本实施观测和预处理,获取可能与样本聚类有关的观测向量(原始特征)。·特征提取与选择:为了更好地进行聚类,可能需要采用一定的算法对特征进行再次提取和选择。·聚类分析:选定一定的非监督模式识别方法,用样本进行聚类分析。·结果解释:考察聚类结果的性能,分析所得聚类与研究目标之间的关系,根据领域知识分析结果的合理性,对聚类的含义给出解释;如果有新样本,把聚类结果用于新样本分类。
2、简述最大似然函数的假设条件和基本思想
假设条件:①参数是确定的未知量,(不是随机量)②各类样本集 中的样本都是从密度为 的总体中独立抽取出来的,(独立同分布,)③ 具有某种确定的函数形式,只其参数 未知④各类样本只包含本类分布的信息其中,参数 通常是向量,比如一维正态分布 ,未知参数可能是 ,此时 可写成 或。基本思想:如果在参数下 最大,则 应是“最可能”的参数值,它是样本集的函数,记作 。称作最大似然估计量。为了便于分析,还可以定义对数似然函数。
3、简述求贝叶斯估计的方法(平方误差损失下)
(1)确定 的先验分布 (2)求样本集的联合分布 (3)求 的后验概率分布 (4)求 的贝叶斯估计量
4、简述概率密度估计的非参数方法
①直方图方法 非参数概率密度估计的最简单方法(1)把 的每个分量分成 个等间隔小窗,(若 ,则形成 个小舱)(2)统计落入各个小舱内的样本数(3)相应小舱的概率密度为(:样本总数,:小舱体积)② -近邻估计 通过控制小区域内的样本数 来确定小区域大小。③窗法 (1)超立方体窗(方窗)(2)正态窗(高斯窗)(3)超球窗
5、简述Fisher准则函数
把线性分类器的设计分为两步:一是确定最优的方向,二是在这个方向,上确定分类阈值。两类的线性判别问题可以看做是把所有样本都投影到一一个方向上,然后在这个一维空间中确定一个分类的阈值。过这个阈值点且与投影方向垂直的超平面就是两类的分类面。思想:选择投影方向,使投影后两类相隔尽可能远,而同时每一-类内部的样本又尽可能聚集。Flsher判别函数最优解本身只是给出了-一个投影方向,并没有给出我们所要的分类面。要得到分类面,需要在投影后的方向(一维空间)上确定一个分类阈值,并采取决策规则当样本是正态分布且两类协方差矩阵相同时,最优贝叶斯分类器是线性函数当样本为正态分布且两类协方差相同的情况下,如果把算数平均作为均值的估计,把样本协方差矩阵当做是真实协方差矩阵的估计,则Fisher线性判别所得的方向实际就是最优贝叶斯决策的方向。
6、简述固定增量法
(1)初值 任意(2)对样本,若,则 (3)对所有样本重复,直至
7、简述特征的评价准则
①基于类内类间距离的可分性判据 特点: 直观,易于实现(用样本计算),较常用。 不能确切表明各类分布重叠情况,与错误率无直接联系。 当各类协差相差不大时,用此种判据较好。②基于概率分布的可分性判据 考查两类分布密度之间的交叠程度 考查联合分布密度 如 与 独立,,即 则 不能提供对分类 的信息 因此可定义 与 之间关系的一个函数作为判据:称作概率相关性判据。③基于熵的可分性判据 熵:事件不确定性的度量。A事件的不确定性大(熵大),则对A事件的观察所提供的信息量大。 思路:把各类 看作一系列事件 把后验概率 看作特征 上出现 的概率 如从 能确定 ,则对 的观察不提供信息量,熵为 。——特征 有利于分类。 如从 完全不能确定 ,则对 的观察信息量大,熵大。——特征 无助于分类。④用统计检验作为可分性判据 选择在两类间有显著差异的特征。 基本做法: 把两类样本混合在一起,按所考查的特征从小到大排序; 如果一类样本排序序号之和(秩和)显著地比另一类样本小(或大),则两类样本在所考查的特征上有显著差异。
8、简述分支定界算法
从顶向下,有回溯应用条件:准则函数有单调性基本思想:按照一定的顺序将所有可能的组合排成一棵树,沿树进行搜索,避免一些不必要的计算,使找到最优解的机会最早。特点:①最优搜索算法,所有可能的组合都被考虑到 ②前提:准则函数单调性(注:实际中可能不满足,因是估计值) ③节约计算与存储 ④ 时最经济算法要点:根结点为第0级,包含全体特征 每个结点上舍弃一个特征,各个叶结点代表选择的各种组合 避免在整个树中出现相同组合的树枝和叶结点 记录当前搜索到的叶结点的最大准则函数值(界限B),初值置0 每级中将最不可能被舍弃(即舍弃后值最小)的特征放在最左侧 从右侧开始搜索 从左侧同级中将舍弃的特征不在本结点以下各级中舍弃 搜索到叶结点后,更新B值,然后回溯到上一分支处 如果结点上,则不向下搜索,向上回溯 每次回溯将已舍弃的特征放回(放回待舍弃之列) 如已回溯到顶(根)而不能再向下搜索,则的叶结点即为解。
四、计算题人工智能期末考试复习
人工智能期末考试复习选择题1.1997年5月,闻名的“人机大战”,最终运算机以3.5比2.5的总比分将世界国际象棋棋王卡斯帕罗夫击败,这台运算机被称为(A)2.下列不在人工智能系统的知识包含的4个要素中(D)或图通常称为(D)4.不属于人工智能的学派是(B)5.人工智能的含义最早由一位科学家于1950年提出,同时同时提出一个机器智能的测试模型,请问那个科学家是(C)6.要想让机器具有智能,必须让机器具有知识。因此,在人工智能中有一个研究领域,要紧研究运算机如何自动猎取知识和技能,实现自我完善,这门研究分支学科叫(B)。7.人工智能的目的是让机器能够____,以实现某些脑力劳动的机械化。8.盲人看不到一切物体,他们可以通过辨别人的声音识别人,这是智能的__B__方面。9.连接主义认为人的思维基元是___B_。10.第一个神经元的数学模型-MP模型是__A__年诞生的。11.下列哪个不是人工智能的研究领域(D)12.家用扫地机器人具有自动避障、清扫、自动充电等功能,这主要体现了信息技术中的(A)填空题知识点人工智能是什么?AI是什么?人工智能的三大学派人工智能的分类主要研究和应用领域有哪些?“图灵实验”是什么?具体解释实验过程人工智能代表作品人工智能与计算机的区别知识表示法状态空间法问题归约法谓词逻辑法(PredicateLogic)量词连接词示例与或图表示可解节点一般定义不可解节点的一般定义机器学习定义机器学习的分类机器学习的算法神经网络的定义神经元模型神经网络的特点神经网络的分类网上说法ppt零散说法前馈神经网络反馈式神经网络神经网络的构成常用的激活函数普遍神经网络的三层神经元分别是:感知机模型概念BP神经网络人工神经网络的基本功能卷积的计算代码KNN算法思想和步骤,电影分类的代码理解K-means的算法思想和代码解释还是以ppt为主,因为这篇文章可能不全选择题1.1997年5月,闻名的“人机大战”,最终运算机以3.5比2.5的总比分将世界国际象棋棋王卡斯帕罗夫击败,这台运算机被称为(A)A.深蓝B.IBMC.深思D.蓝天
2.下列不在人工智能系统的知识包含的4个要素中(D)A.事实
B.规则
C.操纵和元知识
D.关系
或图通常称为(D)A.框架网络B.语义图C.博亦图D.状态图
4.不属于人工智能的学派是(B)A.符号主义
B.机会主义
C.行为主义
D.连接主义。
5.人工智能的含义最早由一位科学家于1950年提出,同时同时提出一个机器智能的测试模型,请问那个科学家是(C)A.明斯基
B.扎德
C.图灵
D.冯.诺依曼
6.要想让机器具有智能,必须让机器具有知识。因此,在人工智能中有一个研究领域,要紧研究运算机如何自动猎取知识和技能,实现自我完善,这门研究分支学科叫(B)。A.专家系统
B.机器学习
C.神经网络
D.模式识别
7.人工智能的目的是让机器能够____,以实现某些脑力劳动的机械化。A.具有完全的智能
B.和人脑一样考虑问题
C.完全代替人
D.模拟、延伸和扩展人的智能
8.盲人看不到一切物体,他们可以通过辨别人的声音识别人,这是智能的__B__方面。A.行为能力
B.感知能力
C.思维能力
D.学习能力
9.连接主义认为人的思维基元是___B_。A.符号
B.神经元
C.数字
D.图形
10.第一个神经元的数学模型-MP模型是__A__年诞生的。A.1943
B.1958
C.1982
D.1986
11.下列哪个不是人工智能的研究领域(D)A、机器证明
B、模式识别
C、人工生命
D、编译原理
12.家用扫地机器人具有自动避障、清扫、自动充电等功能,这主要体现了信息技术中的(A)A、人工智能技术
B、网络技术
C、多媒体技术
D、数据管理技术
填空题在谓词公式中,紧接于量词之后被量词作用的谓词公式称为该量词的辖域,而在一个量词的辖域中与该量词的指导变元相同的变元称为约束变元,其他变元称为自由变元
人工神经网络属于反馈网络有BP网络
ANN中文意义是:人工神经网络
知识点人工智能是什么?一般解释:人工智能就是用人工的方法在机器(计算机)上实现的智能,或称机器智能
人工智能学科:从学科的角度来说,人工智能是一门研究如何构造智能机器或智能系统,使之能模拟、延伸、扩展人类智能的学科
人工智能能力:从智能能力的角度来说,人工智能是智能机器所执行的通常与人类智能有关的智能行为,如判断、推理、证明、识别、感知、理解、通信、设计、思考、规划、学习和问题求解等思维活动
AI是什么?AI:表示人工智能,即ArtificialIntelligence,缩写为AI人工智能是一门通过计算过程力图理解和模仿智能行为的学科
人工智能是研究、开发用于模拟、延伸和扩展人的智能的理论、方法、技术及应用系统的一门技术科学
人工智能的三大学派符号主义学派连接主义学派行为主义学派人工智能的分类领域人工智能通用人工智能或跨领域人工智能混合增强人工智能主要研究和应用领域有哪些?“图灵实验”是什么?具体解释实验过程1950年图灵提出了著名的“图灵测试”,一种测试机器是不是具备人类智能的方法。
测试主持人提出问题,机器和人同时回答,如果人类无法区分说明机器具有模仿人的能力,即智能。
例如这里连续问同一个问题,回答没有差异,我们会说像个机器人,不是人是机器一般,很机械,不应变
机器回答:
问:你会下国际象棋吗?
答:是的。
问:你会下国际象棋吗?
答:是的。
问:请再次回答,你会下国际象棋吗?
答:是的。
人回答:
问:你会下国际象棋吗?
答:是的。
问:你会下国际象棋吗?
答:是的,我不是已经说过了吗?
问:请再次回答,你会下国际象棋吗?
答:你烦不烦,干嘛老提同样的问题
人工智能代表作品IBM“深蓝”
AlphaGo
人工智能与计算机的区别知识表示法状态空间法,问题规约法,谓词逻辑法,语义网络法
状态空间法问题归约法我的理解就是递归先把问题分解为子问题及子-子问题,然后解决较小的问题。对该问题的某个具体子集的解答就意味着对原始问题的一个解答
谓词逻辑法(PredicateLogic)逻辑语句:一种形式语言,它能够把逻辑论证符号化,并用于证明定理,求解问题。
形式语言:严格地按照相关领域的特定规则,以数学符号(符号串)形式描述该领域有关客体的表达式
量词“对全额的”、“对任意的”等词在逻辑中被称为全称量词,记作“∀”
“存在一个”、“至少一个”等词在逻辑中被称为**存在量词**,记作“∃”
连接词与、合取(conjunction):用连词∧把几个公式连接起来而构成的公式或、析取(disjunction):用连词∨把几个公式连接起来而构成的公式
蕴涵(Implication):“=>”表示“如果—那么”(IF—THEN)关系,其所构成的公式叫做蕴涵。
非(Not)表示否定,~、—均可表示
示例与或图表示可解节点一般定义终叶节点是可解节点(因为它们与本原问题相关连)。:
如果某个非终叶节点含有或后继节点,那么只要当其后继节点至少有一个是可解的时,此非终叶节点才是可解的。
如果某个非终叶节点含有与后继节点,那么只有当其后继节点全部为可解时,此非终叶节点才是可解的
不可解节点的一般定义没有后裔的非终叶节点为不可解节点。
全部后裔为不可解的非终叶节点且含有或后继节点,此非终叶节点才是不可解的。
后裔至少有一个为不可解的非终叶节点且含有与后继节点,此非终叶节点才是不可解的
机器学习:machinelearning
机器学习定义机器学习就是用算法解析数据,不断学习,对世界中发生的事做出判断和预测的一项技术
机器学习的分类监督式学习无监督式学习半监督式学习强化学习监督学习,输入数据被称为训练数据,每组训练数据有一个明确的标识或结果无监督学习,数据并不被特别标识,学习模型是为了推出数据的一些内在结构监督学习和无监督学习的区别:训练集目标是否被标注强化学习的本质是自动进行决策,并且可以连续决策
机器学习的算法KNNK近邻算法决策树朴素贝叶斯分类逻辑回归支持向量机KMeans神经网络神经网络的定义神经元模型神经网络的特点类神经网络是模式识别和误差最小化的过程,在每一次经验中提取和学习信息。类神经网络可以处理连续型和类别型的数据,对数据进行预测。神经网络是有监督学习。神经网络可以构建成非线性的模型,模型的精确度高神经网络有良好的推广性,对于未知的输入亦可得到正确的输出。类神经网络可以接受不同种类的变量作为输入,适应性强。神经网络可应用的领域相当广泛,模型建构能力强。神经网络具模糊推论能力,允许输出入变量具模糊性,归纳学习较难具备此能力神经网络的分类这一点ppt上没找到我网上找的
网上说法按性能分:连续型和离散型网络,或确定型和随机型网络。按拓扑结构分:前向网络和反馈网络。按学习方法分:有监督的学习网络和无监督的学习网络
ppt零散说法前馈神经网络,反馈神经网络,卷积神经网络,循环神经网络
前馈神经网络前馈神经网络是指信息只朝一个方向流动,也就是数据在神经元之间的流动方向是单向的,没有循环。
这种网络而在分类过程中数据只能向前传送,直到到达输出层,层间没有向后的反馈信号,因此被称为前馈网络
感知机网络,卷积网络是前馈神经网络
反馈式神经网络反馈式神经网络是指数据在神经元之间的流动方向是双向关系,神经元会输出到其他所有的神经元,也会接收其他神经元的输出成为输入
bp网络是反馈神经网络
神经网络的构成常用的激活函数普遍神经网络的三层神经元分别是:输入层、隐藏层、输出层,为了是模型的精度更高可以增加隐藏层的层数
感知机模型概念感知机网络(PerceptronNetworks)是一种特殊的前馈神经网络:无隐藏层,只有输入层和输出层无法拟合复杂结构
BP神经网络BP算法是一种将输出层误差反向传播给隐藏层进行参数更新的方法。将误差从后向前传递,将误差分摊给各层所有单元,从而获得各层单元所产生的误差,进而依据这个误差来让各层单元负起各自责任、修正各单元参数
人工神经网络的基本功能卷积的计算代码KNN算法思想和步骤,电影分类的代码理解KNN(k-NearestNeighbor)又被称为近邻算法,它的核心思想是:物以类聚,人以群分。假设一个未知样本数据x需要归类,总共有N个类别,那么离x距离最近的有k个邻居,这k个邻居里最多类别的就认为是样本X的类别,也就是说x的类别完全由邻居来推断出来。所以我们可以总结出其算法步骤为:1、计算测试对象到训练集中每个对象的距离2、按照距离的远近排序3、选取与当前测试对象最近的k的训练对象,作为该测试对象的邻居4、统计这k个邻居的类别频率5、k个邻居里频率最高的类别,即为测试对象的类别我们可以简化为:找邻居+投票决定
K-means的算法思想和代码解释K-Means算法的思想很简单,对于给定的样本集,按照样本之间的距离大小,将样本集划分为K个簇。让簇内的点尽量紧密的连在一起,而让簇间的距离尽量的大。kmeans算法流程1)随机选取k个点作为初始质心/种子点(这k个点不一定属于数据集,k个点就代表有k类)2)分别计算每个数据点到k个质心点的距离,离哪个质心点最近,就属于哪类3)重新计算k个质心点的坐标(简单常用的方法是求坐标值的平均值作为新的坐标值)4)重复2、3步,直到质心点坐标不变或者循环次数完成