博舍

人工智能之模式识别 模式识别基础课程

人工智能之模式识别

欢迎您来到《人工智能之模式识别》慕课课程!

这门课程不是科普讲座,也不是学术研究专题,而是一门工程技术类的专业课程。因此,课程将关注“从人工智能角度理解模式识别,用模式识别原理解决工程问题”,与您一起走入模式识别技术带来的人工智能奇境。

课程面向信息技术相关领域的学习者。如果您有《概率论与数理统计》和《线性代数》的基础知识,对人工智能中的智能感知、生物特征识别、机器学习或计算机视觉等领域有浓厚的兴趣,希望系统性地学习模式识别的基本原理和主要算法,并希望能够掌握运用所学知识分析解决实际模式识别问题的能力,欢迎您选修本课程!

本课程有3个层次的学习目标:

目标1—理解掌握模式识别的基础知识:通过课程学习,使学习者知悉模式识别技术的基本概念、基本理论、基本算法和应用方式,理解模式识别的主要研究内容、研究方向和研究方法,掌握统计模式识别和结构模式识别的基础算法;

目标2—分析设计模式识别的解决方案:通过课程学习、工程案例分析和算法实现练习,使学习者能够分析来自生产实践中的工程性模式识别问题,并能够依据所学基础知识,选择运用合适的模式识别算法和技术提出具体的系统性解决方案;

目标3—编程实现模式识别的算法系统:通过课程学习、工程案例分析和算法实现练习,使学习者能够针对工程性模式识别问题进行模式识别系统的数学建模,并通过计算机技术实现所设计的系统,同时能够评估系统的识别效果和不足,理解算法的局限性。

 

因此,本课程的特色可以概括为:基础性、趣味性、实践性

基础性:课程将比较全面地介绍模式识别的主流算法和核心问题,帮助学习者了解模式识别领域的全貌,并在理解其基本原理的基础上为后续深入学习某个具体方向打下坚实的基础;

趣味性:作为面向社会学习者的专业性课程,将采用结构更加灵活、材料更加丰富、讲解更加有趣的方式,避免过于枯燥和难以理解的数学理论成为学习者深入理解模式识别基本思想的障碍,使课程从内容到形式都有足够的吸引力;

实践性:绝大多数本课程的学习者都有能够通过课程学习掌握运用所学知识分析解决具体模式识别问题的期望。本课程将以一个具有一定复杂度和延展性的模式识别工程案例作为线索,逐步介绍该模式识别系统涉及到的各种基本概念和基本算法,并辅助以针对性的算法编程实现练习,帮助学习者达成实践性的学习目标。

 

《人工智能之模式识别》既强调基础性——知其然先知其所以然,又强调实践性——知其所以然还要知其用,因此把引入研究性学习模式作为本门在线课程的主要教学设计思路,在提供常规的慕课学习方法外,也加入了基于项目的实践性学习。

为达成学习目标,本课程设置了多条学习路径,您可以根据自己的需求和学习风格自由选择。无论选择哪条学习路径,都离不开理论学习、算法编程练习和对一个实际模式识别问题的分析解决。相信您经过这样的学习过程,不仅能深入理解模式识别各种算法的核心原理,而且能获得将其灵活运用到解决实际问题之中的能力。

 

虽然模式识别算法种类繁多,思路各异,但相互之间却有密切的逻辑关联,共同构成了模式识别技术的算法体系。

赶快加入本课程,让我们一起来探索其中的奥秘吧!

模式识别

为积极响应国家低碳环保政策,2021年秋季学期开始,中国大学MOOC平台将取消纸质版的认证证书,仅提供电子版的认证证书服务,证书申请方式和流程不变。

 

电子版认证证书支持查询验证,可通过扫描证书上的二维码进行有效性查询,或者访问https://www.icourse163.org/verify,通过证书编号进行查询。学生可在“个人中心-证书-查看证书”页面自行下载、打印电子版认证证书。

 

完成课程教学内容学习和考核,成绩达到课程考核标准的学生(每门课程的考核标准不同,详见课程内的评分标准),具备申请认证证书资格,可在证书申请开放期间(以申请页面显示的时间为准),完成在线付费申请。

 

认证证书申请注意事项:

1. 根据国家相关法律法规要求,认证证书申请时要求进行实名认证,请保证所提交的实名认证信息真实完整有效。

2. 完成实名认证并支付后,系统将自动生成并发送电子版认证证书。电子版认证证书生成后不支持退费。

《模式识别》期末考试考题汇总带答案

目录

一、名词解释

二、填空题

三、简答题

四、计算题

一、名词解释

样本(sample):所研究对象的一个个体。

样本集(sampleset):若干样本的集合。

类或类别(class):在所有样本上定义的一个子集,处于同一类的样本在我们所关心的某种性质上是不可区分的,即具有相同的模式。

特征(features):指用于表征样本的观测。

已知样本(knownsamples):指事先知道类别标号的样本。

未知样本(unknownsamples):指类别标号未知但特征已知的样本。

模式识别(patternrecognition):就是用计算的方法根据样本的特征将样本划分到一定的类别中去。

统计模式识别:用概率统计的观点和方法来解决模式识别问题。

贝叶斯决策(统计决策理论):是统计模式识别的基本方法和基础;是“最优分类器”:使平均错误率最小。

最小风险贝叶斯决策:最小错误率只考虑了错误,进一步可考虑不同错误所带来的损失(代价)。

Neyman-Pearson决策规则:限定一类错误率为常数而使另一类错误率最小的决策。

参数估计(parametricestimation):已知概率密度函数的形式,只是其中几个参数未知,目标是根据样本估计这些参数的值。

非参数估计:在一些情况下我们无法实现判断数据的分布情况。

统计量(statistics):样本的某种函数,用来作为对某参数的估计。

参数空间(parametricspace):待估计参数的取值空间。

估计量(estimation):。

贝叶斯估计:思路与贝叶斯决策类似,只是离散的决策状态变成了连续的估计。

最优超平面:一个超平面,如果它能够将训练样本没有错误地分开,并且两类训练样本中离超平面最近的样本与超平面之间的距离是最大的,则我们把这个超平面称作最优分类超平面(OptimalSeperatingHyperplane),简称最优超平面(OptimalHyperplane)。两类样本中离分类面最近的样本到分类面的距离称作分类间隔(margin),最优超平面也称作最大间隔超平面。

特征形成(特征获取、提取):直接观测到的或经过初步运算的特征——原始特征。

特征选择:从  个特征中选择 个,(人为选择、算法选择)。

特征提取(特征变换,特征压缩):将 个特征变为 个新特征——二次特征。

特征的评价准则:特征选择与提取的任务是找出一组对分类最好的特征。

二、填空题

1、解决模式识别的方法可以归纳为基于知识的方法和基于数据的方法两大类。

2、一个模式识别问题往往包括以下五个阶段:问题的提出和定义、数据获取和预处理、特征提取和选择、分类器设计和性能评估、分类及结果解释。

3、模式识别应用举例:语音识别、说话人识别、字符与文字识别、复杂图像中特定目标的识别、根据地震勘探数据对地下储层性质的识别、利用基因表达数据进行癌症分类。

4、统计决策基本原理:根据各类特征的概率模型来估算后验概率,通过比较后验概率进行决策。

5、第一类错误率(Type-Ierrorrate)=假阳性率=假阳性样本数/总阴性样本数    第二类错误率(Type-IIerrorrate)=假阴性率=假阴性样本数/总阳性样本数

6、ROC曲线(ROCCurve)纵坐标:真阳性率(灵敏度);横坐标:假阳性率(1-特异度)。

7、估计概率密度的两种基本方法:参数方法(parametricmethods)和非参数方法(nonparametricmethods)。

8、贝叶斯估计基本思想:把待估计参数看作具有先验分布的随机变量,其取值与样本集有关,根据样本集估计。

9、从基于概率密度(估计)的分类器设计到基于样本的直接分类器设计思路:首先选定判别函数类和一定的目标(准则),利用样本集确定出函数类中的某些未知参数,使所选的准则最好。

10、基于样本直接设计分类器需要确定三个基本要素:一是分类器即判别函数的类型、二是分类器设计的目标或准则、三是在前两个要素明确后,如何设计算法利用样本数据搜索到最优的函数参数(即选择函数集中的函数)。

11、非线性分类器包括分段线性分类器、二次判别函数、神经网络和支持向量机等。

12、线性分类器包括Fisher线性判别器、感知器、最小平方误差判别器、最优分类超平面、线性支持向量机。

13、主成分分析目的:出发点是从一组特征中计算出一组按重要性从大到小排列的新特征,它们是原有特征的线性组合,并且相互之间是不相关的。

三、简答题

1、简述模式识别系统的典型构成。

有已知样本情况:监督模式识别(supervisedPR):已知要划分的类别,并且能够获得一定数量的类别已知的训练样本,这种情况下建立分类器的问题属于监督学习问题,程总做监督模式识别,因为我们有训练样本来作为学习过程的"导师"。

处理监督模式识别问题的一般步骤:·分析问题:深入研究应用领域的问题,分析是否属于模式识别问题,把所研究的目标表示为一定的类别,分析给定数据或者可以观测的数据中哪些因素可能与分类有关。·原始特征获取:设计实验,得到已知样本,对样本实施观测和预处理,获取可能与样本分类有关的观测向量(原始特征)。·特征提取与选择:为了更好地进行分类,可能需要采用一定的算法对特征进行再次提取和选择。·分类器设计:选定一定的分类器方法,用已知样本进行分类器训练。·分类决策:利用一定的算法对分类器性能进行评价;对未知样本实施同样的观测、预处理和特征提取与选择,用所设计的分类器进行分类,必要时根据领域知识进行进一步的后处理。

无已知样本情况:非监督模式识别(unsupervisedPR):非监督模式识别称作聚类,在很多非监督模式识别问题中,答案并不一定是唯一的,特点是由于没有类别已知的训练样本,在没有其他额外信息的情况下,采用不同的方法和不同的假定可能会导致不同的结果。处理非监督模式识别问题的一般步骤:·分析问题:深入研究应用领域的问题,分析研究目标能否通过寻找适当的聚类来达到;如果可能,猜测可能的或希望的类别数目;分析给定数据或者可以观测的数据中哪些因素可能与聚类有关。·原始特征获取:设计实验,得到待分析的样本,对样本实施观测和预处理,获取可能与样本聚类有关的观测向量(原始特征)。·特征提取与选择:为了更好地进行聚类,可能需要采用一定的算法对特征进行再次提取和选择。·聚类分析:选定一定的非监督模式识别方法,用样本进行聚类分析。·结果解释:考察聚类结果的性能,分析所得聚类与研究目标之间的关系,根据领域知识分析结果的合理性,对聚类的含义给出解释;如果有新样本,把聚类结果用于新样本分类。

2、简述最大似然函数的假设条件和基本思想

假设条件:①参数是确定的未知量,(不是随机量)②各类样本集  中的样本都是从密度为 的总体中独立抽取出来的,(独立同分布,)③ 具有某种确定的函数形式,只其参数  未知④各类样本只包含本类分布的信息其中,参数  通常是向量,比如一维正态分布 ,未知参数可能是 ,此时 可写成  或。基本思想:如果在参数下 最大,则 应是“最可能”的参数值,它是样本集的函数,记作 。称作最大似然估计量。为了便于分析,还可以定义对数似然函数。

3、简述求贝叶斯估计的方法(平方误差损失下)

(1)确定 的先验分布 (2)求样本集的联合分布 (3)求 的后验概率分布 (4)求 的贝叶斯估计量 

4、简述概率密度估计的非参数方法

①直方图方法   非参数概率密度估计的最简单方法(1)把 的每个分量分成 个等间隔小窗,(若 ,则形成 个小舱)(2)统计落入各个小舱内的样本数(3)相应小舱的概率密度为(:样本总数,:小舱体积)②  -近邻估计   通过控制小区域内的样本数 来确定小区域大小。③窗法  (1)超立方体窗(方窗)(2)正态窗(高斯窗)(3)超球窗

5、简述Fisher准则函数

把线性分类器的设计分为两步:一是确定最优的方向,二是在这个方向,上确定分类阈值。两类的线性判别问题可以看做是把所有样本都投影到一一个方向上,然后在这个一维空间中确定一个分类的阈值。过这个阈值点且与投影方向垂直的超平面就是两类的分类面。思想:选择投影方向,使投影后两类相隔尽可能远,而同时每一-类内部的样本又尽可能聚集。Flsher判别函数最优解本身只是给出了-一个投影方向,并没有给出我们所要的分类面。要得到分类面,需要在投影后的方向(一维空间)上确定一个分类阈值,并采取决策规则当样本是正态分布且两类协方差矩阵相同时,最优贝叶斯分类器是线性函数当样本为正态分布且两类协方差相同的情况下,如果把算数平均作为均值的估计,把样本协方差矩阵当做是真实协方差矩阵的估计,则Fisher线性判别所得的方向实际就是最优贝叶斯决策的方向。

6、简述固定增量法

(1)初值 任意(2)对样本,若,则 (3)对所有样本重复,直至 

7、简述特征的评价准则

①基于类内类间距离的可分性判据   特点:   直观,易于实现(用样本计算),较常用。   不能确切表明各类分布重叠情况,与错误率无直接联系。   当各类协差相差不大时,用此种判据较好。②基于概率分布的可分性判据   考查两类分布密度之间的交叠程度   考查联合分布密度    如 与  独立,,即    则 不能提供对分类 的信息   因此可定义 与  之间关系的一个函数作为判据:称作概率相关性判据。③基于熵的可分性判据  熵:事件不确定性的度量。A事件的不确定性大(熵大),则对A事件的观察所提供的信息量大。  思路:把各类  看作一系列事件        把后验概率  看作特征 上出现  的概率        如从 能确定 ,则对  的观察不提供信息量,熵为 。——特征 有利于分类。        如从 完全不能确定 ,则对 的观察信息量大,熵大。——特征 无助于分类。④用统计检验作为可分性判据  选择在两类间有显著差异的特征。   基本做法:   把两类样本混合在一起,按所考查的特征从小到大排序;   如果一类样本排序序号之和(秩和)显著地比另一类样本小(或大),则两类样本在所考查的特征上有显著差异。

8、简述分支定界算法

从顶向下,有回溯应用条件:准则函数有单调性基本思想:按照一定的顺序将所有可能的组合排成一棵树,沿树进行搜索,避免一些不必要的计算,使找到最优解的机会最早。特点:①最优搜索算法,所有可能的组合都被考虑到       ②前提:准则函数单调性(注:实际中可能不满足,因是估计值)       ③节约计算与存储       ④  时最经济算法要点:根结点为第0级,包含全体特征          每个结点上舍弃一个特征,各个叶结点代表选择的各种组合          避免在整个树中出现相同组合的树枝和叶结点          记录当前搜索到的叶结点的最大准则函数值(界限B),初值置0          每级中将最不可能被舍弃(即舍弃后值最小)的特征放在最左侧          从右侧开始搜索         从左侧同级中将舍弃的特征不在本结点以下各级中舍弃          搜索到叶结点后,更新B值,然后回溯到上一分支处         如果结点上,则不向下搜索,向上回溯          每次回溯将已舍弃的特征放回(放回待舍弃之列)          如已回溯到顶(根)而不能再向下搜索,则的叶结点即为解。

四、计算题

版权声明:本文内容由互联网用户自发贡献,该文观点仅代表作者本人。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如发现本站有涉嫌抄袭侵权/违法违规的内容,一经查实,本站将立刻删除。

上一篇

下一篇