高中信息技术选择性必修4《人工智能初步》(粤教版2019)电子课本高清PDF版
原标题:高中信息技术选择性必修4《人工智能初步》(粤教版2019)电子课本高清PDF版为方便教师、学生、家长随身查阅中小学课本教材,利于教师备课、学生学习、家长辅导之用。小编特从公开网络收集整理了全套教材图片版,并分门别类的免费提供大家使用。你只需关注本公众号,让你拥有掌中全套随身电子课本。特别说明,涉及我国文化的语文、政治、历史修订较为频繁,其他科目教材相对比较稳定,所有电子课本仅供参考,请以新学期出版社正式发布的课本为准,本电子教材仅供教师备课、学生预习和家长辅导孩子使用。如需正式使用,请购买正版实体图书。
版权声明:本公众账号分享的资源版权属于原出版机构,本资源为电子载体,传播分享仅限于家庭使用与交流心得、参考和辅助购买决策,不得以任何理由在商业行为中使用。若喜欢此资源,建议购买实体产品。如果侵权,可以给我留言,我会尽快删除。
如需领取全套电子课本,请关注微信公众号"电子课本大全"回复:"电子课本",即可获得全套电子课本PDF文档。
展开全文为方便教师、学生、家长随身查阅中小学课本教材,利于教师备课、学生学习、家长辅导之用。小编特从公开网络收集整理了全套教材图片版,并分门别类的免费提供大家使用。你只需关注本公众号,让你拥有掌中全套随身电子课本。特别说明,涉及我国文化的语文、政治、历史修订较为频繁,其他科目教材相对比较稳定,所有电子课本仅供参考,请以新学期出版社正式发布的课本为准,本电子教材仅供教师备课、学生预习和家长辅导孩子使用。如需正式使用,请购买正版实体图书。
版权声明:本公众账号分享的资源版权属于原出版机构,本资源为电子载体,传播分享仅限于家庭使用与交流心得、参考和辅助购买决策,不得以任何理由在商业行为中使用。若喜欢此资源,建议购买实体产品。如果侵权,可以给我留言,我会尽快删除。返回搜狐,查看更多
责任编辑:选修五 人工智能初步
人工智能技术是当前信息技术应用发展的热点之一。与一般的信息处理技术相比,人工智能技术在求解策略和处理手段上具有独到之处。“人工智能初步”模块介绍了人工智能的基本概念和人工智能领域内容易为高中学生所理解和掌握的部分内容,是选修模块。
通过本模块的学习,学生应能描述人工智能的基本概念,会使用一种人工智能语言解决简单问题,把握其基本特点;能利用简易的专家系统外壳开发简单的专家系统;知道人工智能对人类学习、生活的影响;通过感受人工智能技术的丰富魅力,增强对信息技术发展前景的向往和对未来生活的追求。
本模块的教学应强调让学生体验若干典型人工智能技术的应用;要根据高中学生的知识基础和本校实际情况开展教学;要发现有特长的学生并对他们进行有针对性的教学。本模块对采用的人工智能语言与专家系统工具不作具体要求,可以根据实际情况自主选择。
本模块由3个主题组成,结构如下:
(一)知识及其表达
1.内容标准
(1)能描述人工智能的概念与基本特点;知道人工智能技术随着计算机硬、软件技术的进步和应用需求而发展的事实和客观规律。
(2)列举人工智能的主要应用领域;通过演示或实际操作,体验人工智能的若干典型应用,知道其发展现状。
例1符号运算:通过网站http://www.wolfram.com/在线执行符号运算软件Mathematica,进行多项式乘、除以及因式分解等代数运算。
例2模式识别:声音识别、指纹识别、签名识别等识别技术的应用越来越广泛。
例3机器证明:这是我国科学家做出过重要贡献的人工智能应用领域之一。
例4智能代理:该技术在网上信息检索、个性化服务等方面有着广泛的用途。
(3)掌握知识的概念;学会知识表达的基本方法。
例1用产生式规则表达简单的“动物识别”知识。
例2将上述“动物识别”的产生式规则用“与/或图”来表达。
例3采用框架表达“天气预报”知识。
2.活动建议
(1)就下列话题展开讨论:利用符号运算软件能解决中学课程中的哪些问题?具有哪些优点?
(2)对产生式规则、与/或图、框架等常用的知识表示方法的特点、适用场合进行比较。
(3)人工智能的基本思想已经在许多领域中得到了应用,“在家里寻找外星人”(SETI@home)项目就是利用人工智能的神经网络和分布计算思想的一个成功案例。该项目由美国行星学会和美国加州大学伯克利分校于1999年5月开始实施,它利用特定屏幕保护程序调用全球上网的个人计算机的闲置能力,分析世界上最大的射电望远镜获得的数据,帮助科学家探索外星生物。
教师先向学生简单解释神经网络、分布计算的基本思想以及SETI@home项目的社会意义,学生登录http://setiathome.ssl.berkeley.edu/home_chinese.html网站了解或亲自参与该项目。通过该活动使学生知道人工智能领域中神经网络、分布式计算的概念,了解SETI@home项目的具体内容,感受现代信息技术服务于人类文明的价值。
(二)推理与专家系统
1.内容标准
(1)演示或使用简单的产生式专家系统软件,感受用专家系统解决问题的基本过程;了解专家系统的基本结构。
例通过网站http://www.expertise2go.com/在线执行“PC产品顾问”(DesktopPCProductAdvisor)专家系统,为准备添置的个人电脑规划合理的硬软件配置。
(2)通过实例分析,知道专家系统正向、反向推理的基本原理;会描述一种常用的不精确推理的基本过程。
(3)了解专家系统解释机制的基本概念及其在专家系统中的重要作用。
例执行专家系统,分别使用“Why”和“How”命令,了解其解释过程。
(4)了解专家系统外壳的概念;学会使用一个简易的专家系统外壳,并能用它开发简单的专家系统。
例在专家系统的开发过程中,通常采用“原型化”策略。
2.活动建议
(1)针对学生熟悉或感兴趣的一个分类问题,利用简易专家系统外壳开发一个简单的专家系统。例如,用于识别校园中植物的专家系统。
(2)有人认为:“信息技术的应用已经经历了数值计算、数据处理、知识处理三个阶段,专家系统是知识处理阶段的典型代表。”在学习了专家系统的相关内容后,让学生从信息技术的应用对象、策略与方法等方面对上述三个阶段的特点进行比较。
(三)人工智能语言与问题求解
1.内容标准
(1)了解一种人工智能语言的基本数据结构和程序结构,掌握相关概念,知道人工智能语言的主要特征。
例浏览Prolog语言网站http://www.visual-prolog.com/,考察它的实例程序。
(2)初步学会使用该语言设计程序求解简单问题,并能够上机调试、执行相应的程序。
例1用匹配方法解决简单的查询问题。
例2用递归方法求解汉诺塔(Hanoi)问题。
(3)了解状态空间的概念与方法,学会用该方法描述待求解的问题。
例“井字棋”问题。
(4)通过简单博弈问题的分析,了解用盲目搜索技术进行状态空间搜索的基本过程,知道启发式搜索的基本思想及其优点。
例 1996年,“深蓝”计算机向国际象棋世界冠军卡斯帕罗夫挑战失败。1997年,“深蓝”的后嗣替“父”报仇,以3.5:2.5的总比分击败卡斯帕罗夫。事实上,“深蓝”序列计算机中存放了包括卡斯帕罗夫的所有比赛棋谱在内的近百年的棋谱历史记录,它的“智能”主要体现在对海量的实战棋谱所进行的启发式搜索上。
2.活动建议
(1)以小组为单位,对本模块教学中尚未涉及的人工智能应用问题展开调查,就它们的应用情况、工作过程、优点与局限性以及对人们生活和工作所产生的影响进行讨论与分析。
(2)观看、阅读与人工智能相关的影视作品或文学作品,发挥自己的想象力,描述人工智能技术的应用前景,以班级网站或板报的方式展示和交流。
人工智能基础(高中版)
使用Scratch3和ROS进行机器人图形化编程学习zhangrelay:很久不做了,具体也不清楚,抱歉啊。
micro-ROS之esp32与ros2资料(freertos)zhangrelay:感谢回复和提示。
micro-ROS之esp32与ros2资料(freertos)Teaant:有没有科学上网呢?
使用Scratch3和ROS进行机器人图形化编程学习weixin_39407976:我安装好之后并没有出现ros扩展请问是ros版本不对的原因吗?我看我这儿是melodic版本的
ROS机器人程序设计课程反思-2022终篇-zhangrelay:如果没有地球,也许人类就不会存在。连做囚徒的机会都没有啦。这是你的留言给我的启发,非常感谢。
人工智能基础知识总结
本文是对人工智能基础的期末复习知识总结。
文章目录一、绪论什么是人工智能?什么是图灵测试?人工智能的研究范围有哪些?二、Agent什么是Agent?什么是理性Agent?如何构建理性Agent?Ⅰ.任务环境描述--PEAS(Performance性能Environment环境Actuators执行器Sensors传感器)Ⅱ.任务环境的性质Ⅲ.Agent程序**简单反射Agent****基于模型的反射Agent****基于目标的Agent****基于效用的Agent**三、搜索1.经典搜索搜索算法基础搜索算法性能评价Ⅰ.无信息搜索宽度优先搜索一致代价搜索深度优先搜索深度受限搜索迭代加深的深度优先搜索双向搜索Ⅱ.有信息搜索贪婪最佳优先搜索A*搜索2.局部搜索简述爬山法模拟退火局部束遗传3.对抗搜索/博弈Ⅰ.形式化Ⅱ.算法极小极大算法α-β剪枝Ⅲ.实施决策优化4.约束满足问题(CSP)四、机器学习1.监督学习Ⅰ.决策树决策树例子决策树的使用决策树的生成Ⅱ.随机森林2.无监督学习Ⅰ.K-meansⅡ.层次聚类高概率考点总结一、绪论什么是人工智能?从模拟人的角度来说,可以通过认知建模的过程让机器学会像人一样思考,可以以通过图灵测试为目标让机器具有和人一样的行为;而让机器模拟人并不是我们的目的,这里学习人工智能的是让机器具备理性(rationality),指的是通过思维法则的途径让机器学汇理性的思考,通过理性Agent的构造让机器具有理性的行为。这是四个维度不同层面的解释。
发展历史就不谈了,整体上是以十年为一个周期的发展态势,没意思。
什么是图灵测试?图灵测试由AlanTuring在1950年提出,内容可以简单描述为,由一个人类询问者提出一些书面问题之后,无法判断书面回答是来自计算机还是人类,就说这台计算机通过了图灵测试。图灵测试是一个至今仍合适的测试,人工智能的研究者并没有一直致力于让计算机通过图灵测试,研究智能的基本原理比复制人类智能或让计算机模拟人更加重要。
人工智能的研究范围有哪些?知识表示(语义网络等)、搜索技术(博弈树搜索等)、非经典逻辑&非经典推理(时序逻辑等&类比推理等)、机器学习(统计学习等)、自然语言理解(语法学等)、知识工程(专家系统等)、定理机器证明(归纳法等)、人工生命(细胞自动机等)、机器人(传感器数据融合等)、AI语言(Lisp/Prolog等)。
二、Agent什么是Agent?Agent是可以感知环境并且在环境中行动的东西。
Agent通过传感器感知环境,通过执行器对环境产生影响。Agent收到的所有输入数据的历史序列叫做感知序列,Agent在任何时可的行动选择依赖于到那个时刻为止该Agent的感知序列。Agent=体系结构+程序,体系结构就是图上所表现的,具备传感器和执行器的计算装置,计算装置上运行着Agent程序,程序实现的是从感知序列映射到行为的Agent函数。
Agent函数描述了Agent的行为,可以通过表格描述,Agent函数是抽象的数学描述,Agent程序是具体的实现。
什么是理性Agent?理性Agent是做事正确的Agent,这是个很模糊的概念,准确来说,**理性Agent是对每一个可能的感知序列,根据已知的感知序列提供的证据和Agent具有的先验知识,理性Agent应该选择能使其性能度量最大化的行动。**所谓性能度量就是对Agent行为的评价,具体问题具体分析。以吸尘器的例子为例,性能度量是一定时间段内清理的灰尘总量,另外还有其他度量指标,比如保持干净地面加分,能耗高噪声大则减分。
这里有一个讲到的点,理性≠全知/完美,全知/完美是让实际的性能最大化,可以预见行动产生的实际结果并作出相应的动作,而理性只是将期望中的性能最大化。
如何构建理性Agent?Agent要从环境中通过传感器收集信息,通过程序做出合理的行动指示,才能通过执行器对环境做出符合预期的行为。那么构建理性Agent就有三方面任务,第一是收集准确且足够的环境信息,第二是有合适的体系结构包括传感器和执行器,第三也是最关键的,是要设计出满足AI需求的Agent程序。
在书中24和25章才讲到了传感器和执行器,就不提了,主要学的是设计Agent程序。
首先要尽可能完全地定义任务环境,也就是明确Agent要解决的基本问题,然后是简单了解4种基本的Agent程序。
Ⅰ.任务环境描述–PEAS(Performance性能Environment环境Actuators执行器Sensors传感器)比如:
Agent类型性能度量P环境E执行器A传感器STaxidriver安全、快捷、合法、舒适性、利润最大化道路、其他车辆、行人、乘客方向盘、油门、刹车、车灯、喇叭、显示输出设备摄像头、声呐、车速表、GPS、里程表、加速度计、乘客输入设备Ⅱ.任务环境的性质完全可观察的传感器在每个时刻都能获取环境的完整状态,若传感器能检测所有与行动决策相关的信息,则称为有效完全可观察的。部分可观察的噪声、传感器不够精确、传感器丢失了部分数据,则环境是部分可观察的。
单Agent、多Agent环境中如果有多个对象,那么多个对象的行为是否依赖于其他对象的性能度量。
确定的、随机的如果环境的下一个状态完全取决于当前状态和Agent执行的动作,则该环境是确定的,否则,是随机的,也就是说后果是不确定的,可以用概率来量化。
片段式的Agent的经历被分成一个一个的片段,下一个片段不依赖于以前的片段中采取的行动。延续式的当前的决策会影响到所有未来的决策。
静态的环境在Agent计算的时候不会发生变化,Agent在决策时不需要观察环境,也不需要顾虑时间流逝。动态的环境在Agent计算的时候会变化,会持续的要求Agent做决策。半动态的环境本身不随时间变化,而性能度量随时间变化。
离散的、连续的指环境的状态、时间的处理方式,以及Agent的感知信息和行动,如出租车Agent的环境的状态就是连续的,随时间而变化,驾驶行动也是连续的。
已知的、未知的指Agent的知识状态,在已知环境中,Agent行动的所有后果是给定的。在未知环境中,Agent需要学习环境是如何工作的,以便做出更好的决策。
Ⅲ.Agent程序输入参数:从传感器得到的当前感知信息;返回值:执行器的行动决策。
这里有四种基本的Agent程序。
简单反射Agent简单反射Agent,最简单的Agent–基于当前的感知选择行动,不关注感知历史。仅仅根据当前感知的环境信息匹配规则,得出行为决策。
环境必须是完全可观察的。
基于模型的反射Agent基于模型的反射Agent,在简单反射Agent根据当前感知的环境信息决策的基础上,结合当前的信息和过去内部状态得到当前行为决策。内部状态是靠感知历史维持的,会加入世界如何发展,行动会如何影响世界如何产生结果的信息。
可处理部分可观察的环境。
基于目标的Agent基于目标的Agent,在基于模型的反射Agent根据当前感知的环境信息决策+过去内部状态的基础上,结合模型和增加的目标信息,同时记录世界的状态和目标集合,根据目标灵活改变行动序列来达成目标,方式包括搜索和规划。
基于效用的Agent基于效用的Agent,在基于目标的基础上加入对效用的评价,追求对达到目标的最优化途径,通过效用函数决策。
可用在部分可观察和随机的环境中处理不确定性的决策。
三、搜索上文的基于目标的Agent程序提到了,这类问题的解法会根据目标灵活地找出一个行动序列,而采用的方法是搜索或是规划,规划不学,以后有时间自学,这里搜索是一个大章,我尽量理解清晰,用简洁的语言总结清楚。
通过搜索求解问题有两个步骤,一是形式化目标和问题,二是搜索算法求出行动序列。搜索指的是Agent寻找一组行动序列到达目标的过程,输入是问题,输出是行动序列形式的问题的解。
比如我的另一篇文章中讨论的罗马尼亚问题,问题的形式化需要用五个组成部分来描述,在罗马尼亚问题中:
StatusAgent的初始状态:s=In(Arad)
ActionAgent的行动集合:a(s)=a(In(Arad))={Go(Sibiu),Go(Timisoara),Go(Zerind)}
Result对每个行动的描述,即转移模型:Result(s,a)=Result(In(Arad),Go(Sibiu))=In(Sibiu)
初始状态、行动集合、转移模型三者定义了问题的状态空间——从初始状态可以到达的所有状态的集合。
状态空间形成一个有向图,即状态空间图,结点表示状态,结点之间的边表示行动,状态空间中的一条路径:通过行动连接起来的一个状态序列,状态空间中从初始状态到达目标状态的一条路径是问题的一个解。
目标测试:可以是一个状态亦可以是一个状态集合,在上述问题中目标状态是{In(Bucharest)},目标检测就是判断当前状态是不是目标状态集合中的状态。Cost路径耗散:c(s,a,s’)=c(In(Arad),Go(Sibiu),In(Sibiu))=140上述五者,即初始状态、行动集合、转移模型、目标测试和路径耗散构成Agent的形式化描述,状态空间中从初始状态到达目标状态的一条路径是问题的一个解,解的质量由路径耗散函数度量,路径耗散值最小的解即为最优解。1.经典搜索搜索算法基础还是用罗马尼亚问题为例,可以看到图上,标红色节点的是已被扩展的节点,标红色的边连接的白色节点则是待扩展的节点。在这里的学习中,已经被扩展的节点集合被称为探索集(closed表),待扩展的节点集合被称为边缘集。
在这里,节点对应的是状态空间中的状态Status,连线代表行动,是行动集合Action(Status)中的一个行动,算法的过程就是不断地在边缘节点中找一个合适的节点进行扩展到达下一个状态,直到找到解或者没有状态能够扩展(无解)为止。
不同算法之间的区别就在于选择边缘集中哪一个新的边缘节点(状态)进行扩展,也叫做不同的搜索策略。
搜索算法性能评价就像学算法看算法导论一样,人工智能导论也有算法的性能评价,搜索算法的性能评价分别为,
完备性–当问题有解时,算法保证能否找到解;
最优性–搜索策略能否找到最优解,
时间复杂度和空间复杂度就不提了,那个是算法课讨论的内容。
另外,每个内容都要从书上看一个例子。
Ⅰ.无信息搜索宽度优先搜索原理是,每次都扩展树上边缘集中深度最浅的节点,直到找到解。宽度优先搜索实现时,将边缘集组织为FIFO队列,可以确保在下一层被扩展之前本层的所有结点都已经被扩展。
这里还有一个考点是,宽度优先和一致代价这里提到了一个目标检测的时间点,宽度优先搜索是节点被生成的时候进行测试。
宽度优先搜索的性能评价,
完备性,当分支因子b有限时,一定能找到目标结点;
最优性,找到的节点一定是深度最浅的节点,如果路径代价是基于节点深度的非递减函数,也就是说不会随着遍历加深,总的路径代价反而变小,那么找到的就是最优解,说白了就是负权边;
时间复杂度,每个状态有b个后继,路径的深度为d,则最坏情况下O(bd)O(b^d)O(bd);
空间复杂度,O(bd)O(b^d)O(bd)。
一致代价搜索原理是,每次扩展路径消耗)g(n)最小的节点n,是贪婪算法。一致代价搜索实现时,将边缘集组织成按路径消耗值c(s,a,s’)排序的队列。
这里还有一个考点是,宽度优先和一致代价这里提到了一个目标检测的时间点,一致代价搜索是节点被选择扩展的时候进行测试,这个也很好理解,
一致代价搜索的性能评价,
深度优先搜索原理是,每次都扩展边缘集中深度最深的节点,直到找到解。深度优先搜索实现时,将边缘集组织为LIFO栈,可以采用递归实现。
深度优先搜索的性能评价,
完备性,在有限状态空间,避免重复状态和冗余路径的图搜索是完备的,树搜索则不完备,有可能会陷入死循环(如Arad-Sibiu-Arad-…);
最优性,比如我们先搜索左子树的时候,找到解就返回,而最优解可能并不在左子树中;
时间复杂度,O(bm)O(b^m)O(bm);
空间复杂度,O(bm)O(bm)O(bm)。
深度受限搜索原理是,对深度优先搜索设置最大深度,界限L。
深度受限搜索的性能评价,
优点:避免了深度优先搜索中的无穷路径;缺点:如果目标结点的深度超过了L,则找不到解,即不完备。
完备性,不完备;
那么最优性当然不满足,最优性是在完备性的基础上扩展的。
时间复杂度,O(bL)O(b^L)O(bL);
空间复杂度,O(bL)O(bL)O(bL)。
迭代加深的深度优先搜索原理是,在深度受限搜索的基础上,随着深度的加深调整深度界限。
迭代加深的深度优先搜索的性能评价,
当深度界限达到最浅目标结点的深度时,就能找到目标结点。
完备性,当分支因子b有限时是完备的;
最优性,如果路径代价是基于节点深度的非递减函数,也就是说不会随着遍历加深,总的路径代价反而变小,那么找到的就是最优解,说白了就是负权边;
时间复杂度,O(bd)O(b^{d})O(bd);
空间复杂度,O(bd)O(bd)O(bd)。
双向搜索原理是,从初始状态和目标状态两个方向同时搜索,如果在中间某个结点相遇,则找到解路径。
这个搜索策略的目标检测:两个方向的搜索的边缘集是否有交集,若有交集,则找到解
双向搜索的性能评价,
若双向都采用宽度优先搜索,则时间复杂度和空间复杂度都是O(bd/2)O(b^{d/2})O(bd/2)。Ⅱ.有信息搜索贪婪最佳优先搜索原理是,试图扩展离目标最近的结点,评估函数是f(n)=h(n),选择f(n)最小的结点扩展。在罗马尼亚问题中启发函数h(n)就依然是n距离目的地Bucharest的直线距离。选择结点扩展时,优先选择h(n)最小的结点。
性能评价,
不完备,有可能会陷入死循环;
不是最优的;
时间复杂度O(bm)O(b^m)O(bm),m是搜索空间的最大深度;
空间复杂度O(bm)O(b^m)O(bm)。
A*搜索在另一篇文章中已经详细说过了,这里也贴图了。
2.局部搜索局部搜索关注的是解的状态而不是路径代价,对一个或多个状态进行评价和修改,而不是从初始状态搜索路径,比如八皇后问题,之后的CSP问题也会提八皇后,我的另一篇文章中实现了这里提到的很多算法。
简述适用问题的特点
到达目标的路径不重要,只关注最终状态局部搜索基本原理
从单个结点出发,只移动到它邻接的状态不保留搜索路径算法优点
只使用很少的内存,常数级别能在很大的或无限的状态空间(系统化算法不适用)中找到合理的解爬山法模拟退火局部束遗传另一篇文章中以CSP问题为例讨论回溯、最小冲突和遗传算法并给出了具体实现,可以进行参考。
3.对抗搜索/博弈Ⅰ.形式化Ⅱ.算法极小极大算法α-β剪枝两种算法都可以得到最优招数,但有较高的时间开销,可能无法在合理的时间内决策。
Ⅲ.实施决策优化4.约束满足问题(CSP)上面搜索问题的概述中本来应该提到但是没提,搜索问题的形式化主要分为两类,增量形式化和完整状态形式化。
另一篇文章中以CSP问题为例讨论回溯、最小冲突和遗传算法并给出了具体实现,可以进行参考。或者像上面一样的约束图也可以表示约束关系。
在回溯算法中,可以这样来赋值。
四、机器学习可能会考一个概念,监督学习、无监督学习和强化学习,怎么准确地描述出来。这里只分析一下监督学习和无监督学习,考到的概率挺大。
监督学习是我们对输入样本经过模型训练后有明确的预期输出,非监督学习就是我们对输入样本经过模型训练后得到什么输出完全没有预期。
监督学习是通过已有的一部分输入数据与输出数据之间的对应关系,生成一个函数,将输入映射到合适的输出,例如分类,而无监督学习是直接对数据进行建模,例如聚类。
监督学习是Agent观察某些“输入→输出”样例,学习从输入到输出的映射函数,训练集是带有类标签的,新的数据基于训练集进行分类;无监督学习是Agent学习输入中的模式,训练集是没有类标签的,提供一组属性,然后寻找出训练集中存在的类别或者聚集,新的数据基于聚类算法分出的类别进行归类;强化学习是Agent在强化序列(奖励和惩罚组合的序列)中学习。
1.监督学习主要是分类问题,解决分类问题的模型也可以用来解决回归问题,比如随机森林构建500棵决策树,每颗决策树有10个叶子节点,也就是10个Label平均值,那么这个随机森林只可能预测出≤5000个可能值,可以说是划分得足够细的分类,达到了回归的效果。
Ⅰ.决策树决策树是一个树状结构的分类器,用节点和边表示分类过程,以属性描述集合和相应数据作为输入,输出通常是一个分类,中间节点表示对某个属性的测试,叶节点则表示一个类别。分为分类树和回归树,取决于输入的属性是离散还是连续。
决策树例子决策树的使用如何生成决策树是一个重点,下面详细说,先理解生成了怎么用。
使用决策树时,输入是某个实例的属性数据,从根节点开始逐层向下,在根节点及每个中间节点,根据该节点的各条邻接边上采用的划分属性及该实例的该属性取值,选择其中一个分支,直到到达叶节点,就是最终分类了。
像这样通过把实例从根节点根据实例他本身的对应属性和边上的选择属性,排列到某个叶结点来分类实例,就能输出该实例所在的类别。
决策树的生成总的来说,所有的决策树生成算法都是–决策树生成时,在每个中间节点选一个属性进行划分,根据属性的取值划分为不同的子树,直到不能划分。
算法通常是两个步骤:
树的生成全部数据聚集在根节点采用某种算法(宽度优先、递归等)生成树,关键是如何选取下一个属性以及属性如何划分在每个中间节点选择某一个属性进行划分,直到不能继续划分树的修剪去掉一些可能是噪音或者异常的数据关键是如何选取下一个属性以及属性如何划分,算法的区别主要就在这,另一个关键是确定何时停止划分。除了划分方式和停止时间之外,如何避免监督学习的过拟合也十分关键。下面就讨论这仨问题:
决策树停止生长一般有三种情况,1.当前节点包含的样本已经属于同一个类别了;2.当前属性集空了,能划分的属性都划分完了;3.节点里面所有的样本在所有属性上取值都相同,唯独分类不同,也无法继续划分;4.样本空了,纵使有这个属性也无法划分。
怎么在节点上选择划分哪个属性呢?
树和子树根节点的划分算法,都要让节点随着树生长,其中样本趋于同一类别,即节点的纯度(purity)越来越高。量化纯度的算法有很多,比如ID3C4.5CART等算法,
以ID3为例,首先计算出根节点的信息熵,再算出每个属性的信息增益,选信息增益大的作为节点的划分属性,这里我理解的信息增益就是对样本来说区分度最大的属性。C4.5用的是信息增益率,CART用的是基尼值,指的是随机抽取样本类别不一样的概率,基尼指数越小表示纯度越高越适合作为划分属性。总之划分节点选择的属性,找的是划分之后最大限度地减少分类的可能性的那个属性。
过拟合是模型泛化能力差,对训练集拟合度高而预测准确率低的情况,避免过拟合,可以通过剪枝进行优化,也可以通过下一个算法,基于决策树的随机森林进行优化。
剪枝分为预剪枝和后剪枝,分别是划分节点前进行估计预测,当前节点能否提升泛化能力;先生成决策树再Bottom-up地进行考察,如果把当前节点变成叶节点泛化能力可以提升就将子数变成叶节点。
这里偷个懒,贴一下课程ppt的图。
首先预剪枝,划分出训练集和测试集,这里的测试集用来评估精度,事对泛化能力的评估。
预剪枝的优缺点有,
优点
降低了过拟合的风险显著减少了决策树的训练时间开销和预测试时间开销缺点
有些分支的当前划分虽不能提升泛化能力、甚至可能导致泛化性能暂时下降,但在其基础上进行的后续划分却有可能导致性能显著提高预剪枝基于“贪心”,禁止这些分支展开,带来了欠拟合的风险然后是后剪枝,
优点
欠拟合风险很小,泛化性能往往优于预剪枝决策树缺点
后剪枝过程是在生成完全决策树之后进行的,并且要自底向上对树中的所有非叶节点进行逐一考察,因此其训练时间开销比未剪枝决策树和预剪枝决策树都要大得多后剪枝决策树通常比预剪枝决策树保留了更多的分支,而预剪枝使得很多分支都没有展开,增加了欠拟合的风险,但是后剪枝的时间开销比预剪枝大得多。
Ⅱ.随机森林随机森林的算法包含了决策树的生成,一般是CART算法构造。
2.无监督学习主要是聚类问题。
Ⅰ.K-means一张图就说得非常清楚,K-means应该是cs必须掌握的算法之一,其算法原理大致是,已知K个初始的均值点,也就是要划分K个类的中心点,算法有两个步骤,
分配(Assignment),将每个数据点分配到聚类中,直接求点到K个均值点的欧氏距离,距离谁近就分到相应的聚类里面即可;更新(Update),上一步得到了新的聚类,对每一个聚类用最小二乘算法求出一个新的均值中心,均值点。当然初始化、分配、更新都有很多不同的算法,且各有千秋,不多赘述了。
其特点是,
优点
对于处理大数据集合,该算法非常高效,且伸缩性较好缺点
要事先确定簇数K对初始聚类中心敏感经常以局部最优结束对噪声和孤立点敏感适用范围
当潜在的簇形状是凸面的,簇与簇之间区别较明显,且簇大小相近时,其聚类结果较理想不适于发现非凸面形状的簇或大小差别很大的簇Ⅱ.层次聚类层次聚类(HierarchicalClustering)是通过计算数据点之间的相似度创造一颗有层次的聚类树,创建层次聚类树常用的是自下而上的合并,原始数据点位于最底层,最后结果应该是下图所示的形式。
生成的基本步骤是:
计算样本之间的距离,将距离最近的点合并到同一个类
计算类与类之间的距离,将距离最近的类合并为一个大类
不停的合并,直到合成一个类
样本与样本之间的距离可以直接计算坐标系上的欧氏距离,而类与类的距离怎么计算呢?计算方法有
最短距离法:将类与类的距离定义为类与类之间样本的最短距离
最长距离法
中间距离法
类平均法
高概率考点总结暂时不贴,等考前再贴,或者自己总结完就不发出来了。
【人工智能】期末复习 重点知识点总结
试卷共有15道题,四种题型:1、名词解释题(不超过五个字的概念)2、简答题(包涵计算)鲁滨逊归结原理、wuzi?置换?
倒推值计算方法、代价树每个结点的代价的算法:最大代价法、和代价法α-β剪枝、3、证明题4、综合题小小tips理解就可、不用和课本一模一样、说的正确就行
千万别空着,有步骤分、可以找分
书、课后习题、itc习题多看看
老师没有讲的 就不考
一、知识表示的基本方法非结构化方法:一阶谓词逻辑,产生式规则
结构化方法:语义网络,框架
其他方法:状态空间法,问题规约法
二、人工智能三大流派(1)符号主义学派:
认识的基元是符号,认识过程就是符号运算和推理;
代表人物:纽厄尔,西蒙;
代表成果:人工定理证明,人工智能语言LISP,鲁滨逊归结原理,专家系统。
(2)连接主义学派:
思维的基元是神经元,而不是符号,思维的过程是神经元的连接活动,而不是符号运算的过程;
代表人物:麦卡洛克,霍普菲德尔;
代表成果:单层感知机,Hopfield网络,BP网络。
(3)行为主义学派,
行为主义学派认为人工智能起源于控制论,智能取决于感知与行为,取决于对外部复杂环境的适应;
代表任务及成果:布鲁克斯研制的六角机器虫。
三、合一置换置换的例题
合一置换的概念与计算方法
二元归结式证明过程四、产生式表示法(不确定性推理方法里的说法)1、产生式系统的组成
(1)一个综合数据库,又称事实库,用于存放输入的事实,从外部数据库输入的事实、中间结果、最后结果;
(2)一组产生式规则,描述某领域内知识的产生式集合;
(3)一个控制系统,包含推理方式和控制策略,又称推理机或推理引擎。
2、专家系统推理过程和结果3、正向推理也称为数据驱动推理或前向链推理
4、逆向推理
亦称为目标驱动推理或逆向链推理
5、知识匹配五、框架、语义网(了解如何构建)
框架:横向、纵向联系
匹配、继承方法
有例题
六、状态空间图构建状态空间图来问题求解 盲目搜索 得到解、如何表示出来
七、与或图:搜索1、搜索的概念依靠经验,利用已有知识,根据问题的实际情况,不断寻找可利用知识,从而构造一条代价最小的推理路线,使问题得以解决的过程称为搜索。
2、启发式搜索与盲目性搜索的区别(1)盲目搜素是指在搜索之前就预定好控制策略,整个搜索过程中的策略不变,即使搜索出来的中间信息有利用价值,其搜索过程中的策略不再改变,效率低,灵活性差,不利于复杂问题求解。
(2)智能搜索是指可以利用搜索过程中得到的中间信息(与问题相关的信息)来引导搜索过程向最优方向发展的算法。
3、启发式信息的概念、(简答、名词解释)用于指导搜索过程且与具体问题求解有关的控制信息称为启发信息
启发信息作用分类:
用于决定先扩展哪一个节点在扩展节点时,用于决定要生成哪一个或哪几个后继节点用于确定某些应该从搜索树中抛弃或修建的节点4、启发函数的概念在扩展节点时,用来描述节点重要程度的函数称为估价函数,一般形式为f(x)=g(x)+h(x)。其中,g(x)为初始节点S0到节点x已实际付出的代价,h(x)是从节点x到目标节点Sg的最优路径的估计代价,启发信息主要由h(x)来体现,故把它称为启发函数。
5、A算法和A*算法基本原理和区别A算法
在状态空间搜索中,如果每一步都利用估价函数f(n)=g(n)+h(n)对Open表中的节点进行排序,则称为A算法。它是一种为启发式搜索算法
类型:
全局择优:从Open表中的所有节点中选择一个估价函数值最小的进行扩展
局部择优:仅从刚生成的子节点中选择一个估价函数值最小的进行扩展。
A*算法
对在A算法的基础上,选用了一个比较特殊的估价函数,对节点n定义f*(x)=
g*(x)+h*(x),表示从S0开始通过节点x到Sg的一条最佳路径的代价,g是g*的估计,h是h*的估计。g(x)是对最小代价g*(x)的估计,且g(x)>0,g(x)>=g*(x),
h(x)为h*(x)的下界,即对所有的x存在h(x)