人工智能 一种现代方法 第2章 智能Agent
文章目录Agent及其理性理性的概念PEAS及环境特性Agent的结构Agent程序的部件如何运转小结资源分享Agent及其理性Agent:通过传感器感知所处环境并通过执行器对该环境产生作用的智能体Agent感知序列:该Agent所接收到的是所有输入数据的完整历史感知信息:智能体的感知输入感知序列:感知信息的集合Agent函数:描述Agent行为,将任意给定感知序列映射为行动Agent程序:实现Agent函数
TheagentfunctiondescribeswhattheagentdoesinallcircumstancesTheagentprogramcalculatestheagentfunction
理性的概念理性:Agent的一种属性,考虑到迄今为止的感知,他们选择能够最大化其预期效用的行为。理性(Rationality)Agent:对于每个可能的感知序列,根据已知的序列提供的证据和智能体内建的先验知识,理性智能体应该选择期望能使其性能最大化的行动。Rationalitydependson:
TheperformancemeasurethatdefinesthecriterionofsuccessTheagent’spriorknowledgeoftheenvironmentTheactionsthattheagentcanperformTheagent’sperceptsequencetodate性能度量、先验知识、可执行行动、感知序列全知Agent:全知Agent明确知道他的行动产生的实际结果并做出相应的动作,现实中不可能。理性≠全知完美Agent:理性Agent使期望性能最大化;完美Agent使实际性能最大化。理性≠完美
理性Agent还应该是自主的,它应该学习,以弥补不完整的或者不正确的先验知识。
PEAS及环境特性任务环境的规范包括:Todesignarationalagentweneedtospecifyataskenvironment
PerformancemeasureEnvironmentActuatorsSensorsPEAS(性能Performance,环境Environment,执行器Actuators,传感器Sensors)
例如,在SpamFiltering垃圾邮件过滤中
Performancemeasure:spamblockEnvironment:emailclientorserverActuators:markasspam,transfermessagesSensors:emails(possiblyacrossusers),etc.任务环境的属性
完全可观测和部分可观测Agent的Sensors在每个时间点上都能获取环境的完整状态。若监测到的信息与行动决策相关,则该任务环境是有效完全可观察的。单Agent和多Agent确定的和随机的片段式的和延续式的片段:下一个片段不依赖于以前片段采取的行动(如大部分的分类任务)。连续:当前决策会影响到所有未来决策。静态的和动态的取决于环境在Agent计算时是否会改变。离散的和连续的环境状态,时间处理方式,Agent感知信息和行动都有离散和连续之分。Agent的结构Agent=体系结构+程序(Agent程序)体系结构,具有物理传感器和执行器的计算装置智能体程序,每接收到一个新的感知信息,就将其添加到感知序列中,并根据先验知识的对应表得到一个行动,把传感器的感知信息映射到行动的Agent函数
Allagentshavethesameskeleton
Input=currentperceptsOutput=actionProgram=manipulatesinputtoproduceoutputFourbasictypesinorderofincreasinggenerality
Simplereflexagents简单反射agent,忽略感知序列,而只针对当前感知选择行动。Model-basedreflexagents基于模型的agentGoal-basedagents基于目标的agent基于目标的agent会考虑将要采取的行动及行动的后果,即与目标还有多远Utility-basedagents基于效用的agent,最大化期望Learningagents学习agentAllthesecanbeturnedintolearningagentsAgent程序的部件如何运转各部件的工作
原子表示要素化表示(状态有特征向量)结构化表示(特征向量+其他对象的关系)小结要点回顾如卜:Agent是可以感知环境并在环境中行动的事物。Agent函数指定Agent响应任何感知序列所采取的行动。
性能度量评价Agent在环境中的行为表现。给定Agent的感知序列,理性Agent行动追求性能度量预期值最大化。
任务环境的规范包括性能度量,外部环境,执行器和传感器。设计Agent时,第一步总是把任务空间定义得尽可能完全。
任务环境从不同的维度看有很多变化。它们可能是完全或部分可观察的,单Agent或多Agent的,确定性的或随机的,片段式的或延续式的,静态的或动态的,离散的或连续的,已知的和未知的。
Agent程序是Agent函数的实现。有各种基本的Agent程序的设计,反映出显式表现的以及用于决策过程的信息种类。设计可能在效率、压缩性和灵活性方面有变化。适当的Agent程序的设计依赖于环境的本性。
简单反射Agent直接对感知信息做出反应。基于模型的反射Agent保持内部状态,其操作直接从当前世界状态的内部模型派生,并随时间更新。基于目标的Agent选择能实现显示表示的目标的动作,而基于效用的Agent试图选择能最大化它期望效用的动作。
所有Agent都可以通过学习来改进它们性能。
资源分享实验代码下载:https://github.com/yyl424525/AI_Homework人工智能-一种现代方法中文第三版pdf、课件、作业及解答、课后习题答案、实验代码和报告、历年考博题下载:https://download.csdn.net/download/yyl424525/11310392
人工智能导论第二章
第二章智能agentAgent:表示能够行动的某种东西;
2.1Agent和环境Agent通过传感器感知环境,并通过执行器对所处环境产生影响。
2.2理性Agent理性A是做正确事情的Agent。
Agent的性能通过性能度量评价好坏。
性能度量:对环境状态的任何给定序列进行评估。
理性Agent定义:对每一个可能的感知序列,根据已知的感知序列提供的证据和Agent具有的先验知识,理性Agent应该选择能使其性能度量最大化的行动。
理性是使期望的性能最大化,而完美是使实际的性能最大化。完美对于Agent而言是不太合理的要求。
信息收集是理性的重要部分。
如果一个Agent依赖于设计人员的先验知识而不是它自身的感知信息,这种情况我们会说Agent缺乏自主性。理性Agent应该是自主的–它应该学习,以弥补不完整的或者不正确的先验知识。
很少要求Agent一开始就完全自主,给人工智能的Agent提供一些初始知识以及学习能力是合理的。
与学习相结合使得我们可以设计在很多不同环境下都能成功的理性Agent。
2.3环境的定义规定的性能度量、环境以及Agent的执行器和传感器,都属于任务环境。称之为PEAS描述。
完全可观察的:如果Agent的传感器在每个时间点上都能获取环境的完整状态,那么我们就说任务环境是完全可观察的。如果传感器能够检测所有与行动决策相关的信息,那么该任务环境是有效完全可观察的。
与之相对的是部分可观察。
单Agent与多Agent
单Agent独自运行eg.字谜游戏
多Agent同时运行eg.国际象棋,竞争性的多agent环境
多人驾驶:避免发生冲撞使得所有Agent的性能度量最大化,所以它是一个部分合作的多Agent环境。
确定的:如果环境的下一个状态完全取决于当前状态和Agent执行的动作,那么我们就说该环境是确定的;否则,它是随机的。
片段式的与延续式的:在片段式的任务环境中,Agent的经历被分成了一个个原子片段。在每个片段中Agent的感知信息并完成单个行动。关键的是,下一个片段不依赖于以前的片段中采取的行动。
在延续式环境中,当前的决策会影响到所有未来的决策。
静态的与动态的:如果环境在Agent计算的时候会变化,那么我们称该Agent的环境是动态的;否则环境是静态的。
动态环境会持续地要求Agent做决策;如果Agent没有做出决策,Agent则认为它决定不作任何事情。
如果环境本身不随时间变化而变化,但是Agent的性能评价随时间变化,我们称这样的决策为半动态的。
离散的与连续的。环境的状态,时间的处理方式以及agent的感知信息和行动都有离散/连续之分。
已知的和未知的。
2.4Agent的结构Agent=体系结构+程序
本书中我们设计的Agent程序都具有相同的框架:输入为从传感器得到的当前感知信息,返回的是执行器的行动抉择。
Agent的表驱动方法:
缺点:
Ø表太大
Ø创建表时间长
Ø非自主性,需人工填写
Ø即使能够学习,也需要很长的时间
Agent的类型:
Ø简单反射agent
Ø基于模型的反射agent
Ø基于目标的agent
Ø基于效用的agent
简单反射agent:
基于模型的agent:
基于目标的agent
除了根据感知信息之外,还要根据目标信息来选择行动
效率比较低,需要推理
搜索和规划算法
基于效用(utility)的agent:
当达到目标的行为有很多种的时候,需要考虑效率
环境是部分可观察的和随机的,不确定下的决策过程可以通过基于效用的agent来实现。
效用的作用:
Ø多目标相冲突时,折中方案
Ø多目标在不确定环境中
Ø一个目标有多种行为可以达到时
学习Agent
四个部件:
Ø性能元件:相当于整个agent
Ø评判元件:反映性能元件做得如何
Ø学习元件:负责改进提高
Ø问题产生器:提出一些新的有建设性的探索尝试
总结Agent是可以感知环境并在环境中行动的事物。Agent函数指定Agent响应任何感知序列所采取的行动性能度量评价Agent在环境中的行为表现。给定Agent感知序列,理性Agent行动追求性能度量预期值最大化。任务环境的规范包括性能度量、外部环境、执行器和传感器。设计Agent时,第一步总是把任务空间定义得尽可能完全。任务环境从不同的维度看有很多变化、它们可能是完全或部分可观察的,单Agent或多Agent的,确定的或随机的,片段式的或延续式的,静态的或动态的,离散的或连续的,已知的或未知的。Agent程序是Agent函数的实现。简单反射Agent直接对感知信息作出反应,基于模型的反射Agent保持内部状态,追踪记录当前感知信息中反映不出来的世界各个方面。基于目标的Agent的行动是为了达到目标,基于效用的Agent试图最大化它期望的“快乐”所有Agent都可以通过学习来改进它们的性能。人工智能2:智能Agent
一、Agent基本定义
基于理性行为的Agent是本书人工智能方法的核心。Agent由传感器、执行器两个重要元件组成,具有与环境交互的能力,其能力是通过分析感知序列,经过Agent函数映射到相应的行动。
二、评价Agent行为
理性Agent:对每一个可能的感知序列,根据已知的感知序列提供的证据和Agent具有的先验知识,理性Agent应该选择能使其性能度量最大化的行动。
要素:①性能度量②先验知识③行动④已有的感知序列
收集信息->学习->行动
三、任务环境
1.定义
理性Agent面对的问题可用PEAS描述:
(1)Performance性能
(2)Environment环境
(3)Actuators执行器
(4)Sensors传感器
2.性质
(1)完全可观察与部分可观察
(2)单Agent与多Agent
(3)确定的与随机的
(4)片段式的与延续式的
(5)静态的与动态的
(6)离散的与连续的
(7)已知的与未知的
四、Agent的结构
Agent=体系结构(物理传感器和执行器)+程序(感知信息映射到行动的Agent函数)
仅仅用表产生Agent函数映射是不可行的,因为表中的数据非常多,使得表庞大到在这个世界中不可能实现。
1.简单反射Agent
基于当前的感知选择行动,不关注感知历史。
条件-行为规则
只考虑当前状态,和此状态对应的行动。
简洁,但智能有限。要求环境完全可观察。
2.基于模型的反射Agent
处理部分可观测环境:跟踪记录现在看不到的那部分世界。
世界模型:①世界如何独立于Agent而发展的信息;②Agent自身的行动如何影响世界的信息。
需要记住历史感知信息。
3.基于目标的Agent
需要目标信息来描述想要达到的状况。
虽然显得效率较低,但更灵活。因为支持它决策的知识被显示表现出来,且可以修改。
4.基于效用的Agent
Agent的效用函数是性能度量的内在化。实际实现时因为计算复杂性而不可能完美达成。
以上4种应该是不断递进、改进的方式。
五、学习Agent
4个组件:
1.学习元件
负责改进提高,利用来自评判元件的反馈评价Agent做得如何,并确定应该如何修改性能元件以便将来做得更好。
2.性能元件
接受感知信息并决策。
3.评判元件
根据固定的性能标准告诉学习元件Agent的运转情况。
4.问题产生器
建议探索性行动,负责可以得到新的和有信息的经验的行动建议。
六、Agent的工作逻辑
1.原子表示
没有内部结构的表示。
相关内容:搜索、博弈论、隐马尔可夫模型、马尔可夫决策过程。
2.要素化表示
一个状态中包含多个要素(原子),即多个变量和特征的集合。
相关内容:约束满足算法、命题逻辑、规划、Bayesian网、机器学习算法。
3.结构化表示
一个状态包含对象、每个对象可能有自身的特征值,以及与其他对象的关系。
相关内容:关系数据库、一阶逻辑、一阶概率模型、基于知识的学习、自然语言理解。
从1到3的表达能力是增长的。