人工智能一种现代方法第2章智能Agent 人工智能agent结构

发表时间：2023-07-05 08:46:54

人工智能一种现代方法第2章智能Agent

文章目录Agent及其理性理性的概念PEAS及环境特性Agent的结构Agent程序的部件如何运转小结资源分享Agent及其理性

Agent：通过传感器感知所处环境并通过执行器对该环境产生作用的智能体Agent感知序列：该Agent所接收到的是所有输入数据的完整历史感知信息：智能体的感知输入感知序列：感知信息的集合Agent函数：描述Agent行为，将任意给定感知序列映射为行动Agent程序：实现Agent函数

TheagentfunctiondescribeswhattheagentdoesinallcircumstancesTheagentprogramcalculatestheagentfunction

理性的概念

理性：Agent的一种属性，考虑到迄今为止的感知，他们选择能够最大化其预期效用的行为。理性（Rationality）Agent：对于每个可能的感知序列，根据已知的序列提供的证据和智能体内建的先验知识，理性智能体应该选择期望能使其性能最大化的行动。Rationalitydependson：

TheperformancemeasurethatdefinesthecriterionofsuccessTheagent’spriorknowledgeoftheenvironmentTheactionsthattheagentcanperformTheagent’sperceptsequencetodate性能度量、先验知识、可执行行动、感知序列

全知Agent:全知Agent明确知道他的行动产生的实际结果并做出相应的动作，现实中不可能。理性≠全知完美Agent：理性Agent使期望性能最大化；完美Agent使实际性能最大化。理性≠完美

理性Agent还应该是自主的，它应该学习，以弥补不完整的或者不正确的先验知识。

PEAS及环境特性

任务环境的规范包括：Todesignarationalagentweneedtospecifyataskenvironment

PerformancemeasureEnvironmentActuatorsSensors

PEAS（性能Performance，环境Environment，执行器Actuators，传感器Sensors）

例如，在SpamFiltering垃圾邮件过滤中

Performancemeasure:spamblockEnvironment:emailclientorserverActuators:markasspam,transfermessagesSensors:emails(possiblyacrossusers),etc.

任务环境的属性

完全可观测和部分可观测Agent的Sensors在每个时间点上都能获取环境的完整状态。若监测到的信息与行动决策相关，则该任务环境是有效完全可观察的。单Agent和多Agent确定的和随机的片段式的和延续式的片段：下一个片段不依赖于以前片段采取的行动（如大部分的分类任务）。连续：当前决策会影响到所有未来决策。静态的和动态的取决于环境在Agent计算时是否会改变。离散的和连续的环境状态，时间处理方式，Agent感知信息和行动都有离散和连续之分。Agent的结构

Agent=体系结构+程序（Agent程序）体系结构，具有物理传感器和执行器的计算装置智能体程序，每接收到一个新的感知信息，就将其添加到感知序列中，并根据先验知识的对应表得到一个行动，把传感器的感知信息映射到行动的Agent函数

Allagentshavethesameskeleton

Input=currentperceptsOutput=actionProgram=manipulatesinputtoproduceoutput

Fourbasictypesinorderofincreasinggenerality

Simplereflexagents简单反射agent，忽略感知序列，而只针对当前感知选择行动。Model-basedreflexagents基于模型的agentGoal-basedagents基于目标的agent基于目标的agent会考虑将要采取的行动及行动的后果，即与目标还有多远Utility-basedagents基于效用的agent，最大化期望Learningagents学习agentAllthesecanbeturnedintolearningagentsAgent程序的部件如何运转

各部件的工作

原子表示要素化表示（状态有特征向量）结构化表示（特征向量+其他对象的关系）小结

要点回顾如卜:Agent是可以感知环境并在环境中行动的事物。Agent函数指定Agent响应任何感知序列所采取的行动。

性能度量评价Agent在环境中的行为表现。给定Agent的感知序列,理性Agent行动追求性能度量预期值最大化。

任务环境的规范包括性能度量,外部环境,执行器和传感器。设计Agent时,第一步总是把任务空间定义得尽可能完全。

任务环境从不同的维度看有很多变化。它们可能是完全或部分可观察的,单Agent或多Agent的,确定性的或随机的,片段式的或延续式的,静态的或动态的,离散的或连续的,已知的和未知的。

Agent程序是Agent函数的实现。有各种基本的Agent程序的设计,反映出显式表现的以及用于决策过程的信息种类。设计可能在效率、压缩性和灵活性方面有变化。适当的Agent程序的设计依赖于环境的本性。

简单反射Agent直接对感知信息做出反应。基于模型的反射Agent保持内部状态,其操作直接从当前世界状态的内部模型派生，并随时间更新。基于目标的Agent选择能实现显示表示的目标的动作,而基于效用的Agent试图选择能最大化它期望效用的动作。

所有Agent都可以通过学习来改进它们性能。

资源分享

实验代码下载：https://github.com/yyl424525/AI_Homework人工智能-一种现代方法中文第三版pdf、课件、作业及解答、课后习题答案、实验代码和报告、历年考博题下载：https://download.csdn.net/download/yyl424525/11310392

人工智能导论第二章

第二章智能agent

Agent：表示能够行动的某种东西；

2.1Agent和环境

Agent通过传感器感知环境，并通过执行器对所处环境产生影响。

2.2理性Agent

理性A是做正确事情的Agent。

Agent的性能通过性能度量评价好坏。

性能度量：对环境状态的任何给定序列进行评估。

理性Agent定义：对每一个可能的感知序列，根据已知的感知序列提供的证据和Agent具有的先验知识，理性Agent应该选择能使其性能度量最大化的行动。

理性是使期望的性能最大化，而完美是使实际的性能最大化。完美对于Agent而言是不太合理的要求。

信息收集是理性的重要部分。

如果一个Agent依赖于设计人员的先验知识而不是它自身的感知信息，这种情况我们会说Agent缺乏自主性。理性Agent应该是自主的–它应该学习，以弥补不完整的或者不正确的先验知识。

很少要求Agent一开始就完全自主，给人工智能的Agent提供一些初始知识以及学习能力是合理的。

与学习相结合使得我们可以设计在很多不同环境下都能成功的理性Agent。

2.3环境的定义

规定的性能度量、环境以及Agent的执行器和传感器，都属于任务环境。称之为PEAS描述。

完全可观察的：如果Agent的传感器在每个时间点上都能获取环境的完整状态，那么我们就说任务环境是完全可观察的。如果传感器能够检测所有与行动决策相关的信息，那么该任务环境是有效完全可观察的。

与之相对的是部分可观察。

单Agent与多Agent

单Agent独自运行eg.字谜游戏

多Agent同时运行eg.国际象棋，竞争性的多agent环境

多人驾驶：避免发生冲撞使得所有Agent的性能度量最大化，所以它是一个部分合作的多Agent环境。

确定的：如果环境的下一个状态完全取决于当前状态和Agent执行的动作，那么我们就说该环境是确定的；否则，它是随机的。

片段式的与延续式的：在片段式的任务环境中，Agent的经历被分成了一个个原子片段。在每个片段中Agent的感知信息并完成单个行动。关键的是，下一个片段不依赖于以前的片段中采取的行动。

在延续式环境中，当前的决策会影响到所有未来的决策。

静态的与动态的：如果环境在Agent计算的时候会变化，那么我们称该Agent的环境是动态的；否则环境是静态的。

动态环境会持续地要求Agent做决策；如果Agent没有做出决策，Agent则认为它决定不作任何事情。

如果环境本身不随时间变化而变化，但是Agent的性能评价随时间变化，我们称这样的决策为半动态的。

离散的与连续的。环境的状态，时间的处理方式以及agent的感知信息和行动都有离散/连续之分。

已知的和未知的。

2.4Agent的结构

Agent=体系结构+程序

本书中我们设计的Agent程序都具有相同的框架：输入为从传感器得到的当前感知信息，返回的是执行器的行动抉择。

Agent的表驱动方法：

缺点：

Ø表太大

Ø创建表时间长

Ø非自主性，需人工填写

Ø即使能够学习，也需要很长的时间

Agent的类型：

Ø简单反射agent

Ø基于模型的反射agent

Ø基于目标的agent

Ø基于效用的agent

简单反射agent：

基于模型的agent：

基于目标的agent

除了根据感知信息之外，还要根据目标信息来选择行动

效率比较低，需要推理

搜索和规划算法

基于效用（utility）的agent：

当达到目标的行为有很多种的时候，需要考虑效率

环境是部分可观察的和随机的，不确定下的决策过程可以通过基于效用的agent来实现。

效用的作用：

Ø多目标相冲突时，折中方案

Ø多目标在不确定环境中

Ø一个目标有多种行为可以达到时

学习Agent

四个部件：

Ø性能元件：相当于整个agent

Ø评判元件：反映性能元件做得如何

Ø学习元件：负责改进提高

Ø问题产生器：提出一些新的有建设性的探索尝试

总结Agent是可以感知环境并在环境中行动的事物。Agent函数指定Agent响应任何感知序列所采取的行动性能度量评价Agent在环境中的行为表现。给定Agent感知序列，理性Agent行动追求性能度量预期值最大化。任务环境的规范包括性能度量、外部环境、执行器和传感器。设计Agent时，第一步总是把任务空间定义得尽可能完全。任务环境从不同的维度看有很多变化、它们可能是完全或部分可观察的，单Agent或多Agent的，确定的或随机的，片段式的或延续式的，静态的或动态的，离散的或连续的，已知的或未知的。Agent程序是Agent函数的实现。简单反射Agent直接对感知信息作出反应，基于模型的反射Agent保持内部状态，追踪记录当前感知信息中反映不出来的世界各个方面。基于目标的Agent的行动是为了达到目标，基于效用的Agent试图最大化它期望的“快乐”所有Agent都可以通过学习来改进它们的性能。

人工智能2：智能Agent

一、Agent基本定义

基于理性行为的Agent是本书人工智能方法的核心。Agent由传感器、执行器两个重要元件组成，具有与环境交互的能力，其能力是通过分析感知序列，经过Agent函数映射到相应的行动。

二、评价Agent行为

理性Agent：对每一个可能的感知序列，根据已知的感知序列提供的证据和Agent具有的先验知识，理性Agent应该选择能使其性能度量最大化的行动。

要素：①性能度量②先验知识③行动④已有的感知序列

收集信息->学习->行动

三、任务环境

1.定义

理性Agent面对的问题可用PEAS描述：

（1）Performance性能

（2）Environment环境

（3）Actuators执行器

（4）Sensors传感器

2.性质

（1）完全可观察与部分可观察

（2）单Agent与多Agent

（3）确定的与随机的

（4）片段式的与延续式的

（5）静态的与动态的

（6）离散的与连续的

（7）已知的与未知的

四、Agent的结构

Agent=体系结构（物理传感器和执行器）+程序（感知信息映射到行动的Agent函数）

仅仅用表产生Agent函数映射是不可行的，因为表中的数据非常多，使得表庞大到在这个世界中不可能实现。

1.简单反射Agent

基于当前的感知选择行动，不关注感知历史。

条件-行为规则

只考虑当前状态，和此状态对应的行动。

简洁，但智能有限。要求环境完全可观察。

2.基于模型的反射Agent

处理部分可观测环境：跟踪记录现在看不到的那部分世界。

世界模型：①世界如何独立于Agent而发展的信息；②Agent自身的行动如何影响世界的信息。

需要记住历史感知信息。

3.基于目标的Agent

需要目标信息来描述想要达到的状况。

虽然显得效率较低，但更灵活。因为支持它决策的知识被显示表现出来，且可以修改。

4.基于效用的Agent

Agent的效用函数是性能度量的内在化。实际实现时因为计算复杂性而不可能完美达成。

以上4种应该是不断递进、改进的方式。

五、学习Agent

4个组件：

1.学习元件

负责改进提高，利用来自评判元件的反馈评价Agent做得如何，并确定应该如何修改性能元件以便将来做得更好。

2.性能元件

接受感知信息并决策。

3.评判元件

根据固定的性能标准告诉学习元件Agent的运转情况。

4.问题产生器

建议探索性行动，负责可以得到新的和有信息的经验的行动建议。

六、Agent的工作逻辑

1.原子表示

没有内部结构的表示。

相关内容：搜索、博弈论、隐马尔可夫模型、马尔可夫决策过程。

2.要素化表示

一个状态中包含多个要素（原子），即多个变量和特征的集合。

相关内容：约束满足算法、命题逻辑、规划、Bayesian网、机器学习算法。

3.结构化表示

一个状态包含对象、每个对象可能有自身的特征值，以及与其他对象的关系。

相关内容：关系数据库、一阶逻辑、一阶概率模型、基于知识的学习、自然语言理解。

从1到3的表达能力是增长的。

人工智能 一种现代方法 第2章 智能Agent 人工智能agent结构