【智能决策论坛系列解读】复杂决策系统中的多智能体学习问题
2020年9月19至20日,由中国科学院自动化研究所主办的首届智能决策论坛在线上成功举办。论坛由中国科学院自动化所所长徐波担任论坛主席,邀请了国内外17位智能决策领域的顶尖专家和科研新秀围绕智能决策相关研究方向和应用进行了精彩的学术报告和线上探讨。其中,伦敦大学学院汪军教授、清华大学交叉信息科学院助理教授张崇洁、上海交通大学电子信息与电气工程学院助理教授温颖、华为伦敦实验室访问研究员杜雅丽和伦敦大学学院博士田政等多位嘉宾的报告均与多智能体学习理论和算法相关,是本次论坛报告和讨论的热点话题之一。
多智能体学习,顾名思义,即由计算机控制的人工智能学习如何在运行着多个智能体的环境中进行智能决策,并通过与其他智能体的合作或竞争达到自己或群体的目标。多智能体学习涉及合作、竞争或是二者混合的环境和任务类型,几乎涵盖人类社会中的各类重要场景,在学术研究、智慧城市、经济发展、商贸博弈和国防军事等方面均具有重要的研究和应用价值。
多智能体学习旨在解决涉及多个智能体之间的协同序贯决策问题,其中每个智能体采取某一策略后带来的环境改变和奖励大小都将受到其他所有智能体联合行为的影响,因此无论是问题的建模还是求解都十分困难,具体表现在以下三方面:
一、复杂决策系统的表示和建模问题
如何对复杂决策系统进行合理表示和建模将直接决定多智能体学习的效果和效率。在深度学习领域,研究人员经常使用深度神经网络来拟合复杂的函数,因此一个很自然的想法便是将智能体策略用神经网络进行建模,并通过深度学习技术指导多智能体学习,这其中的关键就在于如何设计深度神经网络结构。例如多个智能体是否要构建成相同的结构?同构智能体学习效率高、计算量小,但这种方法不够灵活,应用范围小,要求智能体类型相同,遇到种类复杂的对象就可能失效。异构智能体可以表示多种不同类型的智能体,但对算力和算法有着较高要求。另外,多个智能体在学习过程中是以中心化的方式统一进行学习,还是以去中心化的方式各自学习?如何解决算法的可拓展性和贡献分配问题?
在智能决策论坛中,张崇洁提出一种值函数分解的方法,即为每个智能体维护一个价值函数,并利用集中训练分散执行的模式,既解决了可拓展性的问题,又通过神经网络梯度反向传播的方式为每个智能体做了隐式的贡献分配。杜雅丽针对多智能体数量动态变化的可扩展性问题,提出了一种新颖的空间网格化结构来组织多个智能体,每个网格单元对应一个智能体,并采用编码器-解码器网络作为策略网络。这种体系结构的主要特征是:学习所有智能体的空间联合表示,并输出网格方式的动作,每个智能体占用一个网格单元并从网格中采取动作,而空网格将被联合策略掩盖,以达到灵活控制智能体数量的目的。汪军教授提出了一种让多智能体学习隐性沟通的PBL算法,该算法中的每个智能体包含了两个模块:决策模块和信念模块。决策模块负责制定策略并选择动作。由于智能体只能通过动作来传递信息,所以决策模块制定的动作不仅需要配合队友共同完成任务,还需要将队友缺失的关键信息用动作传递出去。而信念模块则负责对队友做出的动作进行推断,估计动作背后队友想要传递的信息。
张崇洁作报告
杜雅丽作报告
汪军作报告
二、多智能体学习的目标评价和设定问题
若想让多个智能体进行有效的学习,就必须要明晰学习的目标,并对智能体的实时策略进行准确地评估,从而确定智能体的策略是否正朝着目标方向逐渐提升,以及是否达到最优。最优解设定和策略评估问题因此成为多智能体学习中必须解决的重要一环,而博弈论则为其提供了可能的解决方法。
使用博弈论指导多智能体进行学习并非一条坦途,最核心的问题之一就是如何确定智能体的学习目标并客观地评价智能体的水平?博弈理论中目前常用的评估方式包括纳什均衡、竞赛积分(ELO)机制和模仿者动态机制等,其中被普遍使用的纳什均衡本质上具有不唯一、不具备动态性且仅适用于二人博弈的缺点;ELO机制不能处理相克关系不传递的博弈,而且也没有动态特性;而模仿者动态机制仅适用于参与者较少的零和博弈情景,均衡点不唯一。
在智能决策论坛中,安波把博弈论在人工智能方面的解决方案总结为两种:一是完全基于博弈的,即把整个问题建模成一个博弈模型,然后求其均衡解,这通常是一个大规模的优化问题,因此需要运用运筹学和优化的技术;二是利用强化学习的方法,当问题不能被很好地建模为一个博弈过程或非凸问题,且难以使用传统优化方法求解时,采用强化学习是合适且必要的。
安波作报告
三、多智能体学习的计算优化和求解问题
在多智能体学习过程中,可以延续单智能体强化学习的思路,使多个智能体在环境中进行探索,彼此合作或是竞争完成某些任务,并获取环境反馈的奖励。一般而言,合作的智能体之间试图通过多人协作来较快地完成任务或是获取更大的奖励,而竞争的智能体之间则通过剥削对手来使得己方奖励最大化。在一个回合或固定训练步数后,根据智能体获得奖励值的大小对智能体的策略进行更新,奖励值越大说明策略越好,那么在遇到同样状态时采取该动作的概率就相应提升,反之亦然。通过长时间训练,智能体的策略不断提升,合作或竞争的意识逐渐增强,直到最终策略收敛。多智能体强化学习整体思路清晰,但实际操作起来却也无法避免复杂性高、计算量大的困扰,需要在对问题的良好表示和建模的基础上,明晰学习目标和策略评估手段,进一步对学习算法进行优化,并采用特定工程技术对问题进行快速求解。
四、总结与展望
面对上述复杂决策系统的三大问题,我们在结合博弈论和强化学习分别进行突破的同时,也要思考全新的多智能体学习与决策途径。一条可行之路是让多智能体决策系统进行自主进化学习:根据群体智能的水平自动选取一个小目标,并根据小目标选择合适的训练对手,然后通过博弈论指导多智能体强化学习进行训练并达到初步目标后,再重新选取下一个小目标。如此循环往复,最终完成群体智能的自主进化,从而实现具有较高水准的复杂智能决策。
《智能控制技术》学习笔记
一、引言先修内容:经典控制理论、现代控制理论、MATLAB
引入:智能理论是新兴学科,随着数字计算机和人工智能发展而来,发展得益于许多学科:人工智能、认知科学、现代自适应控制、最优控制、神经元网络、模糊逻辑等。
基于模型控制方法=经典控制论+现代控制论
生活中的自动化:自动抽水马桶、冰箱温度调节控制、自动化洗衣机
什么是人的智能?
智能是人脑的属性和产物,智能主要特征:
A、具有感知能力。通过视觉、听觉、触觉、味觉和嗅觉感知外部世界。
B、具有记忆与思维能力。
C、具有学习能力及自适应能力。
D、具有行为能力。
二、智能控制的定义:定性角度,智能控制系统具有智能控制系统应具有仿人的功能(学习、推理),让人脑产生的决策和行为融入控制当中进行决策和执行。系统行为角度,智能控制把知识和反馈结合起来,以闭环反馈控制为基础,形成感知交互式以目标为导向的控制系统。三、控制的发展过程3.1古典控制论(经典控制论阶段)对象1:单入、单出(SISO)、线性定常系统频域理论:传递函数、频率特性、根轨迹分布劳斯(E.J.Routh)赫尔维茨(Hurwitz)代数判据奈奎斯特(H.Nyquist)稳定性判据
对象2:非线性系统描述函数分析庞加莱(Poincare)的相平面分析法
3.2现代控制理论(20世纪60年代)对象1:非线性——时变线性——定常(时域理论状态方程)
自适应控制目的:以变制变,以变化着的控制器来控制变化者的控制对象
(典型PID控制、模型参考自适应控制和自校正自适应控制)
鲁棒控制目的:以不变制变,以不变的控制器来控制变化着的被控对象
现代控制理论缺点:
设计方法越来越数学化依赖理想化的精确的对象数学模型(实际情况会变,不会一直理想)实际生产过程中有许多需要靠操作人员的知识和逻辑思维来解决的问题,现代控制理论显得无能为力。控制算法较为理想化(高维、强耦合、时变、非线性及分布参数等系统、缺乏实用、简便及有效的分析和综合方法)3.3智能控制理论(20世纪70年代)(1J.M.Mendel教授空间飞行器-飞船控制系统的设计(2)傅京孙教授首次提出“人工智能控制”的概念(3)Saridis组织级、协调级和执行级(4)Astrom专家控制(5)1985年8月,美国纽约IEEE召开的智能控制专题讨论会,标志着智能控制作为一个新的学科分支被控制界公认。
四、智能控制的结构理论1.二元结构 傅京孙(K.S.Fu)首先论述了人工智能与自动控制的交接关系,指出“智能控制系统描述自动控制系统与人工智能的交接作用”。
2.三元结构 萨里迪斯(Saridis)认为,二元交集的两元互相支配无助于智能控制的有效和成功应用,必须把远筹学的概念引入智能控制,使它成为三元交集中的一个子集。
3.四元结构 蔡自兴提出四元智能控制结构,把智能控制看做自动控制、人工智能、信息论和运筹学四个学科的交集。
五、智能控制分支 5.1.模糊控制---一种新颖的智能控制方式
美国加利福尼亚大学1965年(L.A.Zadeh)模糊集理论《FuzzySets》、 《FuzzyAlgorithm》、《ARationaleforFuzzyControl》
顶级期刊:《FuzzySetandSystems》创刊、《IEEETrans.onFuzzySystems》创刊
主要是模仿人的控制经验,而不是依赖控制对象的模型,因此模糊控制器实现了人的某些智能。模糊控制主要由基本组成部分:⑴模糊化。⑵模糊决策。⑶精确化计算。
模糊集理论是介于逻辑计算和数值计算之间的一种数学工具,它形式上利用规则进行逻辑推理(象符号处理方法那样允许直接用规则来表示结构性知识),但其逻辑取值可在“0“与”1”之间连续变化,采用数值的方法而非符号的方法进行处理(可以用大规模集成电路来实现)。所以模糊系统兼有两者的优点。
举例说明:
规则1:如果误差为零,或者误差变化为正小,则阀门半开。
规则2:如果误差为正小和误差变化为正小,则阀门中等。(阀门中等开度>阀门半开)
比如设定锅炉水位为50cm高度,
第一次误差为+5 第二次误差为0 0-5=-5(负小)
第一次误差为-5 第二次误差为0 0-(-5)=5(正小)
阀门中等原因:误差虽然为正小,但还没有达到50cm的高度则阀门中等
5.2.神经网络控制——一个智能控制的重要分支1943年心理学家W.S.MoCulloch和数学家W.Pitts提出M-P模型
1949年心理学家D.O.Hebb算法
神经元控制是模拟人脑神经中枢系统智能活动的一种控制方式,它具有适应能力、学习能力、泛化能力、容错能力和逼近非线性函数的能力。神经元网络通过神经元以及相互连接的权值,初步实现了生物神经系统的部分功能,具有非线性映射能力、并行计算能力、自学习能力以及强鲁棒性等优点,已广泛应用于控制领域。一般的神经元网络有两种功能模式:⑴建模。⑵控制
生物神经元示意图
突触结构示意图
传递信息过程
5.3专家系统和专家控制专家系统是由许多收集的规则组成,它表示了知识和结果。
⑴控制机制,决定控制过程的策略,即控制哪一个规则被激活,什么时候被激活等。⑵推理机制,实现知识之间的逻辑推理以及与知识库的匹配。
⑶知识库,包括事实、判断、规则、经验以及数学模型。
专家系统发展的总趋势是进一步提高智能:
-能经由感应直接接受外界资料或由外部知识库获得资料;
-在推理机中能拟定规划,仿真系统状况;
-知识库有规划、分类、结构模式及行为模式的动态知识表述。
5.4学习控制学习控制系统是一个能在其运行过程中逐步获得被控过程及环境的非予知信息,积累控制经验,并在一定评价标准下进行估值、分类、决策和不断改善系统品质的自动控制系统,可以分为:迭代学习控制、自学习控制系统
遗传学习算法(GA算法)是一种全局随机寻优算法,它模仿生物进化的过程来逐步获得最好的结果,是智能控制的重要组成部分。
包括:粒子群算法,萤火虫算法,猫群算法,蚁群算法、人工鱼群算法、细菌觅食算法、蜂群算法、鸡群算法、鱼群算法、象群算法、狼群算法、果蝇算法、飞蛾扑火算法
5.5人工智能介绍:人工智能(ArtificialIntelligence)是一门综合性的边缘学科。是指由计算机实现的人造智能。人工智能就是用人工的方法在机器(计算机)上实现的智能。作为一门学科,人工智能可定义为:人工智能是一门研究如何构造智能机器(智能计算机)或智能系统,使它能模拟、延伸、扩展人类智能的学科。空间技术、原子能技术、人工智能被誉为20世纪三大科学技术成就。
1.外科手术机器人 2.高度仿真机器人 3.能钻入血管的机器人4.sawver智能机械臂
5.6我国在工程控制方面的成就:载人航天:中国载人航天工程是我国航天史上迄今为止规模最大、系统组成最复杂、技术难度和安全可靠性要求最高的跨世纪国家重点工程,包括:航天员、空间应用、载人飞船、运载火箭、发射场、测控通信、着陆场、空间实验室等。
卫星测控:工程控制科学与通信技术结合的一体化工程,其特点是:1)多任务测控;2)深空跟踪;3)卫星测控设备;4)测控和通信。