博舍

人工智能:博弈 人工智能对人工智能象棋

人工智能:博弈

为了应付某人的毕设,研究过一段时间的人机象棋,现来谈谈详细的算法思路和流程。注:本文没有任何干货源码,写过二层遍历、基本评价函数与所谓“深度学习”算法下的人机象棋,棋力之弱小,就不献丑了。

首先,程序需要囊括象棋的基本着法,比如马走“日”字,相飞“田”,实现人人象棋是进行人机象棋的第一步。进入正题,试想如何实现象棋的AI?按着人的思路,很容易想到“博弈树”,所谓博弈树,就是一颗大树,根节点就是开局棋盘,第二层节点就是走了一步棋的棋盘,第三层棋盘就是在二层棋盘下对方走一步棋的棋

盘,以此类推。这颗树异常庞大,庞大到囊括了象棋所有的可能性,据统计,象棋每一步平均有50-70种走法,而平均30几回合决出胜负,所以一共大概有60的30次方种走法。大胆想象一下,如果计算机能完全模拟并

记忆这颗完全博弈树,那么无论什么棋局,计算机都能找到对应的节点,通过对节点后续所有走法的遍历,回推一个最佳走法,那么就能保证AI的绝对优势。这里提到一个词,“遍历”,人机象棋的一个核心就是遍历算法,即从当前棋盘开始,模拟后续的走法,返回最优走法,但是现在的计算机一般能保证的也只是5-10层的遍历,也就是说只能预测接下来5-10步的发展

。==>遍历算法的核心就是去模拟所有可能的情况,程序实现并不难,首先遍历每一个棋子,在遍历某一个棋子所有可能的走法,如果是多层,则是递归遍历,这是值得推敲的炮,马>兵等,注意一般我们令将的分值极大,比如车是100分,将可以设置成10000或者100000等,这样做是为了让机器

足够重视将,及时其他所有棋子都没了,也要保留将。这种分数评估都是按照经验来的,我当时按照参考书推荐设置的是炮80,马70等2、棋子的位置价值。每一种棋子都有位置矩阵,比如车在原位时位置价值为0,当其出动后,位置价值逐步提升,当车在对面半区尤其是中心位置时,位置得分较高。尤其是兵,当其未过河时,位置得分极低,当其

过河后位置得分突然变高,比棋子本身价值还要高。为什么要位置价值的原因就是在于不同位置的棋子重要度不一样。3、棋子灵活性价值。灵活性指棋子可能的走法,比如兵未过河时只有一种走法,当其过河后就有最多3种走法,走法越多,棋子灵活性越好,得分也就越高。灵活性的计算即遍历每一个棋子,用走法数乘基本灵活性

价值,最后得到总和就是灵活性得分。灵活性价值的意义在于定义棋子是否有多种走法,是否可以创造多种可能,比如若某一棋子被卡死,那它的价值就非常低。4、保护威胁价值。威胁价值指若有敌方棋子能吃到己方棋子,则认为这个棋子是受威胁的,平常下棋时这种情况就是快走开,或者用其他棋子保住,或者丢车保帅等,受威胁的棋子需要大量减分,甚至减棋子自身价

值相应的分数,这样做是为了让AI能够保护棋子。而保护价值指己方棋子对棋子的保护,比如连环马,如果走到连环马的位置上,将增加保护价值。保护威胁价值的意义在于在进行棋盘进行评价估分时会综合考虑其

他棋子的位置,敌方会有威胁,己方会有保护作用。==>评价函数直接决定了棋力大小,定义的各个部分的评价分数不一样将直接导致棋力不一,重视度不一样

【智能决策论坛系列解读】博弈论与人工智能

2020年9月19至20日,由中国科学院自动化研究所主办的首届智能决策论坛在线上成功举办,多位专家学者围绕决策智能相关研究内容进行深入探讨,试图廓清决策智能的边界与内涵,为我国决策智能的发展与应用指明方向。  

随着AI技术的进步,越来越多的问题都可以通过人工智能来解决,博弈问题也是如此。尽管人工智能在过去几年间的进展更多聚焦于识别、预测分类等方面,但面向未来,针对人工智能决策的深入研究将会是领域内的重要发展方向,而博弈论则正是用来刻画和分析多个智能体之间相互作用情况的理论框架。根据问题的不同性质,博弈论解决人工智能决策问题的方案可总结为以下两种:一是完全基于博弈论,即将整个问题建模成为一个博弈过程,然后求解均衡。需要注意的是,博弈求解往往是一个大规模优化问题,需要使用大量运筹学和优化的技术。另外一个思路是运用强化学习技术来求解问题。在问题不能被很好地用博弈论建模、规模过大或者是非凸问题难以使用优化方法等情况下,采用不基于模型的强化学习方法是合适且必要的。  

一、人工智能在博弈论中的应用

人工智能的发展正为博弈领域创造着新的可能性。在理论层面,人工智能正为博弈提供新的解决方法,以博弈论中两个经典的均衡概念——纳什均衡与合作博弈中的均衡为例,两者都存在一些计算复杂性上的难题。在传统研究中,通常需要利用特定问题的特定结构进行求解,而强化学习中的Q-learning等方法则对计算均衡带来了新的思路。而在一些实际应用中,人工智能也在围棋、游戏等博弈场景上得到了新的应用,比如由强大计算能力支持的AlphaGo、AlphaStar通过对深度强化学习方法的应用获得了优秀的策略,并在人机博弈对抗中击败了顶尖人类选手。不仅如此,人工智能与强化学习也为研究价格战、拍卖等场景中的博弈问题提供了新的助力。那么,人工智能为博弈理论(如数学理论与算法)与实际场景中的博弈(如经济市场)带来的进展究竟达到了怎样的程度呢?在首届智能决策论坛中,北京大学前沿计算研究中心邓小铁教授带来题为《GameTheoryandPracticeattheAIAge》的主旨演讲,从博弈理论的角度探讨了人工智能技术与强化学习的应用和影响,对上述问题进行了解答。  

邓小铁作报告

邓小铁通过介绍博弈论的发展概述了人工智能技术对博弈论带来的影响与改变。在例如战争这样的传统博弈中,人们追求的是一方尽可能达到胜利的策略,而在如经济学场景的博弈中,通常考虑的则是双方同时采取策略时可能会达到的“均衡”状态。近些年人工智能的发展使得人们开始重新审视传统博弈论,在重新对博弈中的均衡状态进行定义的同时也在追求通过深度强化学习计算出某种致胜策略,博弈动力学作为一个新兴的研究方向因此得到更加广泛的关注。在人工智能与博弈论的结合中,许多研究着力探索如何在博弈中定义“智能”,如认知层次理论(cognitivehierarchy)等,人工智能技术也对博弈论中的数学和算法产生了巨大的推进作用,破解一些传统难题(如之前提及的均衡计算)在人工智能的助力下成为了可能。  

此外,邓小铁还特别介绍了一些特殊场景下博弈论与人工智能的结合,如在某些场景下,博弈参与者会有动机地提供虚假信息以期获得更高的收益。对于参与者的这种欺骗行为,经济学家与计算机科学家持有不同的看法:经济学家认为个体的行为无法显著影响整个群体的行为,而邓小铁团队作为计算机科学研究者,他们则从算法博弈论的角度对完全自由、参与者可欺骗市场的均衡进行了刻画,得出了与经济学家不同的结论。邓小铁也表示,人工智能技术的发展使数据变得愈发重要且可以交易,那么人工智能的一些未来的应用场景便是利用相关技术帮助经济学家更好地分析相关市场行为、研究如何处理含有虚假信息的数据等等。  

二、博弈论的动力学研究

目前,许多针对博弈论的研究往往以博弈中的策略与博弈的结果为参考,注重研究博弈中达到的均衡及其方法,但实际上博弈中从初始状态到均衡的演化过程及参与者的运动规律也同样重要。近些年来,对博弈动态演化过程进行研究的博弈动力学也在逐步发展。在一般的博弈过程中,没有先验知识或经验的参与者会从采用随机策略开始,并根据其它参与者的策略和收益情况进行调整,从而做出更好的策略选择。如果将所有参与者的策略选择看作策略空间中的一个点,那么当大家都在调整自己的策略时,这个点就会在策略空间中形成运动轨迹,而博弈动力学就是要对这种现象的动力学结构进行定量表征与研究。在智能决策论坛中,浙江大学王志坚教授的《博弈论的动力学》报告就主要介绍了博弈动力学的相关知识与意义。  

王志坚作报告

王志坚首先将博弈论与经典力学进行了类比,若把博弈均衡比作经典力学中的静力学,那么博弈中的运动演化就如同经典力学中的动力学,其复杂程度要远高于静力学。均衡状态仅仅是策略空间中的个别点,而运动演化则是策略空间中的整条轨迹;博弈论动力学的作用之一便是发现这些均衡点并构建博弈动力学方程,借此可以推导动力学过程、求解出博弈的本征值、判断稳定性,从而更好地理解博弈问题的本质并且能够对博弈结果做出准确的预测。  

任何科学理论的预言均应与实验中的观察值完美吻合,这是对理论完整性和准确性的基本要求。尽管博弈动力学在理论上取得了许多成果,但如果无法用实验验证,这个领域的完整性和科学性就会存在问题。随着近年来测量技术的进步,理论预言的动力学结构也终于在实验中得到验证。王志坚在讲座中通过数个例子解释说明,博弈论动力学推算出的策略点运动轨迹均与实验结果相吻合,从而证明了博弈论动力学的科学性与有效性。  

三、总结与展望

博弈论+人工智能在围棋、星际争霸等博弈场景上的成功应用,颠覆了传统博弈论对于均衡的过分关注。博弈论的引入让智能体在过去与环境打交道的基础上又学会了如何与其他智能体打交道,以及如何与人打交道,从而为人工智能的可解释性难题提供了一种可行的解决思路。博弈论作为研究游戏、军事、政治、社会、经济等各种领域中竞争与合作的理论,其思想几乎无处不在。而人工智能技术的飞速发展则让博弈论如虎添翼,许多以前被认为难以求解的复杂博弈问题正逐渐被层出不穷的新算法攻克,进而大大拓宽博弈论在现实生活中的应用范围。博弈论与人工智能的联结,或许终将会成为连接人与机器之间的一座桥梁。

 

撰稿:张海峰,崔新宇,阮景晴

版权声明:本文内容由互联网用户自发贡献,该文观点仅代表作者本人。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如发现本站有涉嫌抄袭侵权/违法违规的内容,一经查实,本站将立刻删除。

上一篇

下一篇