为什么谷歌人工智能击败围棋冠军这事如此重要
AlphaGo击败围棋冠军的消息在朋友圈刷屏了。从昨天夜里到今天,你的朋友圈是不是被谷歌的人工智能击败围棋冠军这条消息刷屏了?就在谷歌发表《自然》杂志的封面文章后,Facebook人工智能实验室相关人员随即呛声:恭喜谷歌,但这是我们先做到的。
从两个科技巨头对人工智能击败围棋冠军的重视程度上,可以判断,这是人工智能发展史上了不起的挑战。那么人工智能在人机对战中赢得胜利究竟有多重要,可能得从人工智能的发展说起了。
AlphaGo是如何做到战胜欧洲冠军的?
先来看看谷歌的人工智能是怎么击败围棋冠军的。根据1月28日《自然》杂志的封面文章介绍,谷歌DeepMind公司设计的AlphaGo在没有任何让子的情况下以5:0完胜欧洲冠军、职业围棋二段樊麾。
DeepMind团队表示,AlphaGo的关键在于使用人工智能中的深度神经网络。在AlphaGo中有两种不同的神经网络,第一种叫做政策网络(policynetwork),用来预测下一步;第二种叫做价值网络(valuenetwork),用来预测棋盘上不同的分布会带来什么不同的结果。
“简单来说,DeepMind是通过让机器学习做到的。按照以往的方法,人工智能是外界输入一个信息,计算机通过输入信息与已有的信息联系,得出一个结论,是一种递归的方式。但现在DeepMind的做法是,我不告诉机器哪种算法能得到高分,而是训练它,通过学习和分析结果来判断最优策略。这个过程已经开始类似小孩子学习知识的一种方式了。”复旦大学计算机与工程学院副教授邱锡鹏告诉澎湃新闻(www.thepaper.cn)。
再通俗一点的说法就是,DeepMind先用已有的围棋技巧来训练AI,称为监督学习(supervisedlearning),然后让AI和自己对弈,通过深度学习让其掌握如何赢得围棋比赛的技巧。
英国围棋协会财务主管,也是樊麾与AlphaGo比赛的裁判托比·曼宁(TobyManning)目睹了整个对弈过程。在接受国外媒体采访时,他表示:“你甚至很难区分哪一方是人类,哪一方是计算机。在之前的很多软件中,计算机下的很多步可能都很理性,但突然就会变得毫无头绪,而在这场比赛中,几乎看不到计算机与人类的区别。一个区别是时间的分配方式:樊麾下每一步所花的时间都要比AlphaGo更久,而AlphaGo的棋路也不像人类棋手那样富有进攻性。它会非常冷静地落子,而非积极地侵略领地或提子。”
地平线机器人公司CEO余凯在自己的朋友圈称,深度学习领域里的各种进步,让其兴奋不已。因为从简单多层神经网络在语音识别的突破(2011),到对空间展开的卷积神经网络在图像识别领域的突破(2012),再到递归神经网络在序列学习领域(OCR,语音,机器翻译,NLP)的进展(2014),再到基于深度神经网络的增强学习在计算机博弈和控制领域的突破性进展(2016),这个过程人类只用了5年时间。
人工智能战胜围棋冠军是一件里程碑式的事件。为什么这事如此重要?
理解了AlphaGo的人工智能后,再来看看为什么战胜围棋冠军是一件里程碑式的事件。
棋类游戏一直被视为顶级人类智力的试金石。人工智能与人类棋手的对抗一直在上演。1989年开始,IBM的“深蓝”(deepblue)就常常能击败国际象棋大师了,8年后的1997年,深蓝首次打败世界第一的国际象棋棋手加里·卡斯帕罗夫,开始统治国际象棋领域。2006年,成为了人类在国际象棋的绝唱,因为自此之后,人类再没有战胜过最顶尖的人工智能国际象棋选手。
不同于国际象棋,围棋每回合的可能性更多,共有250种可能,一盘棋可以长达150回合。同时,围棋有3^361种局面,而可观测到的宇宙,原子数量才10^80。用人工智能战胜围棋专业选手,按照技术的发展速度,一般认为至少需要10年才能实现。
“为什么我们要致力计算机围棋?因为这是一个需要学习、模式识别、问题解决和规划等技能组合在一起的技能。也是一个测试新的想法,机器学习、推理和规划的好方法。”Facebook人工智能实验室主任YannLeCun在自己的Facebook账号上表示。
Facebook人工智能研究所研究员田渊栋在其知乎账号上指出,围棋难的地方在于它的估值函数非常不平滑,差一个子盘面就可能天翻地覆,同时状态空间大,也没有全局的结构。这两点加起来,迫使目前计算机只能用穷举法并且因此进展缓慢。
目前,田渊栋在Facebook负责黑暗森林(DarkForest)项目,也是一个围棋对弈项目。这个程序已更新到第三个版本,并在KGS服务器上运营了一个多月,并取得了成人组第五的排名。这个排名意味着它已经成为全美国最好的前100名选手之一,也步入了世界最顶尖围棋机器人之列。
赢了欧洲冠军樊麾后,AlphaGo下一步的目标是在3月份挑战围棋世界冠军李世石。
对于这场世纪大对决,DeepMind公司创立者之一德米斯·哈萨比斯(DemisHassabis)表示很有信心。他在接受《自然》杂志采访时称:“AlphaGo很可能在围棋这一领域超越最顶尖的人类,我非常期待看到它在围棋的规则之内创造出新的东西。这是我亲手打造的系统,自然对它怀有很深的感情,尤其考虑到我们打造它的方式——它会不断学习,从某种意义上说我们是在不断‘训练’它,它下棋的方式也很像人类。你在写一段普通的程序时,可能对所有细节都了如指掌,事先安排好了一切,但AlphaGo不一样,它会自己学习提高,这种能力是很了不起的。”
关于AlphaGo的未来应用,哈萨比斯说:“最终,我们想要将这些技术应用到真实世界的重要问题中。因为我们用的方法是通用的,我们希望有一天,它们能延伸得更广,帮助解决最紧迫的社会问题,从医药诊断到环境模型。”
按照哈萨比斯的描述,这项技术在Google的首个用途将是开发更好的个人助理软件。这样的个人助理能够从用户在线行为中学习用户偏好,并对产品和事件作出更符合直觉的建议。利用人工智能来做私人助理,这与Facebook首席执行官马克 · 扎克伯格之前的想法又不谋而合了。
围棋与人工智能
来源:柳渝的博客 作者:柳渝。摘要:继AlphaGo完胜人类棋手后,AlphaGoZero完胜AlphaGoMaster,恰恰表明了作为人工智能的围棋机器的技术性本质。中国古围棋在日本的职业化也是围棋的技术化,这是今日围棋机器完胜人类的必然。中国围棋的文化本质蕴含于棋艺和棋道之中。围棋的棋理只有在科学与人文和中、西文化的交叉视域中才能得到真正的阐释。目录一,AlphaGoZero的“白板”学习与人工智能的“先天”性赋予二,围棋盘棋上的棋理三,围棋的职业化与技术化四,围棋的棋艺与棋道五,结语AlphaGo以学习人类经验棋谱而战胜了人类棋手,成为了人工智能的时代标志,而AlphaGoZero则以“白板”(tabularrasa)学习而再次成为头号新闻,英国经验主义哲学家洛克(JohnLocke,1632-1704)著名的“白板”说(theoryoftabularasa)认为,人出生时心灵像白板一样空白,通过人的经验心灵中才有了观念和知识,洛克认为经验是观念、知识的惟一来源。AlphaGoZero的“白板”是指与人类经验棋谱相对的空棋盘,即从0开始的“学习”,但洛克的心灵“白板”是人从现实经验中认知或学习,两者的区别就在于AlphaGoZero不需要人类的棋谱经验而是自己与自己在棋盘上对战的“经验”,这个区别的微妙之处就在于人类的经验与机器的“经验”有何本质的不同,这与AlphaGo对人类的伦理挑战不同,AlphaGoZero的“白板”是对人类哲学问题的一个挑战,这些问题都深刻地与我们对人工智能的本质的理解和定义有关,实际上已经成为了今天我们对人的智能的基本认知理论的更新,其意义远超过AlphaGoZero的成功。就AlphaGoZero的具体情况来说,本文讨论1。AlphaGoZero的“白板”与人类的心灵“白板”有何不同?2。AlphaGoZero自我对弈的经验与人类的经验有何本质的不同?我们可以在智能哲学的论域中研究这些问题的深刻意义。一、AlphaGoZero的“白板”学习与人工智能的“先天”性赋予DeepMind团队在“自然”杂志上发表的论文,推出了人工智能围棋程序的最新版本的更强大的“学习”能力,AlphaGoZero:MasteringthegameofGowithouthumanknowledge(无需人类知识的围棋大师),据称,AlphaGoZero以100:0的成绩击败李世乭版本的AlphaGo。(http://nature.com/articles/doi:10.1038/nature24270,中文介绍可见:http://mp.weixin.qq.com/s/68GTn-BaiRPmzi9F-0sCyw)最引人注意的地方是,“我们介绍一种单独基于强化学习方法的算法,无需人类数据、人类的指导,或超越围棋规则的领域知识。AlphaGo成为了它自己的老师,”(weintroduceanalgorithmbasedsolelyonreinforcementlearning,withouthumandata,guidance,ordomainknowledgebeyondgamerules。AlphaGobecomesitsownteacher)。这篇论文的第一作者、AlphaGo项目负责人DeepMind的DavidSilver在采访中这样解释说:-AlphaGoZero完全从“乱打”(随机)开始,不需要任何人类数据从最初原理开始而取得最高的综合棋艺水平。AlphaGoZero最重要的理念就是它完全从无知状态开始学习,也就是从白板(tabularrasa)上开始,从自我对弈中领悟,不需要任何人类知识或人类数据,不需要任何人类经验、特征或人类的干预。它去发现如何从基本原理开始下围棋。因此白板学习对我们DeepMind的目标和雄心非常重要,因为如果你能得到白板学习,你就得到了一个代理,它可以从围棋移植到任何其它领域。你就从你所在的专业领域解放了出来,你得到了一个算法,它具有普遍性可以应用到任何地方。对于我们来说AlphaGo的意义不在于下棋战胜人类,而是去发现从事科学工作的意义,从程序的自我学习能力中了解知识是什么。我们开始发现,AlphaGoZero不仅重新发现了人类下棋时的常用模式和开局,以及人类下在棋角上的定式,不仅是学习、发现这些而且最终放弃它们而采用自己的模式,其中有些甚至是人类不知道的或现在还没有用过的。因此我们可以说,事实上在短时间内AlphaGoZero学到了人类上千年积累的围棋实战知识。AlphaGoZero下棋中分析,靠自己发现更多的知识。有时候它的选择甚至超过这些,得到一些人类在这个时候尚未发现的东西,在不同的方式上发展出具有创意的新的知识点。(AlphaGoZerowhichhaslearnedcompletelyfromscratch,fromfirstprincipleswithoutusinganyhumandataandhasachievedthehighestlevelofperformanceoverall。ThemostimportantideainAlphaGoZeroisthatitlearnscompletelytabularrasa。Thatmeansitstartscompletelyfromablankslateandfiguresoutforitselfonlyfromself-play,withoutanyhumanknowledge,withoutanyhumandate,withoutanyhumanexamplesorfeaturesorinterventionfromhumans.ItdiscovershowtoplaythegameofGocompletelyfromfistprinciples。SotabularrasalearningisextremelyimportanttoourgoalsandambitionsatDeepMind。Andthereasonisthatifyoucanachievetabularasaleaning,youreallyhaveanagentthatcanbetransplantedfromthegameofGotoanyotherdomain。Youuntieyourselffromthespecificsofthedomainyou’reinandyoucomeupwithanalgorithmwhichissogeneralthatitcanbeappliedanywhere。ForustheideaofAlphaGoisnottogooutanddefeathumans,butactuallytodiscoverwhatitmeanstodoscience,andforaprogramtobeabletoleanforitselfwhatknowledgeis。So,whatwestarttoseewasthatAlphaGoZeronotonlyrediscoveredthecommonpatternsandopeningsthathumantendtoplay,thesejosekipatternsthathumanplayinthecorners。Italsoleanedthem,discoveredthemandultimatelydiscardedtheminpreferenceforitsownvariantswhichhumansdon’tevenknowaboutorplayatthemoment。Andsowecansaythatreallywhat’shappenedisthatinashortspaceoftime,AlphaGoZerohasunderstoodalloftheGoknowledgethathasbeenaccumulatedbyhumansoverthousandsofyearsofplaying。Andit’sanalyzeditandstartedtolookatitanddiscovermuchofthisknowledgeforitself.Andsometimesit’schosentoactuallytobeyondthatandcomeupwithsomethingwhichthehumanhadn’tevendiscoveredinthistimeperiod。Anddevelopednewpiecesofknowledgewhichwerecreativeandnovelinmanyways。)DeepMind强调AlphaGoZero从白板上开始自我学习,这是指机器进入包括训练或实战状态时不从学习巨量的人类数据开始(Peopletendtoassumethatmachinelearningisallaboutbigdatamassiveamountsofcomputation),但这时的AlphaGoZero本身并非白板(裸机),也并非只包含了“操作系统”的纯净机器,而是具有了强大的机器学习能力的机器,DavidSilver说“但实际上我们从AlphaGoZero中发现,算法比所谓计算或可用数据更重要,事实上我们在AlphaGoZero上使用的计算(量)比过去在AlphaGo上要少一个数量级,这是因为我们使用了更多原则性算法。“(ButactuallywhatwesawinAlphaGoZeroisthatalgorithmsmattermuchmorethaneithercomputeordataavailability。InfactinAlphaGoZero,weusemorethananorderofmagnitudeslesscomputationthanweusedinpreviousversionsofAlphaGo。Andyetitwasabletoperformmuchhigherlevelduetousingmuchmoreprincipledalgorithmsthanwehadbefore。)正是由于AlphaGoZero具有这种“先天”的学习能力它才能一开始就可以自己学习自己。DeepMind在AlphaGoZero建造中使用了包括AlphaGo在内的很多精练的算法。因此实际情况是非常复杂的,AlphaGoZero开始工作时并不是一台“裸机”,也不是只有操作系统的“纯净机”,而是一台“智能机”。这里不仅有传统图灵计算的算法,也有人工神经网络“代理”计算能力,即有机器本身的操作系统,也有功能计算能力和解决具体问题的功能算法或智能代理能力,这些高能力算法不是AlphaGoZero自己学习得到的,而是人类赋予的“先天”性的人工智能,这也是AlphaGoZero一开始就能向自己学习的原因。二、围棋盘棋上的棋理今年的法国科学节上,儒勒·凡尔纳公立综合大学(UniversitédePicardieJulesVerne)第一次以科学介绍方式向公众展示中国围棋和包含其中的文化因素(亚眠“科学节”——围棋从中国到法国的旅行),在向完全不懂围棋为何物的观众简单地演示如何学下棋时,采用了两种现场教学方法。第一种是先介绍最基本的下棋规则,然后让学习者下子,这时参与者每下一子要费周折,第一粒棋子放在什么地方是很大的困惑;第二种方法是先让观众任意下子,然后在教学者的陪练中亦步亦趋地学习可行的落子方法。很明显,后者不但使事前完全不懂围棋的观众能够马上下棋,而基本上知道了什么是围棋,领会他任意落下的棋子都充满了奥秘,对围棋产生了兴趣。这个情况引发了我们进一步的思考,围棋的规则虽然简单,但与棋盘上的直接经验相比,对新手的认知、学习具有很大的区别。围棋的规则是围棋作为游戏的设计性思想的体现,而棋盘上的直接落子则是在现成的游戏世界中的经验行为,前者是人类知识的体现,而后者是作为游戏角色的经验,对于一个新手来说,后者是在棋盘上的经验中的学习。为此,我们研究作为围棋棋盘的特殊性。围棋是在平面直交空间上的占领游戏,这对不懂围棋的人特别是西方人有一种困惑:是不是只要将棋盘上放满棋子了就可以决定胜负了?这样几乎等于没有规则,这也就没有游戏的意义了。与一般游戏规则不同,下围棋不仅是按游戏规则的“以棋行事”,而且是对弈过程中对棋盘与棋子所形成的“局面”不断地认知更新与决策,围棋的“局面”就建立在棋盘的平面直交网格的几何特殊性上。围棋的棋盘是一种简单的平面直交网格,是平面几何空间上最基本的形式结构,围棋就是在这种最简单的直交网格上占领对弈。平面直交网格实际就是欧氏几何平面上的坐标系,在这种平面直交网格上的游戏的形成或设计实质就是对欧氏平面的基本性质甚至是潜在性质的利用和开发,中国围棋内涵的丰富性正是基于这种几何性质的深刻性。首先,在围棋中,棋盘上的直交网格的每一位置被赋予非几何的意义:空或占有、死或活、0或1,实现了几何性和数学性的人为超越结合,这是围棋棋理研究的理论基础。以数学眼光对围棋进行过精深研究的英国数学家JohnHortonConway发明的“生命游戏”(GameofLife)或称“元胞自动机”(CellularAutomaton)就是在直交网络上进行的一种位置格局迭代过程,每一格局的迭代由一个选定位置与其邻接位置的相互控制关系决定。这种迭代过程是算法能行的(可以程序化),但这种迭代产生的平面复杂格局可以表现为一种有规则的图形,这种事前无法预见的复杂现象就像生命现象的涌现和演化一样引人注意(注意这里有一种错觉,屏幕上生命游戏中的图案仍是由机器以算法形式产生的)。但由于平面上的位置组合是指数增长的,现有设计的可以实现的生命游戏的算法程序都无法穷尽,这种情况造成一种误解,只要有无限的空间和时间,生命游戏就可能演化出任意复杂事物,但实际上并没有进行这样的大规模研究的意义。生命游戏就是平面直交网格的几何性质表现为图案形式的算法的一个范例,但作为电子“游戏”,只能说是一种知识性的娱乐。与“生命游戏”的图案迭代变化不同,围棋不是棋子与盘面之间的简单占领关系,围棋对网格位置的占有是对抗性的,即在直交网格上已经人为的赋予基本结构性意义的情况下,再以黑、白落子表示对抗性地占有,因此围棋的盘面是双方对抗性布子所形成的“局面”,就是说,围棋的“局面”形成既不是由程序(递归)决定的,没有如生命游戏事前的变量设定产生的算法制约性,而是不断的认知更新和决策的对抗游戏,任何“局面”不只是棋盘上的棋子与棋盘网格的占有关系,更是双方对潜在盘面的认知、信念和决策。因此弈棋不是上一局面的算法的连续迭代,而是双方棋手独自看局的直觉判断和策略的博弈,同一个盘面各人所看的局面并不相同,在双方的视野中可以有具有很不同的意义,因此围棋能体现个人的智力直觉,围棋规则简单但“易学难精”,就是对人的直觉的自然性与自觉性的超越要求。对同一个盘面双方对抗性地具有不同的理解和控制的智力竞技才是围棋表现为一种高级游戏的原因。相比于象棋等各自组织攻防战术的游戏,围棋具有更强的不完全格局和盘面全局性关系直觉与理解能力的要求。人类围棋的高手是经历了自己的长期实战和对历史棋谱的无数揣摩而形成的,每一盘棋从落子“开局”起是在弈棋过程中个人与历史经验的综合后的再实践。而AlphaGoZero之所以能够从白板开始(实质是“随机”开始,区别于“监督学习”喂入人类棋谱)学习,是因为它已经具有的人工赋予的人工智能的先天性。AlphaGoZero真正的区别性应在两方面考虑,1。区别于人,人类心灵的“白板”是指人类和知识来源于经验,人类棋手是有了围棋的规则和历史经验的知识,不同经验者之间的对抗性竞争。2。区别于AlphaGo的“监督学习”,AlphaGoZero是在包括AlphaGo研究、设计、建造和实用所有经验基础上的围棋游戏的算法重建。AlphaGoZero的随机性“白板”开始实际是受其内置的人工性智能和盘面上直交网格的几何-数学性质两方面约束的。AlphaGoZero本身就是“智能机”,能够在棋盘这种有限世界中重建一种机器对机器的对抗性。AlphaGoZero真正的进步是作为人工智能的“机器学习”的“强化学习”(reinforcementlearning)的一次成功实现。我们可以看到,AlphaGoZero并没有创造一种不同于现有围棋的新规则的围棋,只是在不断的自我对弈中重建了已有的围棋系统。AlphaGoZero凭借并其巨大的机器时、空能力,以超过人的生物时空能力而取得对人的全胜,以对以往AlphaGo版本研究经验的综合和提高取得对以前的AlphaGo的全胜。三、围棋的职业化与技术化围棋在中国诞生,大约七世纪在日本流行,围棋的中国文化性与日本文化之间的混合具有很特殊的文化研究价值。据有关记载,奈良时代(公元710—794)围棋开始在日本宫廷盛行,并有出入于宫中的职业棋师。镰仓时代(1185—1333),围棋在习惯于战场生活的武士中传播开来,几大封建领主(大名)织田信长、丰臣秀吉、德川家康都具有相当的棋力,民间出现围棋大家,如先后侍奉于织田信长、丰臣秀吉和德川家康的僧人日海(1558—1623),被誉为围棋“名人”、“棋所”,享有优厚俸禄,得到“官命”,并总理围棋事务,指导将军弈棋,垄断围棋等级证书的颁发等权力。1644年幕府建立了“御城棋”制度,参加“御城棋”被看作与武士们在将军面前比武同等高尚,这样,围棋对弈植入了武士道精神。日本武士道崇尚正直、信义、忠诚、礼节、廉耻、简朴、坚毅、胆识、诚实等种种美德,武士道精神以个人荣誉立命,一但丧失个人荣誉,武士不得不进行切腹自杀以保全最终武士荣誉。因此,职业化的围棋赛事程式、规则、棋手段位、个人棋风等等都与荣誉相关,正式赛事中战败者被迫降低交手棋分,这种在赛事中的降格被视为棋手的奇耻大辱,因此棋枰上的血腥之气迎面扑来,正式棋赛中的棋手几乎是押上自己一生名誉和身家性命作孤注一掷,甚有在对局中口吐鲜血或当场死亡的事例。围棋的职业化使围棋成为一种正式的社会活动,吸引了广泛的社会参与。以当时的“棋所”四家(本因坊、安井家、井上家、林家)为核心,民间和名门望族的六段棋手均可参加棋赛,日本在职业化的道路上进一步成为日本社会生活的一部份,一直影响到以后围棋在日本社会生活中的地位。进入现代以后的日本围棋文化受到商业和新闻业的强力支持,大体以棋院形式组织起了所有的围棋活动,围棋文化进一步普及化,全国和国际赛事成为了重要的社会性事件。围棋的职业化使棋赛的胜负之争成为主要目的,日本围棋的某些规则也与中国围棋不同,段位等级的激烈棋赛和社会强烈关注使围棋的职业化更加突出,也就使正式的围棋活动成为了竞争技术和职业化的高级技术训练。围棋界的高手都不同程度地强调下棋的心态、境界,这主要是为了得到对棋盘局面的深度理解,由于围棋局面的形成是平面几何空间中的直交网格结构的深度重组,落子意味着对棋局发展趋势的决策,是历史经验与当前态势的偶合,因此棋手必须专心致志,使经验与个人气质结合而形成个人的棋风,棋赛中要排除一切杂念,凝集精力于直觉(棋感),使个人形成特殊的风格在当前不确定性的棋局上产生偶合,以期得到“妙手”、“鬼手”、“神之一手”,使一子之后产生一个全新的局面。所以这种基于战杀的心态培养和训练仍然是一种心理性的技术性的准备。围棋的职业化使棋手把下棋作为社会生存的方式或手段,从而在本质上使围棋与个人的一般生活区分开来,成为某种个人的社会生存方式,同时,围棋职业化、专业化也就使职业化围棋必然走向技术化的道路。正是这种围棋的职业化和技术化使AlphaGo成为了今天人工智能研究项目中最大的成功,这也就是AlphaGo和AlphaGoZero完胜人类的必然性前提。四、围棋的棋艺与棋道围棋在中国文化中大体是文人雅士的修性、娱情的文化活动,中国的古棋优雅、自由、超越,弈棋轻松、理性互动、无言而喻,故称“手谈”、“坐隐”。“坐隐不知岩月乐,手谈胜与俗人言”(黄庭坚,弈棋二首呈任公渐),虽然偶尔以兵喻棋(“略技”),但非以棋为兵,更没有争命的意义,相反,常以棋局喻世态而求超然,与中国特色的神仙思想相呼应,人在棋局中,又在棋局外。“烂柯”这个故事的喻意就深得人心,南朝梁任坊的《述异记》和历代其他一些笔记中均有记述,其大意是,樵夫王质入山伐木,见两人在松下石台上对弈。王质观棋入迷,一人递了一枚枣子给王质,王质吃后不知肚饥,后来一人提醒王质:“你怎么还不回去?”王质回头看他的斧头,斧柄竟已烂掉,当他下山回家时,人间已逾百年。甚至宋徽宗赵括也说“忘忧清乐在棋枰”。“礼、乐、射、御、书、数”是士人在受教育阶段接受的主要内容,“琴、棋、书、画、诗、酒、花、茶”是文人所谓八大雅事,围棋是所有这些项目中直觉理性最专门化的一种,专心也就是一种人性的基本修炼,围棋专注于理性的直觉,对于学子来说,“一心以为有鸿鹄将至”是入不了门的,但真正的修炼是对棋局的直觉理解,这是一种无言表达、基于文化的质朴理性。相对而言,机器无所谓文化,所以也无所谓直觉。作为人工智能的智能代理(Agent)不同于算法的机器(图灵机)在于后者的输入是数值数字,而下围棋的机器如AlphaGo输入的是已经具有结构性的数据集(棋谱),即使是AlphaGoZero也是研究人员赋予了算法的先天性,如果不学习人类的经验,研究人员不继承以前的成果是无法得到AlphaGo系列的成功的。机器能够战胜人是围棋技术上的胜利,机器不会受到感情、情绪、现场气氛的影响,因此对于机器来说,谈不上“棋艺”。人的本质是文化的人,人能够艺术地使用技术,艺术家对人生和社会的态度、理解、和认识成为艺术品中的理性因素,虽称“艺术”并非匠艺的“技术”而是美和审美的艺术。艺术也是艺术家、批评家和观众之间的交流和相互理解,对于机器而言,只有棋盘和棋子之间的复杂关系,不会具有人性和文化的因素。机器在技术上胜过人并不奇怪,人使用工具就是因为工具是对人的技术能力的替代,对机器胜过人的担忧或恐惧并不来自机器与人在力量或思维这样的能力上强大于人,而在于迄今为止我们对于机器与人在本质上究竟有什么不同的认识和理解上并未形成共识。“人只不过是大自然中最脆弱的芦苇,但他是会思想的芦苇”,帕斯卡尔的骄傲并未过时,机器没有人这种既是最脆弱的同时又是最强大的这个本质性。“艺术”通常是指艺术形象的创造,但围棋的棋艺并不创造一种具象的形象,围棋的局面是一种简单形式中的抽象的形象,围棋是抽象的局面的创造,因此与直觉的审美和情感不同,棋艺要求基于几何性的一种直觉的超层次的理解和创造,这种创造性又是在双方对抗性的个性与共性中进行的,所以围棋对局不仅是技术的较量,更是从感受到对方的气质,性格,修养的内在性的无言沟通,所以围棋的棋艺是一种抽象形象的共同创造和互动中的内在交流。日本的围棋文化重视棋艺中的礼仪(艺、品、理、规、礼),对棋具和相关的小道也非常用心,围棋与花道、茶道等一样,成为了一个非常精细的文化生活体系,体现了日本文化的特质。围棋界普遍承认,围棋棋手的人品也就是人的棋品,这是指棋手的修养与棋术的关系,人们普遍地把棋赛的临场心态,对战略思想、战术机会的把握等作为高级棋术素质,都是以棋为人,称之为“棋道”,实际上,棋艺建立在人品之上,真正的棋道是人道,是中国文化和中国学术理性的一种无穷境界:“弈之为道,数叶天垣,理参河洛、阴阳之体用,奇正之经权,无不寓焉。是以变化无穷,古今各异,非心与天游、神与物会者,未易臻其至也。”(清,施定庵,弈理指归,序)中国传统文化中文人的纯文化生活能够将世俗人生消融在理性的超越之中,琴棋书画、诗词歌赋创造的境界是实在世界的超越,这与中国围棋的直觉纯粹和超越性具有一种共同的理性美感,所以中国文人以诗言志的本能在以围棋为诗的表达中能得到一种越界的融和:黄梅时节家家雨,青草池塘处处蛙,有约不来过夜半,闲敲棋子落灯花。(赵秀师,约客)——棋为人境,相约相忘。山僧对棋坐,局上竹阴清,映竹无人见,时闻下子声。(白居易,池上二绝)——人在局中,又在局外。玉子纹楸一路饶,最宜檐雨竹萧萧。羸形暗去春泉长,拔势横来野火烧。守道还如周柱史,鏖兵不羡霍嫖姚。浮生七十更万日,与子期于局上销。(杜牧,送国棋王逢)——人、棋相喻是棋艺,人、棋同境是棋道。闲看数招烂樵柯,涧草山花一刹那,五百年来棋一局,仙家岁月也无多。(徐文长,题王质烂柯图)——棋局也是历史剧,中国本土文化特色的人、仙同质,是中国传统文人的最后的精神寄托。五、结语当我们迷惑于机器是否会有感情、意识时,不妨首先去体会、研究一下,作为文化的“人”的实质是什么?这有助于我们走出人工智能给我们带来的忧思。本文相关内容和参考资料除已有文内夹注外,可参见周剑铭、柳渝:中国文化和中国思想;中、西文化和科学、人文两种“两种文化”的交汇;算法、不确定性和不确定性问题(NP)理论;智能哲学等网上系列文章。[详情]
人工智能与博弈论——从阿尔法围棋谈起
安 波
谷歌AlphaGo(阿尔法围棋)在与棋手李世的人机大战中,最终以4∶1赢得胜利。这一人类智慧和人工智能的对决在世界各地掀起了对人工智能空前的关注热潮。AlphaGo是一款围棋人工智能程序,由谷歌DeepMind团队开发。AlphaGo将几项技术很好地集成在了一起:通过深度学习技术学习了大量的已有围棋对局,接着应用强化学习通过与自己对弈获得了更多的棋局,然后用深度学习技术评估每一个格局的输赢率(即价值网络),最后通过蒙特卡洛树搜索决定最优落子。同时谷歌用超过1000个CPU和GPU进行并行学习和搜索。在过去20多年中,人工智能在大众棋类领域与人类的较量一直存在。1997年,IBM公司研制的深蓝系统首次在正式比赛中战胜人类国际象棋世界冠军卡斯帕罗夫,成为人工智能发展史上的一个里程碑。然而,一直以来,围棋却是个例外,在这次AlphaGo取得突破性胜利之前,计算机围棋程序虽屡次向人类高手发出挑战,但其博弈水平远远低于人类,之前最好的围棋程序(同样基于蒙特卡洛树搜索)被认为达到了业余围棋五、六段的水平。这其中的一个原因就是围棋的棋局难于估计,对局面的判断非常复杂。另外一个更主要的原因是围棋的棋盘上有361个点,其搜索的宽度和深度远远大于国际象棋,因此,求出围棋的均衡策略基本是不可能的。AlphaGo集成了深度学习、强化学习、蒙特卡洛树搜索,并取得了成功。我们这里顺便说一说人工智能和人类在另一项棋类项目——德州扑克的较量。德州扑克于20世纪初开始于德克萨斯洛布斯镇,后来在全美大面积流行起来。德州扑克以其易学难精的特点,受到各国棋牌爱好者的青睐。世界德州扑克系列大赛(WSOP)是一个以无上限投注德州扑克为主要赛事的扑克大赛,自上世纪70年代登陆美国以来,比赛在赌城拉斯维加斯的各大赌场举行。其中,以冠军大赛的奖金额最高,参赛人数最多,比赛最为隆重,北美各地的体育电视频道都有实况转播。有史以来第一次人类和计算机无限注德州扑克比赛于2015年4月24日到5月8日在美国宾夕法尼亚匹兹堡的河边赌场举行,组织者为卡内基梅隆大学的TuomasSandholm教授,包括微软研究院等多家机构提供了奖金支持。该比赛共有两组玩家,一组是电脑程序“Clau-do”,另一组是该类扑克游戏的顶级专家DongKim、JasonLes、BjornLi和DougPolk。Clau-do是之前Tartanian(2014美国人工智能大会电脑扑克大赛冠军所用的程序)的改进版本。该比赛一共进行了8万回合,最后扑克专家以微弱的优势获得了胜利,学术界认为Clau-do取得了很大的成功。和AlphaGo不同的是,Clau-do的策略基于扑克博弈的近似均衡。围棋比赛本身是一种完全信息博弈,而扑克是不完全信息博弈(玩家不能观测到对手手中的牌),因此比完全信息博弈更难解决。Clau-do通过下面这三个步骤决定其策略。第一步:原始博弈被近似为更小的抽象博弈,保留了最初博弈的战略结构。第二步:计算出小的抽象博弈中的近似均衡。第三步:用逆映射程序的方法从抽象博弈的近似均衡建立一个原始博弈的策略。Clau-do的成功必须归功于算法博弈论最近几年的进展。在2015年年初《科学》杂志发布的一篇论文中,加拿大阿尔伯塔大学计算机科学教授MichaelBowling带领的研究小组介绍了求解有上限投注德州扑克博弈均衡的算法,基于该均衡策略的程序Cepheus是接近完美的有上限投注德州扑克计算机玩家,以致于人类玩家终其一生也无法战胜它。这并不是说Cepheus一局也不会输,但是从长期来看,结果只能是平手,或者计算机获胜。需要注意的是,有上限投注德州扑克博弈比无上限投注德州扑克博弈要容易求解。由于围棋和扑克在本质上都是博弈问题,我们这里谈谈博弈论以及作为求解扑克博弈的算法博弈论。1944年,JohnvonNeumann与OskarMorgenstern合著《博弈论与经济行为》,标志着现代系统博弈理论的初步形成,因此他被称为“博弈论之父”。尽管历年来,博弈论与计算学科学不时有显著的重叠,但在早期,博弈论主要为经济学家所研究应用。事实上,博弈论现在也是微观经济学理论的主要分析框架。博弈论在经济教科书中的应用非常广泛。在经济科学领域,很多杰出的博弈理论家曾荣获诺贝尔奖,如2012年诺贝尔经济学奖得主罗斯和沙普利。就在博弈论理论出现不久后,人工智能领域紧随其后得到开发。事实上,人工智能的开拓者如vonNeumann和Simon在两个领域早期都有杰出贡献。博弈论和人工智能实际上都基于决策理论。例如,有一个著名观点把人工智能定义为“智能体的研究和构建”。从20世纪90年代中期到后期,博弈论成为计算机科学家的主要研究课题,所产生的研究领域融合计算和博弈理论模型,被称为算法博弈论。近几年来,算法博弈论发展尤为迅速,得到了包括哈佛大学、剑桥大学、耶鲁大学、卡内基梅隆大学、加州伯克利大学、斯坦福大学等世界各大著名研究机构的重点研究,该领域的会议如雨后春笋般出现,并与多智能系统研究融合,其普及程度已经在缓慢地追赶人工智能。算法博弈论的主要研究领域包括各种均衡的计算及复杂性问题、机制设计(包括在线拍卖、在线广告)、计算社会选择等,并在包括扑克等的很多领域得到应用。过去几年,算法博弈论在安全领域的资源分配及调度方面的理论——安全博弈论逐渐建立并且在若干领域得到成功应用。与算法博弈论求解均衡策略或者近似均衡策略不同,基于学习以及蒙特卡洛树搜索的AlphaGo无法在理论上给出赢棋的概率。考虑到将博弈抽象的思想应用到扑克博弈上的成功,是否可能将围棋博弈抽象成小规模的博弈,求解(近似)均衡策略,并产生原始博弈问题的策略?即使这种策略不能有赢棋概率的保证,这些基于均衡产生的策略有可能对提高AlphaGo的性能提供帮助。从另外一个角度,深度学习技术是否会为求解大规模博弈问题提供帮助也值得探索。也许我们无法证明基于深度学习的策略能够形成某种均衡,但是可能会从实验模拟结果来说接近均衡策略。因此,AlphaGo的成功不仅会引爆人工智能研究的热潮,也会促进人工智能与算法博弈论的进一步交融与发展。作者单位:新加坡南洋理工大学计算机工程学院