AI与人类围棋士的差距到底有多大
来源:计算广告
四年前,谷歌旗下DeepMind公司开发的围棋人工智能AlphaGo以4-1战胜韩国大国手李世乭九段。
今天,AlphaGo在大众视野中掀起的惊涛骇浪已渐平息,AlphaGo和李世乭都已从江湖退隐。
然而,围棋界因AlphaGo而起的沧桑巨变仍在进行时。
那么,人工智能与人类棋士的差距究竟有多大呢?
柯洁当年的豪言“AlphaGo能赢李世乭,但赢不了我”又是否可信呢?
1
棋力的量化标准
自李世乭、柯洁先后不敌AlphaGo之后,人类棋士被AlphaGo超越已成共识。
不过,AlphaGo,以及其他围棋AI具体比人类棋士强多少,仍是众说纷纭。
实际上,AlphaGo的开发团队,在《自然》期刊介绍AlphaGoZero的论文《无需人类知识的围棋大师》(“MasteringtheGameofGowithoutHumanKnowledge”)中已给出了一个量化标准。
论文中采用的量化标准基于Elo等级分系统。
Elo等级分是美国物理学家阿尔帕德·埃洛(ArpadI.Elo)在1960年发明的,最初用于量化国际象棋棋士实力。
Elo等级分基于统计学评估棋士实力。
首先,Elo赋予新参与等级分体系的棋手初始等级分。
以中国围棋职业棋手等级分为例,1995年颁布时,以当时的职业段位确定初始分。
具体标准为:九段2560分、八段2520分、七段2480分、六段2440分、五段2400分、四段2360分、三段2320分、二段2280分、初段2240分。
聂卫平、马晓春两位九段因成绩特别突出,被赋予2600分的初始分,同列榜首。
然后,Elo假设棋士的实力遵从增长分布(LogisticDistribution)。
基于这项假设,棋士之间的期望胜率可以被计算。
而在棋士每赢或输一盘棋之后,其实际胜率会偏离此前的理论计算,因此需要按照公式调整棋手的等级分。
Figure1增长分布
若有A、B两位棋手,他们的分数分别是,那么根据增长分布假设可以推算,棋手A对棋手B的胜率期望值是:
.
例如,若当前棋手A等级分是3613分,棋手B等级分是3573分,那么按照上述公式,理论上棋手A对战棋手B的胜率是55.73%,计算过程如下。
等级分差距与期望胜率的对应关系见下表:
现在A和B下了一盘棋,之后B获胜,那么系统自然需要调高B的等级分,而调低A的等级分,具体按照以下公式:
其中是棋手A调整后的分数,是棋手A的调整前分数,在这个例子里是3613分。
K是一个控制等级分变化率的常数,通常级别越高的比赛,K值越大。
这里我们取围棋比赛里常见的K=16.表示棋局结果,棋手A胜、平、负,则分别取1,0.5,0.这盘棋A输掉,所以,是A本局的期望胜率,之前我们已经计算过了,本局的是0.5573.根据公式,我们可以求出棋手A输棋以后的调整分数。
也就是说,棋手A输给B之后的新等级分是3604.08分,失去了8.92分。
相应地,棋手B得到了8.92分,其新等级分是3581.92分。
根据上述公式,棋手赢一盘棋获得的分数并不总是一样。
若棋手A的当前等级分远高于棋手B,那么A胜B获得的分数就会较少,而A负于B失去的等级分则会较多。
这种规则无疑比每局赢棋获得固定的等级分合理。
2
AlphaGo的自评等级分体系
AlphaGo论文当中使用的Elo等级分体系,其评分基准是GoRatings等级分。
GoRatings等级分(www.goratings.org)是由法国科学家RémiCoulom创立的。
此等级分不具有官方地位,因而被部分棋迷调侃为“野榜”。
然而,GoRatings等级分因其更新及时(每天更新)、范围全(包括中、日、韩、欧美等地绝大多数职业棋手)而广受棋迷欢迎。
GoRatings等级分采用RémiCoulom首创的WHR算法。
WHR算法在Elo算法的基础上改进,以更少的棋局就可以精确定位棋手的实力。
除此之外,WHR可以视作Elo等级分的变种。
截至2020年4月24日,GoRatings等级分前10名的棋手见下图:
Figure2GoRatings等级分
其中,韩国00后棋手申真谞以3731的高分排名第一,中国棋手柯洁以3667分排名第二。
AlphaGo的各版本量化棋力,是由DeepMind开发团队基于大样本对弈,用Elo体系评估的。
其中,与AlphaGo对战过的人类棋手李世乭、樊麾被选定为基准。
2015年10月,樊麾与初代AlphaGo(AlphaGoFan版本)对战时,等级分为2900分左右,其与AlphaGo的比分是2-8,因此AlphaGoFan版本的等级分被评估为3144分。
此处对AlphaGo等级分的评估也使用了WHR算法的快速定位,十局棋足够估算出AlphaGo的实力。
Figure3AlphaGo各版本等级分评估
在第二代AlphaGo(即AlphaGoLee版本)与李世乭对战之前,其与初代AlphaGo之间的差距已达到让三子,因此DeepMind团队在内部测试中评估此版本等级分约为4500分。
同时,DeepMind负责人DavidSilver也在演讲中指出,4500分的评价有高估可能性。
果然,AlphaGo以4-1的比分战胜李世乭之后,由于李世乭当时的等级分3580分左右,DeepMind据此将第二代AlphaGo的等级分重新修订为3739分。
3
第二代AlphaGo的真实实力
DeepMind一次性将第二代AlphaGo的等级分评估下调近800分,看似匪夷所思,其实是负责任的做法。
最初的4500分评估主要基于AlphaGo不同版本间的“内战”。
从算法原理上看,第二代AlphaGo的模型是在第一代AlphaGo的基础上进一步训练改进的,因此第二代AlphaGo清楚地“了解”前代AlphaGo的弱点,特别善于对抗前代AlphaGo。
用机器学习的术语来说,这是一种过拟合(overfitting)。
Figure4过拟合
AlphaGo与李世乭对战输掉的那一局,是由于李世乭的“神之一挖”触发了AlphaGo一连串的低级错误。
部分科技类博主将此解读为AlphaGo出了bug,并进一步推断,如果不是这个偶发的bug,AlphaGo的实力已经远超李世乭。
其实这种解读并不准确。
纪录片《AlphaGo》忠实地记录了AlphaGo与李世乭之战的幕后故事。
在与李世乭对战之前,开发团队已经发现了AlphaGo偶然会下出愚蠢的臭棋。
并且,开发团队发现这样的问题在开赛之前已来不及修复了。
世界上最优秀的人工智能开发团队,只能祈祷AlphaGo在与李世乭正式对战时不要暴露这个问题。
从算法原理来看,神经网络训练出现问题的修复的确非常复杂。
修复一般的程序漏洞,只需要追溯与漏洞相关的逻辑,迟早能查出问题所在。
而神经网络更近似于一个黑箱,出现问题难以定位;即使对症地修改神经网络架构,或更换训练样本,效果也难以预测。
因此,AlphaGo与李世乭对战时的失误,并非偶发的bug,而是第二代AlphaGo模型的缺陷,应当被视作AlphaGo实力的一部分。
DeepMind最终将第二代AlphaGo的等级分评为3739分,不夸大、不粉饰缺陷,体现了实事求是的科学精神。
4
“AlphaGo能赢李世乭,但赢不了我”
当年李世乭在第一局输给AlphaGo之后,柯洁在微博上发出豪言壮语“AlphaGo能赢李世乭,但赢不了我”,一时引发关注热潮。
而在李世乭与AlphaGo的系列赛结束之后,李世乭则说,如果让他再与AlphaGo下五局,他至少能多赢一局。
柯洁
当时大部分人受AlphaGo排山倒海的气势震慑,认为柯洁与李世乭的自我评价过度自信。
但如果用前文提到的棋力量化标准去分析,两位顶尖棋士未必是在说大话。
柯洁发微博时,他的等级分在3630分上下波动,与DeepMind对AlphaGo3739的评分相差约109分。
用Elo公式推算,柯洁对AlphaGo下一盘棋胜率约为35%。假设五盘棋的胜负是独立事件,那么柯洁赢下与第二代AlphaGo的概率是23.5%。
作为对比,首届新奥杯决赛,柯洁对阵彭立尧。
彭立尧在0-2落后之后,将比分扳成2-2平,并在第五局将柯洁逼到悬崖边上,几乎实现惊天逆转。
彭立尧当时的等级分比柯洁低150分,甚至比柯洁与第二代AlphaGo的差距更大!
因此,如果柯洁能够与第二代AlphaGo对战一次五番棋,那么柯洁获胜并非小概率事件。
可惜,柯洁的豪言终究只能是空想
如果说对战第二代AlphaGo,柯洁尚有两成胜率,那么柯洁在2017年真实面对第三代AlphaGo,也就是AlphaGoMaster之时,则是十死无生。
AlphaGoMaster的等级分是4858分,按照公式计算,柯洁的胜率是1/1176,胜利是小概率中的小概率。
需要注意的是,低于千分之一的胜率并非没有意义。
《体坛周报》报道,中国棋手陈耀烨曾在2017年中至2018年末间与国产AI“绝艺”奋战累计2139局。
起初陈耀烨即使执白,胜率也在50手就大跌,但在长期练习后能做到前50手完全不落下风,80手开始才慢慢落后,100手之后才被拉开距离。
陈耀烨在2139局的对战中甚至还赢下了两局。
2/2139的胜率与柯洁对AlphaGoMaster的1/1176理论胜率接近。
DeepMind的CEO哈萨比斯曾表示,绝艺是基于AlphaGo的算法原理开发的,并且绝艺也训练了足够长的时间,所以两者的实力应当差距不大。
2/2139与1/1176这两个非常接近的数字,能够佐证哈萨比斯的判断。
5
让子棋
第三代AlphaGoMaster对于人类来说已是不可逾越的高山,而DeepMind团队尚且不满足,进一步开发了第四代AlphaGoZero。
而AlphaGoZero甚至比AlphaGoMaster更胜一筹,自评等级分达到5185分。可谓巅峰之上更有重楼。
虽然像陈耀烨这样勤勉的棋手仍在坚持平等地挑战强大的人工智能,但在更多的场合下,人类职业棋手放下了骄傲,选择受让子与人工智能对局。
让子是平衡上手与下手差距的一种围棋规则。
以人类棋士常与人工智能下的让二子棋为例,人类棋士执黑棋,棋局开始之前在棋盘上预置两枚黑子,然后轮到白棋先下。
这相当于黑棋开局额外走一步棋。
Figure5让二子棋
让二子对于业余爱好者来说不算多,即使实力相当的爱好者之间,下让二子棋也能互有胜负。
但对于职业棋手来说,受让二子是极大的优势。
即使顶尖职业棋手对战职业棋手中实力较弱的,让二子也很难获胜。
可以想象,像柯洁这样骄傲的天才棋手,在发觉自己要被让二子才能与人工智能抗衡之时,他的内心是何等挣扎。
在职业棋手常用的野狐对弈平台上,人工智能“绝艺”的马甲“绝艺指导A”每天接受职业棋手的挑战,规则是绝艺执白让二子,黑方贴3又1/4子。
近期,绝艺能够赢下大约95%的对局。
Figure6绝艺指导A
不过,绝艺指导A下的是超快棋,规则对人类棋手稍稍不利。
如果拥有更多思考时间,人类棋手会表现得更好。
李世乭的退役纪念赛,对抗韩国本土AI“韩豆”,其中第一、三局李世乭受让二子(黑贴3又1/4子),第二局分先(平等对局)。
李世乭第一局受让二子以一记手筋漂亮地擒住韩豆的大龙,仅92手就令韩豆认输。
李世乭(黑)-韩豆(白)第一局
第二局分先落败后,李世乭在第三局再次弈出妙手,觅得一锤定音的机会。
可惜随后的一着棋稍缓,被韩豆拉长战线之后,逐渐逆转局面,最终韩豆获胜。
李世乭与韩豆的两盘让二子棋打成一比一平,从进程来看双方也是互有机会。
说明让二子(黑贴3又1/4子)是当下一流棋手与准一流AI之间的合理差距。
如果是最强人类棋手对上最强AI,那么差距会进一步增加至约让二子(不贴目)。
6
结语
1997年,国际象棋世界冠军卡斯帕罗夫惜败于超级计算机“深蓝”。
今天,国际象棋顶级棋手要受让人工智能一个兵才能勉强逼和之。
而AlphaGo问世之后仅一年多,围棋手们也不得不面对受让人工智能二子方可勉强与之抗衡的现实。
其中最大的区别是,国际象棋AI可以运行在智能手机上,而围棋AI尚需运行在带有高配置显卡的电脑上。
沧桑巨变,如今职业棋士们已经习惯把AI当作老师,向人工智能学习判断和着法。
不过,即使与AI之间的差距已经拉开,棋界仍然不乏李世乭、柯洁、陈耀烨这样的勇士,坚持不懈地挑战AI。
挑战人工智能并不只是为了寻求那不足千分之一的渺茫胜率,更重要的是为了追寻职业棋士共有的人生信条——超越自我。
未来智能实验室的主要工作包括:建立AI智能系统智商评测体系,开展世界人工智能智商评测;开展互联网(城市)云脑研究计划,构建互联网(城市)云脑技术和企业图谱,为提升企业,行业与城市的智能水平服务。
如果您对实验室的研究感兴趣,欢迎加入未来智能实验室线上平台。扫描以下二维码或点击本文左下角“阅读原文”
如果围棋已被人工智能完全破解 那它的意义在哪
最后,针对“AI已经比人类强那人类下棋还有什么意义”这种问题,我想请大家想想:在已经有那么多高水平职业比赛的情况下,晚报杯、黄河杯这种业余比赛有什么意义?更低级别的业余比赛又有什么意义?的确,人类棋手已经不能代表围棋本身的最高水平了,但这真的意味着人类比赛就没有意义了么?在有NBA存在的情况下,CBA又有什么意义呢?
知乎作者:winter
其实这个问题挺有意思,虽然提问者的语气有点那个啥,但是被计算机穷尽的棋类现在确实都很尴尬。举两个例子:
黑白棋虽然现在还没有被穷尽所有分支,但是在80年代被开复老师研发的AI打赢世界级选手,之后30年里AI越来越强势,到现在个人计算机已经可以做到算出绝大多数drawline,导致整个圈子里背谱效果好于提高棋力,为了限制背谱,现在世界级选手聚集的网站playok已经开始引入随机开局模式。
五子棋(连珠)则更加悲惨,因为突然死亡机制,不太需要引入深度神经网这样的估值,只需要靠一般的蒙特卡罗剪枝甚至alpha-beta剪枝就可以得出必胜方案,甚至一些高段选手可以人肉计算穷尽winline(日本新井华石九段曾著《连珠必胜法》),所以导致规则一改再改,从无禁手的五子棋,到三三禁、四四禁、三手交换五手两打的连珠棋,这个规则真的早已经脱离大众娱乐能理解的范围了。
所以说到底围棋现在的阶段还不算太糟,只是贴目不太改变玩法本质,要真进入改规则阶段那才是真的尴尬,而且围棋变化多,就算背谱也不至于很夸张,短期内反而可能会利用计算机发现很多新套路,不必太担心。
知乎作者:Quan
我小学学过三年围棋,拿了业3,后来进步逐渐缓慢,直接去考业5失败,和父母综合考虑下决定放弃继续在围棋上投入大量时间,好好读书考试去了,现在在做算法、统计建模相关工作,偶尔在网上下下棋,也去参加过线下湾区围棋比赛,算是和围棋和AI都走得比较近吧,分享下自己的观点。
首先围棋并没有被“完全破解”。即使现在人赢不了AI了,但不代表当前最强的AI的每一步全是“正解”。阿尔法狗横空出世,后面还有更强的阿尔法零。只要人对围棋AI的能力提升还有足够大的兴趣,通过改变算法、加强算力和时间总能发明出更强的“狗”。
其次,有了阿尔法狗甚至真正无敌狗,围棋学习也很有意义。
从下棋本身来说,人们可以通过和AI对弈得到新的思路。下围棋可以分为三个阶段:布局、中盘和官子阶段。布局和中盘阶段因为棋盘山留有大量的可落子之处,人是很难真的算清楚的,很多时候都是凭借着经验性的“大局观”来判断。自从狗横空出世后,人们发现很多时候自己的思维定式形成的大局观并不是最优甚至相对较优的,从而和大量自我博弈、经验丰富的狗师傅学到了新的落子套路。
从普通人学习围棋来说,一个人能在学围棋的过程中学会如何长时间专注于一件事(在即时满足的当下尤其重要),理性思考,不骄不躁,懂得权衡轻重,有大局观意识,从而让学习、生活和工作受益。这和有狗无狗没什么关系。
最后,从职业围棋手角度来说,围棋手的终极目标就是追求人类智力巅峰。有狗做老师,能大大加快围棋发展速度,现在的职业九段必然吊打10年20年前的职业九段,未来的九段也一样吊打现在的九段。就像国际象棋并没有因为卡斯帕罗夫输给了“深蓝”而被弃,围棋作为人类智慧的结晶也必将一直流传下去。
最最后说个小插曲,我之前所在的Google总部MTV2000这幢楼的四楼microkitchen的靠窗一侧,一直摆着几幅围棋盘和棋子,每周三下午五点都有好些人相约来切磋棋艺。其他还有几个Office也有类似的“围棋室”。看,连狗的发明者都没有觉得围棋没有意义呢。
知乎作者:康老
我完全赞同第一高赞的回答。既然有好答案,我就不重复别人说过的了,再补充几点个人看法吧。
第一,人工智能完全破解围棋,还很远很远很远很远。人工智能目前的成果是:把人类通过代代高手靠纯脑力运算、上千年经验累积的对围棋的认识极大地提高了。如按照阿尔法狗研发人员所言,起码是提高了四个子以上。
在乌镇围棋大会上,阿尔法狗研发工程师说,与柯洁对阵的master,比之2016年3月对阵李世石的阿尔法狗,在版本内侧中,可以让到四个。
恐怖吧,还有更恐怖的,与柯洁对阵的master版本,还远不是更高版本阿尔法元的对手。据此推测,阿尔法元至少能让人类高手五个子。这是不可能想象的,太难以置信了。要知道,在80年代,日本围棋最辉煌的时代,超一流高手们推测,围棋上帝不过让当时最强的赵治勋两个子。上帝笑而不语:孤陋无知的人类啊。
现在看起来,当时人类高手对围棋上帝的推测,简直是田间老汉推想皇帝在金銮殿里的生活。当时只有一个人清醒,就是藤泽秀行:棋道一百,我只知七。
作为一个棋迷,我非常想看到阿尔法元让五个子对人类高手的对局,到底阿尔法狗能使出什么样的神招妙手,让人类高手五个子。但是,估计人类不愿应战。太栽面了。阿尔法元也早已退出江湖,把应用转移到了医疗和距离人类日常生活更近的领域。不过只要有人赞助,重赏之下,必能达成。可惜,应昌期老爷子仙逝多年(连应明皓先生都离去两年了吧),否则凭他对围棋的无限热爱和雄厚财力,没准能促成这件事。
第二,围棋是一件特别好的脑力游戏,可以作为普通人伴随终身的爱好。当然,职业棋手太难了,这条路不是给普通人走的。无论围棋是否被破解,和棋友们对上几局,摆摆棋谱,看看棋谱,甚至摩挲一下珍藏的棋盘棋子,都是一种无比快乐。
从这个逻辑看:我下得不好,但是我喜欢下棋,由此推导出:人类下得不好,但是人类喜欢下棋。不一样成立嘛。
射雕英雄传里,周伯通在桃花岛上对郭靖说:这个世界上什么最好玩?武功是最好玩,钻研一辈子没有止境。我在桃花岛上被黄老邪关了十五年,钻研武功,也没觉得有多久。如果周伯通知道后来人类发明了一种叫做枪的东东,可以轻松击倒任何人,他还会觉得武功好玩嘛?还会的。
就像在《精武英雄》里,船越文夫对陈真说:年轻人,练武的目的不是击倒对方,击倒别人最好的方法是用手枪,练武是为了提升人的体能并将之推至极限。
幸好船越文夫没有来一句:年轻人不讲武德。
我说:年轻人,下赢高手最好的方法就是用手机。
出现了枪炮后,人类依然喜欢练武。这和人工智能在围棋上打败人类后,人类依然喜欢下棋,岂不是一样的。
另外,现在看,人类可能是不太适合下围棋的。因为围棋的运算量超大,以人脑的运算量,对于围棋理解还是很吃力的。只不过,电脑出现后,人类一直未能发明出合适的硬件(早期电脑性能不够)软件(找不到适应围棋的算法)对围棋进行计算,导致人类在围棋上一度空前自信,以为自己很会下围棋,甚至出现了宇宙苍生之中,只有人类才会下围棋的错觉。在1997年深蓝打败卡斯帕罗夫后,聂老还说,电脑打败人类还要100年。实际上,这个时间不到二十年。人类的脑力虽然面对围棋很渺小,但是人类就喜欢下,不行吗。
人类与人工智能相生相克的关系一直都是社会学的热点话题,引申到围棋领域也依然能激起万千波浪,但我们不必过分忧虑,围棋作为一项智力竞技项目,其核心依旧是“人”,只要人们能够享受这项竞技运动,它就永远有存在的意义。
ZMGOsince2010返回搜狐,查看更多