博舍

围棋AI下棋机器人在沪发布 围棋人工智能下载

围棋AI下棋机器人在沪发布

新华网上海6月14日电人工智能软件公司商汤科技14日在上海推出专为学习围棋的青少年而设计的“元萝卜SenseRobot”AI下棋机器人围棋版。这也是继2022年中国象棋版发布后该公司推出的又一款AI下棋机器人。

中国围棋协会主席林建超在当日的发布会上表示:“人类世界的围棋运动,现在已经进入到了以互联网、大数据、智能化为特征的时代。”

据介绍,作为一台在家庭书桌上就能摆放的实体机器人,“元萝卜SenseRobot”融合了商汤领先的AI和机械臂技术,延续了备受少年儿童欢迎的小小“宇航员”形象,可在真实棋盘上实现围棋练习和对弈,不仅内置大量专业的AI习题,还拥有丰富的人机对弈及线上人人对弈功能,可覆盖从启蒙到业余5段的各阶段学员。

“从超大的数据中心到小巧的家用机器人,‘元萝卜’的背后源于算力的巨大进步、极高的手眼协同精度和强大的工程创新成果,完成了从极大到极小的巨变,从而把AI带进千家万户。”商汤科技董事长兼CEO徐立在致辞中说,“我们希望以‘元萝卜’重新定义未来的家用机器人,不仅为家庭带来全新的生活体验,也为围棋国粹注入新的生机,推动传统文化的多元化发展。”

中国围棋协会副主席、棋圣聂卫平结合自身的实际使用体验,表达了对该款机器人的赞赏。他说:“围棋是一项博大精深的智力运动,具有悠久的历史和独特的文化内涵,而现代科技的发展给围棋带来了前所未有的挑战和机遇。我很开心能有商汤这样的顶尖科技公司,可以全身心投入到围棋机器人产品的制造中。相信该款机器人的出现能够有力促进和推动围棋文化的传承和发展,让每个人都能切实感受到围棋的魅力。”

围棋,与人工智能同行

核心阅读

从2016年的“人机大战”至今,人工智能对围棋界的影响可谓史无前例。打破定式、研习布局、解读走势、辅助训练……人工智能在围棋领域参与度越来越高。选手棋力普遍提升,培训师资因势补强,办赛推广走上云端,观赛讲解更为直观……广泛应用新技术,围棋与人工智能携手弈出新局面。

9月1日,2020年中国男子围棋甲级联赛第一阶段结束。8轮比赛,没有一位棋手、一支队伍保持不败。格局不再强弱分明,比拼更富悬念,这背后是棋手实力的整体提升。“没有全胜是好现象,比赛非常激烈,水平也很接近。”“棋圣”聂卫平赛后如此点评。

这样的变化,与近几年围棋人工智能(AI)的助力不无关系。打破定式、研习布局、解读走势、辅助训练……随着人工智能在围棋领域的参与度越来越高,人脑与电脑不断教学相长。据业内人士介绍,比起人工智能融入围棋领域之前,职业棋手的实力普遍长进了不少。

人工智能广泛应用于辅助训练

围甲第七轮,分列中国、韩国围棋积分第一的两位棋手同时输棋。中国“七冠王”柯洁的正式比赛十五连胜戛然而止;韩国“00后”世界冠军申真谞的围甲五连胜也宣告终结。而就在几天前,这两位棋手在Goratings世界围棋等级分榜单上刚刚刷新纪录——申真谞达到史无前例的3800分,柯洁的3723分也创造了个人新高。

从2016年李世石与“阿尔法围棋”的人机大战开始,人工智能对围棋界的冲击可谓史无前例。电脑的精密计算、学习能力、布局招法,让人瞠目结舌。当今的围棋AI软件甚至能让两子与人类顶尖高手较量。“深深的无力感”一度弥漫在职业棋坛。

使用AI复盘做技术指导,研究不同的“解题思路”,早已成为职业棋手的必修课。中国围棋队与腾讯智能围棋“绝艺”续约到2022年,通过提供拆棋、胜率、吻合度、局面分析等辅助功能,专用训练AI承担了教练、陪练、棋友等多重角色。大赛前,棋手们也经常借助AI做针对性准备。

“90后”棋手是第一批通过“网棋”成长起来的,现在时间来到AI的新节点。训练资源的均等化,使得新、老棋手之间的差距逐渐缩小。初入职业棋坛的年轻人也不缺少和高手过招的机会,“00后”棋手的成长速度进一步加快。“现在每一盘棋都变得不好下,坐在棋盘前,大家掌握的东西都差不多,胜负就看临场发挥和调整了。”中国棋手陈耀烨说。

在棋手普遍从人工智能获益的趋势下,谁能汲取更多养分,谁更容易脱颖而出。柯洁在乌镇“人机大战”失利后,对围棋有了重新思考,全局观、判断力等核心能力又上了个台阶;申真谞作为韩国接受AI最快的棋手之一,一年与AI切磋上千局,改善布局短板后,战绩有了质的飞跃。

AI与职业围棋愈加密不可分,借助这个跳板,以往棋手的集体摆棋更多转向集体与AI拆招。“大家集体研究,有助于更快消化AI的思路,反过来也能帮助更多人接受新变化。”中国围棋队领队华学明说。

棋手对围棋的理解不断更新和拓展

人工智能,被围棋界视为从未有过的大变局。从最初的不服、震惊,到完败后的沮丧、迷茫,再到深入了解后的研究、请教,大多数棋手都经历了复杂的情感变化。柯洁曾感叹:“看AI下棋就像神仙打架,我们只能欣赏、学习。”

日本围棋大师藤泽秀行曾言,棋道一百,我只知七。当人工智能浪潮袭来,大家越发意识到这并非谦辞。以前的招法定式,在AI天马行空的思路下经常被推翻,棋手对围棋的理解不断更新和拓展,在棋盘上发现更多可能。“比如AI的很多招法是按全局来考虑的,在一个局部下没有固定的招,这是一种棋理上的提升。”中国棋手时越说。

从对手到朋友,职业棋手与AI找到更长久的相处模式。柯洁就经常通过AI分析自己的判断和理解,而AI的数据反馈,也帮助他有选择性地吸收、消化。“对AI甚至有点依赖的感觉,这是几年前不敢想的事情。”

以往多年,棋手们常常困扰于一盘棋究竟输赢在哪里,AI的精准分析可以帮助接近正确答案,让人少走很多弯路。与此同时,随着AI的神秘面纱被慢慢揭下,棋手们也愈加发现,围棋没有绝对的正解,电脑也不可能把所有变化都解析出来,最终比拼的依然是各人对棋的不同理解。

当AI攻向人类“最后一块智慧高地”的硝烟散尽,技术上的变革、理念上的冲击并没有折损围棋项目的魅力,反倒带来推广项目的契机。毕竟,人与人之间的博弈,双方情绪与心理的斗智斗勇,仍是现阶段AI满足不了的。换言之,人工智能不过是让我们用更智慧的方式来对待围棋。

新技术融入围棋运动各环节

在本赛季男子围甲开赛前,中国围棋协会举办了史上首次网络热身赛。AI练棋、“云端”练兵,传承千年的面对面“手谈”在科技的助力下,呈现着不同以往的面貌。

而AI改变的,不只是赛场内的职业高手。以前大赛讲棋,一些普通棋迷并不了解棋盘上的复杂计算,如今有了人工智能讲解和辅助观赛系统,就算“外行”也可以通过AI反馈的数据和判断,对局势和胜负一目了然,观赛变得更为直观。

在“阿尔法围棋”横空出世后很长一段时间,AI围棋软件只是大公司的科研项目。如今,AI已然是普通棋迷也能驾驭的工具。民间研发的各类对弈软件中,既有公开售卖的,也有不少开源软件,谁都能下载使用,甚至还有一部分“技术流”棋迷亲自上手改编软件。

曾困扰围棋培训行业的师资难题,也借助AI作为教学工具而得到一定缓解。这两年出现的“人工智能特色课程体系”,充分激发青少年学棋的兴趣,能在较短期内提升棋力。比赛、学习、培训、训练、研究、讲解……围棋的各个环节都出现了人工智能的影子,成为“激发人类潜能”的工具。

当然,人工智能的渗透也带来一些“副作用”。今年受疫情影响,大量围棋比赛转移到线上。随手可得的对弈软件、无法实时监管的对弈环境、难以清晰界定的AI支招,使得线上作弊的门槛越来越低。业内人士坦言,目前虽有一定的技术防火墙,但仍存在有死角和漏洞,有些“疑似作弊”无法及时抓到“实锤”。中国围棋协会透露,未来将在正式比赛中,通过信息阻断、空间监控、使用留痕、吻合度分析、失信惩戒来完善防AI作弊手段,净化赛场环境。

纵使人工智能是把“双刃剑”,但落下的棋子,终究掌握在人类自己手中。只要新技术“由人掌控并服务于人”,就没理由不去尝试学习和应用。与人工智能同行,博大精深的围棋世界并没有失色,反而打开了一方新局面,更有机会绽放灿烂光华。

《人民日报》(2020年09月07日15版)

(责编:牛镛、杨磊)

人工智能围棋发展史

​本文授权转载自公众号:奇略研究所(ID:qilue_institute)丨作者:云天外

围棋的变化数对于目前看起来强大无比的计算机资源,仍然是一个无穷一般的概念。

AlphaGo可以打败人类顶尖水准棋手,但是还远远达不到“最优解”的程度。

AlphaGo对于棋界无疑是一阵巨大的革新浪潮,现在总能在棋手聚会里看到非常精彩的新招拆解,也就是戏称为“狗招”的大局观极强的下法后续的定论探讨。

这篇文章为了帮助大家理解,做了很多比喻,希望大家能从这篇文字里开始理解AlphaGo和围棋人工智能的发展。

感受不寻常的“宁静”

很多朋友听说过国际象棋程序--深蓝。在1997年深蓝击败了国际象棋特级大师卡斯帕罗夫。

就在当时,围棋程序的水平仍然是k级,也就是不到业余初段。截止2015年,全世界6000多种完全信息博弈游戏中,只有围棋程序无法抗衡相关领域的职业选手。

等等,什么是完全信息博弈游戏!?

完全信息博弈游戏的定义:是指每一参与者都拥有所有其他参与者的特征、策略及得益函数等方面的准确信息的博弈。

围棋、象棋落下子来,手中不藏牌,盘上规则没有变数,胜负在于面对于人脑近乎于无穷的变化数量,做一个优化的策略、合理聚焦、深度速算。

对手隐藏的陷阱招数,全部隐含与已经落在盘上的棋子之间。

(成名多年的围棋高手也会常常被妙算无穷的好棋深深折服,围棋的魅力正源于此)

非完全信息博弈游戏,对比完全信息大家想必已经有大致了解了。桥牌,暗棋,各种带有战争迷雾的游戏。

围棋人工智能为什么来的这么晚

从1997年到2015年,近20年的时间里,各类硬件发生了质的飞跃,我们不再有人指望囤积BP机(寻呼机)还能赚钱,一部手机已经可以轻松运转类似无尽之剑这样精良的作品。

为什么过了这么久,人机对抗仍然需要调用非常夸张的计算资源?

围棋人工智能的难度主要体现在两方面:

搜索空间巨大:合法的围棋的变化(10^170)大于宇宙中原子数(10^80)。

局面判断难:多人发表论文,说明,不可能有一个很好的静态局面评估函数。局面评估函数。静态局面评估函数(可以简单类比中国象棋残局)动态局面评估函数(类比中国象棋残局往前推算)。

这两点暂且放在这里,之后细表。

我们把围棋人工智能的发展分为三个阶段:

第一阶段:以模式识别和人工启发式算法为主,水平低于业余初段。

第二阶段:以蒙特卡洛搜索树算法为代表,水平最高达到业余5段。

第三阶段:以机器学习算法为突破,战胜人类职业棋手。

第一代围棋人工智能:

第一个完整下完一盘棋的程序,是1968年,美国人AlbertL.Zobrist,作为他的博士论文完成的。

不过,接下来的20年里,围棋AI们即使是对上刚入门的初学者,也难求一胜。

1987年,应氏围棋基金会悬赏百万美元,寻求能够战胜职业棋手的围棋AI。这个悬赏分很多级,最低一级奖金,是十万新台币,相当于四千美元,奖励给第一个能够受让十六子战胜业余高手的程序。

1987年的百万美元啊!当时程序的水平,可想而知。

让十六个就是这样,黑棋关键的地方先摆上十六个,然后黑白一人一步比拼谁的领地大

一直到1990年,一位中国人,中山大学化学系教授陈志行,在退休以后,花了几个月的时间编写了名为“手谈”的程序。手谈问世以后几年内,实力快速增长。

1995年,手谈连续拿到了受让十四子和十二子战胜业余高手的奖金。

1997年,手谈再过业余高手的十子关。这三次突破共计为陈志行带来了六十万新台币的奖金。同时,在1995至1998年,手谈在两项计算机围棋世界赛中七连冠,在整个九十年代鹤立鸡群,独占鳌头。

这张照片与手谈软件,都是与我们这一代棋迷一起长大的回忆

手谈的秘密武器

前面讲到,围棋难,一难在搜索空间大,就是不知道往哪里下,二难在局面判断难,就是看不出是要赢还是要输。

陈教授为了解决这两个问题,祭出了一个秘密武器——“势力函数”。

请看这个图。

“势力”是围棋术语,说白了,就是一个棋子对周围空间的影响。

陈志行认为,这种影响是可以量化的。

比如,这图中有一颗黑子。

离黑子最近的四个点,用圈标出的,受到的影响力是4.稍微远点,用×标出的四个点,受到影响力是3.用方块标出的,受影响力是2。

三角形标出的,受影响力是1.更远的地方,就没有影响了。

当然,棋盘上有很多个子,位置不同。我们把所有棋子的影响力叠加起来,就可以得到,棋盘上的某一个空点,到底是黑棋的势力范围,还是白棋的势力范围。

这样一来,形式判断的问题就有了一个初步的解决方案。

对于这个图上的局面,我们看下面这个图。

当然,这个图不是手谈的形势判断,因为这个软件太旧了。不过直观上是相似的。

标字母的请忽略

比如我们有这么一个局面。棋盘中间标有字母的几个黑棋请大家忽略,这些棋不在棋盘上。那么手谈会怎么判断呢?看下面这图:

很直观的,更靠近白棋势力范围的,比如左上角,白色的方块几乎都涂满了,表示这是白棋的确定地。

而右下,黑方的确定地,也是一样。而处于两者之间的,比如棋盘左边中间,黑白势力范围的交界处,也可以看出很明显的过渡。

这就是一个不太坏的静态的局面评估函数。

所谓静态,就是给你一个局面,不用考虑这个局面会怎么发展,就能判断。

同样地,这个影响函数也能初步解决这棋该走哪的问题。

比如说,陈志行经常举的一个例子。

当年手谈的对手,其它程序们,面对一个棋型,总是懵逼。就是下面这个棋型:

小棋盘的例子

黑棋带圈的这两个子,构成一个棋型,叫做小飞。现在白棋走在1这个位置。对于下围棋的人来说,黑棋接下来的应法是常识。

这种走了被别人应对了自己就尴尬的叫做:臭棋

黑棋应该挡住。这样黑棋三个子连成一片,白1已经基本成为废子。

其它程序们不知道,但是手谈知道。

对于上面那个局面,手谈的势力函数就发威了:根据一个局部影响函数的分布,手谈不难识别出,这是一个黑棋小飞,白棋威胁要切断黑棋的棋型。

这就是一种所谓的模式识别。那么一旦遇到这种情况,我挡住就好了。

好,到了实战的时候,手谈遇到对手,都能挡住小飞。而对手遇到手谈,就是下面这种情况。

被白棋冲穿了局部很不好收场

黑方中间这两个子被白方切断。黑棋被撕裂,黑棋形势瞬间恶化。难怪手谈战无不胜。

但是。我必须说的是。这个势力函数,不是万能的。围棋有太多复杂的局部棋型,手谈对于识别更多的棋型无能为力。同时,基于势力函数的形势判断,也并不是很准确。这就限制了手谈的进一步提升。

陈教授的毕生目标是让手谈提升到受让陈教授自己九子能获胜的水平。

陈教授是业余高手,比刚才提到的,应氏基金会派出的测试手谈的棋手,水平还要高一些。

能够受让九子战胜陈教授,可以说基本上达到了业余初段的水平。让九子是这么摆的:

以前让新手好多次9子,也想起很久远的以前被让九个,被折腾的摸不着头脑

黑棋先摆九个,然后白棋落子和黑棋比拼领地大小。

可以看到黑棋优势还是很大。可是,直到陈教授在2008年去世,手谈也没能过陈教授的九子关。

实际上,在1997年后,围棋程序陷入了一段发展缓慢的时期。这就有了下面这个故事,“初段围棋赌局”。

1997年,与深蓝战胜卡斯帕罗夫同一年,工程师DarrenCook,向计算机围棋从业者,包括陈教授,和几位职业棋手,提出了一个问题:

什么时候才能有围棋程序达到业余初段水平?

大家的答案五花八门。有说三年以后的。陈教授说2020年。有个职业棋手说要到23世纪。

初段赌局

其中最劲爆的是,一位计算机科学家,名叫JohnTromp的回复:到2011年,不可能有围棋程序战胜我。

John是欧洲业余一级,比业余初段只低一个级别。而且,John为自己押了一千美金。

Darren欣然接受赌局。

那么这一千美金的赌局,最后结果如何呢?

我们要先讲完第二代人工智能。

第二代围棋人工智能

一个下棋程序,可以归结为一个问题:

也就是,在某一个局面下,轮到自己下棋,你要下在哪里。

围棋盘上,有许多选择,所以这个问题就归结为,这么多的选择,哪一个是最好的,或者说,比较好的。

极小化极大搜索算法 -Minimaxtreesearch

alpha–betapruning

井字棋示范

最简化的情况做一个讲解 :

假设我们对每个局面有一个评分,评分越高代表对自己越有利。相反的,如果评分低,代表对对方有利。

当轮到自己落子时,自己面临两种选择A1,A2。自己选择A1后,对方可以选择B11,B12。自己选择A2后,对方可以选择B21,B22。

评分:

B11:3

B12:5

B21:0

B22:10

Minimax选择A1。

乱入一张图,五彩斑斓,还有全局(global)感

围棋的选点很多,但是赋值却极为困难,而且随着局面变化会产生变化。

那静态和动态都是人为赋予分数来计算,实际执行的时候会有什么明显差异么?

静态评估,就是只看棋盘的当前状态。动态评估,还需看除当前状态外的其它状态。

比如用蒙特卡洛模拟大量棋局进行评估。(Monte-Carlomethods)

第一代围棋人工智能的局限:

局面评估相比国际象棋,围棋的局面评估非常难。

大家可能了解,国际象棋里面的后和车,威力很大。

如果一方多了一个后或者多了一个车,一般说来局面一定对那一方有利。

当然还要根据子力位置好坏进行一定调整,但是一般说来利用子力价值评估,已经能得到相当好的局面评估。

但是对于围棋,并不能这样套用。因为每一颗围棋棋子都是一样的,只是在棋盘上出现在不同位置,才出现了不同棋子之间的价值差别。

而这对于电脑来说,是非常难以判断的。

MCTS蒙特卡洛搜索树:

蒙特卡洛是摩纳哥公国的一座城市,位于欧洲地中海。蒙特卡洛是摩纳哥的历史中心,也是世界著名的赌城。

蒙特卡洛算法蒙特卡洛方法(英语:MonteCarlomethod),也称统计模拟方法,是二十世纪四十年代中期由于科学技术的发展和电子计算机的发明,而被提出的一种以概率统计理论为指导的一类非常重要的数值计算方法。

是指使用随机数(或更常见的伪随机数)来解决很多计算问题的方法。

蒙特卡洛

举例来说:假设我们要计算一个不规则图形的面积,那么图形的不规则程度和分析性计算(比如,积分)的复杂程度是成正比的。

蒙特卡洛方法基于这样的思想:假想你有一袋豆子,把豆子均匀地朝这个图形上撒,然后数这个图形之中有多少颗豆子,这个豆子的数目就是图形的面积。

当你的豆子越小,撒的越多的时候,结果就越精确。

借助计算机程序可以生成大量均匀分布坐标点,然后统计出图形内的点数,通过它们占总点数的比例和坐标点生成范围的面积就可以求出图形面积。

在赌场中有很多数学概率计算的项目。蒙特卡洛算法在处理有些问题时候相当有效,故因此得名。

蒙特卡洛搜索树算法是一个基于蒙特卡洛思想,解决围棋局面评估问题的算法。

简单的说,对计算机来说,围棋局面很难评估孰优孰劣,因为没有定型的地方很难判断属于哪一方。

但是,如果棋局已经下完了,那就可以数子,来判断谁赢了。那么,对于一个没下完的局面,就电脑模拟,把他下完。

每模拟一次,就得到一个最终的胜利结果。

假如对于一个未完成的局面,模拟10000局,其中黑方赢了5500局,白方赢了4500局。

就认为此局面下黑方稍优,认为黑方胜率55%。

这种算法好处在于:

1.充分利用了电脑的计算能力。模拟的局数越多,得到的结果也就越精确。

2.这种算法是天然支持并行计算的。因为不同的模拟之间没有逻辑的因果联系,可以放到不同的机器上跑,最后再综合结果。

这种算法也有其缺点:

1.招法只是根据统计结果来决定,有时会缺少前后逻辑关联。

2.打劫,尤其是连环劫。打劫有很强的前后关联。

3.平均值和最大值的差异。举例来说:(要先说minmaxsearch)

4.现在有A1,A2两种选择:A1下面的是(3,5),A2下面的是(0,10)。显然应该选A1。因为如果我选了A1,我的对手会选3。如果我选B,我的对手会选0。0比3要小,所以我会选A1,这样对我更有利。但是如果我用蒙特卡洛搜索树算法呢,我看了下A,有两个可能,平均值是4。看了一下B,有两种可能,平均值是5。这样看上去B更好。

5.不同的分支,搜索的深度应该并不一样。比如,思考A1招法时候,五步棋之后,明显发现不好,后面的就不需要看了。而A2招法,十步棋之后,也很难说好与不好,还需要继续往下计算。这时候如果平等的看待每个后续招法,是不合适的。

UCT上限置信区间算法In2006,anewsearchtechnique,upperconfidenceboundsappliedtotrees(UCT),UCT算法是一种特殊的蒙特卡洛搜索算法,它由树内选择策略、缺省仿真策略和仿真结果回传三部分组成。

1.时间可控,解决MCTS的第3个缺点,动态分配资源。好钢用在刀刃上。如果算出去几步,一看情况不妙,马上收手,去算其他节点。

2.UCT算法最后的作为搜索结果的节点以及次优节点一定是经过多次抽样的具有较高估值可信度的节点。

3在AlphaGo出现之前,最成功的围棋人工智能叫做Zen,中文叫做天顶围棋。

第三代人工智能

我们先揭晓一下之前提到的,“初段围棋赌局”的结局。在第二代人工智能兴起以后,围棋AI进步迅猛。

2008年,采用蒙特卡洛树搜索的MoGo受让九子战胜金明完九段。

次年,MoGo受让六子战胜简立辰初段。业余初段似乎已经不是AI们的对手,不过,John也不是坐以待毙。

在过去的十几年里,John已经从业余1级进步到了业余2段。赌局最后期限临近,悬念竟然不跌反增。2010年末,JohnTromp与当时的一流程序多面围棋大战四局。

结果令人意外,John以4比0横扫多面围棋。并且,从进程来看,多面围棋毫无还手之力,可以说是惨不忍睹啊。John就此赢得一千美元的赌金。

不过Darren不服。明明程序们早就超出了业余初段的水平,只不过是你John也进步了。

可是你一个人的进步,能有程序们的进步快?两年以后我们再比一场,这次不求你赌,只求你出战。

2012年中,John再次站在了pk台上。这一次他的对手是Zen。

Zen当时已经在西方围棋圈内小有名气。在KGS上,每天都有业余高手排着队挑战Zen。我记得当年我也和Zen下了十几局。

印象中,快棋输得多。慢棋大致相当。当时我就觉得John一点机会都没有啊。结果,John居然赢下了第一局。

不过,Zen没有再给John机会,连胜三局,从而赢得了这个系列赛。“初段赌局”就此告一段落。

同年,Zen在日本举行的电王战,也就是计算机围棋的大赛中,夺冠。

随后Zen与武宫正树对抗。武宫正树九段,日本前超一流棋手,以“宇宙流”,也就是重视外势的风格,受到棋友的喜爱。

结果Zen连破武宫正树的五子关、四子关,也就是分别受让五子和四子战胜武宫正树。这标志着围棋AI达到了业余高手的水平。

不过,回看当年视频,可以看出武宫对局心态相当放松,明显是用下指导棋的态度。棋局内容中武宫试探较多,有时也并未祭出最强下法。所以这个让四子,需要打一个小小的折扣。

就在圈内一片乐观之时,围棋AI的发展却又陷入了停滞。2012-2015年,围棋AI进展缓慢。

2015年末,在北京三里屯,世界围棋人工智能大会,程序石子旋风力挫Zen夺冠。

在随后的人机对抗中,中国的连笑七段——连笑,处于当打之年的一流棋手。连笑让石子旋风四子和五子局皆胜,让六子局才败于石子旋风。

在棋局中,石子旋风再次暴露出第二代围棋AI行棋缺乏逻辑性的问题,特别是一个连环劫,被连笑耍得团团转。

赛后,国家队总教练俞斌说,围棋AI战胜职业棋手,恐怕还需要一百年。即使是参赛程序开发者们的“乐观估计”,也认为这需要15-20年。

当时没人想到,有一个程序正在飞速成长,并已经战胜了一位职业棋手。

这个程序,现在大家都知道了,就是AlphaGo。

AlphaGo

那我们接下来介绍AlphaGo。

大家或多或少可能知道,阿法狗采用了一项核心技术,DCNN,也就是深度卷积神经网络。

我们今天不展开讲神经网络。不过,为了方便理解,我还是给出一个神经网络的直观理解。

人工神经网络,模拟的是人脑中的神经网络。

成年人的大脑里有一千亿个神经元,而这一千亿神经元构成的网络能够实现无数不可思议的功能。一个普通的人工神经网络,通常能够实现人脑功能的很小一部分。

我们可以把它看成一个黑箱,比如下面这个图。

具体到AlphaGo采用的神经网络,我们可以把它看成一个只会下棋的大脑。

一个只会下棋的大脑是什么样的呢?我们可以用人类棋手下棋时的思维方式类比。请看这个图。

我们下棋的时候,面对一个局面,就好像给大脑输入了信息。

接下来,大脑处理这个信息,得到两个输出:

一是候选招法。这个局面,根据我十几年下棋的经验,大概有ABCD这么四种走法。

二是形势判断。这A招法,我获利10目。B招法,获利3目。C脱离战场,D方向错误。注意,这里的判断既有定量的,也有定性的。这是人类棋手判断的特点。最后我确定,选择招法A,并且默默再做一次判断,确定自己有优势。

其实AlphaGo和人类的思维方式十分接近。AlphaGo的神经网络主要分为策略网络和价值网络。

策略网络其实就是模仿人类给出候选招法的过程,而价值网络就是模拟人类形式判断的过程。

策略网络的始祖,是监督学习策略网络,也就是SupervisedLearningPolicyNetwork。

我们用一个棋手来做比喻,藤泽秀行。藤泽秀行,已故的日本名誉棋圣。在座的部分棋迷也很熟悉,秀行在日本以私生活混乱和酗酒著称。

当然,我的重点是,藤泽秀行当年号称“前五十手天下第一”,说的是藤泽秀行布局功夫了得,选点有独到之处。这和监督学习策略网络很像。

监督学习策略网络,是从人类业余高手的棋谱中挑选出三千万个局面学习得到的。

学习的结果是,这个网络在大部分时候能够像人类的业余高手一样选点,总体有业余3段的水平,就好像一个超低配版的藤泽秀行。

这个低配版的藤泽,另一个特点就是“慢”。

藤泽秀行下棋也慢,他曾经有一手棋长考三小时,然后怒屠对手大龙的经历。

而低配版的藤泽秀行呢,一秒钟只能下三百步。你可能会问,一秒钟三百步还算慢?别急。跟接下来这位比,这个藤泽还真算慢的。

快速走子

英文FastRollout. 我们也拿一位棋手打比方,罗洗河。

罗洗河,中国职业九段,绰号神猪。当年罗洗河曾串烧五位韩国顶级棋手,并在决赛战胜石佛李昌镐,夺冠的同时,也终结了李昌镐的霸业。

罗九段以幼年测智商160闻名棋界,下棋时落子飞快,经常只用对手的一半时间。

而我们的快速走子网络,比神猪罗洗河更快。快速走子,一秒能走五十万步,简直就要上天。不过,快,就要牺牲下棋的质量。

当年我学棋的时候,有一段时间也下得飞快。我的老师就斥责我,“你这下得是围棋吗?你这简直就是摆石子!”快速走子,实力也和摆石子状态的我差不多,业余2段水平。

但是这个水平也不简单啊。第二代围棋AI为什么遇到瓶颈?

很大程度上就是因为在蒙特卡洛搜索树的模拟中缺少一个能把色子投得又快又好的人。现在我们有罗洗河。它比策略网络快一千倍,实力却差不了太多,恰好是负责模拟的最佳人选。

另一方面,罗洗河天赋异禀。这个快速走子不是从完整的棋谱里训练出来的,而是把所有局部的棋型都列举出来。

所有的局部棋型,12格的小方块里面,几万个棋型,大家算算3^12是多少,全部输入到罗洗河的脑子里,然后让他自己琢磨去。

这个琢磨的方法不是深度学习,而是线性回归。不过,还是管用的。我们训练快速走子,“罗洗河”的口号就是,不求最好,只求管用!

强化学习策略网络

接下来是一位重量级人物,聂卫平。

擂台赛英雄,不必多介绍了。这里值得一提的是,藤泽秀行当年为了帮助中国围棋发展,曾多次自费组团前往中国指导年轻棋手。

老一辈的中国棋手,包括聂卫平在内,都把藤泽看作自己的老师。

同样,强化学习策略网络,低配版的聂卫平,也是低配版藤泽,监督学习策略网络的学生。

低配版聂卫平,从低配版藤泽的招法开始,在自我对弈的过程中不断更新迭代,稳定以后变得比老师更强大,达到业余4段。

这个低配版“聂卫平”的主要职责,就是鞭策后生,训练价值网络。想当年,2002年围甲联赛,50岁的聂卫平和一位13岁少年对战。聂卫平宝刀不老,战胜少年。复盘时,老聂在棋盘上指点江山,轻松写意。

不料,少年不服,反复强调如果我这么这么下就赢了。老聂不悦,拂袖而去,留下一句“你丫牛逼”。这位日后成为世界冠军的少年,就是陈耀烨。

价值网络

陈耀烨以形势判断准确而著称。我们看围棋TV的直播,那么多顶尖职业做过主播,唯有陈耀烨判断最准,好像一台形势判断机器。

而我们的价值网络,也是一台形势判断机器,一个低配版的陈耀烨。

价值网络从强化学习策略网络的棋局样本中汲取营养,将自己训练到能够,看到一个局面,就立即给出当前局面黑方的胜率。

这个判断有多准确呢?如果我们让价值网络单独上场,那么它能够达到业余3段的水平,相当不俗。

现在我们有一个“四人团队”了。“藤泽秀行”、“罗洗河”、“聂卫平”、“陈耀烨”,虽然都是低配版的。

其实还有第五位,和“罗洗河”很像,就不展开讲了。

那么这些只有业余水平的神经网络,是怎么变成战无不胜的AlphaGo的呢?关键回到之前介绍的,蒙特卡洛搜索树。

在AlphaGo这里,蒙特卡洛搜索树中的基本步骤,大致是上面这个图。

第一步,选择。我们通过策略网络,就是图中的P,给出几个候选招法,这是第一层子节点。

第二步,扩展。我们扩展第一层子节点,通过策略网络再下一招,给出第二层子节点。注意,这一步在刚开始模拟的时候是没有的。只有当第一层的子节点经过的次数超过40次的时候,才扩展这个子节点。

第三步,评估。对于每一个子节点,我们分别用两种方式评估。一种是用价值网络,v_theta,直接做形势判断。第二种是用快速走子,p_pi,将棋局走到底,胜则记为1,败则记为0,这就是图中的r函数。

最后一步,我们再把这两个结果返回第一层子节点,更新行动函数Q。重复N次以后,我们以行动函数Q,和另一个关于策略网络的函数u(P),这二者为依据,最终决定选择哪一招。

上面那段可能有些朋友听了有点晕,我们再结合一个具体的局面解释。

这个图的棋盘部分是从AlphaGo的论文里摘下来的。

拿到这样一个局面,我们先请出“陈耀烨”。你先看一眼这个棋大概谁好啊?

请看图a,“陈耀烨”说,哦这个棋,如果黑走这里,胜率50,走那里,胜率51,最好是走右下这个画圈的地方,胜率54。

我说哦好谢谢,你可以走了。这里只是请“陈耀烨”看看而已,并不作为主要决策依据。

接下来我们请出“藤泽秀行”,以您老人家的布局眼光,这棋走哪里好呀?

请看d图。“藤泽”说,以我五十年喝酒的经验,不,下棋的经验,这棋我多半会走下边中间这个扳。还有三分之一机会走右下角的冲。其它棋,我基本上不会选。

好嘞,谢谢您。劳烦您,您说的这两步,再帮我们分别往下摆一手。藤泽老师就帮我们分别摆了一手。

接下来,我们再把“陈耀烨”请回来。再劳驾你看看藤泽推荐的这几招,到底好不好啊,你给判断判断?

我们也把罗洗河请来。劳驾他用一秒钟五十万步的神功,模拟一下,谁赢谁输?哎,不是让他俩随机选变化。你们一开始要听长辈,藤泽老师的,重点模拟他那两手。过段时间,你们有信心了,再多考虑你们自己的想法,明白了吗?

UCT.十几秒以后,陈耀烨给出了一个综合报告,就是图b,仍然坚持右下角的冲最好。罗洗河呢,报告说左下角的扳最好。这俩人的评价有分歧,听谁的呢?综合起来,我们取模拟次数最多的那一手。这就是图e,发现是右下角的冲模拟次数最多,79%,下边的扳次之,20%。我们最后选择右下角的冲。

那图f是什么意思呢?图f,就是在由整个团队共同决定的模拟中,重复次数最多的那个分支,或者说变化。如果是两个阿法狗在对局,那么他们接下来就有比较大的可能按照图f进行下去。

这里有一点,“聂卫平”老师,也就是强化学习策略网络,没有出现。明明他比老师,藤泽秀行强呀,怎么不让他决策呢?

AlphaGo的团队也曾经让聂卫平代替藤泽秀行做决策,结果单打独斗更强的“聂卫平”,在团队里的效果却不如“藤泽秀行”。为什么呢?这就有点玄学了,官方的解释是“聂卫平”给出的选择随机性太小。

聂老布局水平高嘛,有很多棋在他眼里都不是围棋,只有他这一步才是对的。

随机性小就阻碍了搜索的广度,这很不好,一不小心就漏看了一步棋。不过,说不定是聂卫平和团队里的其它成员八字不合吧,比如陈耀烨。

不过,这个低配版“聂卫平”,并非没有价值。毕竟,他鞭策了后生,亲手训练了“陈耀烨”嘛。

这样的一个团队,通过蒙特卡洛搜索树结合到一起。

三个臭皮匠赛过诸葛亮,战胜了职业二段樊麾,又在2016年3月,以4比1战胜传奇棋手李世乭。领头羊的突破总是会带动后来者。

历史长河中,每个时代总会出现一位思维层次高过同时期其他所有人的棋界霸主,从黄龙士、道策、吴清源到李昌镐、柯洁。

每个时代的大师都以前所未见的形式冲击了旧的思维禁锢,打开了新的天地。

不知道多少人曾经想象过这样一件事,如果计算机帮忙穷尽计算,我们来做决策,岂不美哉,AlphaGo的出现确实整体的拔高了棋界对围棋的理解。

*文章经作者授权发布,不代表PingWest品玩立场,如需转载请联系原作者。 

下载品玩App,比99.9%的人更先知道关于「人工智能」的新故事

下载品玩App

比99.9%的人更先知道关于「人工智能」的新故事

iOS版本Android版本立即下载11点赞颛顼第三方认证作者

这家伙很懒,什么也没留下,却只想留下你!

商汤科技推出AI围棋机器人,人工智能企业的未来在C端

0分享至本文来源:时代周报作者:齐鑫

继发布象棋机器人后,商汤科技(00020.HK)又发布了围棋机器人。

日前,商汤科技召开新品发布会,推出了“元萝卜SenseRobot”AI下棋机器人围棋版(下称“‘元萝卜’围棋版”)。据了解,该产品融合了商汤科技领先的AI和机械臂技术,可在真实棋盘上实现围棋练习和对弈,分为大师版和专业版,专业版零售价3999元、预售价3799元,大师版零售价4999元。

消费级人工智能产品的发布,让更多C端用户体验到了人工智能技术的力量。“从超大的数据中心到小巧的家用机器人,‘元萝卜’的背后源于算力的巨大进步、极高的手眼协同精度和强大的工程创新成果,完成了从极大到极小的巨变,从而把AI带进千家万户。”发布会上,商汤科技董事长兼CEO徐立表示。

(图源:商汤科技供图)

然而该产品的发布似乎并未受到投资者的认可,6月14日发布当日,商汤科技股价较前一交易日下跌3%。在某投资者交流平台,时代周报记者注意到,有投资者对该产品的功能、用户需求等存在质疑。

也有投资者认为棋类是商汤科技在C端领域的尝试。事实上自从去年商汤科技发布“元萝卜SenseRobot”AI下棋机器人象棋版(下称“‘元萝卜’象棋版”)后,市场上就曾出现商汤科技转向C端的声音。

“ToC可以成为AI企业的主要商业模式之一,但并不是所有AI企业都适合这种商业模式。”6月15日,盘古智库高级研究员江瀚告诉时代周报记者,ToC需要考虑用户需求、竞争压力、商业模式等多个因素,企业需要针对自身情况做出合适的商业决策。

“元萝卜”围棋版诞生

瞄准棋类领域,在推出“元萝卜”象棋版不到一年后,商汤科技又推出了“元萝卜”围棋版。

据了解,此次商汤科技与棋院权威合作,为“元萝卜”围棋版设计了科学的AI习题精练功能,首发7个级别、超过2000道精选专项习题,能够覆盖从业余到职业段位20个等级的19路人机对弈,并为初学者设置了9路和13路棋力闯关,还有超越人类专业水平的巅峰对决。同时,用户还可以通过专属APP及时进行复盘分析。

此外,“元萝卜”还加入了“星球联盟”功能,接入了99围棋、新博、弈客等知名在线围棋平台,使用户可以和百万真人棋手线上切磋。

相比“元萝卜”象棋版,“元萝卜”围棋版在技术层面难度更高。

商汤科技创新工程院院长沈徽介绍,“元萝卜”的机械臂能够在50平米见方的空间里达到低于1毫米取子的定位精度。这一目标的实现基于“元萝卜”使用了非常昂贵、精密的元器件,同时商汤科技采用了先进的AI视觉技术,结合原创的机械臂设计,对物体进行精准定位以及校准,引导机械臂达到准确的位置。在这个过程中算法会不断地进行持续的定位、纠偏,达成手眼协同、手到眼到的效果,不仅能够达到很好的精度,而且大幅度降低成本。

沈徽称,与象棋相比,围棋的复杂程度更高,这也对“元萝卜”的算法、算力提出了更高要求。尽管AlphaGo已经用AI的办法解决了这一问题,但并没有普及到千家万户,把一个很大算力要求的游戏塞到一个很小实体里面去,而围棋版“元萝卜”解决了这一问题。

“在我们机器人里面,其实用到了多种不同AI技术和模型,很大程度上得到了大模型、商汤大装置的助力。”沈徽表示。

在活动现场,时代周报记者体验与围棋版“元萝卜”对弈。在处理棋局时,“元萝卜”能快速做出回应,其机械臂也能够轻松完成取子、落子等动作。

(图源:时代周报记者摄)

“人类世界的围棋运动,现在已经进入到了以互联网、大数据、智能化为特征的时代。”中国围棋协会主席林建超认为,围棋版“元萝卜”的推出,有助于围棋智能化走进家庭。

C端好走吗?

去年,商汤科技推出的“元萝卜”象棋版受到了业界关注。沈徽透露,彼时公司内部也在同步孵化其他品类的机器人。

“从我们的产品规划和整个技术路线的迭代来说,我们一定会在棋类机器人的品类上不断拓展的同时,走出棋类机器人,进入到家庭里面和更多的场景里去。”沈徽称,从家庭机器人的角度,家庭的服务、娱乐、教育、陪伴等需求非常多,可以去做用于千家万户的智能机器人产品的机会也非常多。

从商汤科技接二连三的动作不难看出,C端是其希望深入发展的方向。“这意味着商汤正在积极探索AI技术的用途,希望将其推进到普通消费者的生活中,摆脱单纯依靠B端市场的发展模式。”6月15日,钉科技创始人丁少将告诉时代周报记者。

据商汤科技发布的年报,2022年公司智慧生活业务实现收入9.55亿元,同比增长129.9%。“智慧生活本来就是我们的四大业务板块之一,也是2022年的火箭业务之一。”6月15日,商汤科技相关负责人告诉时代周报记者。

“从商汤发布的几款消费级产品以及企业动态来看,商汤在发力C端的不足之处可能在于市场推广和品牌建设上还需要加强。”丁少将认为,商汤科技需要更多地关注消费者的需求和反馈,不断改善产品和服务质量,提升消费者认知度和口碑,从而建立起品牌和美誉度。在人才和技术研发方面,商汤科技也需要继续招揽更多的人才和加强技术研发,保持技术领先优势。

江瀚认为,商汤科技面对C端的产品运营体系化成熟度不够高,需要更多样化地满足市场需求,不仅要关注技术的研发,还要注重用户体验,并且建立完善的营销策略和售后服务,才能真正满足消费者的需求,提升品牌价值。

不止商汤科技,行业内多家企业都将目光投向了C端领域。“AI企业发力C端意义重大,一方面可以获取更广泛的用户群体,进一步推广AI技术的应用;另一方面也可以带动相关产业链的发展和创新。”江瀚告诉时代周报记者。

同时,江瀚也指出,AI企业发力C端也会遇到不少难点,例如如何将复杂的技术转化为易于使用的产品、如何满足用户需求、如何建立完善的售后服务等。

丁少将也认为,AI企业在发力C端时,会遇到落地难、用户培养、资金压力等挑战和难点。

“AI企业未来必然走向C端,但是由于AI技术成熟度不够,当前面向C端市场的AI产品和服务始终达不到大众消费市场的需要,也很难找到有效的应用场景。”6月15日,深度科技研究院院长张孝荣向时代周报记者表示,AI技术的C端市场,还需要经历一个技术创新与需求匹配的长期磨合过程。

特别声明:以上内容(如有图片或视频亦包括在内)为自媒体平台“网易号”用户上传并发布,本平台仅提供信息存储服务。

Notice:Thecontentabove(includingthepicturesandvideosifany)isuploadedandpostedbyauserofNetEaseHao,whichisasocialmediaplatformandonlyprovidesinformationstorageservices.

/阅读下一篇/返回网易首页下载网易新闻客户端

版权声明:本文内容由互联网用户自发贡献,该文观点仅代表作者本人。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如发现本站有涉嫌抄袭侵权/违法违规的内容,一经查实,本站将立刻删除。

上一篇

下一篇