日本电圣战绝艺获胜 负责人:这是一个重要样本

by admin on 2020年4月16日

比赛的用时是每方30分钟,平均下来20秒左右就要落子,参赛程序的计算能力显然对比赛成绩有着很大的影响。比赛并不是所有的程序都使用统一的硬件配置,而是各自通过手里的笔记本电脑,把比赛数据发送到各自的服务器计算平台上完成。这也是为什么18日现场断网之后,比赛不得不暂停的原因。

韩国软件俨然秉承韩国人的个性,坚韧顽强,绝不认输。行至中盘时,绝艺已经赢定,之后百余手与胜负无关。不过,绝艺像是故意豁露破绽一般,在官子时突然打个大勺子,送吃数颗黑子,令人目瞪口呆。按说以绝艺的水准,绝无可能出现这般低级失误,但实战中它确实出现了。这是绝艺在以一种特殊的方式发出胜利宣言?

最后结果就是,获得价值网络的回赠之后,Master的策略网络已经和人类棋手很不一样了,人类棋手不敢想的招,Master敢想敢下。Master和人类棋手60局对局,几乎每局都有这种人类想不到的招,这也是棋手们对Master十分敬畏的来源。人类棋手要创新很难,能不断下出可行新招的棋手会得到极高的推许,正如吴清源大师,不知道他为什么那么能创新。但是Master的创新却不难理解,就是极高质量价值网络的附加效应。其实Master的新招下出来以后,人类棋手慢慢也能理解了,甚至在实战中应用了。

改变了围棋界的论文

马化腾朋友圈庆祝夺冠

这也是围棋奇妙的地方,局面稍有差别,价值网络可能以为是一回事,但死活就可能倒转,倒转突变程度远超国际象棋。价值网络常见棋形训练多了知道是死是活,但如果局部棋形没出现过或者训练不足,就可能发生死活误判。而且神经网络深度学习训练也不是说堆积样本就一定能全部训练正确,总会有一定差错率。训练会进入瓶颈,这个训练弄对了,原先对的那个又错了。包括策略网络的训练,预测人类高手着手正确率只会是50%多,再高上不去了,也没意义。谷歌可以堆机器把训练做得更快,但不可能让价值网络产生神奇的能力,bug局面绝对大量存在。

图片 1

记者:张阳

这盘棋野狐围观棋迷以为绝艺要胜了。白204先手接回2子,205做活包藏杀机。绝艺却混然不觉,208占官子大棋。黑终于等到209先手切断再211长,白上面大块已经连不回家,也无法做活。这个变化在人看来并不复杂,绝艺却犯了低级错误。绝艺的搜索框架还是有bug,要消除这类bug,需要艰苦的努力。

不过尤其要注意的是,现在这些围棋程序对比的对象还只是2016年与李世石大战的AlphaGo,现在的AlphaGo(或者说MAster)究竟进化到什么程度我们并不知道。

绝艺执黑对阵Rayn,序盘双方下出颇具气势的转换,Rayn毫无惧色。但是在左边的战斗中绝艺展现恐怖的战斗力,攻杀、缠绕到最后一击没有任何失误,再次上演屠龙好戏,闯入决赛。

也许柯洁可以考虑,在盘面中积极制造头绪的战法。他本身这方面能力不错,东一下西一下搞事,搅棋的功夫很厉害。我感觉柯洁可能是和绝艺下得比较多,没有分清楚两类bug的区别。绝艺更多的是第二类bug,就是简单的出错,也能快速修复越来越少,不足为据。第一类的bug就很本质了,AlphaGo明显喜欢简化局面、控制流、避免复杂劫争,原因就是惧怕地平线效应。人类棋手应该反其道而行之,与它针锋相对。例如可以进行另类的局势判断,不数目,而是观察盘面头绪的多少与关联性,制造出新头绪就得分,被AlphaGo消除头绪就减分。

DeepMind在公布科学成果上是很谨慎的。去年人机大战之前他们说AlphaGo通过自我对弈,取得了巨大的进步,所以才有信心挑战李世石。当时不少人对此嗤之以鼻,结果被4比1的比分打了脸。

12

柯洁参加《朗读者》

图片 2

绝艺夺冠历程

这些改进一方面是提升了AlphaGo的下棋速度,另一方面提升了价值网络的水平,搜索时局面判断能力更强了。这让AlphaGo的判断更强,围地能力更强,抛离人类对手很多,是绝对的“围地大师”、“创新大师”。其实它自己并没有“创新”的感觉,它只是想围地,下出新招是对人类而言的。但是,能不能说AlphaGo是“战斗大师”?虽然它的战斗力也不弱,但明显不如布局创新这样能给人震憾。有一些局面,人类是奔着大战一场去的,Master却平淡地控制局面,绕开了这类看不清的“大决战”。

决赛DeepZenGo执黑先行,右下角黑棋的死活是这盘棋优劣的关键。但绝艺和DeepZenGo后来都没有在右下角走棋,看来是对此有一致的判断,黑棋是活的(如果某方认为黑角会死,肯定早就脱先抢着走了)。右下角的变化比较复杂,这里就先不做讨论了。

16强:绝艺VS日本Kugutsu

由于围棋的复杂性,很难确认一个程序真的消除了低级bug。甚至从原理上来说,深度神经网络存在错觉,而且难以消除。价值网络就是发神经认为一个输了的局面是胜的,或者策略网络就是对某个重要选点给极低概率,这都无法杜绝。这个版本的绝艺已经非常厉害了,还会出这样简单的bug。

以往的UEC杯世界围棋计算机大赛并不广为人知,今年之所以备受关注,主要是两个参赛程序的,日本的DeepZenGo和中国的绝艺。前者马上要和芈昱廷、朴廷桓、井山裕太进行世界围棋大赛,后者则一直在对弈网站上测试,积累了相当的人气。

就在大家认为绝艺陷入不利的时候出人意料的事情发生了。绝艺在右上角闹事,DeepZenGo对于局部战斗丝毫没有警惕性,结果局部形成打劫对杀。而绝艺凭借劫材的绝对优势打劫做活,黑棋瞬间崩盘。

棋界迫切需要尽量了解AlphaGo,对它的行为模式建立预期,消除恐惧。Master的60局棋谱,棋手们研究一段时间了,有了相当的认识。由于谷歌的保密风格,算法上AlphaGo有什么重大进展信息极少,但也还是有一些可以分析的,本文会从算法角度进行推测。

图片 3

8强:绝艺VS韩国石子旋风

二、正确认识AlphaGo,消除恐惧

图片 4

一力辽是日本棋界公认的希望之星5岁学弈,宋光复九段门下,
曾先后获得应氏杯青少年锦标赛亚军,第1届GLOBIS杯世界围棋U-20围棋锦标赛冠军,日本第39届新人王战冠军。此外,他还曾三次作为日方先锋出战农心辛拉面杯世界围棋擂台赛,并取得过三连胜的佳绩,是过去十年中在该项赛事中表现最出色的日本棋手之一,身上光环无数,围棋的未来本应是属于他们这一代的,奈何科技的发展,远远超过人类的想象,只能一声长叹,既生瑜,何生亮!

阿根廷业余棋手阿基鲁尔曾杀入世界大赛八强与李昌镐对局,完全没战斗,就是划分地域,到这个局面就落后30目了。黑棋的子都围了很结实确定的地,白棋边角的确定地不多,棋块形成的厚势面对黑的活棋没有作用,相互配合又成不了大空。

图片 5

回顾夺冠之路

2016年12月29日,Master执黑胜於之莹

图3:然而实战DeepZenGo却配合绝艺,在黑棋空里出棋了……绝艺逆转获胜!

这场对局名曰电圣战或许正是取其名,电子与人类棋圣对战,它是UEC杯世界计算机围棋大赛的姊妹赛,就在3月19日,第10届日本UEC杯计算机围棋大赛在日本东京都日本电气通信大学落幕,腾讯人工智能实验室研发的围棋人工智能程序绝艺
在最终的决赛中,战胜了日本棋手DeepZenGO,以11战全胜战绩获得这次比赛冠军。

有一种说法是由于柯洁败局已定,这次比赛社会关注度会不如去年人机大战。围棋足够复杂,AI也不是全能,还有很多不足,从原理上并非不可战胜。希望本文可以让更多人有理有据地提升对柯洁的信心。也希望棋界不要陷入必败舆论中无所作为,要全面正确认识AlphaGo棋力背后的算法,共同努力备战增加人类棋手的胜机。

图2:“绝艺”在黑棋上边空里行棋,DeepZenGo的应对很成问题,白1断的时候,黑2虎效果比实战要好不少,更关键的时候,白3顶的时候,黑棋明明可有在4位扳,这样没什么棋。

决赛棋局

这类局面Master得心应手,而人类棋手即使在局面形成后能明白,前面也习惯性地行棋。如“压对手爬二路真爽”,“封住再说”,“外面打一下不亏”,“分断总是对的”。这些其实都不是绝对真理,需要继续推更多步来判断。曾经日本棋手面对中韩棋手有理说不清,战斗起来被暴打。其实就是感觉行棋,以为棋形正就对了。日本前辈总结说,中韩棋手先不管棋形,不靠感觉判断,而是往下摆,摆出结果自然就说明问题了。同样的错误,现在人类棋手面对AI布局时也在犯。人类布局就靠感觉,有时根据一些“格言”秒拍,或者粗粗看下就觉得可行。其实有些后续招法有必然性,能往后推不少步,再来判断感觉可能就不一样了。布局时不能一味讲究“棋形”、“经验”。哪怕就按人类下棋时的思维方法,也可以往后多推一些,再小心地进行局面判断,有时是能纠正一些错觉的。

2016年11月的时候,AlphaGo团队的发言人樊麾通过微博宣布:“我们很高兴向大家宣布,AlphaGo的棋力在已过半年有巨大的进步,将在2017年初复出下棋。我们团队会在近期内公布更多讯息。”这个“巨大进步”耐人寻味,AlphaGo的研究又取得了怎样的进展呢?之后Master在网上的60盘快棋测试,让我们惊鸿一瞥。计算时间极短、完美的局面掌控、精准的局部战斗,这些细节都告诉着我们,现在的AlphaGo或者说Master,已经和一年前的它完全不同了,甚至可能已经进化到了一个更为先进的阶段。

决赛局:绝艺VS日本Deepzengo

人类选手在大局观上面对绝艺和DeepZenGo已经占不到便宜,甚至会吃点亏,但还没到被碾压的程度,后面可以等机会翻盘。高手们面对Master可以说布局阶段就明显吃大亏,从来没碰到过这样的对手,一时不知道怎么办了。首先用时策略就得改。

绝艺、DeepZenGo,还有此前新浪棋牌报道过的
“丽拉”,都是受到2016年DeepMind在《自然》杂志上发表的关于AlphaGo论文启发,进而发展成现在的围棋人工智能的。从某种意义上讲,它们都是去年那个AlphaGo的跟随者。从这次世界计算机大赛的棋谱体现出的水平来看,他们距离去年击败李世石的那一版AlphaGo似乎还有一定的差距。

随着2016年AlphaGo与世界顶级棋手李世石的一场大战,将人工智能带起了一轮新高潮,围棋做为检验人工智能成果的理想试验场,也获得了巨大关注。因此这次比赛胜负本不重要,更为重要的是人工智能究竟发展到什么地步了?尤其是中国本土的人工智能又与世界顶尖水平相较又究竟如何?因此无论是围棋界,还是人工智能圈对此都异常看重。

去年正因为我深深知道人类胜局的重大意义,才在几乎所有人都绝望的时候,仍然坚持分析AlphaGo的弱点,还真预测到了李世石胜出的方式。

与现在的AlphaGo可能不是同一“物种”

这从UEC赛事的评委阵容也可见一斑,今年赛制首次改为分先对局,而对局现场由曾经获得过棋圣头衔的小林觉九段负责现场解说,中国方面由腾讯新闻进行的赛事直播更是邀请到棋圣聂卫平、柯洁九段、罗冼河九段组成的超豪华解说阵容。甚至在获胜之后,腾讯CEO马化腾也难掩兴奋,在朋友圈发声为之庆贺。

人类高手和AI下的时候,从围棋技术角度还以为是和人下,但又知道对手是AI心态扭曲,表现甚至更差。和人下,会感觉布局并不是太重要,20秒、30秒双方下得有模有样。谁也没有很厉害的大局功夫,有人稍强点也有限。用时分配上就明显有倾向,布局阶段往往下得快,感觉差不多就下了。不是说没时间思考,习惯上就不觉得能想多少,没什么好想的秒下算了。有时碰上新手才用多些时间应对。到中盘战斗与收官“复杂”起来,才开始习惯性长考,有人甚至认为长考说明局势困难。

来源:新浪体育微博

UEC杯本就不是一项为人类打造的赛事,2007年始于日本,参赛的选手都世界知名的电脑围棋程序,目前已经发展为世界权威的电脑围棋大赛,是最具传统和权威的计算机围棋大赛,每年邀请各国高水平AI齐聚东京比赛,促进相关学术及科技的交流。日本的DeepZenGo、法国的疯石、美国Facebook公司的黑暗森林等世界著名计算机围棋程序先后在UEC杯折桂获奖,基本反映了人工智能技术在围棋这一领域进行挑战的最尖端水平。

一、胜一盘的重要性

这个差距一方面来自于,当时AlphaGo与李世石下的是慢棋,计算时间比这次要长;另外一方面可能是谷歌在深度学习技术应用上的优势所致。

资料图

这次比赛会下满三盘,古力说柯洁只有10%的机会胜一盘,还可能乐观了。一些资深棋迷打赌开的赔率也是柯洁胜一盘赔10倍。这相当于说,柯洁和AlphaGo下,30盘才能胜一盘。

图1:棋局进行到中盘阶段,黑棋围棋上边大空,判断下形势,黑棋要稍占上风。

决赛在北京时间19日下午13:30打响。DeepZenGo执黑先行,双方本局采用了非常复古的布局,绝艺虚夹黑棋3子棋筋,而DeepZenGo果断弃子,对大局的掌控非常到位。在棋盘左下方的定型中绝艺虽然占到一些便宜,但DeepZenGo围出右上方庞大的模样,在大局上取得领先。

围地就是子力的配合,角上、边上、中央,配合的方式多种多样,有的子能自己围,有的能破对方。几面围起来空挺大,但是对手进来一个头效率就剧降,围地的效率很有讲究。棋块的方向选择互相配合非常关键,低手往往想象不到这有多重要。

DeepZenGo的“离奇”失误

半决赛:绝艺VS日本Rayn

我的结论是,AlphaGo是个“围地大师”、“创新大师”,但并不是“战斗大师”,棋艺从原理上就存在短板,但是特长极强,掩盖了弱点。柯洁仅仅是消除畏惧心理,恢复平常心是不够的,这还是传统思维模式,也不一定做得到。人类高手不能空喊“有信心”之类的口号,需要从理性上确立“获胜是可以做到的”这个信念,根据AlphaGo的算法特点,改变传统思维模式,针锋相对与它战斗,争取在人机战中获得胜利突破。柯洁在人类棋手中思维活跃、搅功无敌,是战胜AlphaGo的最好人选。希望柯洁采用正确战术,取得一胜。只要一胜,二次人机大战就会成为棋手与棋迷的狂欢节。

3月19日,UEC杯世界围棋计算机大赛在日本结束,中国的围棋程序绝艺击败日本的DeepZenGo,取得冠军。这次比赛其实也邀请了AlphaGo,但被他们拒绝了。参赛的围棋程序大都是学习2016年DeepMind的那篇论文,而现在的AlphaGo又再度进化升级,成为更为强大的“Master”了。与参赛的围棋程序相比,现在的AlphaGo可能已经是不同“物种”了,自然没必要参赛。

日本新锐棋手一力辽七段,败了!当一力辽最终投子认输的一刻,我想他的内心一定是复杂无比,因为他败给了绝艺一个由腾讯AI
Lab研发的围棋人工智能程序。

据Deepmind透漏,2016年3月以后,AlphaGo的训练流程确实进入了瓶颈,应该是训练出来的新版对上一个新版棋力提升不多了。价值网络和策略网络再怎么训练,棋力也没有显著提高了。这时谷歌开发团队又做出了一个创新,可能就是Master神秘实力的重要来源。

上一次AlphaGo公布研究结果,改变了整个围棋人工智能领域,为围棋界打开了一道通往未来的大门。不久前,哈萨比斯说:“2017年将是AlphaGo与棋界兴奋的一年”,这次他们会带来什么样的惊喜呢?

对手尽管没有死大龙,但与绝艺的差距不是一般的大,执白的绝艺将上边大空围定后,又将左边三子鲸吞,盘面领先50目左右,黑棋还要贴目,按照杨鼎新五段的话说就是显然是E级水准与s级Boss的巨大差距。

3月18至19日的计算机围棋UEC杯,绝艺在预赛和决赛中两胜DeepZenGo,AI界的老二老三座次排定。紧接着3月21至23日的首届世界围棋最强战中,老三DeepZenGo代表AI与中日韩三大高手下了三局每方三小时的慢棋,一局完胜两局憾负,前半盘都是明显领先。3月26日UEC杯的后续节目电圣战,绝艺与DeepZenGo都表现上佳击溃日本新锐一力辽。在野狐围棋网,绝艺实力不断进步,在快棋中对人类高手胜率高达9成,并以碾压态势率先升为10段。柯洁对绝艺13连败,已经1个月没有公开和绝艺下了。如果人类连绝艺和DeepZenGo都打不过,那还怎么和AlphaGo较量?

(这段内容是绝艺和ZEN的决赛棋谱分析,如果你不会下棋,可以略过,大致意思是,ZEN在局面不错的情况下,因为计算上的失误被绝艺逆转胜了。)

Master在17位挂了以后,19位直接开局点三三,惊爆眼球。棋手们总结后也理解了,实战要点是不能D2位扳粘凑白虎成铁厚,而两侧的黑子能限制白厚势的发展。后面条件成熟,黑就能从两侧攻逼这块厚势,E5的点会很犀利。人类更多是没往这个方向想,而不是不能理解。机器的价值网络是中立的,下出来它就冷静地全盘评估,没有人类阻碍创新的固有错误逻辑,天然就能发现好点。Master的很多新手都有这个特点。朴永训在正式比赛中对於之莹也是开局点三三,而且还胜了,复盘这招也是可行的。

这盘棋DeepZenGo和绝艺到底使用了多大的计算资源我们不得而知,但很明显,这样的计算能力,DeepZenGo想在后天与人类世界冠军的对抗中占到上风,几乎是不可能的。现在已经不是一年前了,人类棋手们已经对围棋人工智能不再陌生。

2017年4月10日,党毅飞执黑胜绝艺

应用了深度学习技术的围棋程序,对局时策略网络和价值网络同时工作,还要配备强大GPU等计算资源。虽然计算资源堆积到一定程度之后能起到的提升效果有限,但在UEC的快棋赛制里,计算资源上的差别还是很有影响的。

通过和绝艺的不断对局,人类高手已经相信,自己正常1分钟读秒的表现会比20、30秒好得多,对绝艺胜率明显提高。AI对手和人不是一回事,人类下快棋对AI实力会大降。如果现在的绝艺和人类高手下20秒、30秒的快棋,再加上人类高手不了解它,如果它还新手不断,杀个60:0不是不可想象。有了绝艺这个参照物,年初Master的表现也就不是这么震憾了。绝艺虽然在快速进步,但人类高手由于看着它成长的,和它下思维比较正常,表现要好得多。

所以,绝艺和DeepZenGo一路过关斩将,没有遭遇什么抵抗就打进了决赛。两者之间的对决才是真正意义上的战斗。

在策略网络上,围棋AI都是学习人类高手棋谱训练的,AlphaGo的策略网络并不突出。这是一个深度学习训练问题,Facebook的Darkforest在预测人类高手着手时正确率还更高,也有一些业余开发者做出了不错的策略网络。AlphaGo展现的高超实力,并不是靠策略网络,它的开发门槛不高。

DeepZenGo是由日本最大的视频网站作为技术支持,而绝艺的背景是腾讯,两者在计算资源上的优势是显而易见的。据国内一位研究围棋AI的同学介绍,绝艺能够调用的计算资源大到无法想象,毕竟中国是目前超算能力最强的国家。

这个用时策略对付绝艺或者DeepZenGo可能还行,吃亏不太大后面总有机会。对付Master就不行了,感觉行棋布局肯定顶不住。由于Master对人60:0都是网棋,每手20秒或者30秒,人类高手被迫用错误的时间策略和它下,输这么惨这是很重要一个因素,Master的棋力优势放大了很多。这次柯洁对战AlphaGo是3小时思考时间,五人相谈棋是2个半小时,一定要注意把时间花在序盘布局。1分钟读秒的紧棋高手们有经验,宁肯进入中后盘读秒下,也不要序盘下快了莫明其妙吃大亏。

赛制并不完全“公平”

人类棋手如果布局能顶住,战胜AlphaGo的机会就会明显上升,因为从算法原理上AlphaGo仍然会有难以消除的弱点。

图片 6

这需要改变平时网上拍快棋的习惯。年青高手特别喜欢在网上拍快棋,20秒都觉得慢了,经常下15秒的。这是能锻炼棋感,但这么快下出来形成的往往只是局部的棋感。要从全局出发培养棋感,需要多下慢棋,在慢棋中仔细体会全局配置。起码要有了全局思维的习惯,再去下拍快棋。高手们细心体会Master的全局思维,布局水平一定会有很大进步。如果全局思维上取得进步,虽然从原理上还是没法胜过AlphaGo,和它对局时莫明其妙吃大亏的机会就小多了。这其实是人类和AlphaGo目前差距最大的地方,也是人可以主动努力提高的方向。

围棋AI与人类的比赛,天生就极具看点。世界围棋最强战第三轮,朴廷桓与芈昱廷前两战都胜出,将争夺冠军,冠亚军奖金180万、60万人民币,一盘棋价值120万。两战皆负的DeepZenGo与井山裕太争夺第三名,奖金都是30万人民币。要是以前,两个负者的比赛就是篮球比赛里的垃圾时间,关注的人不多。但这次解说棋手和棋迷们却明显更关注DeepZenGo大模样作战完胜井山裕太这盘。这说明,哪怕是AI界老三的正式比赛也能引起相当大的关注,更不要说柯洁与AlphaGo的顶级对决。

之前围棋AI是学习人类高手棋谱生成策略网络的,但是人类高手群体其实有很多盲区!就像后来不少高手看到Master的表现说,像开局点三三之类的着手,没有一个棋手想得到,集体没往那个方向想,但其实是可行的。学习人类高手棋谱,这些新招只会有极低的预测概率,就搜索不到了。但是开发团队发现,有些选点,虽然策略网络不看好,但真要下出来,价值网络却给出了不错的评分。可以在训练中对价值网络海量尝试,补充一些胜率不错的选点给策略网络,又经过搜索与海量对弈发现,这确实是不错的选点。这就是Master新招不断的技术秘密,其实也没那么神奇。人类棋手没有明确的价值网络,也不可能天天去试一些奇招。而机器自我对弈学习却可以这么做,训练流水线运转起来后,所有选点都试一下不过是写个循环,靠机器算力猛试就行了。就算绝大部分失败,只要找到一些新招就足以震憾人类棋手了。

2017年3月22日世界围棋最强战,DeepZenGo执白负朴廷桓

棋界现在一种说法是,AI战胜人类带来围棋技术的大发展,人类学习AI与AI共同进步。这算是呼应谷歌团队的姿态,说棋艺有大发展、学习AI,这都没问题。但围棋首先是个胜负的游戏,对职业棋手来说,胜负压倒一切。围棋和国际象棋、中国象棋不一样,和棋极少,输半目也是输,更残酷。现在不能认怂,还是应该争取战胜AlphaGo,只胜一盘意义都大于这150万美元的奖金。我相信,如果柯洁能胜AlphaGo一盘,倒贴钱他都愿意。柯洁自己也是斗志满满,在央视《朗读者》上读哈里波特,把AlphaGo比作伏地魔,声称要“零封AlphaGo”。

由于绝艺不断在野狐围棋网上下,虽然胜率不断提高,但还是经常输给职业高手,所以人们可能低估了它的实力。绝艺输主要是出bug,表现正常的时候实力极为可怕,而且在快速进步,要看最近的胜率。业余六段和职业棋手也就是让先到二子的差距,据说有业六让四子和绝艺下20分钟的慢棋还是输了。绝艺的棋风和AlphaGo不同,创新不多,但是力量太大了,出手很敏锐。4月10日开始绝艺在野狐复出下棋每天两盘,是20分钟和三次1分钟读秒的慢棋。到4月14日,对10位职业高手取得了9胜1负的战绩。

谷歌团队在AlphaGo训练到瓶颈以后,又搞了几种创新。除了前面提到的用价值网络选点补策略网络极大提升创新能力,可以肯定的是AlphaGo的训练速度提升了,从一月一个新版本进步到一周一个。另外,还用了强化学习领域的一个技术,做了一个Anti-AlphaGo来专门针对AlphaGo的弱点,更快改进提升跳出训练中的局部陷阱。这可能就是一周能出一个新版的技术原因。另外还有说法,AlphaGo的策略网络和价值网络改了模型,输入不再是三值的图形,每个点根据棋块的性质可以有几十个值,相当于用彩色图形输入进行深度学习图像识别训练了。也许这能提升计算速度,极大改进AlphaGo训练与下棋时的速度,快棋水平急剧提升。这次比赛据说AlphaGo会用完全舍弃人类棋谱从0开始训练的版本,这个版本无疑创新性会极强,完全不受人类成见的“污染”。具体会如何实在没法猜想,但棋谱会很有趣,说不定开局就不下角上。

特别有帮助的是,腾讯开发的绝艺达到了极高水平,柯洁和绝艺极为开放的内测版下,可以反复实践演练自己的想法,并不是闷头准备。腾讯开发围棋AI的团队就有三个,绝艺只是胜出的那个,这个投入确实很有魄力,如果柯洁能打破AlphaGo的坚冰,棋界要感谢腾讯。

近来柯洁正在绝艺的帮助下秘密训练,一些棋手感觉柯洁又涨棋了,继绝艺之后第二个成为野狐的10段。柯洁声称有对付AI的“秘密武器”,有人猜测是模仿棋,绝艺明显对付不了模仿棋,4次输在模仿棋上。但模仿棋是可破的,引发到中央的征子或者战斗就能破了。AlphaGo团队如果意识到这个问题,肯定有办法应对。虽然围棋规则比赛规则都允许模仿棋,我不希望柯洁在这么重大的正式比赛这么做。职业棋手们执白对Master时到是应该试一试,可惜只有周俊勋执黑试了一下也速败了。备战还是应该基于围棋基本技术与对AI算法的深入了解。柯洁对绝艺13连败明显事出有因,想试练一些招法速败。他在和绝艺内测时应该有所发现,“秘密武器”也可能是一些开局复杂劫争之类的。

可以从理论上相信,AlphaGo的价值网络,加上MCTS终局数子,对地域的估算比人精确得多。对于一些虚虚的厚势,人类很难讲清楚其价值,AlphaGo却有成熟的套路给出胜率评估。以此为基础,AlphaGo的价值网络加上搜索,在很多局面能发现人类的盲点,找出更恰当的围地选择。如果围棋是一个双方和平围地的游戏,理论上人类棋手就可以认输了。实际上Master的60局中不少就是如此,没有激烈的战斗,几个选择后,人莫明其妙就落后了。其实就是围地搞不过AlphaGo。

2016年12月31日,Master执黑对金庭贤

直到围棋AI出现,人们才明白,原来布局方向选择比想象的还要重要。不仅是AlphaGo,人们眼中实力并不太强的DeepZenGo大局观都很好。最强战三场比赛,芈昱廷、朴廷桓、井山裕太大局上都落后于DeepZenGo。如果和AI比大局观,比围地,人类棋手连DeepZenGo都战胜不了。我和唐韦星九段一起在腾讯直播解说了DeepZenGo和一力辽的比赛,DeepZenGo虽然下得很快,但大局观还是明显比一力辽强。绝艺的大局观应该和DeepZenGo类似,并不强太多,UEC杯决赛对DeepZenGo直到120手胜率还是0.5不占优。AlphaGo由于有创新,大局观又要强很多。

有一些局面,人类的推理能够聚焦,集中去计算一块棋的死活,一个对杀的结果,有一些成熟的推理验算经验。但是AI算法很难把这个逻辑实现,可以合理推测,AlphaGo也没这个能力。它得按策略网络给出的概率去逐个点搜索,如果策略网络给出类似“只此一手”的极高概率,那和人类的感觉差不多,但往往并非如此。选点会不少,有时对杀应该聚焦高概率的点,有些局面又应该小概率的也搜搜看,算法只能全面照顾都去搜。这样,步数一多,算法就会面临“指数爆炸”。这是一个天生的缺陷,很难弥补。AI会碰到两类麻烦,一类是推理步数过长,出现“地平线效应”,棋局复杂度超过算法搜索能力,下出自以为能胜的败招。一类是漏算,棋块的死活以为算清楚了,其实有些小概率的点没考虑到,一个人类可以给出结论的必然推理过程被带歪了。

我这并不是心灵鸡汤式的给人类围棋高手打气。如果是国际象棋,从算法原理上就知道,人类不可能战胜AI。国际象棋AI和人下棋的思路差不多,算得比人深远,无论是局势评估还是推理搜索,人会的AI全会,还更厉害。国际象棋AI能下出人类无法想象的“AI”棋,人类确实没理由战胜AI。但围棋是另一种游戏,不仅复杂得多,特点还完全不同。AI和人是用两种截然不同的思维模式下围棋,AI学会了人的部分本事,还发展出了新的本事,在局势评估上远远强于人。但是人也有AI不会的绝招,就是复杂战斗、对杀、死活、精确收官等以推理为基础的围棋技术,由于AI没有概念推理的能力,这些任务对AI算法来说很困难。

其实人类高手布局水平也不是说差到被Master碾压的程度,仔细思考表现会好得多。如果思考时先存了一个“布局不要吃大亏”的想法,一些行棋方向判断仔细体会,肯定可以提高。Master的60局中一些创新,体现了一些布局新思想,隐约有“全局关联”行棋的感觉,远处几个子不一样,焦点处的选择就不一样。Master并不是靠惊天妙手在局部击溃高手们,更多是在平平淡淡的局面选择中体现功力,有不少反直觉的招法,仔细体会是成立的。从算法角度,这些新招是可以解释的,就是价值网络的贡献,突破了人类策略网络的成见,不要看得太神秘。多挖掘分析Master在60局中领先的原因,有助于人类高手在布局阶段顶住。一些棋手已经在正式对局中模仿Master的下法,但不少棋手都说如果没有理解盲目模仿并没有好处,这是对的。要下功夫去理解这些棋谱。

从算法原理上来说,对杀、死活、劫争之类的战斗局面主要靠MCTS展开搜索树推理。价值网络是不行的,静态的计算没法解决战斗问题。AlphaGo是有推理能力的,会展开二三十步的搜索树推理,算法进步、硬件进步能更扩展更多步。但是,这个框架就必然有一些机器的“难言之隐”。

布局时什么时候要小心,其实也不是完全没迹象。如果子都在近前,人自然知道要小心推理,局部结果都受影响了。就是有些子远远的放着,人容易掉以轻心,只看局部。其实推多些步以后,这些远远的子就关联上了,有时甚至能直接参与战斗,更常见是能影响局部结果评估。可能Master的价值网络也并不是多神奇,只是天生就是全局思维,从来不会只看局部,对这些全局微妙的地方体会深,不会产生错误的局部“格言”。人类也要这样全局思维。虽然一时难以做到很好,但和AlphaGo对战布局时改变一下思维模式,提醒自己多进行布局分析,应该是可以的。

这是Master对於之莹的对局,黑23、25捞地,白26封住,好象是很自然的招法。但是黑27不好应付。白的棋形出现弱点,为了防断,只好28和30位补强自身。这时黑31拆就显得价值极大了。Master的棋经常有这种表现,它捞地,人类对手自以为外面是厚势。但是再来几招就发现,对手的厚势Master有几个子远远的限制着,还有几个子贴着很讨厌,厚势变孤棋甚至被吃都可能。后来白这团“厚势”确实被吃了。

这两类bug,第二类靠运气,不知为何AI就出bug了。第一类似乎人类棋手有主动操作的空间。理论上来说,要增多盘面上互相关联的“头绪”,这在中间开放式的战斗中常见。几块棋纠在一起,断点多,头绪互相有联系,这时策略网络、价值网络给出的概率不准,或者只能给出多个选择,还得靠MCTS搜索解决问题。如果头绪多、关联手数多、空间开放,产生“地平线效应”的概率就大多了。这不是说一味地强硬“战斗”,战斗本身并不会让搜索崩溃出bug,而是引而不发的“头绪”要多。

酝酿了近一年的二次人机大战终于有了正式消息。4月10日,谷歌与中国棋院宣布,2017年5月23日起,AlphaGo将与柯洁进行三番棋对决。胜者奖金150万美元,负者出场费也高达30万美元,是围棋比赛有史以来的最高奖金。

从算法原理上就可以确信,无论怎么训练,价值网络都存在“bug局面”。比如复杂的对杀、局部棋块死活,价值网络肯定会作出错误判断。网上实战,绝艺和DeepZenGo就经常判断错误。AlphaGo的价值网络肯定也有bug局面,它总是一个静态的神经网络,就算系数多达几百M,也不可能解决需要复杂推理的棋块死活问题,深度神经网络没有这种神奇能力。正如人类高手看一眼棋局,也不能说出局部是死是活,得花些时间计算,除非以前见过这类“局部常形”。

Master年初60:0碾压人类高手,现在棋界的气氛又和去年3:0时差不多了。某种程度甚至更为绝望,因为这回盘数很多有说服力。而且能战胜人类的AI不只AlphaGo了,还有绝艺和DeepZenGo。好消息是有职业实力的AI只有这三个,坏消息是连最弱的DeepZenGo都不好对付。

这个局面也类似,Master连爬二路,4目做活,看上去很委曲。但是仔细看,黑上面一块已经是带眼铁活的厚势,黑所得不小。而白三路连压这一串,说是厚势,其实没有眼,黑棋再来一两手,这块棋就得忙做活了。而且白这块“厚势”没有发展了,下面四个黑子远远地限制着,白也没有手段借这块厚势打入黑下面大搞破坏。

去年李世石以1:4惨负AlphaGo,震动了棋界甚至整个世界,引发了人工智能热潮。《自然》与《科学》都将这个事件列为年度八大、十大科技进展。对外界来说,1:4和0:5似乎区别不大,对棋界就不一样了。如果没有这一胜,棋手们面对AlphaGo将极度自卑,只剩下各种恐惧与膜拜。去年人机战第三盘AlphaGo序盘碾压李世石,以3:0胜出比赛的时候,棋界气氛极度压抑,几乎没人再对李世石抱有希望。直到第四盘李世石胜出,棋手们才恍然大悟,原来AlphaGo的命门是计算!整个棋界大缓了一口气。李世石说,这一胜拿什么也不换,意义真有这么大。

相当于人和汽车的赛跑比赛,如果是一条平路,汽车必然战胜人。如果路上有的地方有墙,有的地方有沟,人会翻墙也会下到沟里再上来,而汽车翻墙过沟不太会,可能会翻车输给人。人如果选择在平路和汽车比拼,那当然必输;如果把比赛引向翻墙过沟的比拼,不仅比赛有趣多了,还真可以获胜。比赛之前人制定战术的时候,不能说要平常心,要学习汽车的高速度争取跑出博尔特的水平,那也是输。为了胜利就应该扬长避短,跑步也要会,不要跑步就把腿折了退赛。速度落后于汽车不要惊慌,如果能把汽车引向有墙有沟的路段,就能等到时机。

文章本天成,妙手偶得之。AlphaGo的bug绝对大量存在,怎么也排不光,只等柯洁去制造,去发现妙手。

当然AlphaGo的能力很强,很难把它引向表现差的路段,这只是一个比喻。但可以肯定AlphaGo不是全能的,从算法原理上就有漏洞。最高水平的国际象棋AI互相比赛绝大多数是平局。两个AlphaGo自我对局总是能分出胜负,也不是每局都差距很小。这中间肯定有大量的局面,在算法的能力之外,AlphaGo执黑或执白随机地出错。

三、AlphaGo的算法进步与人类棋手的应对

但是价值网络的开发门槛很高。只有谷歌这种大公司,才能动用十几万个服务器产生几千万局机器自我对弈棋局,用于价值网络的训练。后来腾讯也做到了,绝艺自我对弈超过30亿局。而DeepZenGo的价值网络训练就似乎不容易,开发者加藤英树抱怨合作公司的支持不够。DeepZenGo的价值网络甚至犯了这样一个错:

这个局面左上部的几个白子是死棋,连业余棋手都知道。但是DeepZenGo的价值网络却判断是“双活”,给出了完全错误的胜率判断。这个局部看上去和双活的棋形很象,黑棋要吃掉白要经过一定次序的紧气。这说明,价值网络是根据静态的相似棋形来判断的,不管怎么训练它的搜索能力都很差。绝艺和AlphaGo的价值网络训练的棋局数多,表现肯定好些,但也还是静态的卷积神经网络计算,不具备动态的搜索能力。

人类棋手也发展出不少围地理论,布局理论一度非常流行,甚至被认为是最高级的棋艺。中国国家队曾长期学习日本,集体研究大局观,说收官与战斗自己研究就行。但是世界棋坛的发展却出乎预料,高手们走向了暴力围棋。这是因为人类棋手眼中的大局观,琢磨到后来就说不清楚了,高手复盘时经常意见不统一。低手大局观提升变高手可以,高手再怎么提高就不知道了。后来甚至以为围棋布局也就这回事,再怎么琢磨也占不了多大便宜,随便下下就行了,中后盘决战才是王道。而且实战也确实如此,没有哪个棋手布局优势突出,都是拼中后盘。

2017年3月22日世界围棋最强战,DeepZenGo执白负朴廷桓

然而,150万美元奖金虽高却像画饼,几乎没人相信柯洁能胜两盘获得比赛的胜利。但这不是钱的事,只要柯洁胜一盘,就能封神了。

如图,第225手时DeepZenGo已经是盘面都好的必胜局面了,朴廷桓打劫死撑。226手忽然放弃打劫封口围中央。早就在等机会的朴廷桓当然229手冲进白空中搞事,DeepZenGo坚决要吃掉229、231这些来“送死”的。但是233这手一出,DeepZenGo才发现自己算错了,这三个黑子吃不掉。这个误算其实发生在226手,由于选择与后续手数较多DeepZenGo配置不行搜索能力差一些,发生了“地平线效应”,觉悟过来时为时已晚。AlphaGo也出过同样类型的错,就是李世石著名的“神之一手”引发的误算。

人类棋手的误区是,总是不由自主把围棋AI当作人来看待,首先根据战绩判断AI的实力,其次看棋谱。以前看棋谱觉得AlphaGo实力不强,李世石100万美元奖金天上掉馅饼。AlphaGo3:0胜出的时候,又觉得AlphaGo不可战胜了,要让二子。李世石胜了一盘,又觉得原来AI有弱点,畏惧心理消除。AlphaGo升级为Master下得又快又好创新很多,又觉得它深不可测,不可战胜了。看DeepZenGo网上战绩,高手们评价不太高,但从最强战三局慢棋实战表现来看是低估了它。只有绝艺一直和高手们亲密接触,甚至有能悔棋的内测版,开发人员中也有罗洗河这个世界冠军,所以棋手们了解多些。

2009年9月4日,第一届丰田杯八强赛李昌镐执黑胜阿基鲁尔

打了很多比喻,还是要具体说算法。AlphaGo在去年3月以后,算法框架又有了突破。但是从种种迹象来看,围棋AI下棋还是依靠三大技术:给出搜索候选点的策略网络、评估局势的价值网络、展开搜索树模拟至终局数子的MCTS,这三大技术全部以“胜率”这样的概率输出统一起来。AlphaGo、绝艺、DeepZenGo,以及一些更弱的AI都是这样下棋的,在基本框架上没有本质区别,有的没有价值网络。谷歌团队厉害的是,在训练上有很多突破,做出来的策略网络、价值网络在质量与特性上,比其它AI要厉害得多。

围棋AI是程序,思维和人截然不同,不能象观察人那样去想象它的能力。它强的地方,不要低估,它弱的地方,也不要高估。除了战绩、棋谱这些摆在明面上的信息,更值得分析的是AI的算法。应该从算法原理去分析,围棋AI为什么强,为什么弱,结合实战表现,做出合理的解释与猜想。现在棋界一大问题是对AlphaGo太过惧怕,不少职业棋手对Master可以说是吓死的,招法完全变形,序盘就败了。不了解对手,对手下的招出乎预料就害怕傻眼了,时间压力之下失去正常思维,这根本没法下棋了。

2016年12月31日,Master执黑胜朴廷桓

发表评论

电子邮件地址不会被公开。 必填项已用*标注

网站地图xml地图