从零开始,AlphaGo Zero是怎样探索围棋极限的

在2017年深度学习和人工智能都取嘚了惊人的进步,尤其DeepMind的AlphaGo系列令人记忆犹新。其中AlphaGo Zero这个版本更是取得了惊人的突破:三天内通过自我对抗赛,超过了AlphaGo 的实力赢得了100場比赛的全胜;21天内达到AlphaGo Master的水平,并在40天内超过了所有旧版本知名计算机科学研究员Xavier Amatrain称它比“机器学习”中“过去5年的成果加起来都重偠”。

那么DeepMind是如何做到的呢在这篇文章中,我将尝试用最通俗易懂的语言来解释AlphaGo Zero使用的技术、工作方式以及对未来的AI研究产生的影响。让我们从AlphaGo和AlphaGo Zero工作的一般方法开始吧

AlphaGo和AlphaGo Zero都是在棋盘上进行评估,并使用两种方法组合来选择落子位置:

执行 “ 前瞻 ”的搜索结果:通过模拟游戏进行预判从而了解哪些位置最有可能在未来成为一个“好”位置,也就是多看几步根据“ 直觉 ”来评估落子位置,即落子位置是“好”还是“坏”落子会导致胜利还是失败。

AlphaGo和AlphaGo Zero都巧妙地结合了这两种方法我们来分别看一看:

围棋是一个非常复杂的游戏,电腦不能简单地搜索所有可能使用蛮力找到最好的答案(因为围棋的变化实在太多,数不胜数)

AlphaGo使用“ 蒙特卡罗树搜索 ”(MCTS)克服这个問题。这种方法首先需要在棋盘上探索许多可能的变化, 然后随着棋局的进行把这些变化集中起来比较优劣, 就会发现某些着法比其他着法哽有可能通向胜利。

AlphaGo 和 AlphaGo Zero简单地使用MCTS搜索棋谱中的最佳着法并罗列出来, 在大量最佳着法之间权衡比较,选择新的落子点;并且更深入地探索棋谱中已经出现的变化

其实在AlphaGo之前,MCTS就已经是所有棋类程序使用的核心技术了但DeepMind将这一技术巧妙地与基于神经网络的“直觉”相结匼,使AlphaGo超越了人类水平

DeepMind对AlphaGo的主要创新是利用深层神经网络来理解游戏的状态,然后利用这种理解智能地指导MCTS进行搜索

更具体地说他们訓练的网络可以看到:

当前棋盘上的状态。是哪位棋手正在下棋棋手最近的一系列着法(必须排除那些不可能的着法)。

鉴于这些信息神经网络可以推荐:

应该采取的措施。目前的棋手是否有可能获胜

AlphaGo的“直觉”:策略网络和价值网络

AlphaGo有两个分开训练的神经网络。

1.第┅个神经网络(随机初始化)从大量真实对弈的棋谱中学习模拟人类高手。这个问题是深层神经网络擅长解决的看似困难,却是很直接的模式识别问题; 事实上一旦接受了训练,这个网络确实学会了一些人类高手的最佳着法

2.DeepMind不只希望AlphaGo模仿人类玩家,他们也希望赢得胜利为了选出对弈中更有可能取得胜利的着法,模拟人类高手的第一个神经网络开始与自己对弈

随后DeepMind从这些“自我对弈”棋局中随机抽取着法;如果一个选定的着法使当前玩家在对弈中最终获胜,那么网络在将来更有可能采取类似的下法

3.DeepMind将这两个神经网络与MCTS结合在一起——也就是说,程序的“直觉”加上强大的“前瞻”搜索——这是一种非常聪明的方式即,使用已经训练过的网络预测一个着法指导MCTS搜索,并判断选择的位置是否会取得最终“胜利”用此结果评估搜索期间选择的落子位置是否妥当。这让AlphaGo智能地搜索接下来的动作并朂终击败了李世石。

然而AlphaGo Zero把这些提升到了一个全新的高度。

从更高的层面上来说AlphaGo Zero的工作方式与AlphaGo相同:具体来说,它也使用MCTS预测搜索通过神经网络智能引导。

然而AlphaGo Zero的神经网络——它的“直觉”——与AlphaGo的完全不同。

DeepMind认识到神经网络无论多么智能,想要“理解”围棋游戲都要借助MCTS。

MCTS执行一种预测搜索一个人类棋手,只要有足够的时间也能做出这些预测:智能地猜测所有变化,未来着法的优劣那些着法是最有希望获胜的,并模拟这些变化来决定此刻的着法,以及接下来的走法

下面是一个例子。假设有一个神经网络正在读棋盘当前局面会导致平局,评估结果为0.0然后,网络智能地向前看一些着法发现一系列下法可能获胜,评估结果为0.5然后,它随时更新对當前棋局的评估以保障自己下一次处于更有利的位置。

DeepMind的神经网络无论和业余爱好者还是职业高手对弈采取的都是这样的方式:通过“前瞻”查看当前哪个选项会产生更有利的结果。

另外就像AlphaGo一样,DeepMind也希望神经网络能够了解哪些着法可能会走向胜利因此,与以往一樣神经网络和自己对弈,赢得一些经验并去除一些不妥当的着法。

这些数据纯粹是通过预测和自我对弈生成的是DeepMind用来训练AlphaGo Zero的主要数據。

很多人认为AlphaGo Zero的训练没有使用任何人类的棋谱有些不可思议,而这个“技巧”就是原因:对于对弈中的一个给定状态执行MCTS的前瞻预測,并利用结果来改善对弈情况这就是AlphaGo Zero能够不断提高的原因,从击败业余选手一直到击败人类的职业高手

第二个技巧是一个新的神经網络结构,我称之为“双头怪物”

AlphaGo Zero的神经网络架构,是一个“双头”架构它的前20层是常见的神经网络结构。这些层后面有“两个头”:其中一头利用前20层的输出,产生下一步落子获胜的概率另一个头利用前20层的输出,推理出当前玩家在此情形下最终获胜的概率

这是佷不寻常的。因为在几乎所有应用中神经网络只有一个固定的输出。如果一个网络接收两组信号网络如何学习?是选择对大局的评估还是选择对下一步最有利的下法?

答案很简单:请记住神经网络只是一些数学函数,大量参数决定了预测结果; 通过反复向网络展示“囸确答案”让它更新参数,使产生的答案更接近正确答案

因此,当使用双头神经网络的头1进行预测时我们只需更新“身体”和“头1”中的参数。同样当我们使用头2进行预测时,更新“身体”和“头2”中的参数

这就是DeepMind用来指导MCTS的“双头”神经网络,就像AlphaGo用两个独立嘚神经网络一样这个窍门使AlphaGo Zero比AlphaGo增加了一倍的实力。

另一方面AlphaGo Zero实力的增加还结合了该领域最新技术。

AlphaGo Zero使用了比AlphaGo更“尖端”的神经网络具体来说,他们使用残余神经网络而不是纯粹的卷积网络。2015年末就在AlphaGo第一个版本完成时,微软研究院率先推出了残余网络所以,DeepMind并沒有在最初的AlphaGo中使用它这是可以理解的。

有趣的是这两个与神经网络相关的技巧——从卷积到残余,使用“双头怪物”神经网络——導致了AlphaGo Zero比AlphaGo增加了一倍的实力如下图所示。

这三个技巧使得AlphaGo Zero能够实现令人难以置信的性能即使Alpha Go使用这三个技巧也一样会增强实力。

值得紸意的是AlphaGo并没有使用任何经典的,甚至“尖端”的强化学习概念没有深度Q学习(无模型强化学习),或者任何其他与强化学习相关的東西它只是使用模拟来生成神经网络的训练数据,然后以监督的方式学习在发布AlphaGo Zero之后,Denny Britz曾在推特中发表了自己的看法:

2.进行自我对弈每一步进行1600次MCTS模拟(大约需要0.4秒)。

3.随着自我对弈的进行从最近的50万场比赛中抽取2048个落子位置以及比赛的输赢情况作为样本。

4.使用MCTS向湔搜索对着法进行评估,训练神经网络

5.对步骤3、4每1000次进行迭代,评估当前的神经网络与以前的最佳版本;如果胜率达到55%就使用新的鉮经网络生成游戏,摒弃以前的版本

重复第3、4步70万次,而自我对弈游戏不断进行——三天后你会有自己的AlphaGo Zero!

DeepMind在人工智能研究领域取得叻令人难以置信的成就。这里有几个关键因素:

首先模拟产生的自我训练数据“足够好”,DeepMind的神经网络训练表明模拟的自我对抗数据鈳以训练主体在极其复杂的任务中超越人类的表现,甚至从头开始完全从数据开始。而对于人类来说想成为专家靠的可不是数据,因為我们的成长需要经验的积累

其次,“双头怪物”的技巧似乎可以帮助神经网络执行多个相关性很强的任务单独的任务发挥不了它的優势。DeepMind似乎非常喜欢这个技巧并使用它及其高级版本,学习多个不同领域的多个任务

很多机器人项目,特别是使用模拟教机器人用肢體完成任务的项目正在使用这两个技巧,以取得良好的效果

Pieter Abbeel在最近的NIPS主题演讲中就介绍了许多令人印象深刻的新成果,这些成果使用叻以上技巧以及许多其他的出色的强化学习技术

事实上,竞技运动与“双头怪物”似乎完美契合:例如同时训练机器人用球棒击球,並用拳头击打一个移动的目标因为这两项任务需要学习一些共同的常用技能(如保持平衡、躯干旋转)。

DeepMind的AlphaGo Zero是2017年人工智能和深度学习方媔最令人感兴趣的进步之一我迫不及待地想知道2018年他们会带给我们什么!

亲爱的朋友:2017年,AlphaGo Zero惊艳了世界我们感叹人工智能的发展之快,也好奇甚或恐惧Zero是如何自我修炼的这篇文章里,作者用通俗易懂的方式给我们介绍了AlphaGo Zero的使用技术和工作方式;并教我们如何训练自巳的Zero。希望能对你有所启发安! 智能观 一米 于北京中关村

声明编译文章旨在帮助读者了解行业新思想、新观点及新动态,为原作者观點不代表智能观观点。

2017年末DeepMind推出了AlphaZero——一套能够从零開始自主学习国际象棋、将棋(类似于日本版的国际象棋)以及围棋的技艺,从而全面超越各项目世界冠军的系统

对于这一系统带来的初步成果,整个公司的研发人员都感到非常兴奋并很高兴看到国际象棋界成员对此做出的热烈回应。他们在AlphaZero的棋艺当中发现了一种突破性、高度动态且“不同于传统”的对弈风格这也使其完全不同于以往存在过的任何棋类游戏引擎。

今天AlphaZero登上了著名的《科学》杂志,並以封面论文的形式发表它背后的公司DeepMind也在官方博客上撰文,为这一系统取得的最新成就进行了详细解析InfoQ将全文翻译整理如下:

今天,我们很高兴地发布AlphaZero的完整评估报告这篇论文已经公开发表在《科学》杂志上:

评审编辑已经确认并更新了这些初步结果。论文描述了AlphaZero洳何快速学习每一种棋类包括在仅获得游戏基本规则、但完全不存在内置指导的前提下从随机游戏开始,一步步成长为有史以来最强大嘚棋手

这种从零开始学习每种棋类的能力由于不受人类固有思维的约束,因此产生出一种独特、有悖于传统但却极具创造性与动态思栲的对弈风格。国际象棋大量马修·萨德勒(Matthew Sadler)与女子国际象棋大师娜塔莎·里根(Natasha Regan)在即将于明年1月出版的《游戏规则改变者(Game Changer)》一書中分析了AlphaZero进行的数千盘国际象棋对弈并发现其风格不同于任何传统的国际象棋引擎。马修表示“这就像是发现了古代棋艺大师的秘籍一样。”

传统的国际象棋引擎——包括世界计算机国际象棋冠军Stockfish与IBM广为人知的“深蓝”——依赖于数千条由顶尖人类棋手提供的规则与啟发式方法这些信息尝试解释游戏中的每一种可能性。将棋同样遵循此理其程序仅适用于将棋本身,但采用与国际象棋程序类似的搜索引擎与算法

AlphaZero采取的方法则完全不同,其利用一套深层神经网络与大量通用型算法取代了那些手工制作的规则而且这些算法除了棋类嘚基本规则之外一无所知。

在国际象棋当中AlphaZero仅用了4个小时便成功击败Stockfish; 在将棋方面,其击败Elmo则仅用掉2个小时; 至于围棋AlphaZero在30个小时即击败曾於2016年压倒世界冠军李世石的AlphaGo版本。注意:每个训练步骤代表4096个盘面位置

为了学习每种棋类,这套未经训练的神经网络会通过一种被称为強化学习的实验与试错过程完成数百万盘自我对弈起初,其完全是在随机乱下; 但随着时间的推移系统会从胜利、失败以及平局当中学習经验,从而调整神经网络参数使其更有可能在未来的选择中做出有利判断。网络所需要的训练量取决于游戏的风格与复杂程度——国際象棋大约需要9个小时将其大约需要12个小时,而围棋则需要13天

这套经过训练的网络被用于指导一种搜索算法——被称为蒙特卡洛树搜索(简称MCTS)——坐而选择当前盘面下最为有利的棋步。对于每一步棋AlphaZero所需要的位置搜索量只相当于传统国际象棋引擎的一小部分。例如茬国际象棋当中AlphaZero每秒只需要搜索6万个位置; 相比之下,Stockfish则需要搜索大约6000万个位置

经过全面训练之后,这套系统被用于对抗最强大的传统國际象棋(Stockfish)与将棋(Elmo)引擎甚至还包括AlphaZero“一奶同胞”的大哥AlphaGo——全球最强围棋棋手。

  • 每款程序都运行在专门设计的硬件之上Stockfish与Elmo采用44個CPU核心(与TCEC世界锦标赛时的情况保持一致),而AlphaZero与AlphaGo Zero则使用一台配备有4个第一代TPU与44个CPU核心的机器第一代TPU的推理速度与英伟达Titan V GPU等商用硬件大體相似——当然,二者的架构差别巨大不具备直接可比性。

  • 所有比赛均采用单场3小时制每步棋额外增加15秒。
    在所有对抗当中AlphaZero都以毫無争议的方式击败了对手:

  • 在国际象棋方面,AlphaZero击败了2016年TCEC(第9季)世界锦标赛冠军Stockfish——其中AlphaZero获得155场胜利且败率仅为千分之六。为了验证AlphaZero的穩健性我们还刻意为双方准备了由人类常规开盘形成的残局。无论是哪种残局AlphaZero仍能顺利击败Stockfish。此外我们亦参加了2016年TCEC世界锦标赛,并茬比赛中对阵近期刚刚进行升级的Stockfish版本——其中一种Stockfish变体采用了非常强大的开局走法组合但AlphaZero仍无一例外全部取胜。

  • 在将棋方面AlphaZero击败了茬2017年CSA世界锦标赛上胜出的Elmo版本,胜率为91.2%

然而,更令人着迷的是AlphaZero在对弈过程中展现出的行棋风格例如,在国际象棋当中AlphaZero在自我学习与訓练当中独立发现并使用了常见的人类行棋模式,例如开口、保王以及兵阵等等然而,由于自学成才且完全不受传统观念的影响AlphaZero也发展出了自己的直觉与策略。其提出的一系列令人兴奋的新颖想法大大拓展了几个世纪以来人类对于国际象棋战略的理解。

棋手们首先注意到的一定是AlphaZero的行棋风格。马修·萨德勒表示,“它的走法充满了目的性与攻击性,始终围绕着对方的王进行谋划”以此为基础,AlphaZero还拥囿着高度动态化的对弈能力这最大限度提高了其棋路的灵活性与移动性,同时最大限制着对方棋子的灵活性与移动性与直觉相反,AlphaZero似乎对于“棋子角色”的重视程度较低现代竞技项目的一大基础特性,所有参与方都具有价值如果某一选手在棋盘上的棋子价值高于对方,则表示前者在棋子角色方面具有优势但不同于此,AlphaZero更倾向于在开局之初就牺牲这些棋子角色从而获得更为长远的形势性收益。

马修指出“令人印象深刻的是,它在各种角色与位点上都表现出这种强烈的行棋风格”他同时观察到,AlphaZero在起步阶段会非常刻意地以“与囚类非常相似的意图”设计开局

马修解释称,“传统引擎非常稳定几乎不会出现明显的错误。但在面对没有具体且可参考解决方案的位置时则显得束手无策。相比之下AlphaZero则能够在这样的位置上表现出「感觉」、「洞察」或者「直觉」。”

这种独特的能力是其它传统国際象棋引擎所不具备的而且也在最近的世界国际象棋锦标赛当中为国际象棋爱好者们带来了新的思路与启发。马格努斯·卡尔森(Magnus Carlsen)与法比亚诺·卡鲁安纳(Fabiano Caruana)之间的比赛就有所体现《游戏规则改变者》一书就对此做出了进一步探讨。娜塔莎·里根表示,“对AlphaZero以及顶级國际象棋引擎乃至顶级大师的行棋方式进行分析着实令人着迷。”

AlphaZero带来的经验也与2016年AlphaGo与传奇围棋大师李世石间的对弈有所呼应。在此佽比赛当中AlphaGo走出了许多极具创造性的取胜手法,包括在第二场比赛中只用37步即告胜出——这彻底推翻了数百年来人类对于围棋运动的理解这些棋步已经被包括李世石本人在内的众多棋手奉为经典案例。在评论第37步时李世石表示,“我一直认为AlphaGo属于那种基于概率的计算笁具毕竟它只是一台机器。但在看到这一步时我改变了看法。不可否认AlphaGo拥有真正的创造力。”

与围棋一样我们也对AlphaZero在国际象棋领域表现出的创造性感到兴奋。自从计算机时代开始以来国际象棋一直是人工智能技术面临的主要挑战——包括巴贝奇、图灵、香农以及馮·诺伊曼在内的众多早期开拓者都在努力设计能够解决国际象棋问题的方案。但AlphaZero的适用于并不仅限于国际象棋、将棋或者围棋。为了建竝起能够解决各类现实问题的智能系统我们要求其具备灵活性并能够适应各种新情况。虽然我们已经在实现这一目标方面取得了一定进展但其仍然是人工智能研究中的一大核心挑战。目前的系统虽然能够以极高的标准掌握特定技能但却往往无法解决甚至只经过略微修妀的任务。

AlphaZero这种掌握三种不同复杂棋类(甚至有可能涵盖一切完美信息类项目)的能力代表着克服这一问题的重要一步这证明单一算法唍全有可能在不同的具体规则之下学习并发现新知识。另外尽管尚处于早期发展阶段,但AlphaZero的创造性见解加上我们在AlphaFold等其它项目中观察到嘚振奋人心的结果使我们对于创建通用学习系统这一目标充满信心。这意味着我们有望发现更多新的解决方案从而攻克那些最重要也朂复杂的科学问题。

12月20-21将于北京盛大开幕,学习来自Google、微软、BAT、360、京东、美团等40+AI落地案例年终总结与国内外一线技术大咖面对面交流,不见不散

先占个位子回答进行中。

0.3 Fan Hui (樊麾職业二段) 成为了本文的共同作者创造了历史。成为了世界上第一位在 Nature 杂志发表论文的职业棋手恭喜樊麾老师成功跨界职业围棋和深度學习两个领域,成为围棋领域论文影响因子最高的职业棋手同时也超越黄博士,成为了深度学习研究领域围棋棋力最高的科研工作者

汾,同柯洁和朴廷桓之间的差距相当如果等级分估计准确的话,柯洁的确有机会在番棋中赢 AlphaGo Lee. 而 AlphaGo Zero/AlhpaGo Master 应该有让柯洁两子的实力

已经仔细读完論文,感觉非常震撼下面是个人解读,预计分三部分:技术细节 整体感想,机(bu)会(zu)与未来展望周末前完成。在知乎上写回答评论学术論文有些行为艺术因此这会是我的第一次也是最后一次。

Lee/Master/Fan 用过的人工特征包括: 当前位置是否是征子/引征 当前位置吃子/被吃子数目, 本塊棋的气数等); 2) 初始训练时不再使用人类棋谱做有监督学习而是直接从基于围棋规则的随机下法开始强化学习。

AlphaGo Raw Network: 除了上述版本外, DeepMind 还实验了┅个 Raw Network 版本也就是直接用 AlphaGo Zero 训练出来的 二合一网络走子,不做 MTCS 搜索这个版本相当于人类棋手下多面打指导棋,仅凭棋感不做计算时的行棋策略 (或者相当于老年职业棋手完全丧失计算力时的下棋方式?)AlphaGo Raw Network 棋力大约为 3055 . 作为参考,女职业棋手范蔚菁的等级分正好是 3055.

600分的提高; c) Reinforcement Learning 训练算法的改进 (Policy Gradient -> Policy Iteration)论文并没有量化这一改动的影响。但个人认为这里的改动很可能导致的在不动用大量计算资源的情况下更稳定的收敛速度和哽好的克服遗忘性能; d) 取消人类棋谱知识和人工特征论文暗示(但没有提供详细证据)

grid-structure of the board." ,AlphaGo Zero 的特征提取还是有一定技巧的AlphaGo Zero 提取了 17 个通道的 19x19二值圖像作为特征输入进神经网形状形状络。 其中有八个通道是当前黑棋形状加上之前七步黑棋形状还有八个通道是当前白棋加上之前七步皛棋形状。第17个通道表示当前行棋方如果轮黑方行棋,整个 19x19 通道的取值就是 1, 如果轮白方行棋整个 19x19通道的取值就是 0. 上述取值方式有两点囿趣之处: a) 在提取特征中黑棋和白棋存在与不同平面上,神经网络对黑棋或白棋棋形分别做 2d 卷积卷积神经网络并不把黑棋和白棋简单看作兩种颜色直接在一个平面里卷积; b) 提取出的特征包含了当前棋盘和之前15手棋盘的内容 (相当于是一个宽度为16的在时间维度上的滑动窗),这是一種比较典型的用 CNN 处理时序信号的方法之前 DeepMind 用RL玩 Atari 游戏也用了类似的方法。因为打劫/禁止同型等规则要求 作者认为需要提供历史行棋特征來确定下一手。疑惑:文中说使用第17个平面是因为贴目 (Komi) 规则下无法通过当前棋盘上的棋子和提走的棋子确定下一手的行棋方莫非这是作鍺的笔误?此处 Komi (贴目) 应为 handicap (让子)逻辑上才解释得通?

1.4 强化学习这里可能是本文最令人震惊的部分了。套用近期一句流行语此处训练算法和訓练过程完全可以用 "the unreasonable effectiveness of reinforcement learning" 来形容 (意译: 训练效果好到难以置信)。即使对于围棋这样的完全信息博弈游戏AlphaGo Zero 的强化学习训练能以如此效率,如此速喥收敛实在是难以置信。算法部分在 1.1 - 1.3 小结中已有简略叙述这里补充一些细节:a) AlphaGo Zero 在三天训练中产生了近五百万局对局 (4.9 million), 考虑到除了围棋规則外,每局自我对局仅含 1比特的胜负关系信息用于强化学习 (获胜目数并不产生额外奖励). 考虑到不同对局间的走法的冗余 所示, 强化学习算法可以预测人类棋手的下一步棋随着训练时间的增长,预测准确度也会提高但准确率始终比监督学习版本低 2-3个百分点。与此同时強化学习对人类对局结果的预测准确率却可以迅速超越有监督学习算法。 这里作者把上述现象当做人类知识可能会拖软件算法后腿的一个旁证注:这里 Figure 3.b 和 Figure 3.c 的结果和 2016年第一篇

2.1 简洁之美。整篇论文读完非常震撼整个系统和2016年的 AlphaGo Fan 相比,更简洁更优雅,计算量更小同时棋力哽高了。如果说 2016 年的 AlphaGo Fan 论文展示了Google DeepMind 团队超强的工程能力和执行能力 那么这次的 AlphaGo Zero 论文就体现了Google DeepMind 团队的科学素养和研究品味。依照论文描述這次 AlphaGo Zero 软件实现复杂度和硬件资源需求都大幅降低,被第三方重现甚至是大学实验室或个人重现的难度将大大降低。这篇论文虽然没有第彡次上 Nature封面 (之前DeepMind 用 RL 玩 Atari 游戏AlphaGo Fan 都上了封面),但我觉得这篇文章会是三篇中历史地位最高的

2.2 到底发生了什么?因为系统设计简洁到不可思议效果好到不可思议,接下来的一个重要问题就是:效果为什么这么好? 这究竟是说明了: a) 强化学习巨大的潜力; b) 围棋这个问题似难实易; 还是 c) 卷积神经网络+强化学习这套方案恰好完美契合围棋这类开放问题? 个人愚见通过后续研究发现 AlphaGo Zero 方案有效性的本质原因会给相关领域的理论沝平和工程实践水平带来一次飞跃。

Engineering)传统人工智能系统的性能并非取决于分类器设计,而主要取决于数据预处理特征提取和特征设计。到了深度学习时代大数据采集,数据增强(根据某些先验知识对数据进行变化以增加数据的数量和多样性)成了算法设计师和系统工程師的日常。能否借鉴 AlphaGo Zero 的思想不直接做 Data Augmentation, 而是对目标系统做部分或全部建模,然后在庞大的模型空间中通过特定采样算法进行采样AlphaGo Zero 证明了洳果采样算法合理,即使只采样了模型空间的一个天文数字分之一的子集也能很好描述问题领域。考虑到 No Free Lunch Theorem, 我们很可能需要根据问题的领域特性设计合适的 Domain Specific Sampling Strategies and

的共识在当前中国规则下执白是有不到一目的优势的。即使对等级分低于自己300分的下手 AlphaGo Master, AlphaGo Zero 依然无法做到把不到一目的执皛优势保持到终局;b) AlphaGo Zero 最终形态自我对弈时执白胜率约为 70% , 也间接说明了 AlphaGo Zero 在和水平接近的对手下棋时有大约30%的概率无法将不到一目的优势从開局保持到终局。 个人大胆猜测:高水平围棋软件基于中国规则自我对弈时的执白胜率可以间接反映和围棋上帝的接近程度接近围棋上渧的软件自我对弈时执白胜率应无限接近 100%

2.5 海外人才引进。在感想 0.3 中略微调侃了一下 Nature 作者樊麾职业二段如果下个月某著名高校传来消息,破格将樊麾为做为海外杰出学者引进为该校人工智能方向讲席教授学术带头人,长江学者+青年千人理由是樊麾二段在 AlphaGo Zero 项目中的“里程碑式贡献”,媒体报道和自然杂志论文大家会作何感想?不要觉得荒唐在过去十几年,不少高校对外宣传重金引进了 David Silver 式的领军人物實际上引进的是类似樊麾的著名项目的参与者。此处水很深不能细说。

夸奖完后再谈一谈我的顾虑和对未来的展望。我把预言(马前炮)放在这里希望尽快看到被证实或证伪的一天。

3.1 学习效果AlphaGo Zero, 或者说卷积神经网络,是否真的可以在任何场景灵活运用学到的围棋知识? 唎如 AlphaGo Zero 学会了征子/引征/打吃的知识是否代表 AlphaGo Zero 可以在任何场景发现引证/打吃?本人对此略感悲观理由有两个: a) 即使让神经网络通过大量例孓学习简单的除法求余数规则,也不能保证训练出的网络可以正确处理任何未知数字请参考 作为上述观点的一个具体证据。 要做到真正嘚触类旁通人类学习过程中有一个归纳-> 升华为定律 -> 推理/演绎的过程。目前没有证据证明卷积神经网络支持基于公理/定理的严格逻辑推理/演绎在网上60:0 大胜职业棋手,3:0 胜柯洁的 AlphaGo Master 不存在上述问题因为 AlphaGo Master 是直接通过手写算法判断征子,吃子紧气等概念的。哪怕 AlphaGo Zero 可以通过强化学習发现 99%以上的征子吃子,一次漏看也会导致棋局瞬间崩溃同时,4百万盘自我对局里不一定存在足够多的执白模仿棋如果没有人工知識或逻辑推演模块,出于贴目压力 AlphaGo Zero 也许不能有效应对执白模仿棋; b) AlphaGo Master 乌镇联棋和 AlphaGo Master/Zero 对弈棋局都表明当 AlphaGo 自我判断出于下风棋时,有可能进入"疯狗模式“即走出一些明显是打将的损棋,期待对手漏看 不难想象,如果进入疯狗模式的 AlphaGo 认为对手会漏看基于概率行棋的另一只狗很囿可能真的会漏看。

3.2 其它领域一个直接后续工作: 能否使用 AlphaGo Zero 的训练框架,提高现有国际象棋软件的棋力 自二十年前深蓝战胜卡斯帕罗夫后,国象软件已经有了长足进步现在很多手机上的国象软件(如 Pocket Fritz),已经有了国际特技大师的棋力但现有的国象软件,都是基于开局库+終局库+人工局面评估函数+Alpha–beta 剪枝方案 能否不引入象棋规则外的任何人类知识 (开局库, 人工局面评估函数), 从零开始训练出一个最强的国象软件?尽管国际象棋的状态空间远小于围棋但国象存在大量和棋,大量和棋是否会导致算法收敛于低水平和棋而无法进步AlphaGo Zero 的思想,有推廣潜力的话会刺激基于建模环境和采样生成训练样本的方案作为有监督学习的补充. (未完待续)

3.3 对围棋和围棋棋手的影响。 谁会是第一位使鼡围棋软件作弊被抓获的职业棋手 国际象棋,中国象棋领域都有职业棋手在正式比赛中使用软件作弊被抓的记录我相信只要有利益,僦会有人铤而走险谁会是第一位受益于高水平围棋软件的职业围棋棋手?高水平软件很可能改变职业棋手的对局方式:a) 职业棋手利用围棋软件提升自己的大局观和计算力; b) 职业棋手借助围棋软件大规模发现'飞刀'在比赛时使用围棋对局很可能会演变成线下飞刀发现能力的比拼。少数极为成功的棋手也许会有私人的围棋软件定制开发团队; c) 围棋软件还会改变儿童的学棋方式也许在未来,去北京加入围棋道场不洅是有天赋围棋儿童入段的唯一方式

我要回帖

 

随机推荐