凭着自我感觉预测未来走过的每一步都算数棋怎么走

围棋九段如何点评人机大战第一场
[摘要]人工智能、围棋领域的专家共同解读人工智能与人类智力的巅峰对决。
人机围棋大战第一局,李世石(黑) VS AlphaGo (白中盘胜)编者按:人机对弈的巅峰对决,李世石九段首场被棋界寄予厚望,但是盘中出现情绪波动最终被机器逆转。他在赛前认为人工智能还不够强、排除万一的担心居然一语成谶,“因为人类下棋时会有失误。”人类输了棋,有人在欢呼人工智能的伟大胜利,有人的感受比较失落,还有的人开始担忧未来。而在()CEO施密特看来,不管胜败,人类都是最大的赢家。“机器”总比人类强?在各种情绪面前,历史和现实都已经表明,这似乎是不可阻挡的趋势。也许人类应该避免的是因为赛事带来的人与机器二元对立的情绪,因为我们终将迎来一个人工智能技术应用日渐丰富的生活场景。文 | 江铸久、卫鸿泰、张峥、田渊栋、董飞、朱文章、刘峰、卫鸿泰、何波等●●●2015年10月,AlphaGo先以5:0击败了欧洲围棋冠军樊麾二段。这是电脑围棋程序第一次在全尺寸棋盘上公平击败职业围棋棋手。日——15日,AlphaGo挑战世界排名第二、韩国棋手李世石九段,人机对决举世瞩目。在第一局的对决中,AlphaGo执白186手,以约7.5目的优势中盘取胜,《知识分子》特邀请多位人工智能、围棋领域的专家,通过微信群和广大网友共同解读人工智能与人类智力的巅峰对决。感谢各位网友的踊跃参与!江铸久九段,中国国家队著名国手,韩国棋院客座棋士。今天这棋AlphaGo表现挺好的,我觉得。不过不管怎么说,尽管我预测偏向电脑赢,赢一盘就算赢,但没想到第一盘就赢,说明AlphaGo这5个月进步真的很快。从李世石布局阶段就能看出来,他今天在心理上一开始就有波动,因为他采取的是非正常的布局。我估计这是因为他知道是在跟AlphaGo,而不是和人类下棋。在这种情况下,我个人觉得李世石的布局不算太成功,而且AlphaGo上来的斗志是不错的,断的时候挺果断的,算路是比较深的。这样夸人工智能,也是它长处的地方。但是中途的时候,李世石追上来了。但是,在我看来左边拆二的发挥,是AlphaGo让职业棋手觉得low的地方,它那个下法肯定不是职业的下法。但是,有一点意外的就是,AlphaGo那个下法损失并不大,整个下法是很low,损失并不大,相对于在右边破黑棋的空,它的次序下得很精准,加上李世石在右边角上的失误,AlphaGo一下就超出了。况且它在左边的下法,基本上是AlphaGo胜利宣言的下法。那些小的失误反而让人想起全盛期的李昌镐。李昌镐在形势领先的时候,经常有一些失误,但是倒过来看,他的那些失误都是很保险的,一点风险都不冒就会赢下来。所以,我觉得AlphaGo很了不起。卫鸿泰知乎围棋专栏主持人、围棋业余5段这一盘,李世石输给机器,意外的是,人类在大局观上输给了机器。这盘棋开局稍显意外,印象中这样的开局是第一次见,感觉李世石有备而来,故意选择了不常见的下法。之后作战很强硬,局部来看,黑棋稍有勉强。之后黑棋逐渐占据上风,进行到76手的时候我觉得AlphaGo下的实在太机械,太僵硬,有点暴露“机器本性”。进行到这里大家开始普遍看好黑棋了。接下来是本盘最有看点的一招:102 是非常有个性的一步,也是柯洁(九段)指出的好棋,之后AlphaGo占到便宜以后连续两次脱先,逐渐扭转了局面。之后右下角的悬念是AlphaGo右下没有跳一路是看到目数优势,简明处理还是没有看到手筋,当然我倾向于前者。之后收官双方都很平稳,本局唯一一次打劫也简单结束,希望之后能看到AlphaGo对于复杂劫争的控制水平。张峥上海纽约大学计算机教授、前亚洲研究院副院长刚刚仔细读过AlphaGo,没觉得有什么破绽。在自己左右手互搏中的计算价值那部分为了效率用了“快棋”策略,可能粗糙些,但下得多可以弥补。有网友提出的和李世石比赛会“偷招”这个倒不用担心,五局的样本对机器没用,它不靠这个,靠的是工程上高效率、策略上粗枝大叶但大方向正确。AlphaGo胜利的概率是100%,只不过不见得是这次。“毛病”还是机器学习的老毛病。表现在:无法总结规律,或者说无法吐出一套规整自洽的规律;泛化能力差,无法在复盘中举一反三,即便告诉它哪步走错了,恐怕它也不知道为啥,只是一气儿死磕到撞了南墙才完事。对谷歌如何复盘我很好奇。如何实现不败呢?AlphaGo从大量的棋谱开始练,除非有它没见过的变化,而且远离它见过的和自己能演练到的。要下无理棋,把围棋当五子棋下……但这种可能性太小。归根结底,和国际象棋变化少不一样,问题是围棋太古老了,以至于穷举了太多可能,而且还让AlphaGo看了!剩下的变化空间人是可以其乐无穷地去变化,对机器来说分分秒嗖嗖地就搜完了。这里围棋的长板变成短板,帮了AlphaGo:由于规则太简单,被机器抄了近道。田渊栋 卡耐基梅隆大学机器人系博士、人工智能组研究员,Facebook人工智能围棋程序Darkforest负责人我围棋水平很烂,但总的来说,可以对Alphago有所评论。第一点,如果你觉得AlphaGo的落子水平会波动,其实它可能判断胜率已经很高,有时候随便下;第二点,蒙特卡洛树搜索是遇强则强的,如果对手太弱的话也不会下出太强的手;第三点,AlphaGo下棋每一步最后都是算整体分数的,并非单纯局部,反倒是有时候局部弱,对杀会有问题;第四点,接下去的研究是进入程序的黑箱里去。人工智能研究者们虽然设计学习算法,但其实不知道电脑是怎么决策的,要打开黑箱了解内部机理,还有很长的路要走。董飞数据科学家、Coursera数据工程师这次是太多意外,在大家一边倒的支持李九段的时候,也有研究院副院长)力挺AlphaGo,认为机器会赢。这盘棋大致是前半段,李世石占有很多先机,但后来不知道为何保守下棋,犯了一些失误,势力峰回路转,而AlphaGo中盘发力,180度转弯,把李世石逼着认输。我想作为一次焦点比赛,关注的人太多,比赛的压力很大,李世石也似乎没有发挥最佳水平,今天这一盘还不能完全说明问题,如果明天他接着输了,那可以认定人工智能真的在围棋领域取得革命性突破。其实在(类似围棋的)这些封闭系统中,(人工智能)战胜人类也不奇怪。我记得有些预言家说过未来20年,98%的人类工作将会被机器取代,那么我们现在要怎么做?怎么才能成为那2%的人,我觉得只有人类的创意思维,不断创新才是出路,所谓的灵感、灵气、灵光。最后如果说我对明天的棋局有什么建议的话,那就是靠直觉判断,电脑目前还不会,对全局判断弄不大清楚,这可能是AlphaGo的弱点。朱文章香港科技公司首席架构师、香港大学计算机博士、围棋业余5段(弈城9段),前微软及谷歌软件工程师,iOS软件“围棋之眼”作者开局李世石下得太勉强,也下得快。到中间缓过来优势,102点的时候,虽然长考,但没有发挥出计算力的优势,被翻盘。右下角又没有出强手,左上也让白棋稳稳围住。这些估计都是失败之处。刘锋著名互联网资深人士、计算机博士,《人工智能学家》主编、AIE实验室创始人,《互联网进化论》作者震惊于AlphaGo战胜李世石九段,但若以科学实验流程规范来评价,我依然认为此次比赛不合格。谷歌应尽早展开线上多人(100人以上)同时在线对弈AlphaGo,以消除其实验不规范带来的质疑。在比赛公正的条件下,AlphaGo的此次胜利将意义非凡。甚至是人类发展史的一次巨大进步,可能的意义超过美国登月,但面对如此巨大的突破,我们是否应该持有更加谨慎和科学的态度?何波业余5段,中国科技大学物理博士,中泰证券股份有限公司信息技术部副总经理卫鸿泰(左)、何波(右)今天是个划时代的一天,AI在要点的把握上超过人类,不会有因为思维定势等缘故而跟着对手走棋,每一步坚定的走他觉得价值最大的点,这点我觉得很可怕。
另外,我觉得现在说AI超越人类还早,现在AI在输入的信息上并没有产生更多的信息度,如果有一天AI会自己创造数学公式,或者总结物理规律,这才是奇点来临。●●●读者问答部分精选“狗狗”的学习机制还是黑匣子Q1:请介绍今天比赛的计时、计分(贴子)规则。朱文章:比赛采用中国规则,黑棋贴7.5目,各两个小时,还加3次1分钟读秒Q2:电脑下棋会不会也形成像中韩日围棋届一样的某种流?朱文章:AlphaGo和机器人小图这个问题很大,你说它们能自学习吧,应该都有,但是不同系统,机器学习训练的方式,结构都有千差万别。我这方面还是不够深入了解。电脑的神经网络参数定了之后,应该有一定模式和风格。但是经过不断学习,它会改变。Q3:遇到不同的水平的棋手,AlphaGo的表现是不是也不同?田渊栋: 蒙特卡罗树搜索是遇强则强的,如果对手太弱的话不会下出太强的手。朱文章:AlphaGo团队最强的棋手是台湾的Ajahuang,台湾业余6段。Q4:作为训练数据的对局水平是否会影响围棋AI的水平?例如10000盘刚学会围棋的人的对局,和10000盘职业高段位棋手的对局,做训练数据,对同一个模型是否会有显著影响?田渊栋:不同质量的对局对训练影响很大。Q5:阿狗(AlphaGo)的策略也靠搜索来的吗?与之对弈,人落子拖时间长一点,和拖时间短一点,AI的结果会不会不一样?田渊栋:是啊,如果AI开了pondering(编者注:即长考)的话,就是说在对手思考的时候也思考。软件下棋每一步最后都是算整体分数的,不同质量的对局对训练影响很大。张峥:是,用少见的开局也许可以增加长距离蝴蝶效应的可能性。一进入局部就不好办了。Q6:硬件当中会有GPU(图形处理器)和CPU(中央处理器)共同工作吗?张峥:是的,用两种硬件协调工作是工程和资源的优化,不是本质。田渊栋:一直是两者同时工作的,CPU搜索,GPU评估局面。Q7:在过去的四个月中,AlphaGo的学习方式是复习历史棋局还是跟许多真人高手对決?AlphaGO是在局部算路更强的情况下,对整体势的把握是如何做的。卫鸿泰:兼而有之。Q8:我记得有人问Google作者,电脑是怎么下这一步的,他也不知道,不是靠背棋谱就可以知道的。为什么Google作者自己都不知道电脑怎么下棋的呀?不是他们设置学习机制的吗?田渊栋:设置了机制,但是不知道这个机制如何学得棋谱模式。所以,AlphaGo可以走很好的棋,但是制作者不知道这个是通过什么推理方式算出来的。要是知道了,对AI来说是非常大的突破。Q9:所以,机器思考的过程现在还是个黑匣子?田渊栋:是的,在这点上人工智能还是有很长的路要走。Q10:电脑的弱点之一是,算法可以解决局部的问题,但对整体局势的评估会弱一些。田渊栋:不一定,深度神经网络往往是倒过来,整体强而局部弱,需要加上搜索,DarkForest是这样。所以有时候死活,对杀会有问题。张峥:难说,狗狗的结构是从局部到全局的。Q11:我们能否说AlphaGo现在已经能够判别局势,而不是只判断接下来的几步范围内,哪个位置最优?田渊栋:Value Network和Playout都是用来判断局势的,判断哪步棋最优也要靠这两个,Policy Network给出候选的走子,然后由上面这两个判断哪步比较好。“狗狗”早点去博物馆不好吗?Q12:“阿狗”和对手下得越多,胜利的机会也就随之增加?张峥:狗狗哪天的左手也很强,就不要你了!它左右手互搏是现在成长的环境一环。Q13:如果AlphaGO在棋力水平超过了大部分用于训练的“高手棋局”,想进一步提升棋力,这时如果再用这些水平低于自身水平的棋局数据进行训练是否不利于自身棋力水平增长?更多的使用“左右互搏”棋局训练是否更好?田渊栋:是的。 董飞:我之前思考过电脑如果只是学习网上的棋谱,这些大多都不是高手,超一流的棋局又那么少,跟三流学,怎么可能下过一流的选手呢?但它那种可以自我对弈,选择倾向赢棋的路径,这样想只要它不断电,有大量计算资源,这样就进化直到永生,想到这就是一部科幻片了。大家还记得那部片子叫《超验骇客》,主人翁要死了,委托他女友把大脑移植到电脑中,后来就入侵银行,去一个乡下造了一个巨大data center,一直进化,研究各种新技术,可以移植修复,copy他的思想,最后谁也没法阻挡,世界被他控制。我觉得那部电影还是挺有哲学意义的,本意是想那些人类都不如他,他要去拯救世界,给他们最好的东西,但这样就是独裁。Q14:没有了人类的挑战,AlphaGo的能力很快就到顶,进步的空间就不大了?张峥:让狗狗早点去博物馆不是好事吗?Q15:为什么?张峥:因为就去战下一个更好的问题了。Q16:AlphaGo的算法已经公开发表,是否意味着别的团队同样可以做出AlphaGo?商业化公司发表公开论文的动力在哪里?田渊栋:细节有很多还是不清楚的,当然大致的技术路线都很明确了。动力在于提高自己公司知名度,这个很重要的,而不只是为了赚钱。有知名度就对招人和公共形象都有好处。
机器还是真人,你分得清吗?Q17:如果不告诉您黑白棋对应的是电脑还是真人,您能分辨出来谁是谁么?刘锋一互联网进化论:不能。朱文章:这盘可以。最新的这些招法,有点现出原形了。贴了那么多个白子,人不会那样下啊。卫鸿泰:白棋这一串,机器的感觉太明显。Q18:怎么看人工智能现在的阶段?围棋机器人有用到量子力学吗?田渊栋:没有量子力学的成分,全都是基于经典物理的。Q19:李世石大优的情况下长考,是要做坏事了么?像中盘那样。朱文章:长考很重要,可以稳定一下情绪。Q20:第一局输了的话,AlphaGo有可能像人类高手一样分析对手风格,从而在后面棋局中调整策略吗?田渊栋:要调整也是人类去调整,机器目前看起来还没有这个能力,它要自我学习的话需要大量的样本。卫鸿泰:白棋两次脱先收获非常大,大局观不错。职业普遍认为黑棋右下有心态问题,下得非常有问题。Q21:阿狗的时间不够怎么办啊?田渊栋:不会不够的,机器大不了用Policy Network,3毫秒一步,只要code没bug,肯定不会超时。Dark Forest上次一月份对Zen超时了,因为有个bug。Q22:李世石输了?主持人:终局,李世石输。朱文章:输了部分人都挺难受的,特别是喜欢围棋的人。张峥:我吭吭哧哧地写了那两篇,其实心里是很希望能再挺一会的。
[责任编辑:jimmonzang]
您认为这篇文章与"新一网(08008.HK)"相关度高吗?
Copyright & 1998 - 2017 Tencent. All Rights Reserved
还能输入140字雷疯讲棋:难得看老雷走一把正招,每一步都分析的太犀利了!
我的图书馆
雷疯讲棋:难得看老雷走一把正招,每一步都分析的太犀利了!
馆藏&12066
TA的最新馆藏
喜欢该文的人也喜欢手机号/邮箱
请输入正确的手机号/邮箱
手机号/邮箱已经存在
请输入密码
请输入密码
60秒后再获取
验证码错误
还不是会员?
手机号/邮箱
请输入正确的手机号/邮箱
请输入密码
30天内免登录
手机号/邮箱
请输入正确的手机号/邮箱
图片验证码
60秒后再获取
验证码错误
输入新密码
请输入新密码
请输入密码
这篇文章告诉你AlphaGo是如何下棋的:它也会怀疑自己
来源:企鹅智酷
编者按:AlphaGo并非没有“情绪”。它也会怀疑自己,只是用另一种形式呈现。
这篇分析中,企鹅智酷将结合 AlphaGo 相关权威论文中提供的信息,以及这两场比赛中李世石与 AlphaGo 表现,来用更简洁的方式,告诉你谷歌 AlphaGo 到底如何下棋,以及它有哪些被隐藏起来的弱点。
先说核心结论:
作为战胜了人类围棋冠军的人工智能,AlphaGo (目前版本)强在小范围战斗,弱点在于对全局的判断;
AlphaGo 并非没有&情绪&。它也会怀疑自己,只是用另一种形式呈现(不是人类的抖手或者挠头发);
是谁在训练 AlphaGo ?是它自己。用一种远超人类效率的方式学习;
李世石如何赢?和很多围棋专家分析的一样,从科技角度看,李世石必须在开局阶段建立优势,并且最好能够更频繁转移战场范围;
未来,AlphaGo 会将人类棋手远远甩在身后。它就只能继续和自己玩了。
一、AlphaGo 是如何决定下每一步棋的?
企鹅智酷没有能够真的打开 AlphaGo 代码库,去检查它全面的运行逻辑。我们只能从已公开的权威论文中,来梳理这个迄今为止走进公众视野的最强大人工智能,是如何做出决策,战胜人类的。
简单说,AlphaGo 下的每一步棋,都依赖于&概率&。
1.当一开始,棋盘有大量空白区域,棋子较少时,AlphaGo会更愿意采用&固定策略&。
这种策略来自于 AlphaGo 自己模拟训练的数百万场棋局(每一局都从开始模拟到结束)。这让 AlphaGo 心中有一个大概的最佳选择可能性,即下在点A和点B,哪个更好些。
在这个时候,AlphaGo 是通过经验来判断的。虽然这个经验不来自与人类,而是来自于它结合人类下棋方式学习后,自己和自己对弈的数百万经验值。但这种基于经验的判断,是人类挑战它的最佳机会&&和&恐怖&的机器推演能力相比,经验,起码离人类更近一些。
为什么 AlphaGo 不在一开始就用蒙特卡罗算法,尽量穷尽所有可能性,去给出更可靠的&计算答案&,而不是&经验答案&呢?
我们猜测,一方面是当棋局尚未真正交锋时,各种选择的概率差不多,没必要做精确计算;另一方面,也为了节省时间。
2.当棋局有局部拼杀时,AlphaGo 的战力就升级了。
这时候,再依赖那数百万局&自己与自己下棋&的经验,明显是不够的。因为棋局瞬息万变,李世石的下法,很可能是 AlphaGo 没有模拟过的(不要高估数百万局训练,和围棋的可能性相比,只是沧海一粟)。
这时候,AlphaGo 会不再聚焦于整个棋盘,而将计算精力缩到一个小范围(战斗区域,例如右下角5*5,8*8这种)。这时候,它会启动现场演算推理功能,即开始计算每一个落子位置的后续走势,来计算最佳一步。
这需要时间。所以,AlphaGo 在短兵相接时,不得不缩小观察范围,在局部启动现场计算。这虽然失去了一定的&大局观&,但换来了计算的效率,和电脑比,人脑的纯粹计算力是相对弱势的,所以,短兵相接,机器占大优势。
3.当局势需要兼顾大局和计算力时,AlphaGo 怎么办?
开局布局,AlphaGo 用经验;短兵相接,AlphaGo 用计算力。那么在局势复杂时,AlphaGo 的另一个特长就有用武之地了&&兼顾大局观和计算能力。
它叫做&棋局评估器 (Position Evaluator)&。这个东西会告诉 AlphaGo ,哪些地方是&不值得&你去深度计算的。这就帮助 AlphaGo 节省大量的计算需求,只针对局面上有价值的点,来推演,并给出最终的优胜概率排序。所以,这个评估器也叫作&价值网络&。
这东西是怎么实现的呢?也是经验。AlphaGo 模拟了两个&自己&,然后随机落子计算每个位置对赢棋的价值。这种简单粗暴的计算是人类大脑无法训练的,只有机器可以肆无忌惮的这么做。
打个形式上的比喻。如果你用过扫地机器人就知道,启动后,它并非按照人类的方式,一块地砖接一块的扫地,而是以一种乱序的方式,在房间里横冲直撞。
你以为它疯了。但只要你关上门,过一会,你会发现它已经把地打扫干净了&&所有的区域,都被这种随机方式覆盖到。
人类是不可能这么扫地。会累死你。
但和穷尽推演相比(虽然目前不可实现),这种价值估算并不是完全准确的(扫地和围棋在精读与复杂度上,是完全不同的)。它是在兼顾时间和效率基础上,一种最适合的策略。这也是 AlphaGo的一个弱点。
二、AlphaGo 也会怀疑自己
我们觉得人机对战对李世石不公平的一个地方,是机器人不会受情绪影响,而人类棋手却时常受困于其中。
从单一棋局看,AlphaGo 确实是不会&后悔&的,因为它的每一步,都是它认定的最佳决策。但当你通过多局去观察 AlphaGo 时,会发现它其实也会&怀疑&,只是这种怀疑,并不会影响它的棋力,反而会促进它的进化。
原理很简单。AlphaGo 会怀疑自己,是因为在很多局面选择时,最优解不止一个,或者比较接近。例如有五个点的赢棋概率都是45%,在这一局里,AlphaGo 可能选择了点A,但下一句,它可能会选择点B&&
如果点A赢了,以后它会一直选择点A吗?这个我也不清楚,论文里没说。但从逻辑上推断,既然是经过了百万棋局的演算,那么一局的胜负,对于具体某点的概率提升,不会太明显。所以,AlphaGo 在应对同样局面时,它可能给出完全不同的下法&&根据几个最优解,随机选择。
而这一点,也正是它可怕之处。连开发它的人类,都无法预测它的行为。因为你把随机函数的权利,交给了人工智能自己。
三、AlphaGo 为什么极少下臭棋?
我们通常把人工智能比作&高智商婴儿&,按照这个推断,AlphaGo 就算表现惊艳,但应该也会有下臭棋的时候。因为单纯的人工智能,是无法真的模拟人类思维的。
但 AlphaGo 没有丢过人。因为在一开始,它并非完全的&自学&。工程师们安排 AlphaGo 在网络对战平台上,与人类棋手不断下棋,用来学习人类下棋的风格和方式。当工程师们觉得 AlphaGo 足以&像个人类棋手&时,才让它开始自己和自己更疯狂的练棋。
你如果很早在KGS(网络围棋对战平台)上遇到过 AlphaGo ,那么,你可能有幸看到过 AlphaGo 还是婴儿时的样子。
四、AlphaGo 自己训练自己,而且效率吓人
前面提到了,和人类练棋不同,AlphaGo 在学会了人类下棋方式后,复制了两个自己,依托计算机性能优势,不断下棋,去丰富对局面判断力。这种效率非常之高,甚至已经超越了人类历史上所有的对弈棋局总数量。
这意味着 AlphaGo 会越来越&老练&。虽然它还是无法在每一局的每一步中,穷尽所有可能性(如果它能做到,就战无不胜了),但它会不断通过训练积累大局观,而随着大局观提升,在实战中,它需要做现场精准推演的效率也会更聚焦&&人类也就越来越难赢它。
在可以预见的未来,AlphaGo 会将人类棋手远远甩在后面。然后,它就只能在自己的世界里,自己和自己下棋玩了。
人类棋手会像今天的电竞爱好者那样,去看看两个&AlphaGo& 的对局直播,一边惊叹,一边感悟。
第一时间获取股权投资行业新鲜资讯和深度商业分析,请在微信公众账号中搜索投中网,或用手机扫描左侧二维码,即可获得投中网每日精华内容推送。
新闻排行榜

我要回帖

更多关于 心疼你每一步走的艰辛 的文章

 

随机推荐