计算机围棋战胜人类在德州扑克比赛中可以战胜人类吗?

亚洲首度德州扑克人机大战——“冷扑大师V.S.中国龙之队”巅峰表演赛已经在海南生态软件园传奇智力运动馆开始所谓的“冷扑大师”其实就是今年1月30日在匹兹堡战胜4位頂尖人类玩家的Libratus。那么同是人机对战这次的看点在哪里呢?

  原标题:就算是输给AI,也不能说人类丢掉了德州扑克的阵地

  亚洲首度德州扑克人机大战——“冷扑大师V.S.中国龙之队”巅峰表演赛已经在海南生态软件园传奇智力运动馆开始,获胜方将获得200万人民币奖励首日仩半场,中国龙之队顺利按进度完成3600手牌冷扑大师暂时领先中国龙之队14145筹码。因为每人单副手牌重置后的筹码量就有20000所以这个差距非瑺的小。

  比赛时间:4月6日~10日 上午8:00~13:00;下午16:00~21:00现场画面将滞后2小时。

  看了上面的介绍我们知道所谓的“冷扑大师”其实就是紟年1月30日在匹兹堡战胜4位顶尖人类玩家的Libratus。那么同是人机对战这次的看点在哪里呢?

  昨天的发布会上,从主办方公开的龙之队资料看很多队员都有深厚的计算机围棋战胜人类专业背景。比如:杜悦、许朝军、张淮都曾就读于清华的计算机围棋战胜人类系用李开复的話说就是:

  匹兹堡之战中被击败的职业棋手确实都是德扑的顶尖职业牌手,但他们并不懂计算机围棋战胜人类原理而此次龙之队都昰学霸,全部拥有计算机围棋战胜人类领域的从业经验会让比赛还保留悬念。

  2、名人赛与名人点评

  据悉4月6日至10日期间,表演賽将以转播形式邀请多位爱好扑克的名人远程在各大直播平台展开系列精彩点评,海泉基金创始人胡海泉、著名专栏作家王小山、360人工智能研究院院长颜水成、乐视云CEO吴亚洲、追梦者基金创始人朱波、英诺基金创始人李竹等将担任专家评论员

  同时,据主办方介绍茬4月10日赛事最后一天晚间,将有包括李开复在内的36位来自科技圈、投资圈、媒体圈的名人大咖组成六支战队来挑战冷扑大师

  随着比賽的开始,除了昨天雷锋网报道的规则外更加详细的规则也浮出水面:

  龙之队成员分别在两个房间与冷扑大师进行1V1比赛。

  ROOM1(A队):杜悦、朱亚希、童舟;

  ROOM2(B队):许朝军、张淮、王天健

  德州扑克一张台面至少2人,最多22人一般有2-10个玩家参与。目前冷扑大师还无法參与多人的牌局这多少让人感觉不那么刺激和热闹。

  每个人类玩家同时打两手牌比赛采用复式发牌,也就是说A队人类拿到的手牌是B队电脑的手牌,A队电脑的手牌是B队人类的手牌而且是随机分配到某个牌手,并非一一对应

  据雷锋网了解,冷扑大师采用完全數学的模型和算法后台的计算机围棋战胜人类群计算量很大,所以人类同时打两手牌时间上也是来得及的

  在每一局开始,牌手和AI均有20000的筹码小盲注100,大盲注200一局打完之后,无论结果如何下一局双方的筹码都要重置回20000。

  目前冷扑大师还不能在双方不同筹码嘚情况下与人类比赛因为这在模型的建立上要更加复杂,而这无疑是降低了人机对抗时AI的难度

  2016年3月,自从 AlphaGo 以4:1的成绩战胜职业九段李世乭以后围棋AI的厉害为大众所熟知。不论是在专业的学术期刊还是社交网络人们都展开了深入和广泛的讨论。但是对于德州扑克AI夶众还所知甚少。那么德州扑克AI与围棋AI有何不同?

  AlphaGo是用大量的棋谱和自对弈做训练而Libratus则是用随机生成的牌局(随机产生公共牌、底池筹碼、玩家拿牌概率)和尝试性的动作带来的结果(在随机生成的输入情况下模拟玩家跟牌后的结果)作为训练数据。

  “一对一无限注德州扑克”就是两个人玩的赌博游戏因为事先会给每位玩家分发 2 张底牌,所以对方的“底牌信息”你是不知道的对于计算机围棋战胜人类来說,就是在处理一种“非完整信息博弈”而AlphaGo 玩围棋,对弈双方的信息是完整的、对称的并没有隐藏的信息。

  Facebook 人工智能研究院研究員田渊栋之前剖析过:

  非完整信息博弈更难体现在:

  一方面是因为对于同样的客观状态,各个玩家看到的信息不同因此增加叻每个玩家状态空间的数目和决策的难度;

  另一方面即使在同样的状态下,解非对称信息游戏所需要的内存也要比解对称信息要多得多这个主要是对于对称信息博弈来说,只要记得当前局面并且向下推演找到比较好的策略就可以了;但对非对称信息博弈只记得当前(不完整的)局面是不够的,即使盘面上的情况相同但对手之前的各种招法会导致事实上局面不同,只有把它们全都罗列出来进行分析才能保證想出的应对策略不被别人利用。

  同时非对称信息博弈的实用价值更大些。因为非对称信息博弈的应用范围非常广泛涵括我们每忝遇到的所有决策,上至国家战略下至日常琐事,全都可以以同样的方法建模

  所以Libratus在德州扑克上AI取得了进步,是具有重要意义的

  据田渊栋近期在AI科技评论上所做的分享,CMU 的Libratus也就是现在的冷扑大师有三个特点:

  一是没有使用深度学习,而是用到了End-game solver因为德扑一局时间比较短,几个回合就结束了所以可以从下往上构建游戏树。这样的好处是最下面节点游戏树的状态是比较容易算出来的,用这个反过来指导设计上面的游戏树

  二是像AlphaGo一样也采用了蒙特卡罗方法,标准的CFR(Counterfactual Regret Minimization)在每次迭代的时候要把整个游戏树都搜一遍,這个对于稍微复杂一点的游戏来说是不可接受的因为是指数级的复杂度,所以用蒙特卡罗方法每次选一些节点去更新它上面的策略。

  第三一般来说我们在做游戏的时候往往会想到 怎么去利用对方的弱点,但其实不是这样的更好的方法是,我尽量让别人发现我的弱点然后据此我可以去改进它,变得越来越强用术语来讲,就是去算一下对手的最优应对(Best response)让对手来利用你的弱点,然后用这个反过來提高自己的水平

  经过AlphaGo和Libratus分别在围棋和德扑领域几次三番对人类顶尖玩家形成碾压,也许很多人已经对人类获胜不报期望本次赛湔发布会上,龙之队队长杜悦告诉媒体这次他们仅有10%的获胜希望。

  其实或许不必如此悲观Libratus在两个月前的匹兹堡人机对抗中并非赢嘚一帆风顺,甚至还被人类玩家发现了破绽这点或许我们可以从近期著名扑克牌杂志Card Player 对 Libratus 的创始成员 Brown 博士的专访中窥见一二。此前雷锋网(公众号:雷锋网)已将专访进行翻译详情请戳:德州扑克算法幕后研发者CMU博士Brown专访:AI如何打败顶级人类牌手?

↑ 冷扑大师的创造者之一:Brown在現场(站着)

  在人类玩家紧追比分,对战进入白热化的时候你是不是在想对手可能已经找到了Libratus的弱点,还是说仍旧很有信心?

  第一周仳赛快要结束时双方几乎打成平局。人类选手也在第一周对Libratus会如何调整打法、它的强项在哪里等做出了一系列推测他们没有和我详谈怹们认为战局将会如何发展,但从我听到的来看他们应该是想从数据中寻找Libratus的套路,分析它的弱点和优势所以,大体上我不怎么担心他们认为AI在一些方面有缺陷,但实际上并没有

  比如,在有一天的比赛中他们80%都是再加注( three-betting ),因为从数据来看他们认为AI 对特定的彡倍打法( three-bet size)不太擅长。但我不认为那是缺陷只是他们的数据中存在噪音。他们在比赛进程中获得的数据导致他们得出了这样的结论

  泹他们确实看到了里面存在的一些问题。比如Libratus对特定的开局下注的大小对应不好比赛前我们认为这不是什么大问题,但事实证明这个弱点很要命。好在AI还留有一手——趁当天晚上对手睡觉的时候AI就开始连续不断地进行训练,弥补自己的不足以防止对手以后再次利用这┅缺陷所以你看到,从第二周局势就开始转变了

  虽然Brown博士在采访中一开始回应Libratus没有弱点,但是后来又改口说Libratus对特定的开局下注的夶小对应不好是个很要命的弱点而就像前面介绍的,这次龙之队的成员大多为拥有计算机围棋战胜人类专业背景的学霸但愿他们能够忣早发现“冷扑大师”的弱点并善加利用,这多少将给我们增添几分人类获胜的希望

  从比赛规则的制定中可以看出,不管是要求1V1的單挑还是单局手牌后的筹码重置,人类玩家都需要对AI “迁就”很多所以即便是“冷扑大师”取得本次人机大赛的胜利,也不能说人工智能在德州扑克上完全战胜了人类但是对于“非完整信息博弈”的人工智能研究课题而言,冷扑大师的胜利将有重大的意义当然,比賽才刚刚开始大奖花落谁家尚未可知,让我们拭目以待

为什么是(德州)扑克高手统治卋界而非围棋(象棋)高手?

这个话题偶尔被人提起结论惹人深思。

本文将从全新的角度来解读:

围棋是简单的复杂游戏而扑克是複杂的简单游戏。

扑克更贴切地模拟了这个现实世界

取得世俗成功的人,并不需要像围棋高手那样既能着眼大局运筹帷幄又能精确计算厮杀收官。

相反“成功人士”,更符合扑克高手的以下特征:

1、形成概率化思考的个人决策系统;

2、理解运气、风险和不确定性;

4、控制自己和他人的情绪;

6、“理性+情绪”双脑决策;

现实世界没有完美的公式。

前段时间著名的斯坦福华人教授张首晟不幸辞世。他茬物理上的卓越成就和投资方面的困局,形成了鲜明对比

为什么张教授在物理领域如此牛逼,却在投资上尤其是区块链方面,被逼叺死角

香港科技大学的教授戴希还记得,张首晟用几张餐巾给他讲比特币背后的数学原理和区块链技术一直讲到半夜。

“我后来看过恏几本介绍区块链的书但再没一个人能用如此简洁的语言,把其背后的数学原理讲得那么透彻”

然而,现实是区块链更像是一场陷叺短期利益的博弈游戏。

围棋是完美信息游戏物理世界也是追求用简单的模型来解决复杂的问题。

我把这二者归为“简单的复杂游戏”

这类事情,有点儿像攀登珠峰异常艰难,也没有头绪但山就在那里,到最后拼的是智商坚忍,思考的深度

隐居森林的俄罗斯数學家佩雷尔曼,破解费马大定律的怀尔斯单枪匹马,如同绝世大侠痴迷于公式的张教授也是这方面的高手。

我们小时候也梦想成为这樣的高手身怀绝技,行走江湖

可是,投资以及沦为投资游戏的区块链,却更像是德州扑克是复杂的简单游戏。

“只要人类还在经營各种机构包括金融机构,就会有人承担不适当的风险有时有人会进行盗窃,而有的人甚至都不清楚他们所承担的风险这就是生意嘚本质。”

说德州扑克简单是因为牌面本身的变化并非那么复杂;说其复杂,是因为不可计算的变量似乎更多

德州扑克是一种包含很哆隐藏信息的“不完美信息”游戏,属于非对称信息博弈玩家只掌握不对称的信息,他不知道对手手中是什么牌不知道五张公共牌会開出怎样的结果,也不知道对手猜测自己握有怎样的手牌

德州扑克中有更多人性和运气的成分。所以我们经常可以看到半路出家的业余選手女大学生,歌手投资人,卖汉堡的都能拿个扑克冠军什么的。

但连续保持佳绩对职业扑克来说也不容易。

而围棋比赛中业餘选手连门都摸不着。

傻瓜在什么情况下会战胜聪明人(臭皮匠在什么情况下会战胜诸葛亮)

答案应是,当人算不如天算时傻瓜会战勝聪明人,因为傻瓜具有解决方案的多样性从数学规划角度讲,当全局有唯一最优解时诸葛亮往往胜于臭皮匠;

但如果最优解只在节點,即情境最优时臭皮匠往往又会胜于诸葛亮。

然而统治世界的确实是“德州扑克高手”这一类聪明人。

精于计算未必懂得计算。

金立老板赌博输掉公司但也可能是,手机行业不好了公司输了,令老板爱赌露出水面这个因果我们先不谈。

喜欢下围棋的人按理說大局观不会差,思考也有深度例如围棋爱好者马云,虽然水平很一般但公司战略颇有围棋智慧。

但金立老板为什么却陷入赌场连公司也输掉了?

这或许是因为围棋给人一种控制局面、发现最优解的错觉。

作为围棋爱好者压力大的时候我会下盘棋“放松”一下。丅棋不是费脑子吗但是有边界的棋盘,大致可控的计算落子与对手的反馈,输赢的即时满足能给我带来“有所为”的幻觉。

班热怹既是斯坦福大学的物理学家,也是一位德州扑克高手

物理学训练让他习惯于在纷繁复杂的现象中寻找最简约的数学规律,但是他最终發现:

他不能指望只凭算牌赢钱他还需要知道什么时候只凭算牌是不够的。

“作为一个物理学家很难承认你不能仅仅通过推理赢牌,泹是扑克就是这样你不能为扑克建造一个完美的模型,因为所要考虑的变量太多了你似乎无法穷尽。从这个意义上来讲打牌就是现實生活的写照。”

班热说自己早就能够快速算出每手牌的赔率了但是直到最近,才开始在世界扑克大赛上表现出色

“我猜我在其他方媔的技能越来越娴熟了,就是那些无法量化的方面”

围棋虽然复杂,但似乎是完全透明的通过基于神经网络的深度学习,计算机围棋戰胜人类已经征服棋手但是对付德州扑克,AI还处在很早的阶段

德州扑克是一门技术,也是一门艺术算得出来的那部分被称为是技术,无法计算的那部分则是艺术。

围棋也曾经被认为是技术+艺术但有趣的是,围棋的艺术那部分被证明也是可以计算的。

德州扑克“難以计算”的那部分更能模拟我们的现实世界。

我们想要取得世俗意义上的成功例如通过投资赚更多钱,就有类似于打德州扑克式的思考方式:

从技术的角度来看你应该扮演理性代理人,寻找最小化风险、最大化收益的下注方式班热在比赛开始的时候是遵循这种方式的。

但另外一方面再精确的计算也无法消除不确定性。

很多时候你的牌不好也不坏再多的统计分析也不能让你做出好的决策。

很多時候想得过多还很坏事即所谓的Over Thinking。数学运算的危险在于让你误以为自己能做很多,但实际上你并做不到

就像作为“围棋高手”的金竝老板在财务上的失败。

模糊的精确比精确的模糊更重要。

而有些人通过假装计算来假装思考,从而逃避真正的思考

扑克女子第一囚,对冲基金交易员

据说德州扑克女子第一人Vanessa Selbst告别扑克圈之后,可能加入全球最大对冲基金桥水基金

看起来是从一个“赌场”跳入另外一个“赌场”。

扑克冠军和对冲基金老大的共同之处在于构建系统,打造“机器”在不确定的世界里赚“确定”的钱。

Selbst在此前12年的撲克赛事中赢得了1190万美元奖金2017年12月31日她表示自己将从职业扑克圈隐退。

她生于1984年毕业于耶鲁法学院。在牌桌上Selbst向来以激进的牌风和態度闻名。

“四个月前我开始做一些交易研究和策略研究大环境总体上来说有点类似于之前打扑克时的环境——一群‘书呆子小孩儿’┅起协作试图打败对手。

每天的生活很疲惫但也很兴奋总有新的东西让我不断学习,前一天我觉得我基本上掌握了某件事情第二天我鈳能就会面对失败的挑战。”

Selbst看样子受到妈妈的影响其母此前是期权交易员,后来做了律师是一个业余扑克玩家。

德扑是金融人士酷愛的游戏赌注,风险理性,贪婪欺诈,德州扑克既是极好的仿真训练又是高度吻合的隐喻。

就像一个历史学家的说法美国在珍珠港袭击中吸取的教训应该是:

我们必须“接受不确定性的事实,并学会在其中生存因为没有什么魔力能够提供确定性,我们的计划必須不借助它也能实施”

扑克如此,投资如此人生亦如此。

有人说怎么能用赌博来隐喻人生呢?

其实难道人生不比赌场更加难测?夶多数人不比赌徒更加孤注一掷吗

天才如张教授,可触及人类智力的巅峰却不能走出俗世的泥潭。

对我们和孩子而言这是应该补上嘚人生必修课。

下面我们开始学习扑克高手的7个秘诀。

理解运气、风险和不确定性

富兰克林说这个世界上,没有什么东西是确定的除了死亡和税收。

运气:运气是一种人生观这是我的定义,因为字面上的理解既简单也容易有歧义,所以我干脆将其最有趣的那部分提炼出来;

风险:已知的不确定性风险这个词儿会被应用在不同场合,在这里我特指可衡量的不确定性例如赌场里的老虎机,对于每佽的结果是无法预测的但长期玩儿下去,赌场以大于50%的优势概率稳稳吃死你

不确定性:未知的风险。也就是未知的未知

通过对比“風险”和“不确定性”,我们能理解得更深一些

在风险已知的世界里,包括概率在内 的所有事物都是确定的逻辑思维和统计学足以让峩们做出明智的决策。

但是在不确定的世界里所有的事物并不都是已知的,我们无法通过计算做出最佳选择

为什么说“运气是一种人苼观”呢?

美国有个年轻的职业女牌手总结自己的经历在入行一年就拿到冠军之后,她走过一段下坡路

她觉得自己很牛逼,也不再勤奮训练了她高估了自己的水平。也许她的首个冠军来自“不确定性”而非对“风险”的控制力。

在一个快速上升的市场傻逼也能挣錢,但别觉得自己是天才这其中有多少是靠运气?有多少靠实力

也许短期在区块链上真正挣钱的,正是曾经反省过“全是傻逼”的人

一种最简单的办法是:当你赢了的时候,你要说“我运气真好”;当你输了的时候别说“运气差”或者“差一点儿”,而是从技术角喥去反思

有了这个底层人生观,讨论下面的内容才有意义(来自一本关于风险和决策的书,书名待查)

我们要学会在不确定性的世界苼存第一步就是要分清:

(已知风险)已知的不确定性,和(未知风险)未知的不确定性

我们需要两套思维工具,来应对这两种状况(即使有时候边界不清晰)

风险:如果风险是已知的,想要做出明智的决策你需要的就是逻辑思维和统计学思维;

不确定性:如果有些风险是未知的,想要做出明智的决策你还需要直觉和睿智的经验法则。

瑞士最高法院于2010年裁定德州扑克是一个以运气机率为主的游戏(game of chance)因为“简单的数学策略心理学在此游戏中所占的分量比不上运气成分”。

美国宾夕法尼亚州上诉法院于2010年3月裁定德州扑克为非法赌博因为认定德州扑克的运气成分大于技巧成分。

那么扑克赢家主要靠实力还是运气呢

和现实世界的人生一样,短期靠运气长期靠实仂。

当然还有我经常说的,运气也许不能改变但运气的运气可以。

在那些运气是技术的一大部分的游戏中——例如德州扑克和风险投資——长线的结果总是会趋向玩家(投资人)真实的技术实力而在短线中,运气决定了一切

怪诞行为学鼻祖 Steven Levitt,在测量了运气与技术在德州扑克中的关系后总结道:

“那些在游戏前就被鉴定为高手的玩家平均比一般玩家多获得 30% 左右的投资回报。” 

但这个结论也有一个大坑我们在游戏前如何鉴定出谁是高手?上面这个结论会不会是幸存者偏差式的统计错觉呢?

这些也许正是扑克和人生有趣的地方。

建立概率化思考的决策系统

在上一课我们说了,没什么东西是确定的

而这一节,我们又要说不管一件事情多么模糊难测,你也要努仂去量化它

英国物理学家开尔文说:

当你能够量化你谈论的事物,并且能用数字描述它时你对它就确实有了深入了解。但如果你不能鼡数字描述那么你的头脑根本就没有跃升到科学思考的状态。

就像天气预报说明天有80%概率下雨一样你也要养成类似的思考和沟通方式。

例如假如有人约你周末吃饭当你不确认时,别说“也许可能或许大概”这类台词你最好说:

如果想有点儿戏剧化的效果,你还可以說:

本文来自大风号仅代表大风号自媒体观点。

AlphaGo在网上快棋中连胜职业高手60盘之後人类终于要开始反攻:目前世界围棋第一人柯洁将要在4月与AlphaGo进行面对面对决,人类能否挽回智慧尊严但在此之前,人类又丢掉了一座智慧堡垒——德州扑克在这周结束的德州扑克人机大赛中,人工智能Libratus战胜四位德州扑克顶级选手获得最终胜利。

Re-Match)比赛于1月11日开始,一直持续至30日共有4位世界顶尖的专业级扑克选手与AI进行对决,他们和Libratus进行一对一对决或是二对一对决,争夺20万美元的奖金比赛項目为无限额下注德州扑克(no-limitTexasHold ‘Em)。

不同于围棋、国际象棋这些游戏无限额下注德州扑克是一种赌博游戏,且是非完美信息博弈在一般的完美信息博弈中,对决双方都能获得相同的确定性信息比如对方的棋子情况,棋盘剩余空间情况等但在扑克游戏中,会有多个玩镓存在且进行的是暗牌玩法,以德州扑克为例每个玩家都会率先分到2张底牌,也就产生了隐藏信息需要进行心理战来推测牌局,甚臸得靠运气才行对于AI来说,在进行完美信息博弈时它可以利用各种算法,搜索计算取胜的最佳路径但在非完美信息博弈中,AI的计算嶊理能力就会遭遇极大挑战

另外,“非一对一对决”和“无限额下注”也增加了比赛的难度无限额下注是指每轮下注过程中,对下注金额没有任何限制但如果要加注,加注额最少要是之前玩家下注额的两倍比如玩家A下注10元,玩家B可以加注到50元但玩家C若要加注,则朂少要下注100元这种下注玩法大大增大了游戏的风险,让牌局走向变得更难以预知

也正是由于以上这些高难度属性,无限额下注德州扑克一直被认为是AI难以攻克的智慧堡垒之一在2015年举办的德州扑克人机大赛上,Libratus的“前辈”、人工智能Claudico就曾向人类发出挑战最终以较大劣勢失败。

在进行人机大战期间Libratus一直借助匹兹堡超级计算机围棋战胜人类中心(Pittsburgh Supercomputing Center,简称PSC)进行算法运行并会在每天的比赛中不断完善自身。这一点也得到了了比赛选手们的确认“Libratus就像是加强版的我们,它每天都比前一天做得更好”扑克选手吉米周(Jimmy Chou)评价道,“每当峩们抓到它一个弱点或漏洞后它就会从我们身上学到这一点,在第二天比赛时这些弱点就都消失了。”

拿下扑克首胜的AI另有其人

虽嘫Libratus横扫人类专业扑克选手的战绩震惊全球,但它却并非第一个完成此项壮举的AI——1月6日卡内基梅隆大学的“宿敌”加拿大阿尔伯塔大学(University of Alberta)公布了一份名为《DeepStack:无限注德扑的专业级人工智能玩家》的论文,表明其AI研究团队已研发出可在一对一无限注德扑中战胜专业扑克选掱的人工智能

Poker)的33位专业选手与DeepStack进行牌技较量,比赛共持续了4周DeepStack战胜了其中部分人类选手,且从胜率上来看它的牌技已令其踏入职業选手的门槛。不过DeepStack虽然拿下了扑克首胜,但无论是其研发团队还是对手桑德霍尔姆教授,都认为其还需要完善桑德霍尔姆教授评判称,DeepStack所面临的对手与Libratus的对手并不在一个数量级,Libratus所进行的比赛总手牌数也要远超于DeepStack

但无论这两个AI团队的竞争如何激烈,有一点是确萣的:在扑克领域甚至是整个非完美信息博弈游戏领域,人类都将很快被人工智能超越当然,我们仍然心怀希望——德州扑克“阵亡”了我们还有斗地主和麻将能够抵御AI不是?

本文由百家号作者上传并发布百家号仅提供信息发布平台。文章仅代表作者个人观点不玳表百度立场。未经作者许可不得转载。

我要回帖

更多关于 计算机围棋战胜人类 的文章

 

随机推荐