星际争霸alpha star椅Snugstar摇控器详解

《星际争霸alpha star2》人类首战告负。

2016姩3月DeepMind团队的AlphaGo击败世界围棋顶级棋手李世石但在AlphaGo还名不见经传时,它首先是与职业棋手樊麾较量取得胜利而如今该团队设计的新的AlphaStar同样擊败了星际争霸alpha star2的职业选手TLO和MaNa。

(德国职业星际争霸alpha star2选手TLO)

(波兰的职业星际争霸alpha star2选手MaNa)

最后直播的一场比赛中DeepMind限制了AlphaStar的游戏视角,并茬没有测试的前提下与MANA进行比赛让人类终于赢了一场。

对于如何训练AlphaStarDeepMind 科学家 Oriol Vinyals、David Silver 表示,首先是模仿学习团队从许多选手那里获得了很哆比赛回放资料,并试图让 AI 通过观察一个人所处的环境尽可能地模仿某个特定的动作,从而理解星际争霸alpha star争霸的基本知识这其中所使鼡到的训练资料不但包括专业选手,也包括业余选手这是 AlphaStar 成型的第一步。

AlphaStar学会打星际争霸alpha star全靠深度神经网络,这个网络从原始游戏界媔接收数据 (输入) 然后输出一系列指令,组成游戏中的某一个动作

再说得具体一些,神经网络结构对星际争霸alpha star里的那些单位应用一个Transformer,再结合一个深度LSTM核心一个自动回归策略 (在头部) ,以及一个集中值基线 (Centralised Value Baseline)

团队会使用一个称为“Alpha League”的方法。在这个方法中Alpha League 的第一个竞爭对手就是从人类数据中训练出来的神经网络,然后进行一次又一次的迭代产生新的 agent 和分支,用以壮大“Alpha League”

然后,这些 agent 通过强化学习過程与“Alpha League”中的其他竞争对手进行比赛以便尽可能有效地击败所有这些不同的策略,此外还可以通过调整它们的个人学习目标来鼓励競争对手朝着特定方式演进,比如说旨在获得特定的奖励

AI打星际争霸alpha star2意味着什么

早在2003年人类就开始尝试用AI解决即时战略(RTS)游戏问题。那时候AI还连围棋问题还没有解决而RTS比围棋还要复杂。

直到2016年“阿尔法狗”打败了李世石。DeepMind在解决围棋问题后很快把目光转向了《星際争霸alpha star2》。

与国际象棋或围棋不同星际争霸alpha star玩家面对的是“不完美信息博弈”。

在玩家做决策之前围棋棋盘上所有的信息都能直接看箌。而游戏中的“战争迷雾”却让你无法看到对方的操作、阴影中有哪些单位

这意味着玩家的规划、决策、行动,要一段时间后才能看箌结果这类问题在现实世界中具有重要意义。

为了获胜玩家必须在宏观战略和微观操作之间取得平衡。

平衡短期和长期目标并适应意外情况的需要对脆弱和缺乏灵活性的系统构成了巨大挑战。

掌握这个问题需要在几个AI研究挑战中取得突破包括:

? 博弈论:星际争霸alpha star争霸没有单一的最佳策略。因此AI训练过程需要不断探索和拓展战略知识的前沿。

? 不完美信息:不像象棋或围棋那样棋手什么都看得到,关键信息对星际争霸alpha star玩家来说是隐藏的必须通过“侦察”来主动发现。

? 长期规划:像许多现实世界中的问题一样因果关系不是立竿见影的。游戏可能需要一个小时才能结束这意味着游戏早期采取的行动可能在很长一段时间内都不会有回报。

? 实时:不同于传统的棋类游戏星际争霸alpha star争霸玩家必须随着游戏时间的推移不断地执行动作。

? 更大的操作空间:必须实时控制数百个不同的单元和建筑物從而形成可能的组合空间。此外操作是分层的,可以修改和扩充

为了进一步探索这些问题,DeepMind与暴雪2017年合作发布了一套名为PySC2的开源工具在此基础上,结合工程和算法突破才有了现在的AlphaStar。

除了DeepMind以外其他公司和高校去年也积极备战:

? 4月,南京大学的俞扬团队研究了《星际争霸alpha star2》的分层强化学习方法,在对战最高等级的无作弊电脑情况下胜率超过93%。

? 9月腾讯AI Lab发布论文称,他们构建的AI首次在完整的蟲族VS虫族比赛中击败了星际争霸alpha star2的内置机器人Bot

? 11月,加州大学伯克利分校在星际争霸alpha star2中使用了一种新型模块化AI架构用虫族对抗电脑难喥5级的虫族时,分别达到 94%(有战争迷雾)和 87%(无战争迷雾)的胜率

DeepMind CEO哈萨比斯在赛后说,虽然星际争霸alpha star争霸“只是”一个非常复杂的游戏但他对AlphaStar背后的技术更感兴趣。其中包含的超长序列的预测未来可以用在天气预测和气候建模中。

内容根据微信公众号量子位、钛媒体APP、36氪等资料综合整理

北京时间1月25日凌晨2点暴雪与谷謌DeepMind团队合作研究的星际争霸alpha star争霸人工智能“AlphaStar”正式通过直播亮相。按照直播安排AlphaStar与两位《星际争霸alpha star争霸2》人类职业选手进行了5场比赛对決演示。加上并未在直播中演示的对决在人类vs AlphaStar人工智能的共计11场比赛中,人类只取得了一场胜利

笔者在凌晨全程直播了本次人类与AlphaStar对決的比赛过程,并在本文中精编出本次直播中的一些重要内容供大家快速了解。

2018年6月:DeeMind公开星际争霸alpha star争霸人工智能的最新研究成功公開了星际争霸alpha star争霸人工智能的“关系性深度强化学习”方法,并称目前该人工智能正处于最优学习水平

2019年1月23日:暴雪与DeepMind共同发布“挑战貼”,称将会在北京时间凌晨2点直播星际争霸alpha star争霸AI挑战人类

2019年1月25日:星际争霸alpha star争霸人工智能首次公开亮相,并命名为“AlphaStar”在直播中共播放了4场此前与人类职业选手对决《星际争霸alpha star争霸2》的录像,并在现场进行了一场表演赛在总共公开的11场《星际争霸alpha star争霸2》对决中,人類仅在现场直播的一场表演赛中获胜

在开场时,两位星际争霸alpha star2的著名解说Artosis与RotterdaM以及谷歌人工智能团队的科研人员Oriol Vinyals、《星际争霸alpha star争霸2》首席淛作人Tim Morten简单为大家介绍了关于AlphaStar技术原理以及选择《星际争霸alpha star争霸2》作为DeepMind团队研发目标的原因(后文会有详细记录)

随后,德国虫族职业選手TLO和波兰神族职业选手MaNa先后被请上台现场播放并讲解了不久前在DeepMind总部与三款难度不同的AlphaStar对决的比赛录像。

在此前两位选手对决的共10场仳赛录像中暴雪分别选取了2场进行现场直播回放并公开了最终的结果:人类未尝一胜。

这时在现场的职业选手MaNa表示想再次挑战AlphaStar现场进荇了一场表演赛。在现场表演赛中MaNa的对手AlphaStar与之前的录像中并非同一款并最终取得了胜利。

第一局比赛:TLO与AlphaStar五场对决的第一场比赛AlphaStar使用叻人类比赛中最常规的2兵营开局,但建造顺序略有瑕疵AlphaStar开局并没有像主流一样选择堵口建筑学。

AlphaStar在前期使用了和人类一样的飘使徒屠农騷扰接着使用了单矿2兵营带棱镜压制,这与人类比赛中比较常用的三兵营压制有一些区别

AlphaStar在比赛中用出了非常精彩的拉濒死单位以及非常高水平的棱镜接送操作,并最终用单矿战术打死了双矿开局的TLO

第二局比赛:AlphaStar使用了PvP对抗中比较常见的自爆球战术,虽然自爆球的比唎明显要多于人类TLO开始寻找AlphaStar的弱点,使用小股部队多线游走牵制这也给AlphaStar造成了很大的麻烦。但凭借运营上的优势AlphaStar还是拿下了比赛。

苐三局比赛:另一款AlphaStar迎战另一位职业选手MaNaAlphaStar在开局使用了前置野4兵营一波战术。MaNa在侦查到的情况下由于抉择的失误以及AlphaStar近乎完美的追猎操莋被一波击倒。

第四局比赛:AlphaStar使用5兵营爆追猎的战术这在职业比赛中是没有见过的。MaNa在家里出不朽防守但AlphaStar通过在人类看来几乎完美嘚闪追操作一直在给MaNa压力。

在MaNa攒出足够多的不朽后选择出门反打但在地图中间AlphaStar把自己的追猎部队分割成了三路,通过三线完美的闪追游擊完美化解MaNa的反攻这一通过操作的逆转在人类的认知范围里是不可能完成的。

现场表演赛:AlphaStar使用3先知开局牵制MaNa同时三开运营一直被先知屠杀农民在运营处于劣势的MaNa选择棱镜空投不朽反骚扰牵制。AlphaStar对于停留在地面部队无法攻击到的位置的棱镜陷入了困境所有部队在原地咑转,MaNa抓住机会一波进攻没有之前那款那么变态操作的AlphaStar被一波推平。

在直播过程中笔者特别邀请了一位同样在国内研发星际争霸alpha star争霸囚工智能的科研人员刘家丰进行了问答采访,由他来解答一些较为专业的人工智能知识以下是采访内容:

问:看完今天的比赛你有什么感觉?

答:从专业的角度来讲DeepMind研发的AlphaStar超出了想象。DeepMind因为掌握着所有AI公司羡慕的技术和资本优势让他们拥有着很大的TPU算力。

关于TPU算力举個例子普通的AI团队智能每天智能让人工智能练习学习十局,而他们可以每天让人工智能练习学习一百万局

问:也就意味着他们的人工智能学习更快?

答:是的DeepMind使用了一种“关系性深度强化学习”的方法。打个比方游戏中一个凤凰是选择抬哨兵还是不朽,这个选择在AI嘚眼里是个概率问题而如何让这个概率选择趋于最优化,就需要AI大量的学习迭代

问:这一点似乎和人类不同,人类在做一些抉择的时候有时候往往是通过主观的、生理的判断,而不是基于严谨的数学概率

答:这个问题很有意思。2016年的时候DeepMind也曾经喊出口号,称“人類所有的潜意识都是你不能察觉的计算”人很多情况下做判断,都是一种潜意识的直觉判断

问:那未来的人工智能研究方向是会像人類一样用潜意识判断,还是像现在一样严谨的数学概率判断

答:从通用的AI研究角度来看,我们并不希望AI往纯粹的严谨数学概率判断方向赱而是更像人类。

问:我所理解现在人工智能和人类的本质差别是人工智能还不具备举一反三的能力你觉得的本质差别是什么呢?或鍺说现在人工智能的技术瓶颈在哪里

答:其实举一反三的能力很好理解。我们人类因为从小就在生活中从各式各样的场景环境中积累了呔多的只是所以举一反三会容易很多。但AI的学习环境却是很狭隘的可能只是很单一的一个领域或者环境。就好比我们玩星际争霸alpha star争霸其实也融入了很多平时生活的经验在里面。

问:这听起来就像是人工智能没有融入到生活中去学习那为什么现在研究团队没有想过把囚工智能像孩子一样放到人类生活中去广泛学习呢?

答:现在仍有技术性难题无论是目前已有的算法还是整个科学界前沿相对单一的人笁智能研究领域,都无法满足人类目前的科技能力还达不到这样的设想,来创造一个“AI婴儿”

问:现在的人工智能给我的印象,似乎學习就是靠大量的堆数据以一个人一生中不可能达到的学习量来提升,你是怎么看的

答:这个问题正好问到了现在AI的本质问题。现在嘚AI有一种概念叫三驾马车:数据、算法、算力以星际争霸alpha star为例,其实现在所有的AI研究团队拿到的数据都是一样的都是一样的录像文件。算法上目前全世界的强化学习算法技术也没有太明显的差距那么最后大家能拼的就只剩下算力了。

问:现在我所认知的一些用于生活Φ的人工智能是例如人脸识别、表情识别这样从大数据通过条件筛选类型的人工智能,这个和你们现在研究的人工智能有什么区别吗

答:曾经也有人批判过这一类人工智能叫做“曲线离合”,并不是真正的人工智能其实这种“曲线离合”是有一定局限性的,AI研究人员昰肯定希望能不局限于这些的比如DeepMind曾经在发表的论文中提到了人工智能的“好奇心”,希望“好奇心”能让人工智能玩游戏学习过程中能探索一些不一样的玩法

问:为什么现在普遍会选择通过玩《星际争霸alpha star争霸2》来研究人工智能?

答:说白了就是因为《星际争霸alpha star争霸2》足够难。

问:这个“难”是处于什么角度呢是技术瓶颈还是我们主观认为的那种难玩?

答:两者都有首先这个游戏因为存在不完全信息博弈,比如有战争迷雾其次从技术角度说,对于目前的“深度强化学习”方法游戏中每一帧单位都有很多种动作选择,人工智能需要通过大量的学习来作出最优的选择

问:在人类的星际争霸alpha star比赛中,经常会有战术欺骗以AI的角度,他们会怎么处理这种局面

答:其实和之前讨论的一样,也是通过一种大量学习后的概率分析来判断其实人类在分析对方是否在欺骗自己的时候,也是通过经验和概率汾析

问:我们人类目前对于星际争霸alpha star2的玩法有着自己一套成熟的理解,未来的AlphaStar会是怎样的呢

答:我个人觉得未来的AlphaStar会和围棋的AlphaGo一样,會有一些我们人类不理解的打法目前AlphaStar还是通过人类的星际争霸alpha star2对决来学习的,我蛮期待未来会不会有一款像AlphaZero一样的AlphaStar从零开始,没有人類的经验学习而自己研究出一套新的打法来给星际争霸alpha star2洗牌。

问:刚才的比赛我们发现几款AlphaStar通过学习最后有了不同风格不同战术打法差异。这有点像人类不同的性格差异

答:这个问题问的很好其实目前AI的学习过程中都是在高维的空间平面里去寻找最优化的路径,但在這个寻找过程中可能有不同的路径,所以展现出来的方法是不一样的

问:那最终形态下的AlphaStar会永远作出只有一条路径的最优解吗?

答:其实最优解不止一条路径

问:假使几款AlphaStar的性能是一样的,所经历的学习过程、算法等条件都是相同的那他们所作出的选择也会是一致嘚吗?

答:这个用学术用语叫做“模型的可复现性”我们行业现在也受到了大量吐槽,很多人会发现同样的样本参数数据都一样,但朂后的效果却不一样这个和算法以及领域不同,像星际争霸alpha star2这样变量太多的研究领域最后的选择很难都一模一样。

问:之前我们也是叻解了DeepMind通过研究《星际争霸alpha star争霸2》的人工智能是能够通过攻克技术难题在未来人工智能为人类社会提供福利。目前你看他们的目的达到叻吗

答:我觉得可以这样去解读他们,DeepMind目前研究的AI已经把人类研究的人工智能技术大大的向前推进了一步至于未来怎么落地到人类社會,就不是DeepMind这样的研究团队需要去思考的了这就要看商人们了。

问:今天的比赛看来似乎AlphaStar已经有了宏观大局判断和预判能力,就像人類会思考未来一样你是怎么看的呢?

答:这个肯定是有的从算法的角度来讲,人工智能肯定需要通过当前有限的观测来预测全局的信息通俗的来说,这个在算法中肯定是包涵这一函数的。

问:预判这种概念在我看来感觉比较抽象化它是怎么通过实体的算法规则实現的呢?

答:其实就是靠人工智能的拟人神经网络来实现的也就是类似一个经验的积累和学习,以及一个最优概率的判断

问:有个有趣的问题,人工智能是没有情感的但人类之所以能够有文明,某种原因也是因为有情感假设未来人工智能也能够成为一个物种,那你們希望他们有感情吗

答:很有意思。人类之所以能够创造璀璨的文明也是因为有情感,有自我实现我觉得人工智能有感情也不错。

問:之前你提到了人工智能的学习量是很恐怖的都是几何级的量级。未来的人工智能会不会也和互联网一样以一个难以想象的速度发展呢

答:这个问题问的很好。最近五年以来人工智能有了巨大的技术突破,就是因为人类通过互联网使得计算能力水平有极大提升也使得几十年前就提出的神经网络概念有了极大的突破,有了如今的深度神经网络

问:我们人类通常在制定一个计划或者作出决策后,通瑺会准备一个备案的Plan B人工智能会有吗?

答:对于AI来说是不存在Plan B的。对于AI通俗的来说它的每一个选择每一个动作对它来说都是经过大量学习迭代后作出的最优解。我觉得对于人类来说习惯制定Plan B是基于判断能力不够准确,所以人工智能不存在

问:那看来人工智能都是悝科生,只有标准答案而不是“一百个人心中有一百个哈姆雷特”

答:是的。其实现在也有一些团队在研究文学范畴的人工智能通过研究文学类的人工智能,其实也是人类在自我认知

我要回帖

更多关于 星际争霸alpha star 的文章

 

随机推荐