编者按:继在最复杂的棋类游戏击败了人类世界冠军之后,Google的DeepMind又瞄准了最复杂的视频游戏——实时策略游戏《星际争霸》。经过短短两周的训练之后,前不久,其AI AlphaStar以两个5:0分别击败了两位顶级的人类职业玩家,令世人再度感到震惊。不过,AI的能力真的有这么强吗?arstechnica网站的一篇文章对此进行了剖析。
2014年Google收购的AI初创企业DeepMind,其最知名的成就也许是成为第一个击败人类围棋世界冠军的AI。在掌握了全世界最具挑战性之一的棋类游戏之后,你接下来又会干什么呢?攻克最复杂的视频游戏。DeepMind于是决定写一个AI来玩实时策略游戏星际争霸2。
星际争霸要求玩家收集资源、建立很多的部队,然后利用这些来摧毁对手。星际争霸对AI尤其具有挑战性,因为玩家必须在几分钟的游戏时间内制订长远计划,并在面临敌人攻击时实时地进行调整调度。DeepMind称在自己之前,还没人能够设计出与最好人类玩家水平接近的星际争霸AI。
最近DeepMind宣布了一项重大突破。其星际争霸AI AlphaStar分别以两个5:0击败了两位星际争霸的顶级玩家——Dario "TLO" Wünsch与Grzegorz "MaNa" Komincz。
训练AlphaStar用了“长达200年”的虚拟游戏素材
DeepMind称“AlphaStar的行为由一个深度神经网络生成,该网络接收裸游戏界面(游戏单位及属性清单)的数据输入,然后输出一系列构成游戏动作的指令。说得具体一点,该神经网络架构应用了一个transformer 作为躯干,结合了一个深度 LSTM 内核、一个自回归策略头、一个指针网络,以及一个集中化的价值基线。”
这些专业的说法很绕,不过DeepMind解释了训练其虚拟星际争霸玩家改进技巧的部分细节。
首先他们用有监督学习帮助AI学习模仿人类玩家的策略。这种强化学习技巧足以开发出一个能玩的星际争霸2机器人。DeepMind称这个初始的机器人“95%的时间内击败了内置的精英级AI(相当于人类玩家的黄金级)。”
DeepMind然后靠这个AI派生出来多个版本,每一个的游戏风格都略有不同。所有的AI都被放进一个虚拟的星际争霸联赛当中,每一个AI会跟其他AI不停地挑灯夜战,不断地从错误中吸取教训,然后持续地演进自己策略。
DeepMind写道:“为了鼓励联赛的多样性,每一个AI都有自己的学习目标:比方说,要击败哪些竞争对手,要增加哪些偏向于指导AI如何玩游戏的激励因子。某个AI的目标可能是击败特定对手,而另一个AI可能是如何击败一群竞争对手,但是是靠做出更多特定游戏单位来做到的。”
按照DeepMind的说法,一些AI积累的游戏用时相当于人类玩200年的时间。在2周之内,这个进化过程极大地改进率AI的平均技能水平:

到最后时,DeepMind挑选了其中5个最强的AI来应战人类玩家。这种方案的后果之一是人类玩家在每一场比赛时都要面对AlphaStar不同的对战策略。
AlphaStar在开始的游戏中具备一项不公平的优势
DeepMind当时还邀请了游戏主播在复盘时对赛况进行评论。主播被AlphaStar的“微”能力——也就是在激战正酣时迅速做出战术决策的能力给震惊到了。
这种能力在AlphaStar与Komincz对战的第四场比赛中表现得最明显。Komincz是两位人类选手中较强的那位,而第四场也是Komincz最接近获得胜利的一场。这场比赛的高潮部分是Komincz由几种单位类型(不朽者、执政官、狂热者)的部队被AlphaStar完全由追猎者的部队围攻。

AlphaStar v. Komincz的第四场比赛中,AlphaStar的追猎者(蓝)从三方攻击Komincz的不朽者、执政官、狂热者(红),AlphaStar的追猎者最终赢得了比赛继而摧毁了Komincz的基地。
追猎者并没有特别强大的武器和装备,所以跟不朽者和执政官拼刺刀的时候一般都是要输的。但是追猎者行动快,而且有一门叫做“闪现”的绝技,可以瞬间传送到范围内的目标可见地点。
这就为AlphaStar创造了一个机会:用一大群追猎者进行攻击,让前排的搞搞破坏,接着在被干掉之前闪现到后排,然后再慢慢补血。如此反复轮换,AlphaStar就可以在自己损失不大的情况下对敌方造成大量破坏。
这种办法的不好之处是需要玩家持续的注意力。玩家需要监控追猎者的健康状况,找出需要闪现溜掉的追猎者。这就有点棘手了,因为星际争霸玩家往往要照顾一堆的东西——需要关心基地新的单位的建设,侦查敌军基地,盯住敌人进攻等等。
观察AlphaStar与Komincz第四场大战的评论员对AlphaStar的微能力感到惊叹。
评论员Dan Stemkoski说:“这个技巧我们看到AlphaStar一直在用。”。AlphaStar会攻击Komincz的部队然后在自己遭受重大伤害前闪现溜走。他补充说:“我觉得大多数职业玩家玩到这种程度时基本上追猎者都要耗光了”。
AlphaStar的表现尤其令人印象深刻,因为它一度对不同地方的多组追猎者采用这种战术。
评论员Kevin "RotterdaM" van der Kooi 说:“在星际争霸2这样的游戏里面做这个是特别困难的,如果你的部队一部分在屏幕下方,一部分在屏幕上方的话,想要同时做这件事情是特别困难的。这么好的控制是现象级的。”
Stemkoski补充说:“真正令人震惊的是当我们看看每分钟动作数时,其实AlphaStar是没那么高的。这是一个可以接受的专业级速度。”
DeepMind制作了一幅图来说明这一点:

正如这张图表显示那样,顶级的星际争霸玩家可以非常迅速地发布指令给自己的部队。Grzegorz "MaNa" Komincz在跟AlphaStar对战时的平均APM(每分钟动作数)是390(每秒钟超过6下!)。不过当然了,计算机程序轻易就能在一分钟之内执行数千动作,那种对部队的控制频度绝对是无人能敌的。
为了避免这一点,DeepMind称自己给AlphaStar的APM设定了上限。DeepMind研究人员Oriol Vinyals在Reddit上写道:“我们设定5秒间隔的最大APM值是600,15秒间隔的最大APM是400,30秒间隔的是320,60秒间隔的是300。”
不过另一位reddit用户迅速指出,5秒钟在星际争霸游戏里面已经算很长了。这些限制似乎意味着AlphaStar可以在1秒钟之内执行50个动作,或者以每秒15个动作的频率执行3秒钟的动作。
更重要的是,AlphaStar有能力以外科手术般的精度使用API,而人类却受制于计算机鼠标的机械限制。如果你看了像Komincz这样的职业玩家玩的话,你会看到裸动作的数量要远远超过有意义的动作的数量。
(编辑:温州站长网)
【声明】本站内容均来自网络,其相关言论仅代表作者个人观点,不代表本站立场。若无意侵犯到您的权利,请及时与联系站长删除相关内容!