半年前, OpenAI Five 在 Ti8 赛事中与人类职业选手大战 DOTA 的盛况还历历在目,年前,DeepMind AI 也要在游戏界搞大事情了。
这次,AI 要挑战的是暴雪的经典游戏 —— 星海争霸 II。
AI 即将进攻星海争霸 IIDeepMind 23 日 在 Twitter 上公开发布了「战帖」,表示要在两天后当地时间週四下午 6 点,也就是台湾时间週五凌晨 2 点,直播打星海 II。
这不是一次简单的直播,更像是一场特别的「发布会」,DeepMind 想要通过这场比赛,公开展示 AI「学到的新战术」。
本次的将要出战的 AI 是由 DeepMind 和暴雪联合培养的,经过了「特别的训练方式」,似乎对这次比赛的胜利很有信心。
比赛将会在星海的 Twitch 频道和 DeepMind 的 Youtube 频道同步直播,先给出网址,星海 II 的玩家们,你们準备好对抗 AI 了吗?
以餵食「数十万」游戏画面不断成长
暴雪在最近的 BlizzCon 上,总结了自己 2018 年的工作,并相当低调地发布了「与 DeepMind 合作正在继续 」的更新:
DeepMind 一直在努力训练他们的 AI 更好地了解星海争霸 II。一旦它开始掌握游戏的基本规则,它开始展示「有趣」的行为,例如立即冲向对手。目前,即时在「疯狂」难度下的星海争霸 II,AI 的成功率已经可以达到 50%!
而且它还在学习:「在向它提供了更多真实玩家的游戏录影之后,AI 开始执行标準的宏观策略,以及防御诸如加农炮冲击等激进战术。」

经过三个月的训练,显然这只 AI 取得了不错的进展,而 DeepMind 和暴雪都认为现在已经到了将其公诸于众的时候。
暴雪 23 日也发布声明称,这场比赛将提醒我们,所有 AI 都在以几何速度学习。「星海争霸游戏已经成为人工智慧社区的「巨大挑战」,因为它们是针对诸如规划,处理不确定性和空间推理等问题的进展基準的完美环境。」
其实早在 2016 年,DeepMind 已经立下 Flag 要教会 AI 玩儿星海争霸 II,也已经有包括 facebook、阿里巴巴等不少科技公司或者研究机构开拓过「星海」这片竞技场,但 DeepMind 这样专治人类各种不服的公司正式宣布与暴雪合作,还是让一票星海玩家大呼「热血」。 暴雪承诺将持续发布从「星海争霸 II」天梯中收集的数十万个匿名游戏影片,这会将训练变得更加容易。
2017 年 7 月份,DeepMind 已经官宣正式与暴雪娱乐合作,共同开发可以在星海争霸 II 中与人类玩家对抗的 AI,并且发布了 SC2LE,一个旨在加速即时战略游戏当中 AI 应用的工具集。
这次训练的 AI 所採用的数据,很可能是暴雪承诺过的「星海争霸 II」天梯中收集的数十万个匿名录影。有了这些数据,相信 AI 的能力也会有突飞猛进的提升。
不要以为有了优质数据就能训练出来超强的 AI。其实这并不是一项轻鬆的任务,因为游戏的複杂性和更多可能性也让 AI 战胜人类要远比在棋盘游戏上複杂。
星海争霸和星海争霸 II 是史上最大和最成功的游戏之一,它们见证了许多玩家从青葱岁月到为人父母的 20 多年。其原始游戏早已被 AI 和 ML 研究人员使用,并在每年的 AIIDE 机器人大赛中进行角逐。
使用 AI 在星海争霸中对战人类玩家会比围棋艰难得多,对于 AI 来说,最大的难点在于,每一场对决都存在大量可能的方式。
据估计,每场对决有 101,685 种可能的配置,为了给大家一个直观感受,Alpha Go 的配置层是 10,170。
此外,不同于棋类游戏的轮流依次进行走步,并且拥有决策的时间,在星海争霸中,玩家会同时出招,且不能看到对方玩家的状态,也就是说,所有决定需要在「不完整信息」的情况下做出。所有这些都意味着,你不能仅靠逻辑和一些步骤找到赢得对决的最优方式,玩家更需要的是策略和直觉。
採用 PySC2 模型训练 ,应付多种可能性
星海争霸 II 的玩家在同一时间可能有 300 多种基本行动可以选择,因此策略集及策略选择也对 AI 构成了巨大的挑战。与此形成鲜明对比的是雅达利游戏,大概只有 10 种选择(例如,下,左,右等)。除此之外,星海争霸中的很多操作是分级的,可以进行修改和扩充,其中很多都需要操作萤幕上的一个点进行。即使一个小 84X84 的屏幕也会产生大约 1 亿种可能的行动选择。
之前发布的 PySC2 可以帮助研究人员利用暴雪自己的工具来解决这些挑战,并且构建自己的任务和模型。
PySC2 环境提供了一个灵活的,易于使用的 RL 代理游戏界面。在最初的版本中,游戏被分解为「特徵层」,其中的游戏元素,如单元类型、单位的健康度和地图的可见性彼此隔离,同时保留游戏的核心视觉和空间元素。
之前发布的 PySC2 还包括一系列的迷你游戏,一种将游戏分解成小模块的技术,可以用来测试特定任务的代理,比如移动视角、收集矿物碎片或选择单位。DeepMind 希望研究人员可以测试他们的技术,并且开发新的迷你游戏,以供其他研究人员进行使用和评估。


起于 Alpha Go,行至 OpenAI
1997 年,国际象棋 AI 第一次打败顶尖的人类;2006 年,人类最后一次打败顶尖的国际象棋 AI。
在 2016 年年底,一个名为「Master」的神秘在线围棋玩家出现在了热门的亚洲游戏服务器 Tygem 上。在接下来的几天里,这个神秘的玩家横扫世界範围内的许多一流玩家。
2017 年 5 月,AlphaGo「Master」在对战世界排名最高的围棋选手柯洁中屡屡得分。在三场比赛中,人工智慧稳操胜券。
2017 年 12 月,DeepMind 发布了一个更新版本的系统。这款名为「AlphaZero」的新人工智慧可以在短短几个小时内掌握各种游戏。经过仅仅 8 个小时的自我训练,这个系统不仅能打败 AlphaGo Zero 的早期版本,而且还可以成为象棋大师和将棋(shogi,又称日本象棋,一种流行于日本的棋盘游戏)的冠军。
在拿到棋牌类的王者之后,人工智慧向更複杂的实时对战游戏领域进发。
2018 年,OpenAI Five 与 DOTA2 半职业玩家团队交手,比赛结果是 2:1,人类输掉了比赛。在 2017 年,比较原始版本的 AI 在 1v1 战斗中就击败了人类职业玩家 Dendi。
2018 年 8 月份,人工智慧在 Ti8 赛事中与职业玩家交手,比赛结果是两场比赛,人类玩家守住了 DOTA 这一高地。其中,第二场与中国玩家交手,在第 45 分钟的时候,AI 直接认输。
2018 年 9 月,腾讯 AI Lab 发布论文称,他们构建的 AI 首次在完整的虫族 VS 虫族比赛中击败了星海 2 的内置机器人 Bot。
AI 血洗电竞圈OpenAI Five 止步 T18!大败顶尖人类战队,「规则改变」成主因
OpenAI 用《Dota 2》示範血虐人类:砍瓜切菜偷推塔,职业选手被当菜打
马斯克 OpenAI 打 Dota 2:玩爆平民玩家后,世界赛专业电竞手也是同样下场?