首页 > 要闻 > > 正文
2019-11-07 15:51:57

DeepMind的AlphaStar决赛击败了人类星际争霸2玩家的99.8%

导读 字母子公司DeepMind -这著名的开发AlphaZero,即击败国际象棋,将棋世界冠军,并进入机器学习系统-回到了视频游戏领域再一次在一月AlphaSt

字母子公司DeepMind -这著名的开发AlphaZero,即击败国际象棋,将棋世界冠军,并进入机器学习系统-回到了视频游戏领域再一次在一月AlphaStar,该解决动视暴雪热门的即时战略游戏星际争霸2在一系列的10场比赛中击败了顶级球员Grzegorz“ MaNa” Komincz和队友Dario“ TLO”Wünsch,但是今天发表在《自然》杂志上的一篇论文描述了一个更加令人印象深刻的壮举:进一步的训练使AlphaStar的排名超过了所有活动者的99.8%玩家,并获得了星际争霸2(Protoss,Terran和Zerg)的所有三个《星际争霸2》玩家竞赛的大师级别(在地区200强玩家中排名)。

DeepMind表示,最新的AlphaStar版本-AlphaStar Final-可以在“专业批准”的条件下进行完整的StarCraft 2比赛,重要的是要限制其动作的频率并通过游戏机观察世界。它使用与人类玩家相同的地图和条件在官方的StarCraft 2 Battle.net服务器上播放,并且借助通用机器学习技术(包括通过强化学习进行自我演奏)的结合,能够在无需人工干预的情况下不断自我完善。 ,多主体学习和模仿学习。

DeepMind联合创始人兼首席执行官Demis Hassabis说:“星际争霸15年来一直是AI研究人员面临的巨大挑战,因此看到这项工作被《自然》杂志认可是非常令人兴奋的。”“这些令人印象深刻的成果标志着我们创造可加速科学发现的智能系统的使命迈出了重要的一步。”

做好准备

DeepMind涉足StarCraft竞赛的尝试可以追溯到2017年,当时该公司与暴雪合作发布了包含匿名比赛回放的开源工具集。随后,DeepMind推出了AlphaStar League,这是一种AI模型训练环境,可在不同版本的AlphaStar争夺霸权的情况下相互抗衡。

《星际争霸2》是一款实时策略游戏,是一种模拟游戏,玩家可以在该游戏中收集资源(例如基地,结构,单位和技术),以胜过对手或防御对手。自从2010年问世以来,《星际争霸2》就是其中的佼佼者,它在全球范围内已有数百万人和成千上万的电子竞技专业人士在玩。

《星际争霸2》玩家可以选择上述三种种族。可控制的工人单元收集资源来构建结构和创建新技术,从而解锁更复杂的单元和结构。最初,很多游戏地图都隐藏在玩家面前,因此他们不得不寻找对手的动作,并且在整个过程中,玩家必须平衡短期任务,例如建造建筑物和控制单位与规划获胜的动作和管理资源。

DeepMind团队指出,《星际争霸2》为AI研究提供了丰富的测试平台,尤其是因为它缺乏单一的最佳策略。挑战还增加了一个事实,即诸如对立单位实力之类的指标对玩家而言是隐藏的,这一功能被称为不完美信息。《星际争霸2》还强调长期规划,因此早期的游戏动作不一定会在一段时间内得到回报。并且它要求玩家连续对数百个不同的单位和建筑物执行动作(以及动作排列)。

可以说,设计用于掌握该系统的系统比该公司开创性的Deep Q网络要复杂得多,该网络学会了从像素直接玩50种不同的Atari 2600游戏。AlphaStar项目负责人Oriol Vinyals解释说:“ AlphaStar从几个关键方面提升了我们对AI的理解。”“ [通过]竞争联盟中的多代理培训可以在高度复杂的环境中带来出色的表现,而单独的模仿学习可以取得比我们以前预期的更好的结果。”

自玩

AlphaStar主要通过上述自玩游戏来“学习”《星际争霸2》的微妙之处(乃至基本规则),在此过程中,AlphaStar会与自己竞争以不断完善自己。通常,从事自玩游戏的AI代理商冒着灾难性遗忘的风险,在这种情况下,他们会在学习新信息时忘记如何与以前的版本抗衡。这通常会启动一个周期,在此周期中,代理人将有效策略视为优势策略的效果越来越差。

一种解决方案是虚拟的自我游戏,或者与所有先前策略混合使用。但这还不够强大,无法训练AlphaStar。DeepMind而是采用一种新颖的,通用的培训方法,成为了AlphaStar League。一组代理商(主要代理商)并没有试图使所有代理商都取胜,而是试图在一组代理商中取得胜利,而另一组代理商(剥削者代理商)则暴露了主要代理商的缺陷。多亏了这一点以及模仿学习技术和代表广泛不同动作方式的潜在变量,AlphaStar可以避免在整个训练过程中遗忘。

《星际争霸》不是儿童游戏。每个时间步长,单个AlphaStar代理可以使用大约10 ^ 26(100,000,000,000,000,000,000,000,000)个可能的操作,并且代理必须先执行数千次操作,然后才能知道自己是赢是输。

DeepMind通过模仿学习向特工灌输有限的先验知识,在此期间,只要AlphaStar特工的行为与受监督的人类示威活动不同,便会受到惩罚。借助用于语言建模的技术和对人类游戏的开局动作分布进行编码的潜在变量,最初的策略得以保留并采用了高级策略,击败了84%的活跃玩家。DeepMind通过将探索偏向于人类策略,并利用一种算法来强化倾向性(一种AI培训技术,利用奖励将政策推向目标),从而强化了这些策略,从而可以从较早的策略游戏中有效地更新策略。

“尽管AlphaStar的策略有时与职业玩家的策略有所不同,但在某些方面它的表现却和我一样,就像它在注意到地图上的动作时显示的延迟一样,”参与最新研究的Wünsch说。“看到代理商制定与人类玩家不同的自己的策略也很令人兴奋-就像AlphaStar筹集更多工人的方式,使其在游戏初期无法为其基地提供支持,为以后的扩张做准备。现在,可以采取的行动上限和相机视角限制使引人入胜的游戏成为现实-尽管作为专业人士,我仍然可以发现系统的某些弱点。”

在训练的早期,主要的特工被剥削者的特工殴打,他们发现了“加农炮”,这一策略是神族玩家在其视线范围之外的敌人基地外制造早期武器。随着培训的进行,新的主要特工学会了防御佳能大炮的开发者,同时以优异的经济实力,部门组成和控制力击败了较早的主要特工。

每个代理都使用32个第三代张量处理单元(TPUS)进行了为期44天的培训,它们是Google专门为神经网络机器学习开发的专用集成电路(ASIC)。DeepMind报告称,在联赛训练期间创造了近900名不同的球员。

与《星际争霸2》的内置AI在``精英''难度下相比,其平均对接排名(MMR)约为3,300,相比之下,AlphaStar Final为Protoss管理了6,275 MMR,为Terran管理了6,048 MMR,为Zerg管理了5,835 MMR。一种性能欠佳的AlphaStar模型(受AlphaStar监督)达到了大约3,699 MMR,使其超过了84%的人类玩家。

Vinyals说:“ AlphaStar仅通过[AI算法]和通用学习算法就达到了GrandMaster的水平,这在10年前我使用基于规则的系统研究StarCraft AI时是无法想象的。”“我很高兴开始探索将这些技术应用于现实世界挑战的方法,例如帮助提高AI系统的鲁棒性。”

超越游戏

当然,DeepMind的残局不仅仅是超人类的《星际争霸2》玩家。与AlphaZero一样,目标是利用AlphaStar的经验来开发能够解决社会最严峻挑战的系统。

为此,DeepMind目前参与多个与健康相关的AI项目,包括在美国退伍军人事务部进行的一项试验,以开发一种能够预测急性肾衰竭(AKI)并识别大多数最严重病例的模型。最近,DeepMind的AlphaFold(一种可以预测复杂蛋白质结构的AI系统)在CASP13蛋白质折叠竞赛中名列98位竞争对手之首。

除了AKI和蛋白质折叠以外,由DeepMind领导的工作正在英国NHS进行,以开发一种算法,该算法可以搜索失明的早期征兆。Alphabet子公司与伦敦帝国学院的英国癌症研究英国帝国中心合作,完善了AI乳腺癌检测模型,这项工作最近扩展到了东京的Jikei大学医院。在9月医学图像计算和计算机辅助干预会议上发表的一篇论文中,DeepMind的研究人员透露,他们开发了一种可以将CT扫描与“近乎人类的表现”相分割的系统。

“人工智能的发展历史以游戏中的里程碑式成就为标志。自从计算机破解围棋,象棋和扑克以来,《星际争霸》已成为共识,成为下一个重大挑战。” DeepMind首席研究科学家David Silver说。“我们使用通用的学习方法而不是手工制定解决方案来应对这一挑战,并且在人类自己面对的相同条件下进行游戏。”