在竞争激烈的情况下,机器对人类的影响可能不是您期望的典型事物,例如响应时间,而是通过长期经验最大化良好选择的能力。
这是12月19日在星际争霸II的实时战略计算机游戏“ 星际争霸2”中 与谷歌开发的人类冠军波兰的Grzegorz Komincz(由游戏玩家处理MaNa而闻名)之间的比赛之一。
AlphaStar团队星期四的一篇博客文章揭示了一些有关如何创造12月胜利的有趣见解。 (研究论文正在进行中。)
AlphaStar在2017年从多次失利中恢复过来,在12月的比赛中将MaNa在5场比赛中惨败至零。“第一个击败顶级[人类]职业选手的系统”,正如AlphaStar的创作者周四在推特上发布的那样。
关键的区别可能是训练AlphaStar的策略,该策略采用新的“元游戏”技术来培养主要玩家。
在采取行动时,机器并不比人类快。事实上,它在星际争霸II中的平均行动次数是每分钟280次,“显着低于专业[人类]玩家。”
相反,它的力量似乎是通过在许多游戏中积累知识,在现有策略上提出新颖的策略或不寻常的曲折。谷歌的DeepMind团队使用一种新颖的“元游戏”方法来训练他们的网络,建立一个超过成千上万的同时训练比赛的球员联盟,然后从每个结果中选择最佳球员。
星际争霸II是来自圣莫尼卡视频游戏制造商Activision-Blizzard的星际争霸系列中的最新产品,它要求玩家通过二维地形移动,收集矿物资源,建造建筑物和装配军队,以实现对其他球员的统治地位。该游戏于1998年首次推出,此后一直是锦标赛游戏。
它一直是人工智能创新的温床,因为谷歌和其他人在游戏中看到了几个使其比其他视频游戏更具挑战性的因素,以及Chess或Go等经典策略游戏。其中包括星际争霸有“战争迷雾”的事实,因为每个参与者,包括正在开发的AI“特工”,都有限的信息,因为他们无法看到他们的对手可能取得进展的地形方面。
2017年,当谷歌的DeepMind部门和暴雪的程序员发布他们的初步工作时,他们写道,他们能够让他们的算法玩游戏“接近专家人类游戏”,但他们甚至不能教它击败与星际争霸一起提供的内置AI。
这个团队舔了舔伤口,这次又回来了几次创新。DeepMind创始人兼首席执行官Demis Hassabis表示,很快将发表一篇论文。
与2017版相似,AlphaStar的核心仍然是基于一种深度学习方法,即所谓的循环神经网络(RNN),它保留了以前输入的记忆,这使得它们可以建立在积累的知识基础之上。在训练神经网络的过程中。
然而,作者在2017年由谷歌的Ashish Vaswani及其同事开发的增强了典型的“长期短期记忆”或LSTM神经网络,称为“变换器” 。它能够在神经网络的不同部分上移动“读头”以选择性地检索先前的数据。有很多像这样的新事物。
但是游戏计划改变的最具挑衅性的方式之一就是采用一种方法来剔除最佳玩家,称为“纳什平均”,去年由David Balduzzi和 DeepMind的同事介绍。作者观察到神经网络有很多“冗余”,意思是“不同的代理,网络,算法,环境和任务基本上完成相同的工作”。因此,Nash平均值能够有选择地排除或“消除”冗余,以揭示玩视频游戏(或执行任何任务)的特定AI“代理”的基本潜在优势。
正如Balduzzi及其同事在他们的论文中写道的那样,“纳什评估计算了对玩家(代理,代理和任务)的分布,这些分布自动调整为冗余数据。因此,它提供了一种测量代理 - 代理和代理 - 环境交互的不变方法。”
在很多比赛中,纳什平均被用来挑选AlphaStar最好的球员。正如AlphaStar团队所写的那样,“一个连续的联盟被创建,与联盟的代理人 - 竞争对手 - 互相对战[...]虽然一些新的竞争对手执行的策略只是对先前策略的改进,但其他人发现新战略。“
但是,这不仅仅是选举一个闪耀的球员,纳什进程正在有效地制作一个融合了其他人的学习和洞察力的单一球员。最终的AlphaStar代理由Nash分布的组成部分组成 - 换句话说,是已经发现的最有效的策略组合。