DeepMind的AI研究游戏玩家以利用其策略中的弱点

2020-07-11 04:16:21
来源:

  【摘要】   在预印服务器发表的一篇论文中,Alphabet的DeepMind的科学家提出了一个新的框架,该框架可以学习多种游戏中对玩家的近似最佳响应。他们

  在预印服务器发表的一篇论文中,Alphabet的DeepMind的科学家提出了一个新的框架,该框架可以学习多种游戏中对玩家的近似最佳响应。他们声称,在国际象棋,围棋和国际象棋等众多游戏中,它在最坏情况下的对手(即表现不佳,但至少按照规则进行游戏并实际上完成游戏)的玩家中始终表现出色。德州扑克。

  

src=http://www.geekfan.net/uploadfile/2020/0507/20200507040925338.jpg

  DeepMind首席执行官Demis Hassabis经常断言,游戏是开发算法的便捷试验场,这些算法可以转化为现实世界,以解决难题。这样,像这种新框架这样的创新可以为人工智能(AGI)奠定基础,该人工智能是AI的圣杯-决策AI系统不仅可以自动完成平凡的重复性企业任务,例如数据输入,还可以自动完成有关其环境的原因。这是OpenAI等其他研究机构的长期目标。

  对玩家的表现水平称为可利用性。计算这种可利用性通常是计算密集型的,因为玩家可能采取的行动数量如此之多。例如,德州扑克的一种变体-单挑限制德州扑克-大约有1014个决策点,而围棋有大约10170个决策点。解决这一问题的一种方法是制定一项策略,该策略可以利用强化学习(一种AI培训技术,通过系统奖励促使软件代理完成目标)来利用最佳学习来评估待评估的玩家。

  DeepMind研究人员提出的框架,他们称为近似最佳响应信息状态蒙特卡洛树搜索(ABR IS-MCTS),它在信息状态基础上近似精确的最佳响应。框架内的参与者遵循一种算法来玩游戏,而学习者则从各种游戏结果中获取信息以训练策略。凭直觉,ABR IS-MCTS尝试学习一种策略,当剥削者被赋予对对手策略的无限访问权时,它可以创建有效的剥削策略。它模拟了如果某人经过多年训练来利用对手会发生什么情况。

  研究人员报告说,在涉及200名演员(在装有4个处理器和8GB RAM的PC上训练)和一个学习者(10个处理器和20GB RAM)的实验中,ABR IS-MCTS在每场比赛中的胜率均超过50%在Hex或Go以外的游戏中(例如连接四人和突破),该比率高于70%。在步步高中,它经过100万集训练后赢得了80%的时间。

  合著者说,他们看到大量学习的证据,即当演员的学习步骤受到限制时,即使经过100,000次训练,他们的表现也往往会变差。但是,他们还注意到,在某些情况下,ABR IS-MCTS相当慢,平均需要150秒才能计算出特定形式的策略(UniformRandom)在Kuhn扑克(一种简化的两人扑克)中的可利用性。

  未来的工作将涉及将该方法扩展到甚至更复杂的游戏。