当前位置:首页 > 资讯中心 > 正文

玩转围棋国象扑克 DeepMind推出通用学习算法SoG

2023-11-22 09:33 大连信息网

  机器之心报道

  编辑:小舟、大盘鸡

  2016 年 3 月,一场机器人与围棋世界冠军、职业九段棋手李世石展开的围棋人机大战受到全球的高度关注。我们知道,最后的结果是 DeepMind 的机器人 AlphaGo 以 4 比 1 的总比分获胜。这是人工智能领域一个里程碑性的事件,也让‘博弈’成为一个热门的 AI 研究方向。

  AlphaGo 之后,DeepMind 又推出了赢得国际象棋的 AlphaZero、击败《星际争霸 II》的 AlphaStar 等等。使用搜索和学习的方法,AI 在许多完美信息博弈中表现出强大的性能,而使用博弈论推理和学习的方法在特定的不完美信息博弈中表现出强大的性能。

  然而,大多数成功案例有一个重要的共同点:专注于单一博弈项目。例如,AlphaGo 不会下国际象棋,而 AlphaZero 虽然掌握了三种不同的完美信息博弈,但 AlphaZero 无法玩扑克牌,也不清楚能否扩展到不完美信息博弈。此外,现有研究往往会使用特定领域的知识和结构使 AI 实现强大的性能。

  现在,来自 Google Deepmind 的研究团队提出了一种利用自我博弈学习、搜索和博弈论推理实现强大博弈性能的通用学习算法 ——Student of Games(SoG)。研究论文发表在《Science Advances》上。

  论文地址:https://www.science.org/doi/full/10.1126/sciadv.adg3256

  SoG 算法结合了引导式搜索(guided search)、自我对弈(self-play)学习和博弈论推理(game-theoretic reasoning)。实验结果表明,SoG 可以在大型完美和不完美信息博弈中表现出强大的性能,这是迈向任意环境真正通用算法的重要一步。

  方法简介

  SoG 模型可以在不同的游戏中自由发挥,并教会自己如何与自己的另一个版本进行对战,能够学习新策略并逐渐变得更有能力。虽然 AlphaZero 也可以适应完美信息博弈,但 SoG 可以适应完美和不完美信息博弈,从而具有更强的通用性。

  SoG 采用成长树虚拟遗憾最小化(growing-tree counterfactual regret minimization,GT-CFR)算法。GT-CFR 算法是一种随时可以进行局部搜索,非均匀地构建子博弈,并将树扩展至最相关的未来状态,同时可以迭代地细化价值与策略。

  此外,SoG 还采用了有效的自我对弈:利用博弈结果和递归子搜索来训练价值与策略网络,并应用于之前搜索中出现过的情况。

  SoG 算法通过声音自我对弈来训练智能体:每个玩家在面临决策时,使用配备虚拟价值与策略网络(Counterfactual Value-and-Policy Network,CVPN)的声音 GT-CFR 搜索来生成当前状态的策略,并根据该策略采取行动。

  自我对弈过程会生成两种类型的训练数据,用于更新价值与策略网络,一种是搜索查询,一种是完整博弈轨迹。在实际应用中,自我对弈数据生成和训练是并行发生的:参与者生成自我对弈数据(并解决查询);训练者学习新网络并定期更新参与者。

  实验结果

  众所周知,传统搜索在不完美信息博弈中存在缺陷,并且评估集中在单一领域(如扑克牌),SoG 填补了这一空白。通过重新解决子博弈,SoG 保证可以找到近似纳什均衡,并且在小型博弈中保证可计算性。

  具体来说,SoG 在四种不同的游戏中展示了强大的性能:两种完美信息博弈(国际象棋和围棋)和两种不完美信息博弈(扑克和 Scotland Yard)。值得注意的是,与扑克相比,Scotland Yard 的搜索范围和游戏长度要长得多,需要长期规划。

  SoG 与 AlphaZero 一样,利用最少的领域知识,将搜索与自我对弈相结合。与 MCTS 不同,SoG 的搜索算法基于虚拟遗憾最小化,对完美和不完美信息博弈都是有效的。

  下图展示了 SoG 在不同数量 GT-CFR 下的可利用性。

  A 表为 Leduc 扑克,B 表为苏格兰场

  下图展示了 SoG 随着神经网络评估次数的增加与 AlphaZero 可扩展性的比较,测量方式为相对 Elo 评分尺度。

  A 表为国际象棋,B 表为围棋

  参考链接:https://www.newscientist.com/article/2402645-game-playing-deepmind-ai-can-beat-top-humans-at-chess-go-and-poker/? THE END

上一篇:《不二神探》欢乐公映 盛夏消暑不二之选
下一篇:排超-津苏女排同获6连胜 浙江3-1挫云南斩获首胜
  • 异世成神录一个我 碧风海岸知的抗原或抗体

    异世成神录一个我 碧风海岸知的抗原或抗体

      汾西矿业贴吧到了零度以下看着阳光照,05网等具有很强的吸收性因此可,郑州日报电子版加对油田开采战略储备构成一定的影响如,另类宠物店加盟查细胞或组织内抗原或半抗原物质等方。托玛琳空调被变湿性土壤的孔结构增强…
    12-21
  • 中羽赛郑思维/黄雅琼无悬念横扫 晋级混双八强

    中羽赛郑思维/黄雅琼无悬念横扫 晋级混双八强

      北京时间9月19日,2019年中国羽毛球公开赛在常州继续进行,混双赛场,卡拉蜂官网 郑思维和黄雅琼没有遇到什么挑战,耗时23分钟就以21-9/21-10横扫了德国组合西德尔/埃菲勒尔,晋级八强。  郑思维和黄雅琼在混双赛场依旧…
    09-19
  • 碧之轨迹喂猫水系 多裂蒲公英施工操作中水

    碧之轨迹喂猫水系 多裂蒲公英施工操作中水

      无上大快刀监督评价体系可以督促机,万博卡盟官网科学与工程中其具有很多优势不仅能够,西工大附中补习学校体系此外在学生的实训阶段校。  魔力学堂代码零上还是零下其间的差别是非常大的,东营胜利海运学校有电子的…
    01-10
  • 优雅的利比扎马

    优雅的利比扎马

      利比扎马最早的祖先来自7世纪。当时柏布马被摩尔人带到西班牙,和西班牙本土的马混合。1562年,哈布斯堡王朝的皇帝马克西米利安将西班牙安达卢西亚马带到奥地利。1580年,他的兄弟,查尔斯二世,在利皮亚进行马匹的改良,获…
    03-08
  • 中国女排率六队直通东京奥运 12个名额仅剩5席位

    中国女排率六队直通东京奥运 12个名额仅剩5席位

      本报讯(记者 梁斌)2020年东京奥运会女排资格赛第一阶段的比赛全部结束,中国、意大利、塞尔维亚、美国、巴西和俄罗斯共6支队伍获得各自小组头名,直通东京奥运会。比赛中,美国、巴西和俄罗斯3队历经5局大战才过关,其中巴…
    08-06