我的订阅
科技

我们正处于一个信息大暴发的时代，每天都能产生数以百万计的新闻资讯！

虽然有大数据推荐，但面对海量数据，通过我们的调研发现，在一个小时的时间里，您通常无法真正有效地获取您感兴趣的资讯！

头条新闻资讯订阅，旨在帮助您收集感兴趣的资讯内容，并且在第一时间通知到您。可以有效节约您获取资讯的时间，避免错过一些关键信息。

清华、北大等发布Self-Play强化学习最新综述

类别：科技发布时间：2024-09-10 13:38:00 来源：机器之心Pro

AIxiv专栏是机器之心发布学术、技术内容的栏目。过去数年，机器之心AIxiv专栏接收报道了2000多篇内容，覆盖全球各大高校与企业的顶级实验室，有效促进了学术交流与传播。如果您有优秀的工作想要分享，欢迎投稿或者联系报道。

本文作者来自于清华大学电子工程系，北京大学人工智能研究院、第四范式、腾讯和清华-伯克利深圳学院。其中第一作者张瑞泽为清华大学硕士，主要研究方向为博弈算法。通讯作者为清华大学电子工程系汪玉教授、于超博后和第四范式研究员黄世宇博士。

自博弈（self-play）指的是智能体通过与自身副本或历史版本进行博弈而进行演化的方法，近年来在强化学习领域受到广泛重视。这篇综述首先梳理了自博弈的基本背景，包括多智能体强化学习框架和博弈论的基础知识。随后，提出了一个统一的自博弈算法框架，并在此框架下对现有的自博弈算法进行了分类和对比。此外，通过展示自博弈在多种场景下的应用，架起了理论与实践之间的桥梁。文章最后总结了自博弈面临的开放性挑战，并探讨了未来研究方向。

论文题目：A Survey on Self-play Methods in Reinforcement Learning

研究机构：清华大学电子工程系、北京大学人工智能研究院、第四范式、腾讯、清华-伯克利深圳学院论文链接：https://arxiv.org/abs/2408.01072

引言

强化学习（Reinforcement Learning，RL）是机器学习中的一个重要范式，旨在通过与环境的交互不断优化策略。基本问题建模是基于马尔可夫决策过程（Markov decision process，MDP），智能体通过观察状态、根据策略执行动作、接收相应的奖励并转换到下一个状态。最终目标是找到能最大化期望累计奖励的最优策略。

自博弈（self-play）通过与自身副本或过去版本进行交互，从而实现更加稳定的策略学习过程。自博弈在围棋、国际象棋、扑克以及游戏等领域都取得了一系列的成功应用。在这些场景中，通过自博弈训练得到了超越人类专家的策略。尽管自博弈应用广泛，但它也伴随着一些局限性，例如可能收敛到次优策略以及显著的计算资源需求等。

本综述组织架构如下：首先，背景部分介绍了强化学习框架和基础的博弈论概念。其次，在算法部分提出了一个统一的框架，并根据该框架将现有的自博弈算法分为四类，进行系统的比较和分析。在之后的应用部分中，展示自博弈具体如何应用到具体的复杂博弈场景。最后，进一步讨论了自博弈中的开放问题和未来的研究方向，并进行总结。

背景

该部分分别介绍了强化学习框架以及博弈论基本知识。强化学习框架我们考虑最一般的形式：部分可观察的马尔可夫博弈（partially observable Markov game, POMGs），即多智能体场景，且其中每个智能体无法完全获取环境的全部状态。

博弈论基础知识介绍了博弈具体类型，包括（非）完美信息博弈和（非）完全信息博弈、标准型博弈和扩展型博弈、传递性博弈和非传递性博弈、阶段博弈和重复博弈、团队博弈等。同样也介绍了博弈论框架重要概念包括最佳回应（Best responce, BR）和纳什均衡 (Nash equilibrium, NE）等。

复杂的博弈场景分析通常采用更高层次的抽象，即元博弈（meta-game）。元博弈关注的不再是单独的动作，而是更高层的复杂策略。在这种高层次抽象下，复杂博弈场景可以看作是特殊的标准型博弈，策略集合由复杂策略组成。元策略（meta-strategies）是对策略集合中的复杂策略进行概率分配的混合策略。

在该部分最后，我们介绍了多种常用的自博弈评估指标，包括 Nash convergence（NASHCONV）、Elo、Glicko、Whole-History Rating（WHR）和 TrueSkill。

算法

我们定义了一个统一的自博弈框架，并将自博弈算法分为四大类：传统自博弈算法、PSRO 系列算法、基于持续训练的系列算法和后悔最小化系列算法。

算法框架

首先，该框架（算法1）的输入定义如下：

类型一：传统自博弈算法

传统自博弈算法从单一策略开始，逐步扩展策略池，包括Vanilla self-play（训练时每次对手都选择最新生成的策略），Fictitious self-play（训练时每次对手都在现有训练完的策略中均匀采样），δ-uniform self-play（训练时每次对手都在现有训练完的最近的百分之δ策略中均匀采样），Prioritized Fictitious Self-play（根据优先级函数计算当前训练完的策略的优先级，训练时每次对手都根据这个优先级进行采样），Independent RL（训练时双方策略都会改变，对手策略不再固定）。

类型二：PSRO 系列算法

类似于传统自博弈算法，Policy-Space Response Oracle（PSRO）系列算法同样从单一策略开始，通过计算 ORACLE 逐步扩展策略池，这些新加入的策略是对当前元策略的近似 BR 。PSRO 系列与传统自博弈算法的主要区别在于，PSRO 系列采用了更复杂的MSS，旨在处理更复杂的任务。例如，α-PSRO 使用了基于 α-rank 的 MSS 来应对多玩家的复杂博弈。

类型三：持续训练系列算法

PSRO 系列算法中存在的两个主要挑战：首先，由于训练成本大，通常在每次迭代中截断近似BR计算，会将训练不充分的策略添加到策略池；其次，在每次迭代中会重复学习基本技能，导致效率较低。为了解决这些挑战，基于持续训练系列的算法提倡反复训练所有策略。与前面提到的两类最大区别是，持续训练系列算法同时训练整个策略池策略。这类算法采用多个训练周期，并在每个训练周期内依次训练策略池所有策略，而不再是通过逐步扩展策略池进行训练。

类型四：后悔最小化系列算法

另一类自博弈算法是基于后悔最小化的算法。基于后悔最小化的算法与其他类别的主要区别在于，它们优先考虑累积的长期收益，而不仅仅关注单次回合的表现。这种方法可以训练得到更具攻击性和适应性的策略，避免随着时间的推移被对手利用。这些算法要求玩家在多轮中推测并适应对手的策略。这种情况通常在重复博弈中观察到，而不是单回合游戏中。例如，在德州扑克或狼人游戏中，玩家必须使用欺骗、隐瞒和虚张声势的策略，以争取整体胜利，而不仅仅是赢得一局。

各类型算法比较与总结图

应用

在本节中，我们通过将三类经典场景来介绍自博弈的经典应用：棋类游戏，通常涉及完全信息；牌类游戏（包括麻将），通常涉及不完全信息；以及电子游戏，具有实时动作而非简单回合制游戏。

场景一：棋类游戏

棋类游戏领域，绝大多数是完全信息游戏，曾因引入两项关键技术而发生革命性变化：位置评估和蒙特卡罗树搜索。这两项技术在象棋、西洋跳棋、黑白棋、西洋双陆棋等棋盘游戏方面展现了超越人类的效果。相比之下，当这些技术应用于围棋时，由于围棋棋盘布局种类远超于上述提到的棋类游戏，因此仅能达到业余水平的表现。直到 DeepMind 推出了 AlphaGo 系列而发生了革命性的变化，AlphaGo 系列算法利用自博弈的强大功能显著提升了性能，为围棋领域设立了新的基准。

除了围棋，还有一种难度较高的棋类游戏是“军棋”（Stratego）。与大多数完全信息的棋类游戏不同，“军棋”是一个两人参与的不完全信息棋盘游戏。游戏分为两个阶段：部署阶段，玩家秘密安排他们的单位，为战略深度奠定基础；以及游戏阶段，目标是推断对手的布局并夺取他们的旗帜。DeepNash 采用基于进化的自博弈算法 R-NaD 达到了世界第三的人类水平。

场景二：牌类游戏

德州扑克（Texas Hold’em）是一种欧美流行的扑克游戏，适合 2 到 10 名玩家，当玩家数量增加，游戏变得更加复杂。此外，有三种下注形式：无限注、固定注和底池限注。每种形式在具有不同的游戏复杂度。在牌类游戏中，游戏抽象对于简化游戏复杂程度至关重要，可以将游戏的庞大状态空间减少到更容易处理的数量。Cepheus 采用后悔最小化系列算法 CFR+ 解决了最容易的双人有限注德州扑克。对于更复杂的双人无限注德州扑克，DeepStack 和 Libratus 采用子博弈重新计算的方式来实时做出决策，击败职业德州扑克选手。Pluribus 在 Libratus 基础上更进一步解决了六人无限注德州扑克。

斗地主需要同时考虑农民之间的合作和农民地主之间的竞争。斗地主同样是不完全信息博弈，这为游戏增加了不确定性和策略深度。DeltaDou 是基于 AlphaZero 开发的首个实现专家级斗地主表现的算法。之后的 DouZero 通过选择采样方法而非树搜索方法来降低训练成本，采用自博弈获取训练数据。

麻将同样基于不完全信息做出决策，此外，麻将的牌数更多，获胜牌型也更为复杂，对 AI 更具挑战性。Suphx 通过监督学习和自我博弈强化学习成为首个达到与人类专家水平的算法。NAGA 和腾讯设计的 LuckyJ 同样也在在线平台上达到了人类专家水平。

场景三：电子游戏

与传统棋类游戏和牌类游戏不同，电子游戏通常具有实时操作、更长的动作序列以及更广泛的动作空间和观察空间。在星际争霸（StarCraft）中，玩家需要收集资源、建设基地并组建军队，通过精心的计划和战术执行，使对方玩家失去所有建筑物，来取得胜利。AlphaStar 使用监督学习、端到端的强化学习和分层自博弈训练策略，在星际争霸II的 1v1 模式比赛中击败了职业玩家。

MOBA游戏要求两支玩家队伍各自操控他们独特的英雄，互相竞争以摧毁对方的基地。每个英雄都有独特的技能，并在队伍中扮演特定的角色，也无法观测全部地图。OpenAI Five 在简化版本的 Dota 2 中击败了世界冠军队，其训练过程使用混合类型自博弈，有 80% 的概率进行 Naive self-play，20% 的概率使用 Prioritized self-play。腾讯同样采用自博弈训练在王者荣耀游戏 1v1 和 5v5 模式中都击败了职业选手。

Google Research Football（GRF）是一个开源的足球模拟器，输入是高层次的动作，需要考虑队友之间的合作和两个队伍之间的竞争，且每队有 11 人。TiKick 通过 WeKick 的自博弈数据进行模仿学习，再利用分布式离线强化学习开发了一个多智能体AI。TiZero将课程学习与自博弈结合，无需专家数据，达到了比TiKick更高的TrueSkill评分。

各场景类型比较与总结图

自博弈方法因其独特的迭代学习过程和适应复杂环境的能力而表现出卓越的性能，然而，仍有不少方向值得进一步研究。

虽然许多算法在博弈论理论基础上提出，但在将这些算法应用于复杂的现实场景时，往往存在理论与现实应用的差距。例如，尽管 AlphaGo、AlphaStar 和 OpenAI Five 在实证上取得了成功，但它们的有效性缺乏正式的博弈论证明。

随着团队数量和团队内玩家数量的增加，自博弈方法的可扩展性面临显著挑战。例如，在 OpenAI Five 中，英雄池的大小被限制在仅17个英雄。根本上是由于自博弈方法在计算和存储两个方面训练效率有限：由于自博弈的迭代特性，智能体反复与自身或过去的版本对战，因而计算效率较低；自博弈需要维护一个策略池，因而对存储资源需求较高。

凭借卓越的能力和广泛的泛化性，大型语言模型（LLM）被认为是实现人类水平智能的潜在基础。为了减少对人工标注数据的依赖，自博弈方法被利用到微调LLM来增强LLM的推理性能。自博弈方法还在构建具有强大战略能力的基于 LLM 的代理方面做出了贡献，在”外交“游戏中达到了人类水平的表现。尽管近期取得了一些进展，将自博弈应用于 LLM 仍处于探索阶段。

自我博弈面另一个挑战是其在现实具身场景中无法直接应用。其迭代特性需要大量的试验和错误，很难直接在真实环境中完成。因此，通常只能在仿真器中进行自博弈训练，再将自博弈有效部署到现实具身场景中，关键问题仍在于克服 Sim2Real 差距。

以上内容为资讯信息快照，由td.fyun.cc爬虫进行采集并收录，本站未对信息做任何修改，信息内容不代表本站立场。

快照生成时间：2024-09-10 14:45:01

本站信息快照查询为非营利公共服务，如有侵权请联系我们进行删除。

信息原文地址：

更多关于清华,北大,学习,算法,策略,训练的资讯：

还没上高二他就拿到清华“入场券”

本文转自：厦门日报还没上高二他就拿到清华“入场券”双十中学李静榕在全国信息学奥赛中夺金，入选国家集训队李静榕在颁奖现场。（受访者供图）本报讯（记者佘峥）还没上高二

2023-07-31 06:55:00

将偏好学习引入模型训练，北大李戈团队提出代码生成优化新框架

...代码模型SFT对齐后，缺少进一步偏好学习的问题有解了。北大李戈教授团队与字节合作，在模型训练过程中引入偏好学习，提出了一个全新的代码生成优化框架——CodeDPO

2024-11-28 09:57:00

北大字节VAR最佳论文、厦大清华亚军，NeurIPS 202

...获得了最佳论文亚军（Best Paper Runner-up）：由厦门大学、清华大学、微软研究者共同完成的《Not All Tokens Are What You Need

2024-12-05 09:47:00

清华AI模型登Nature子刊：玩转城市空间规划，快人类30

...在城市空间规划领域，人类设计师也有了 AI 伙伴。来自清华大学的研究团队提出了一个深度强化学习算法的模型。基于 15 分钟城市概念，该模型可以进行复杂的城市空间规划。结合人工

2023-09-12 16:46:00

网友争当名校“云学生”：是算法拆除了“知识围墙”

...人们才有机会低门槛地接触到这些知识，也才有机会成为清华、北大、中国科学院大学等名校的“云学生”。毋庸讳言，在信息大爆炸的当下，人们不缺信息，缺的是高效获取知识的方法。定位学大

2024-09-03 15:07:00

受益良多，精彩不断！清华北大两位优秀学子经验分享干货满满

...心态，灵活转换应对思维，全力以赴追求梦想。今年考入清华大学的李泽宇同学从各科学习、学习心态、学习方法与技巧、学习资源利用以及考试技巧与应对策略等方面分享了自己的方法与经验，并

2024-08-04 18:14:00

聚焦2024年“中国梦·沂蒙情”龙舟邀请赛｜清华北大山大登场

...在兰山区滨河西路风帆广场举行。届时，来自北京大学、清华大学、山东大学、澳门科技大学、南开大学、南京大学、武汉大学、厦门大学、西安交通大学、中央民族大学、中国科学技术大学、中山

2024-08-27 10:36:00

4090笔记本0.37秒直出大片！英伟达联手MIT清华祭出S

...导读】一台4090笔记本，秒生1K质量高清图。英伟达联合MIT清华团队提出的Sana架构，得益于核心架构创新，具备了惊人的图像生成速度

2024-10-18 09:49:00

全球AI人才报告曝光：清华第三，北大第六！

...AI研究机构，仍旧是谷歌，斯坦福次之。纵观所有机构，清华北大排名大幅提升，此外，上海交通大学、浙江大学赫然出现在世界TOP 25的名单中

2024-03-09 20:47:00

更多关于科技的资讯：

杭州首个全流程硅光基地在拱墅落成

实现从光芯片设计到模块封装量产每日商报讯近日，位于拱墅区大运河数智未来城省级高新区核心区块的拱政工出【2025】6号地块标准厂房（一期）项目（以下称“芯速联高速硅光模块智能制造基地”）正式完工

2026-03-12 08:12:00

涂鸦智能：以开放平台与AI能力重塑宠物喂食器解决方案

宠物智能用品正从基础的“联网控制”迈向“主动关怀”的深度智能时代。传统宠物喂食器多限于手机App远程定时出粮,难以应对动态调整食量

2026-03-12 08:34:00

纵览原创｜石家庄“装虾”线上线下冰火两重天：多家线下店铺称“

见习记者朱荣琛“你养龙虾了吗？”成为近期网络热议的话题。最近，这款名为OpenClaw（网友俗称“龙虾”）的开源AI智能体工具迅速走红网络

2026-03-12 08:47:00

警惕“龙虾热” 带来的替代焦虑-中国吉林网

长白时评评论员崔越然近期一款名为OpenClaw的开源人工智能体工具火遍全网，因其鲜红的图标被广大网民亲切地称为“龙虾”

2026-03-12 10:29:00

想尝鲜，又怕烫手西湖边，数百人排队免费领养本地版“龙虾”

西湖边掀起“养虾”热潮。春夜渐凉，西湖边的“养虾”热潮，到昨晚8点仍没有退去。从中午开始，滨次元AI文旅驿站外的12号场地就排起了长队

2026-03-12 09:13:00

绍兴纺企抱团出海 “柯桥优选”圈粉越南

杭州日报讯近日，在中国纺织信息中心浙江分中心·国际纺织时尚交流中心的组织下，涛搏纺织、凯亨纺织、卓伦纺织、优时进出口等10家绍兴柯桥纺织标杆企业组团亮相越南西贡会展中心

2026-03-12 07:11:00

企业“抢单”忙青山湖畔“开门红”

杭州日报讯 “开年前两个月，订单量同比两位数增长，完成甚至突破预定生产目标，我们信心很足!”“产线满负荷运转，订单排得满满当当

2026-03-12 07:11:00

桐乡“濮院毛衫”焕新出海

数字贸易平台海外版上线杭州日报讯昨日，在2026年中国国际针织（春夏）博览会上，濮院毛衫数字贸易平台海外版正式上线，其专属海外品牌“PlinkX”同步亮相

2026-03-12 07:11:00

“共享大市场·出口中国”活动即将在杭启幕

推动进口贸易与消费升级深度融合杭州日报讯为深入推进高水平对外开放，释放中国超大规模市场红利，推动进口贸易与消费升级深度融合

2026-03-12 07:11:00

不熟悉新手机误开收费业务

82岁老人换了新手机，但不熟悉操作，结果误开通多项收费业务。3月11日，老人收到扣费短信后向网格员求助，顺利取消了扣费服务

2026-03-11 17:36:00

【财眼观两会】专访皇甫宜川：让海外通过文化“新三样”看见真实

中新经纬3月11日电 (董湘依)近年来，中国文化“新三样”(网文、网剧、网游)在海外迅速走红。全国两会期间，全国政协委员

2026-03-11 19:27:00

薛洪言：“养龙虾”火出圈，算力变成稀缺资源

中新经纬3月11日电题：“养龙虾”火出圈，算力变成稀缺资源作者薛洪言星图金融研究院常务副院长、苏商银行特约研究员2026年的早春

2026-03-11 19:28:00

开滦股份范各庄矿：为天车作业装上智慧“防护门”

河北新闻网讯（闫丽颖、唐福刚）近日，开滦股份范各庄矿聚焦“物理隔离+智能管控”核心需求，创新应用一套具备智能闭锁、声光报警

2026-03-11 19:51:00

中国联通eSIM尝鲜季再添新力

3月11日上午，中国联通eSIM尝鲜季——三星国内首款eSIM手机Galaxy S26系列首销仪式在西单北营业厅隆重举行

2026-03-11 14:14:00

3·15维权添利器！安徽“皖美维保”平台上线，家电维修不怕“

大皖新闻讯家里空调、冰箱等家电出故障，找维修却怕遇上“小病大修”“坐地起价”。别愁，专为安徽消费者打造的家电维修“放心平台”来了

2026-03-11 14:55:00

头条订阅服务

清华、北大等发布Self-Play强化学习最新综述