• 我的订阅
  • 科技

清华、北大等发布Self-Play强化学习最新综述

类别:科技 发布时间:2024-09-10 13:38:00 来源:机器之心Pro

AIxiv专栏是机器之心发布学术、技术内容的栏目。过去数年,机器之心AIxiv专栏接收报道了2000多篇内容,覆盖全球各大高校与企业的顶级实验室,有效促进了学术交流与传播。如果您有优秀的工作想要分享,欢迎投稿或者联系报道。

本文作者来自于清华大学电子工程系,北京大学人工智能研究院、第四范式、腾讯和清华-伯克利深圳学院。其中第一作者张瑞泽为清华大学硕士,主要研究方向为博弈算法。通讯作者为清华大学电子工程系汪玉教授、于超博后和第四范式研究员黄世宇博士。

自博弈(self-play)指的是智能体通过与自身副本或历史版本进行博弈而进行演化的方法,近年来在强化学习领域受到广泛重视。这篇综述首先梳理了自博弈的基本背景,包括多智能体强化学习框架和博弈论的基础知识。随后,提出了一个统一的自博弈算法框架,并在此框架下对现有的自博弈算法进行了分类和对比。此外,通过展示自博弈在多种场景下的应用,架起了理论与实践之间的桥梁。文章最后总结了自博弈面临的开放性挑战,并探讨了未来研究方向。

论文题目:A Survey on Self-play Methods in Reinforcement Learning

研究机构:清华大学电子工程系、北京大学人工智能研究院、第四范式、腾讯、清华-伯克利深圳学院 论文链接:https://arxiv.org/abs/2408.01072

引言

强化学习(Reinforcement Learning,RL)是机器学习中的一个重要范式,旨在通过与环境的交互不断优化策略。基本问题建模是基于马尔可夫决策过程(Markov decision process,MDP),智能体通过观察状态、根据策略执行动作、接收相应的奖励并转换到下一个状态。最终目标是找到能最大化期望累计奖励的最优策略。

自博弈(self-play)通过与自身副本或过去版本进行交互,从而实现更加稳定的策略学习过程。自博弈在围棋、国际象棋、扑克以及游戏等领域都取得了一系列的成功应用。在这些场景中,通过自博弈训练得到了超越人类专家的策略。尽管自博弈应用广泛,但它也伴随着一些局限性,例如可能收敛到次优策略以及显著的计算资源需求等。

本综述组织架构如下:首先,背景部分介绍了强化学习框架和基础的博弈论概念。其次,在算法部分提出了一个统一的框架,并根据该框架将现有的自博弈算法分为四类,进行系统的比较和分析。在之后的应用部分中,展示自博弈具体如何应用到具体的复杂博弈场景。最后,进一步讨论了自博弈中的开放问题和未来的研究方向,并进行总结。

背景

该部分分别介绍了强化学习框架以及博弈论基本知识。强化学习框架我们考虑最一般的形式:部分可观察的马尔可夫博弈(partially observable Markov game, POMGs),即多智能体场景,且其中每个智能体无法完全获取环境的全部状态。

博弈论基础知识介绍了博弈具体类型,包括(非)完美信息博弈和(非)完全信息博弈、标准型博弈和扩展型博弈、传递性博弈和非传递性博弈、阶段博弈和重复博弈、团队博弈等。同样也介绍了博弈论框架重要概念包括最佳回应(Best responce, BR)和纳什均衡 (Nash equilibrium, NE)等。

复杂的博弈场景分析通常采用更高层次的抽象,即元博弈(meta-game)。元博弈关注的不再是单独的动作,而是更高层的复杂策略。在这种高层次抽象下,复杂博弈场景可以看作是特殊的标准型博弈,策略集合由复杂策略组成。元策略(meta-strategies)是对策略集合中的复杂策略进行概率分配的混合策略。

在该部分最后,我们介绍了多种常用的自博弈评估指标,包括 Nash convergence(NASHCONV)、Elo、Glicko、Whole-History Rating(WHR) 和 TrueSkill。

算法

我们定义了一个统一的自博弈框架,并将自博弈算法分为四大类:传统自博弈算法、PSRO 系列算法、基于持续训练的系列算法和后悔最小化系列算法。

算法框架

清华、北大等发布Self-Play强化学习最新综述

首先,该框架(算法1)的输入定义如下:

清华、北大等发布Self-Play强化学习最新综述

类型一:传统自博弈算法

传统自博弈算法从单一策略开始,逐步扩展策略池,包括Vanilla self-play(训练时每次对手都选择最新生成的策略),Fictitious self-play(训练时每次对手都在现有训练完的策略中均匀采样),δ-uniform self-play(训练时每次对手都在现有训练完的最近的百分之δ策略中均匀采样),Prioritized Fictitious Self-play(根据优先级函数计算当前训练完的策略的优先级,训练时每次对手都根据这个优先级进行采样),Independent RL(训练时双方策略都会改变,对手策略不再固定)。

类型二:PSRO 系列算法

类似于传统自博弈算法,Policy-Space Response Oracle(PSRO)系列算法同样从单一策略开始,通过计算 ORACLE 逐步扩展策略池,这些新加入的策略是对当前元策略的近似 BR 。PSRO 系列与传统自博弈算法的主要区别在于,PSRO 系列采用了更复杂的MSS,旨在处理更复杂的任务。例如,α-PSRO 使用了基于 α-rank 的 MSS 来应对多玩家的复杂博弈。

类型三:持续训练系列算法

PSRO 系列算法中存在的两个主要挑战:首先,由于训练成本大,通常在每次迭代中截断近似BR计算,会将训练不充分的策略添加到策略池;其次,在每次迭代中会重复学习基本技能,导致效率较低。为了解决这些挑战,基于持续训练系列的算法提倡反复训练所有策略。与前面提到的两类最大区别是,持续训练系列算法同时训练整个策略池策略。这类算法采用多个训练周期,并在每个训练周期内依次训练策略池所有策略,而不再是通过逐步扩展策略池进行训练。

类型四:后悔最小化系列算法

另一类自博弈算法是基于后悔最小化的算法。基于后悔最小化的算法与其他类别的主要区别在于,它们优先考虑累积的长期收益,而不仅仅关注单次回合的表现。这种方法可以训练得到更具攻击性和适应性的策略,避免随着时间的推移被对手利用。这些算法要求玩家在多轮中推测并适应对手的策略。这种情况通常在重复博弈中观察到,而不是单回合游戏中。例如,在德州扑克或狼人游戏中,玩家必须使用欺骗、隐瞒和虚张声势的策略,以争取整体胜利,而不仅仅是赢得一局。

各类型算法比较与总结图

清华、北大等发布Self-Play强化学习最新综述

应用

在本节中,我们通过将三类经典场景来介绍自博弈的经典应用:棋类游戏,通常涉及完全信息;牌类游戏(包括麻将),通常涉及不完全信息;以及电子游戏,具有实时动作而非简单回合制游戏。

场景一:棋类游戏

棋类游戏领域,绝大多数是完全信息游戏,曾因引入两项关键技术而发生革命性变化:位置评估和蒙特卡罗树搜索。这两项技术在象棋、西洋跳棋、黑白棋、西洋双陆棋等棋盘游戏方面展现了超越人类的效果。相比之下,当这些技术应用于围棋时,由于围棋棋盘布局种类远超于上述提到的棋类游戏,因此仅能达到业余水平的表现。直到 DeepMind 推出了 AlphaGo 系列而发生了革命性的变化,AlphaGo 系列算法利用自博弈的强大功能显著提升了性能,为围棋领域设立了新的基准。

除了围棋,还有一种难度较高的棋类游戏是“军棋”(Stratego)。与大多数完全信息的棋类游戏不同,“军棋”是一个两人参与的不完全信息棋盘游戏。游戏分为两个阶段:部署阶段,玩家秘密安排他们的单位,为战略深度奠定基础;以及游戏阶段,目标是推断对手的布局并夺取他们的旗帜。DeepNash 采用基于进化的自博弈算法 R-NaD 达到了世界第三的人类水平。

场景二:牌类游戏

德州扑克(Texas Hold’em)是一种欧美流行的扑克游戏,适合 2 到 10 名玩家,当玩家数量增加,游戏变得更加复杂。此外,有三种下注形式:无限注、固定注和底池限注。每种形式在具有不同的游戏复杂度。在牌类游戏中,游戏抽象对于简化游戏复杂程度至关重要,可以将游戏的庞大状态空间减少到更容易处理的数量。Cepheus 采用后悔最小化系列算法 CFR+ 解决了最容易的双人有限注德州扑克。对于更复杂的双人无限注德州扑克,DeepStack 和 Libratus 采用子博弈重新计算的方式来实时做出决策,击败职业德州扑克选手。Pluribus 在 Libratus 基础上更进一步解决了六人无限注德州扑克。

斗地主需要同时考虑农民之间的合作和农民地主之间的竞争。斗地主同样是不完全信息博弈,这为游戏增加了不确定性和策略深度。DeltaDou 是基于 AlphaZero 开发的首个实现专家级斗地主表现的算法。之后的 DouZero 通过选择采样方法而非树搜索方法来降低训练成本,采用自博弈获取训练数据。

麻将同样基于不完全信息做出决策,此外,麻将的牌数更多,获胜牌型也更为复杂,对 AI 更具挑战性。Suphx 通过监督学习和自我博弈强化学习成为首个达到与人类专家水平的算法。NAGA 和腾讯设计的 LuckyJ 同样也在在线平台上达到了人类专家水平。

场景三:电子游戏

与传统棋类游戏和牌类游戏不同,电子游戏通常具有实时操作、更长的动作序列以及更广泛的动作空间和观察空间。在星际争霸(StarCraft)中,玩家需要收集资源、建设基地并组建军队,通过精心的计划和战术执行,使对方玩家失去所有建筑物,来取得胜利。AlphaStar 使用监督学习、端到端的强化学习和分层自博弈训练策略,在星际争霸II的 1v1 模式比赛中击败了职业玩家。

MOBA游戏要求两支玩家队伍各自操控他们独特的英雄,互相竞争以摧毁对方的基地。每个英雄都有独特的技能,并在队伍中扮演特定的角色,也无法观测全部地图。OpenAI Five 在简化版本的 Dota 2 中击败了世界冠军队,其训练过程使用混合类型自博弈,有 80% 的概率进行 Naive self-play,20% 的概率使用 Prioritized self-play。腾讯同样采用自博弈训练在王者荣耀游戏 1v1 和 5v5 模式中都击败了职业选手。

Google Research Football(GRF)是一个开源的足球模拟器,输入是高层次的动作,需要考虑队友之间的合作和两个队伍之间的竞争,且每队有 11 人。TiKick 通过 WeKick 的自博弈数据进行模仿学习,再利用分布式离线强化学习开发了一个多智能体AI。TiZero将课程学习与自博弈结合,无需专家数据,达到了比TiKick更高的TrueSkill评分。

各场景类型比较与总结图

清华、北大等发布Self-Play强化学习最新综述

自博弈方法因其独特的迭代学习过程和适应复杂环境的能力而表现出卓越的性能,然而,仍有不少方向值得进一步研究。

虽然许多算法在博弈论理论基础上提出,但在将这些算法应用于复杂的现实场景时,往往存在理论与现实应用的差距。例如,尽管 AlphaGo、AlphaStar 和 OpenAI Five 在实证上取得了成功,但它们的有效性缺乏正式的博弈论证明。

随着团队数量和团队内玩家数量的增加,自博弈方法的可扩展性面临显著挑战。例如,在 OpenAI Five 中,英雄池的大小被限制在仅17个英雄。根本上是由于自博弈方法在计算和存储两个方面训练效率有限:由于自博弈的迭代特性,智能体反复与自身或过去的版本对战,因而计算效率较低;自博弈需要维护一个策略池,因而对存储资源需求较高。

凭借卓越的能力和广泛的泛化性,大型语言模型(LLM)被认为是实现人类水平智能的潜在基础。为了减少对人工标注数据的依赖,自博弈方法被利用到微调LLM来增强LLM的推理性能。自博弈方法还在构建具有强大战略能力的基于 LLM 的代理方面做出了贡献,在”外交“游戏中达到了人类水平的表现。尽管近期取得了一些进展,将自博弈应用于 LLM 仍处于探索阶段。

自我博弈面另一个挑战是其在现实具身场景中无法直接应用。其迭代特性需要大量的试验和错误,很难直接在真实环境中完成。因此,通常只能在仿真器中进行自博弈训练,再将自博弈有效部署到现实具身场景中,关键问题仍在于克服 Sim2Real 差距。

以上内容为资讯信息快照,由td.fyun.cc爬虫进行采集并收录,本站未对信息做任何修改,信息内容不代表本站立场。

快照生成时间:2024-09-10 14:45:01

本站信息快照查询为非营利公共服务,如有侵权请联系我们进行删除。

信息原文地址:

本文转自:厦门日报还没上高二 他就拿到清华“入场券”双十中学李静榕在全国信息学奥赛中夺金,入选国家集训队 李静榕在颁奖现场。 (受访者 供图)本报讯(记者 佘峥)还没上高二
2023-07-31 06:55:00
将偏好学习引入模型训练,北大李戈团队提出代码生成优化新框架
...代码模型SFT对齐后,缺少进一步偏好学习的问题有解了。北大李戈教授团队与字节合作,在模型训练过程中引入偏好学习,提出了一个全新的代码生成优化框架——CodeDPO
2024-11-28 09:57:00
北大字节VAR最佳论文、厦大清华亚军,NeurIPS 2024最佳论文出炉
...获得了最佳论文亚军(Best Paper Runner-up):由厦门大学、清华大学、微软研究者共同完成的《Not All Tokens Are What You Need
2024-12-05 09:47:00
清华AI模型登Nature子刊:玩转城市空间规划,快人类3000倍
...在城市空间规划领域,人类设计师也有了 AI 伙伴。来自清华大学的研究团队提出了一个深度强化学习算法的模型。基于 15 分钟城市概念,该模型可以进行复杂的城市空间规划。结合人工
2023-09-12 16:46:00
...人们才有机会低门槛地接触到这些知识,也才有机会成为清华、北大、中国科学院大学等名校的“云学生”。毋庸讳言,在信息大爆炸的当下,人们不缺信息,缺的是高效获取知识的方法。定位学大
2024-09-03 15:07:00
受益良多,精彩不断!清华北大两位优秀学子经验分享干货满满
...心态,灵活转换应对思维,全力以赴追求梦想。今年考入清华大学的李泽宇同学从各科学习、学习心态、学习方法与技巧、学习资源利用以及考试技巧与应对策略等方面分享了自己的方法与经验,并
2024-08-04 18:14:00
聚焦2024年“中国梦·沂蒙情”龙舟邀请赛|清华北大山大登场
...在兰山区滨河西路风帆广场举行。届时,来自北京大学、清华大学、山东大学、澳门科技大学、南开大学、南京大学、武汉大学、厦门大学、西安交通大学、中央民族大学、中国科学技术大学、中山
2024-08-27 10:36:00
4090笔记本0.37秒直出大片!英伟达联手MIT清华祭出Sana架构,性能秒杀FLUX
...导读】一台4090笔记本,秒生1K质量高清图。英伟达联合MIT清华团队提出的Sana架构,得益于核心架构创新,具备了惊人的图像生成速度
2024-10-18 09:49:00
全球AI人才报告曝光:清华第三,北大第六!
...AI研究机构,仍旧是谷歌,斯坦福次之。 纵观所有机构,清华北大排名大幅提升,此外,上海交通大学、浙江大学赫然出现在世界TOP 25的名单中
2024-03-09 20:47:00
更多关于科技的资讯:
京东发布2025年春晓计划成绩单:数百万商家入驻,为新商节省数百亿
今日,京东“春晓计划”发布2025年度成绩单,展示了过去一年京东在POP商家扶持与发展方面的亮眼成果。数据显示,该计划吸引超过数百万新商入驻
2026-01-05 11:32:00
科技赋能,绿建出海 解码金螳螂的全球化进阶新路径
在建筑装饰行业面临转型与机遇交织的关键节点,金螳螂已在全球舞台开辟出增长新蓝海。2025年上半年,该公司海外营收同比激增29%
2026-01-05 11:52:00
东南网1月5日讯(福建日报记者 林霞) 4日,工信部公示2025年度中国消费名品名单,福建20个品牌入选。其中,12个品牌入选企业品牌
2026-01-05 13:10:00
从架构师到国家智库成员:呼延正勇的技术攀登与价值创造
近日,信息技术领域传来佳音:西安寰宇卫星测控与数据应用有限公司高级架构工程师呼延正勇正式入选国家财政部评审专家库。这位2023年加入公司的技术专家
2026-01-05 13:25:00
山钢集团以科技创新驱动产业升级 国产AI助力钢铁行业高质量发展
鲁网1月5日讯近日,山东省属企业科技创新生态建设推进会在济南召开,山东钢铁集团凭借多项前沿成果获得表彰。其中,“热连轧高强钢品规快速过渡与稳定轧制智能优化控制技术开发”入选省属企业十大创新成果
2026-01-05 13:25:00
AI赋能科研新征程:盈康大脑IncGPT大模型荣膺“人民匠心技术”
近日,以“匠心铸魂,质启新程”为主题的“2025人民质量发展论坛暨人民匠心品牌宣传展示活动”在京举行。论坛期间,“2025人民匠心品牌宣传展示活动”入选案例发布
2026-01-05 13:28:00
“多比,看镜头!”清晨,杭州临平一家跨境电商公司摄影棚内,员工小吴轻声呼唤阿比西尼亚猫“多比”,爱宠立刻抖擞精神,跃上新款猫爬架舒展身姿
2026-01-05 13:50:00
中新经纬1月5日电 据商务部网站消息,日前,商务部等九部门发布关于实施绿色消费推进行动的通知,提出鼓励购买获得绿色产品认证的绿色智能家电产品
2026-01-05 11:47:00
WowNow即将亮相CES 2026|以AI驱动的柔性制造,探索消费端创意直连制造的新路径
中国创新科技品牌WowNow宣布,将于2026年1月6日至9日亮相在美国拉斯维加斯举办的国际消费电子展(CES 2026)
2026-01-05 11:04:00
国内多筒血拼正酣!海尔三筒洗衣机泰国亮相填补空白
国内三筒洗衣机市场正上演激烈角逐,消费者对分区洗护的需求推动产品快速普及,各大品牌纷纷加码布局,行业竞争持续升级。海尔三筒洗衣机在热销超30万台
2026-01-05 09:52:00
山东移动泰安分公司圆满完成“你好2026”泰山跨年音乐嘉年华通信保障
鲁网1月4日讯2025年12月31日晚,“你好2026”泰山跨年音乐嘉年华在泰安市泰汶吾悦广场西南侧盛大举行,吸引超过两万名乐迷齐聚一堂
2026-01-05 09:55:00
国产新原料赋能产品创新:一支用“牙齿”成分做成的牙膏
近年来,国产科研力量正在持续推动口腔健康科技进步。从材料源头研发到临床研究验证,一系列应用转化研究不仅展示了国产功效型材料的技术潜力
2026-01-05 10:03:00
“手机随时待命、消息秒回”——新兴职业“秒回师”以其即时响应与情感陪伴的特点,吸引了不少年轻人加入。与此同时,代遛宠物专员
2026-01-05 08:36:00
■王哲娟摘要:在数字化与知识经济时代,企业的竞争边界不断扩展,组织间的关系由单向依附转向多层协同。协同创新成为企业嵌入生态系统
2026-01-05 05:42:00
东南网龙岩1月4日讯(通讯员 詹春艳 林培民)近日,龙岩市新罗区10千伏中新线上空,一场静默而精准的“人机协同”带电作业悄然完成
2026-01-04 23:27:00