• 我的订阅
  • 科技

首个o1复现开源RL框架OpenR来了,UCL、上交等高校联合团队发布

类别:科技 发布时间:2024-10-15 09:56:00 来源:机器之心Pro

AIxiv专栏是机器之心发布学术、技术内容的栏目。过去数年,机器之心AIxiv专栏接收报道了2000多篇内容,覆盖全球各大高校与企业的顶级实验室,有效促进了学术交流与传播。如果您有优秀的工作想要分享,欢迎投稿或者联系报道。

OpenR 研究团队成员包括:汪军教授,伦敦大学学院(UCL)计算机系教授,阿兰・图灵研究所 Turing Fellow,其指导的 UCL 一年级博士生宋研。利物浦大学助理教授方蒙。上海交通大学 Apex 和多智能体实验室张伟楠教授(上海交通大学计算机系教授、博士生导师、副系主任),温颖副教授(上海交通大学约翰・霍普克罗夫特计算机科学中心副教授)以及其指导的博士生万梓煜、温睦宁、朱家琛。张伟楠教授和温颖副教授博士期间就读于 UCL,指导教师为汪军教授。香港科技大学(广州)创校校长,倪明选(Lionel M. Ni),香港工程科学院院士,香港科技大学(广州)讲席教授。陈雷,香港科技大学(广州)信息枢纽院长,讲席教授。香港科技大学(广州)一年级博士生刘安杰、龚子钦受汪军教授和杨林易博士联合执导,以及西湖大学工学院助理教授(研究)杨林易。

o1 作为 OpenAI 在推理领域的最新模型,大幅度提升了 GPT-4o 在推理任务上的表现,甚至超过了平均人类水平。o1 背后的技术到底是什么?OpenAI 技术报告中所强调的强化学习和推断阶段的 Scaling Law 如何实现?

为了尝试回答这些问题,伦敦大学学院(UCL)、上海交通大学、利物浦大学、香港科技大学(广州)、西湖大学联合开源了首个类 o1 全链条训练框架「OpenR」,一个开源代码库,帮助用户快速实现构建自己的复杂推断模型 。整个项目由 UCL 汪军教授发起和指导,实验主要由上海交大团队完成。

我们介绍了 OpenR,首个集过程奖励模型(PRM)训练、强化学习、多种搜索框架为一身的类 o1 开源框架,旨在增强大型语言模型(LLM)的复杂推理能力。

论文链接:https://github.com/openreasoner/openr/blob/main/reports/OpenR-Wang.pdf 代码链接:https://github.com/openreasoner/openr 教程链接:https://openreasoner.github.io/

OpenR 将数据获取、强化学习训练(包括在线和离线训练)以及非自回归解码集成到一个统一的平台中。受到 OpenAI 的 o1 模型成功的启发, OpenR 采用了一种基于模型的方法,超越了传统的自回归方法。我们通过在 MATH 数据集上的评估来展示 OpenR 的有效性,利用公开的数据和搜索方法。初步实验表明,相对改进达到了显著提升。我们开源了 OpenR 框架,包括代码、模型和数据集,我们旨在推动推理领域开源社区的发展,欢迎感兴趣的从业人员加入到我们的开源社区。代码、文档、教程可通过https://openreasoner.github.io 访问。

系统设计。过程奖励模型 (PRM) 在两个关键方面增强了 LLM 的策略。首先,在训练期间,PRM 通过策略优化技术(如上图所示的策略迭代)改进 LLM 策略。其次,在解码阶段,PRM 引导 LLM 的搜索过程,使推理朝着更有效的结果发展(如上图所示)。接下来我们将展示,LLM 策略还可以帮助识别缺失的中间推理步骤,这反过来又可以进一步训练和改进 PRM。正如上图所示,这种迭代的互动使 LLM 和 PRM 能够持续地释放各自的潜力以改进推理。

数据增强.在使用 LLM 进行推理时,我们不仅仅依赖最终答案的反馈,而是使用更详细的反馈方式,逐步收集和标注数据。这样可以在问题解决的过程中,识别出具体的错误位置并给出反馈,从而帮助模型更好地学习和改进。

MATH-APS.我们通过自动生成合成样本来增强数据。与依赖昂贵且难以扩展的人工标注的 PRM800k 数据集不同,我们引入了一个新数据集 MATH-APS。这个数据集基于 MATH 数据集,并使用 OmegaPRM 等自动化方法来生成样本,从而减少了对人工标注的依赖,更易于大规模收集数据。自动化方法如 OmegaPRM、Math-Shepherd 和 MiPS 可以高效地收集高质量的过程监督数据。虽然 Math-Shepherd 和 MiPS 提供了过程监督的自动化标注,但它们需要大量的策略调用,计算成本较高。OmegaPRM 改进了这个过程,通过迭代地划分解决方案、回溯分析并找出模型推理中的第一个错误步骤来提高效率。

我们通过自动生成合成样本来增强数据。与依赖昂贵且难以扩展的人工标注的 PRM800k 数据集不同,我们引入了一个新数据集 MATH-APS。这个数据集基于 MATH 数据集,并使用 OmegaPRM 等自动化方法来生成样本,从而减少了对人工标注的依赖,更易于大规模收集数据。自动化方法如 OmegaPRM、Math-Shepherd 和 MiPS 可以高效地收集高质量的过程监督数据。虽然 Math-Shepherd 和 MiPS 提供了过程监督的自动化标注,但它们需要大量的策略调用,计算成本较高。OmegaPRM 改进了这个过程,通过迭代地划分解决方案、回溯分析并找出模型推理中的第一个错误步骤来提高效率。

PRM 的监督训练。在过程奖励模型 (PRM) 中,主要目的是判断解决方案的步骤是否在正确的轨道上。因此,PRM 会输出一个 0 到 1 之间的分数,作为当前解决过程的正确性指标。具体来说,给定一个问题及其解决步骤序列,PRM 会为每一步计算出一个分数,这可以视为一个二元分类任务:是否正确。我们通过在大型语言模型 (LLM) 上的监督微调来训练 PRM,将正确或错误的判定作为分类标签,并进一步使用 LLM 来预测每一步的后续标记。

Math-psa PRM 通过在 LLM 上的监督微调来训练,正确 / 错误的区分作为分类标签。我们使用数据集如 PRM800K,Math-Shepherd 以及我们自己的 MATH-APS 数据集来训练一个名为 Math-psa 的 PRM。这些数据集由三个部分组成:问题、过程 和 标签。输入由 问题 和 过程 的拼接组成。在 过程 中,解决方案被分为多个步骤,每个步骤用一个特殊的步骤标记分隔,以标记每个步骤结束的位置,PRM 可以在此处进行预测。标签对整个过程进行分类,根据解决方案的正确性将每个步骤标记为 + 或 -。

在训练过程中,模型会在每个步骤标记之后预测正或负标签。输入的拼接格式包含了 问题 和各个步骤之间的标记符。标签仅分配在步骤标记符的位置,并在计算损失时忽略其他位置。这种方式确保模型训练时主要关注输入序列,而不会被步骤标记符干扰,从而更好地识别和分类正确性。

LLM 的策略学习。我们将数学问题转换为一个语言增强的决策过程,用来逐步解决问题。这个过程叫做马尔可夫决策过程 (MDP),它由状态、动作和奖励组成。在这个框架中,每一个数学问题就是初始状态,模型生成推理步骤作为动作,然后根据当前状态和动作来决定下一个状态。

模型每完成一个步骤,就会得到一个奖励或反馈,用来评估该步骤是否正确。这个奖励帮助模型判断是否朝着正确方向前进。整个过程重复进行,模型会不断调整其推理路径,目标是获得尽可能多的正面反馈或奖励。

我们将这种 MDP 实现为一个强化学习环境,类似 OpenAI 的 Gym 环境。在这里,每个数学问题都被看作一个任务,模型通过一系列连续的推理步骤来解决这些问题。正确的步骤获得奖励,错误的步骤则受到惩罚。通过这种方式,模型可以在不断试错中优化其策略,从而逐渐提高其解决数学问题的能力。

在线强化学习训练。在使用强化学习训练大型语言模型 (LLM) 时,通常使用近端策略优化 (PPO) 来使生成的语言输出与预期的动作对齐。PPO 可以帮助模型生成既符合语境又达到目标的响应,填补了语言理解和操作输出之间的空隙。我们提供了传统的 PPO 和一种更高效的变体,即群体相对策略优化 (GRPO)。这两者主要在优势值的计算方法上不同:PPO 使用一个网络来估算状态值,并通过广义优势估算 (GAE) 技术来计算优势值;而 GRPO 则简化了这个过程,直接使用标准化的奖励信号来估算动作的优势,从而减少了训练资源的消耗,同时更加注重奖励模型的稳定性。

解码:推理时的引导搜索和规划

我们使用 PRM 来评估每个解决步骤的准确性。一旦训练出高质量的过程奖励模型,我们就可以将其与语言模型结合到解码过程中,从而实现引导搜索和多次生成的评分或投票。

为了将 PRM 用作验证器,我们定义了评估 LLM 生成的解决方案正确性的方法,将每一步的得分转换为最终分数。主要有两种方法:

PRM-Min:选择所有步骤中得分最低的作为最终分数。 PRM-Last:选择最后一步的得分作为最终分数。这种方法已经被证明效果与 PRM-Min 相当。

当通过扩大推理时计算生成多个答案后,我们需要基于分数选择最佳答案。我们采用了三种策略:

1. 多数投票:通过统计出现最多的答案作为最终答案。

2. RM-Max:根据结果奖励模型,选择最终奖励最高的答案。

3. RM-Vote:根据结果奖励模型,选择奖励总和最高的答案。

通过结合这些策略,可以形成多种加权方法,例如 PRM-Last-Max,即使用 PRM-Last 和 RM-Max 组合进行选择。我们的框架允许我们在多种搜索算法中进行选择,例如 Beam Search、Best-of-N, 蒙特卡洛树搜索等。每种算法在 PRM 的质量上有其独特的优势。复杂的搜索算法在处理更难的任务时可能表现更好,而简单的方法如最佳 N 则常能在难度较低的情况下表现良好。

解码阶段的 Scaling Law

我们观察到了和 OpenAI o1 以及 Deepmind 论文《Scaling LLM Test-Time Compute Optimally can be More Effective than Scaling Model Parameters》趋势相近的 Test-time Scaling Law,参见:

首个o1复现开源RL框架OpenR来了,UCL、上交等高校联合团队发布

图 3 推断阶段新的缩放率实验效果图

图 3 (a) 比较了这些搜索和投票方法在推理过程中的性能。y 轴表示 MATH500 数据集上的测试准确率,而 x 轴显示生成预算(每个问题的平均标记数),反映了每个问题的计算消耗或标记使用情况。该图表明,随着生成预算的增加,最佳 N 选择和束搜索方法的性能显著优于多数投票,与之前的发现表现出相似的模式。在低推理时计算预算下,最佳 N 选择方法表现优于束搜索,而束搜索在较高预算下可以达到相同的性能。另一方面,图 (b) 显示我们的 PRM (Math-aps) 能在所有测试的计算预算下达到最高的测试准确率。这确实验证了我们的 PRM 训练能够有效地学习过程监督。

详细的文档结束。OpenR 支持使用几行代码即可实现 PRM 的训练、强化学习训练,以及不同的解码方法,使用户能够方便地进行实验和测试。我们还提供了详细的代码文档供大家参考,参见:https://openreasoner.github.io/ 。我们所支持的算法如下图所示:

首个o1复现开源RL框架OpenR来了,UCL、上交等高校联合团队发布

图 4 开源代码算法实现框图

首个o1复现开源RL框架OpenR来了,UCL、上交等高校联合团队发布

图 5 OpenR 技术文档图

以上内容为资讯信息快照,由td.fyun.cc爬虫进行采集并收录,本站未对信息做任何修改,信息内容不代表本站立场。

快照生成时间:2024-10-15 12:45:02

本站信息快照查询为非营利公共服务,如有侵权请联系我们进行删除。

信息原文地址:

NeurIPS Spotlight|从分类到生成:无训练的可控扩散生成
...华大学等机构的研究团队联合提出了一种全新的统一算法框架,名为无训练指导(Training-Free Guidance
2024-12-06 09:52:00
扩散模型也能搞定社交信息推荐,港大数据智能实验室提出RecDiff
...了新项目RecDiff。RecDiff是一种全新的基于扩散模型的推荐框架,能够更好地捕捉用户的潜在偏好和兴趣,从而生成个性化、贴合用户需求的推荐内容。具体而言,该框架采用隐空
2024-07-30 09:31:00
智能体不够聪明怎么办?清华&蚂蚁团队:让它像学徒一样持续学习
...解决这三大难题。作者对比了当前最具代表性的 AI Agent 框架,它们要么推理过程不可控,要么知识固化,要么反馈机制过于粗糙。这一困境在开源模型中表现得尤为明显。AMOR
2024-12-11 09:53:00
罗格斯大学团队提出思想链概念,提高大模型的算数推理能力
...提示设计的标准化方法。 借助 CoT,人们现在拥有了一个框架来创建更有效的提示,从而可以完成复杂的推理任务。而这种增强解数学题的能力,能帮助用户更好地解数学题。此外,CoT
2024-03-15 10:41:00
多模态模型免微调接入互联网,即插即用新框架,效果超闭源方案
...大学、浙江大学、香港大学联合提出即插即用的SearchLVLMs框架,可以无缝整合任意的多模态大模型。该框架在推理阶段对大模型进行互联网检索增强,使得大模型无需微调即可对实时
2024-11-11 13:34:00
不靠更复杂的策略,仅凭和大模型训练对齐,零样本零经验单LLM调用
...究团队也想发问:构建通用智能体时,在铺设复杂的系统框架前,是否已经优化了行动 / 观测空间,让这些功能模块达到了最优状态
2024-11-07 09:54:00
谷歌大模型推理范式,主要分为两个阶段
...waroopMishra是谷歌DeepMind的研究科学家,它参与的Self-Instruct框架在GitHub上星标3
2024-02-10 21:09:00
LLM超越人类时该如何对齐?谷歌用新RLHF框架解决了这个问题
...芝加哥大学一个研究团队开发了一种可扩展的开放式 RLHF 框架 eva,即 Evolving Alignment via Asymmetric Self-Play
2024-11-06 09:44:00
空间智能新进展:教机器人组装家具,实现操作步骤与真实视频对齐
... 首先,研究者们首先定义了一套层次化的装配过程描述框架,将整个装配过程分为步骤、子步骤和视频帧等多个层级。作者首先从IAW数据集中提取每个手动步骤的视频片段,并将每个视频片
2024-11-27 09:57:00
更多关于科技的资讯:
聚焦2025中国国际数字经济博览会·访谈|沈昌祥:发挥优势,不断筑牢人工智能安全底座
发挥优势,不断筑牢人工智能安全底座——访中国工程院院士沈昌祥中国工程院院士沈昌祥。 河北日报记者 李东宇摄2025中国国际数字经济博览会的主题为“可信数据赋能产业发展”
2025-10-18 08:25:00
10月17日,2025中国国际数字经济博览会,一款AI绘画机器人精准识别人脸神态,快速绘画出人脸素描,被这只机械臂画得心服口服。(摄制:苏畅、白中豪、朱泊宇)
2025-10-18 08:27:00
深化开发利用,让高质量数据“动”起来——2025中国国际数字经济博览会探新之一机器人亮绝活、大模型总动员、虚拟空间沉浸体验……10月17日
2025-10-18 08:37:00
厦门网讯(厦门日报记者 薛尧)苹果iPhone17 Air昨日正式开启预售,这款取消实体卡槽、仅支持eSIM(嵌入式虚拟SIM卡)的新机
2025-10-18 08:59:00
近日,建设银行正式启动“‘享趣’玩·惠游中华”信用卡活动,为客户提供涵盖景区票务、特色餐饮、文创消费等多方面的用卡优惠
2025-10-18 10:41:00
海信贾少谦:AI重塑企业管理模式,打法要快,生意要慢
10月17日,第十五届中国管理·全球论坛暨首届“中国企业管理最佳实践榜”发布盛典在青岛举办。作为C50+2025年度轮值企业家召集人
2025-10-18 10:57:00
竹溪县数字经济产业链招商签约超亿元
十堰广电讯(全媒体记者 白孟尧 通讯员 付延峰)竞逐数字经济新赛道,孕育产业链招商硕果。10月18日,湖北十堰竹溪县竹溪数字经济产业链招商暨2025“国芯一号”生态合作伙伴大会在桃花岛夯土小镇举行
2025-10-18 13:47:00
东南网龙岩10月17日讯(通讯员 陈碧霞)近日,工行龙岩漳平支行组织青年志愿者主动深入当地企业园区,精心开展集“个人金融产品精准营销”与“金融反诈知识普及”于一体的“一站式”综合服务活动
2025-10-18 16:32:00
烟台银行荣登2025上半年度高质量数字化转型十大典型案例榜单
近日,由中国信通院主办的以“洞见十五五”为主题的2025数字生态发展大会暨“铸基计划”年中会议在北京盛大召开。会上,烟台银行联合长亮科技申报的《DataOps赋能烟台银行建设高质量智能数据中枢》案例
2025-10-18 17:45:00
视源股份广交会展示AI全场景创新实力,机器人机器人系列产品亮相成焦点
在第138届中国进出口商品交易会(广交会)上,视源股份以“AI+未来教育、AI+企业服务、AI+机器人、AI+生活”为主线
2025-10-18 18:18:00
本土智造重磅升级,医科达将八度亮相进博
第八届中国国际进口博览会(进博会)进入倒计时,作为八年“全勤生”,全球精准放疗先锋医科达将以“共建本土生态,共筑抗癌未来”为主题
2025-10-18 18:42:00
不用等到20号了!现在来京东11.11 iPhone 17 Pro系列可领300元惊喜券
每年11.11对于广大果粉而言无疑是换新的绝佳时机,无论是追求最新款还是预算有限入手上一代机型都能享受到极具吸引力的价格
2025-10-18 18:43:00
破局重构引领前行,联众优车持续锻造二手车服务新基建
近年来,在国内汽车消费结构持续升级的背景下,二手车市场已成为拉动汽车消费的重要引擎。特别是随着国家一系列利好政策的推出
2025-10-18 18:43:00
从龙虎到鹤年堂 京东七鲜十月品牌日再造下一个老字号联名爆款
随着“养生年轻化”与“即食化养生”成为主流,当代消费者愈发青睐“轻松养生、即时进补”。如何让传统养生智慧通过自有品牌融入日常
2025-10-18 18:43:00
全时段畅飞 全年不限次:长龙航空“365畅飞卡”10月19日在京东旅行限时开售
国内随心飞历史新低,全时段畅飞、全年不限次!在推出海航随心飞,并创下2天超25万用户下单、2亿销售额的纪录之后,京东11
2025-10-18 18:45:00