• 我的订阅
  • 科技

这才是真开源模型!公开后训练一切,性能超越Llama 3.1 Instruct

类别:科技 发布时间:2024-11-26 09:44:00 来源:机器之心Pro

这才是真开源模型!公开后训练一切,性能超越Llama 3.1 Instruct

开源模型阵营又迎来一员猛将:Tülu 3。它来自艾伦人工智能研究所(Ai2),目前包含 8B 和 70B 两个版本(未来还会有 405B 版本),并且其性能超过了 Llama 3.1 Instruct 的相应版本!长达 73 的技术报告详细介绍了后训练的细节。

这才是真开源模型!公开后训练一切,性能超越Llama 3.1 Instruct

在最近关于「Scaling Law 是否撞墙」的讨论中,后训练(post-training)被寄予厚望。

众所周知,近期发布的 OpenAI o1 在数学、 代码、长程规划等问题上取得了显著提升,而背后的成功离不开后训练阶段强化学习训练和推理阶段思考计算量的增大。基于此,有人认为,新的扩展律 —— 后训练扩展律(Post-Training Scaling Laws) 已经出现,并可能引发社区对于算力分配、后训练能力的重新思考。

不过,对于后训练到底要怎么做,哪些细节对模型性能影响较大,目前还没有太多系统的资料可以参考,因为这都是各家的商业机密。

刚刚,曾经重新定义「开源」并发布了史上首个 100% 开源大模型的艾伦人工智能研究所(Ai2)站出来打破了沉默。他们不仅开源了两个性能超过 Llama 3.1 Instruct 相应版本的新模型 ——Tülu 3 8B 和 70B(未来还会有 405B 版本),还在技术报告中公布了详细的后训练方法。

这才是真开源模型!公开后训练一切,性能超越Llama 3.1 Instruct

Ai2 研究科学家 Nathan Lambert(论文一作)的推文

这份 70 多页的技术报告可以说诚意满满,非常值得详细阅读:

这才是真开源模型!公开后训练一切,性能超越Llama 3.1 Instruct

Tülu 3 发布后,社区反响热烈,甚至有用户表示测试后发现其表现比 GPT-4o 还好。

这才是真开源模型!公开后训练一切,性能超越Llama 3.1 Instruct

另外,Nathan Lambert 还暗示未来可能基于 Qwen 来训练 Tülu 模型。

这才是真开源模型!公开后训练一切,性能超越Llama 3.1 Instruct

机器之心也简单测试了下 Tülu。首先,数 Strawberry 中 r 数量的问题毫无意外地出错了,至于其编写的笑话嘛,好像也不好笑。

这才是真开源模型!公开后训练一切,性能超越Llama 3.1 Instruct

本地部署 AI 模型的工具 Ollama 也第一时间宣布已经支持该模型。

这才是真开源模型!公开后训练一切,性能超越Llama 3.1 Instruct

机器之心也简单通过 Ollama 和 Obsidian 的插件简单体验了一下 8B 的本地版本,看起来效果还不错,速度也很快。

不过,比模型性能更值得关注的或许还是 Tülu 3 的后训练方案。在这套方案的启发下,众多研究者有望在大模型的后训练阶段进行更多尝试,延续大模型的 Scaling Law。

首个发布后训练详情的开源模型

在提升模型性能方面,后训练的作用越来越大,具体包括微调和 RLHF 等。此前,OpenAI、 Anthropic、Meta 和谷歌等大公司已经大幅提升了其后训练方法的复杂度,具体包括采用多轮训练范式、使用人类数据 + 合成数据、使用多个训练算法和训练目标。也正因为此,这些模型的通用性能和专业能力都非常强。但遗憾的是,他们都没有透明地公开他们的训练数据和训练配方。

到目前为止,开源后训练一直落后于封闭模型。在 LMSYS 的 ChatBotArena 排行榜上,前 50 名(截至 2024 年 11 月 20 日)中没有任何一个模型发布了其后训练数据。即使是主要的开放权重模型也不会发布任何数据或用于实现这种后训练的配方细节。

于是,Ai2 似乎看不下去了,决定开源一切!

Tülu 3 模型之外,Ai2 还发布了所有的数据、数据混合方法、配方、代码、基础设施和评估框架!

这才是真开源模型!公开后训练一切,性能超越Llama 3.1 Instruct

模型:https://huggingface.co/allenai 技术报告:https://allenai.org/papers/tulu-3-report.pdf 数据集:https://huggingface.co/collections/allenai/tulu-3-datasets-673b8df14442393f7213f372 GitHub:https://github.com/allenai/open-instruct Demo:https://playground.allenai.org/

下表展示了 Ai2 开源的模型、数据集和代码:

这才是真开源模型!公开后训练一切,性能超越Llama 3.1 Instruct

Ai2 表示,Tülu 3 突破了后训练研究的界限,缩小了开放和封闭微调配方之间的性能差距。

为此,他们创建了新的数据集和新的训练流程。他们还提出了直接使用强化学习在可验证问题上训练的新方法,以及使用模型自己的生成结果创建高性能偏好数据的新方法。

加上更多优化细节,得到的 Tülu 3 系列模型明显优于同等规模的其它模型。

这才是真开源模型!公开后训练一切,性能超越Llama 3.1 Instruct

8B 模型在各基准上的表现

这才是真开源模型!公开后训练一切,性能超越Llama 3.1 Instruct

70B 模型在各基准上的表现

Tülu 3 是如何炼成的?

Ai2 在预训练语言模型的基础上,通过四个阶段的后训练方法生成 Tülu 3 模型(见图 1)。这套训练流程结合了强化学习中的新算法改进、尖端基础设施和严格的实验,以便在各个训练阶段整理数据并优化数据组合、方法和参数。

这才是真开源模型!公开后训练一切,性能超越Llama 3.1 Instruct

这些阶段如下:

阶段一:数据整理。Ai2 整理了各种提示(prompt)信息,并将其分配到多个优化阶段。他们创建了新的合成提示,或在可用的情况下,从现有数据集中获取提示,以针对特定能力。他们确保了提示不受评估套件 Tülu 3 EVAL 的污染。

这才是真开源模型!公开后训练一切,性能超越Llama 3.1 Instruct

阶段二:监督微调。Ai2 利用精心挑选的提示和回答结果进行监督微调(SFT)。在评估框架指导下,他们通过全面的实验,确定最终的 SFT 数据和训练超参数,以增强目标核心技能,同时不对其他技能的性能产生重大影响。

这才是真开源模型!公开后训练一切,性能超越Llama 3.1 Instruct

阶段三:偏好微调。Ai2 将偏好微调 —— 特别是 DPO(直接偏好优化)—— 应用于根据选定的提示和 off-policy 数据构建的新 on-policy 合成偏好数据。与 SFT 阶段一样,他们通过全面的实验来确定最佳偏好数据组合,从而发现哪些数据格式、方法或超参数可带来改进。

这才是真开源模型!公开后训练一切,性能超越Llama 3.1 Instruct

阶段四:具有可验证奖励的强化学习。Ai2 引入了一个新的基于强化学习的后训练阶段,该阶段通过可验证奖励(而不是传统 RLHF PPO 训练中常见的奖励模型)来训练模型。他们选择了结果可验证的任务,例如数学问题,并且只有当模型的生成被验证为正确时才提供奖励。然后,他们基于这些奖励进行强化学习训练。

这才是真开源模型!公开后训练一切,性能超越Llama 3.1 Instruct

Tülu 3 pipeline 的主要贡献在于数据、方法、基础设施的改进和严格的评估。其中的关键要素包括:

数据质量、出处和规模:Ai2 通过仔细调查可用的开源数据集、分析其出处、净化来获取提示,并针对核心技能策划合成提示。为确保有效性,他们进行了全面的实验,研究它们对评估套件的影响。他们发现有针对性的提示对提高核心技能很有影响,而真实世界的查询(如 WildChat)对提高通用聊天能力很重要。利用 Tülu 3 EVAL 净化工具,他们可以确保提示不会污染评估套件。 创建多技能 SFT 数据集。通过利用不同数据混合结果进行几轮有监督微调,Ai2 优化了「通用」和「特定技能」类别中提示的分布。例如,为了提高数学推理能力,Ai2 首先通过创建数学专业模型在评估套件中建立一个上限,然后混合数据,使通用模型更接近这个上限。 编排一个 On-Policy 偏好数据集。Ai2 开发了一个 on-policy 数据编排 pipeline,以扩展偏好数据集生成。具体来说,他们根据给定的提示从 Tülu 3-SFT 和其他模型中生成完成结果,并通过成对比较获得偏好标签。他们的方法扩展并改进了 Cui et al. [2023] 提出的 off-policy 偏好数据生成方法。通过对偏好数据进行精心的多技能选择,他们获得了 354192 个用于偏好调整的实例,展示了一系列任务的显着改进。 偏好调整算法设计。Ai2 对几种偏好调整算法进行了实验,观察到使用长度归一化( length-normalized)直接偏好优化的性能有所提高。他们在实验中优先考虑了简单性和效率,并在整个开发过程和最终模型训练中使用了长度归一化直接偏好优化算法,而不是对基于 PPO 的方法进行成本更高的研究。 具有可验证奖励的特定技能强化学习。Ai2 采用了一种新方法,利用标准强化学习范式,针对可以对照真实结果(如数学)进行评估的技能进行强化学习。他们将这种算法称为「可验证奖励强化学习」(RLVR)。结果表明,RLVR 可以提高模型在 GSM8K、MATH 和 IFEval 上的性能。

这才是真开源模型!公开后训练一切,性能超越Llama 3.1 Instruct

用于强化学习的训练基础设施。Ai2 实现了一种异步式强化学习设置:通过 vLLM 高效地运行 LLM 推理,而学习器还会同时执行梯度更新。并且 Ai2 还表示他们的强化学习代码库的扩展性能非常好,可用于训练 70B RLVR 策略模型。

这才是真开源模型!公开后训练一切,性能超越Llama 3.1 Instruct

Tülu 3 的表现如何?

为了评估 Tülu 3 以及其它模型,Ai2 设计了一套评估框架,其中包含一个用于可重复评估的开放评估工具包、一套用于评估指令微调模型的核心技能的套件(具有分立的开发和留存评估),以及一组推荐设置(基于 Ai2 对各种模型的实验)——Ai2 称之为 Tülu 3 Evaluation Regime。

除了评估最终模型,该框架还是一个开放的评估工具套件,旨在通过精心挑选的评估套件和净化工具来引导开发进度。

这才是真开源模型!公开后训练一切,性能超越Llama 3.1 Instruct

下面展示了一些主要的评估结果。可以看到,同等规模性,在这些基准上,Tülu 3 的表现非常出色,其中 70B 版本的平均性能甚至可与 Claude 3.5 Haiku 比肩。

这才是真开源模型!公开后训练一切,性能超越Llama 3.1 Instruct

此外,Ai2 还提出了两个新的评估基准:IFEval-OOD 和 HREF。

IFEval-OOD 的目标是测试 LLM 遵从精确指令的能力,以及它们是否能够遵从超出 IFEval 中包含的 25 个约束的指令约束。IFEval-OOD 包含 6 大类 52 个约束。

HREF 的全称是 Human Reference-guided Evaluation of instruction Following,即人类偏好指导的指令遵从评估,其目标是自动评估语言模型遵从指令的能力。HREF 专注于语言模型通常训练的 11 个指令遵从任务,即头脑风暴、开放式 QA、封闭式 QA、提取、生成、重写、总结、分类、数值推理、多文档合成和事实核查。

下表给出了 Tülu 3 与对比模型在这两个新基准以及其它已有基准上的表现,具体涉及的领域包括知识调用、推理、数学、编程和指令遵从。需要注意,这些都是 Unseen 基准,即这些任务是模型训练过程中未见过的。

这才是真开源模型!公开后训练一切,性能超越Llama 3.1 Instruct

安全性方面,以下两表展示了 Tülu 3 与对比模型在两个基准上的安全分数。整体而言,同等规模下,Tülu 3 相较于其它开源模型更有优势。

这才是真开源模型!公开后训练一切,性能超越Llama 3.1 Instruct

最后必须说明,长达 73 页的 Tülu 3 技术报告中还包含大量本文并未提及的细节,感兴趣的读者千万不要错过。

https://allenai.org/blog/tulu-3?includeDrafts

https://x.com/natolambert/status/1859643351441535345

https://www.interconnects.ai/p/tulu-3

以上内容为资讯信息快照,由td.fyun.cc爬虫进行采集并收录,本站未对信息做任何修改,信息内容不代表本站立场。

快照生成时间:2024-11-26 12:45:02

本站信息快照查询为非营利公共服务,如有侵权请联系我们进行删除。

信息原文地址:

全球最强开源大模型Llama 3发布:使用15T数据预训练,最大模型参数将超4000亿
就在刚刚,Meta 发布了其最先进开源大型语言模型的下一代产品——Llama 3。据介绍,Llama 3 在 24K GPU 集群上训练
2024-04-20 11:03:00
中科大联合华为诺亚Entropy Law,揭秘大模型性能、数据压缩率
...力于推动人工智能领域的技术创新和发展。数据是大语言模型(LLMs)成功的基石,但并非所有数据都有益于模型学习。直觉上,高质量的样本在教授 LLM 上预期会有更好的效率。因此,
2024-07-23 09:41:00
第一个100%开源的MoE大模型,7B的参数,1B的推理成本
... checkpoint、训练日志和训练数据都已经开源。尽管大语言模型 (LM) 在各种任务上取得了重大进展,但在训练和推理方面
2024-09-06 10:01:00
浪潮信息推出as13000g7-n系列
...步伐,于近日推出分布式全闪存储AS13000G7-N系列,专为大模型优化而设,为数据存储带来革命性的突破。该系列依托浪潮信息自研分布式文件系统
2024-06-16 10:27:00
大模型新趋势之MoE:现状、挑战及研究方向
2024年,全球主流企业加快推出MoE大模型,1-5月发布千亿以上大模型均采用MoE优化架构,且数量超过近三年总和。MoE大模型架构凭借平衡大模型训推成本和计算效率等优势,更适合
2024-11-04 16:00:00
Llama3训练每3小时崩一次?豆包大模型、港大为脆皮万卡训练提效
伴随大模型迭代速度越来越快,训练集群规模越来越大,高频率的软硬件故障已经成为阻碍训练效率进一步提高的痛点,检查点(Checkpoint)系统在训练过程中负责状态的存储和恢复,已经
2024-08-09 09:37:00
中国最大开源MoE模型,255B参数无条件免费商用,元象发布
元象XVERSE发布中国最大MoE开源模型:XVERSE-MoE-A36B,该模型总参数255B,激活参数36B,达到100B模型性能的「跨级」跃升
2024-09-18 13:36:00
87.8%准确率赶超GPT-4o登顶!谷歌DeepMind发布自动评估模型FLAMe
【新智元导读】谷歌DeepMind推出LLM自动评估模型FLAMe系列,FLAMe-RM-24B模型在RewardBench上表现卓越
2024-08-05 09:37:00
llava-1.6与gpt-4vmp面硬刚的性能,一起来看看
...-Plus,与GPT-4V正面硬刚,这个有着SOTA级别性能的多模态大模型真正做到了“人无我有,人有我优”。继2023年4月的初级版本
2024-02-10 21:04:00
更多关于科技的资讯:
家装变省心:京东MALL“家气候定制”让舒适生活一键直达
八月秋风染暖江面,长江之畔的2025年京东发布会中,一场直击家居消费痛点的变革悄然落地——京东MALL与城市旗舰店正式发布“家气候一站定制”战略
2025-08-18 18:46:00
盒马鲜生入驻淄博张店 “首店经济”激活城市商业新动能
大众网记者 王越 崔照琪 淄博报道在淄博商业格局加速升级的关键阶段,淄博富力万达广场将 “首店经济” 作为战略抓手,不断推进品牌矩阵焕新
2025-08-18 19:02:00
东莞鑫华发布Lipo 低压注塑自动线体,引领显示模组封装技术革新
2025 年 8 月 18 日,东莞市鑫华智能制造有限公司(以下简称 “鑫华智能”)正式发布Lipo 低压注塑自动线体
2025-08-18 19:53:00
足不出户,轻松办理,气象咨询证明新增线上服务新渠道啦!
申请人足不出户即可通过济南市“一网通办”平台、“爱山东”APP济南分厅和“爱山东”微信小程序在线申请气象咨询证明,申请流程完成后
2025-08-18 19:54:00
中国泳装网亮相东北亚博览会:泳装云脑智链全球
在2025东北亚(兴城)国际泳装博览会的璀璨聚光灯下,中国泳装网展台成为全球泳装产业链的瞩目焦点。作为植根“中国泳装之都”辽宁兴城的全球泳装产业数字枢纽平台
2025-08-18 19:54:00
巨量引擎 x 刀法研究所《2025爆单内容直播间白皮书》正式发布
从功能满足到价值认同,中国的消费市场已经进入了心智为王的增长新周期,品牌急需建立起一套以内容为核心的全新增长范式,通过引人入胜的故事与消费者建立情感连接和信任关系
2025-08-18 16:19:00
将时针拨回至二十多年前,彼时保险行业的服务场景曾深深镌刻着线下烦琐操作的基因,客户要到网点与业务人员交流,售前、售中及售后均要依托线下网点办理
2025-08-18 12:10:00
少儿人形机器人“主打”陪伴
少儿人形机器人筑境H1在与巡检机器人互动。南京日报/紫金山新闻记者 孙琳 摄□南京日报/紫金山新闻记者孙琳 通讯员焦娇朱强申“大家好
2025-08-18 07:40:00
□南京日报/紫金山新闻记者 邓露洁 通讯员彭海洋“生成一张挂机空调展示海报,要有家居背景,文字要醒目一点。”8月14日下午
2025-08-18 07:41:00
六成参赛机器人“关节”,南京造!
因克斯一体化关节模组赋能2025世界人形机器人运动会六成参赛机器人“关节”,南京造!南报网讯(记者徐宁)8月14日,全球首个以人形机器人为参赛主体的综合性体育盛会“2025世界人形机器人运动会”在北京开幕
2025-08-17 09:53:00
骑手升级“城市骑士”!饿了么淘宝闪购全面提升骑士保障激励体系
8月17号饿了么“骑士日”当天,饿了么董事长兼CEO范禹发布内部信,宣布平台全体骑手正式升级为“城市骑士”,全面升级骑士保障
2025-08-17 15:18:00
合肥神笔生物:基因编辑点亮“中国光”
大皖新闻讯 近日,在青岛海底世界高达9.5米的崖壁前,水流裹挟着自主培育的发光菌奔涌而下,形成一道璀璨流动的“荧光星河瀑布”
2025-08-17 13:26:00
2025“爽爽贵阳·世界风味嘉年华”暨“爽爽贵阳·咖啡飘香”系列活动开幕
8月16日,作为商务部2025服务消费季系列活动之一,2025“爽爽贵阳·世界风味嘉年华”暨“爽爽贵阳·咖啡飘香”系列活动在贵阳市观山湖区阿云朵仓开幕
2025-08-17 21:02:00
360集团20周年庆典:官宣“All in Agent”战略
8月15日,360集团迎来二十周年,在北京奥林匹克体育中心举办的“360集团20周年荣耀庆典”上,创始人周鸿祎向现场数千名员工发表演讲
2025-08-17 13:03:00
培育壮大十大千亿级产业集群丨天为铝业:弃“建”逐“工” 产业迈入新“铝”程
十堰广电讯(全媒体记者 喻波 叶旭升 通讯员 杜达巍)面对建筑型材市场的激烈竞争,今年,湖北天为铝业科技有限公司果断转型
2025-08-17 19:24:00