我的订阅
科技

我们正处于一个信息大暴发的时代，每天都能产生数以百万计的新闻资讯！

虽然有大数据推荐，但面对海量数据，通过我们的调研发现，在一个小时的时间里，您通常无法真正有效地获取您感兴趣的资讯！

头条新闻资讯订阅，旨在帮助您收集感兴趣的资讯内容，并且在第一时间通知到您。可以有效节约您获取资讯的时间，避免错过一些关键信息。

综合RLHF、DPO、KTO优势，统一对齐框架UNA来了

类别：科技发布时间：2024-10-10 09:56:00 来源：机器之心Pro

AIxiv专栏是机器之心发布学术、技术内容的栏目。过去数年，机器之心AIxiv专栏接收报道了2000多篇内容，覆盖全球各大高校与企业的顶级实验室，有效促进了学术交流与传播。如果您有优秀的工作想要分享，欢迎投稿或者联系报道。

论文主要作者：

1. 王智超：本科就读于厦门大学土木工程系，研究生博士就读于佐治亚理工并获得土木工程和计算机工程硕士及机械工程博士，现任职于 Salesforce，专注于 LLM Alignment。

2. 闭彬：本科就读于华中科技大学计算机工程系，研究生就读于香港大学计算机科学系，博士就读于 UCLA 计算机科学系，现任职于 Salesforce，专注于 LLM Alignment。

3. 黄灿：厦门大学数学系副教授

随着大规模语言模型的快速发展，如 GPT、Claude 等，LLM 通过预训练海量的文本数据展现了惊人的语言生成能力。然而，即便如此，LLM 仍然存在生成不当或偏离预期的结果。这种现象在推理过程中尤为突出，常常导致不准确、不符合语境或不合伦理的回答。为了解决这一问题，学术界和工业界提出了一系列对齐（Alignment）技术，旨在优化模型的输出，使其更加符合人类的价值观和期望。

其中，RLHF 是一种广泛使用的方法，依赖于从人类反馈中学习强化策略。RLHF 的流程包括两个阶段：首先，通过人类偏好数据训练奖励模型（Reward Model, RM），然后使用该奖励模型指导策略模型（Policy Model）的强化学习优化。然而，RLHF 存在若干显著问题，如高内存占用、训练不稳定以及流程复杂等。

为了解决 RLHF 的复杂性，DPO 方法被提出。DPO 简化了 RLHF 的流程，将强化学习的训练阶段转化为一个二分类问题，减少了内存消耗并提高了训练稳定性。但 DPO 无法充分利用奖励模型，且仅适用于成对的偏好数据，无法处理更为广泛的反馈类型。

此外，KTO 进一步扩展了 DPO，能够处理二元数据（如正向和负向反馈），但它同样有其局限性，无法统一处理不同类型的反馈数据，也无法有效利用已有的奖励模型。

在这种背景下，来自 Salesforce、厦门大学的研究团队提出了一种名为 UNA 的新方法，它通过一种通用的隐式奖励函数，统一了当前主流的大规模语言模型（LLM）对齐技术。主要包括 RLHF、DPO 和 KTO，这些技术的结合不仅简化了模型的训练流程，还提高了模型对齐的性能，稳定性和效率。

论文标题：UNA: Unifying Alignments of RLHF/PPO, DPO and KTO by a Generalized Implicit Reward Function 论文地址：https://arxiv.org/abs/2408.15339

UNA 的创新点

UNA 的核心创新点在于通过一个（generalized implicit reward function）将 RLHF、DPO 和 KTO 统一为一个监督学习问题。UNA 的创新体现在以下几个方面：

推导通用的隐式奖励函数：UNA 通过使用 RLHF 的目标函数推导出一个通用的隐式奖励函数。简化 RLHF 的流程：UNA 将传统 RLHF 中不稳定且资源密集的强化学习过程转化为一个稳定的监督学习过程，减少了训练的不稳定性和对内存的需求。多种反馈数据的支持：UNA 能够处理不同类型的反馈数据，包括成对反馈（pairwise feedback）、二元反馈（binary feedback）以及基于评分的反馈（score-based feedback）。

监督学习框架的统一性：UNA 通过最小化隐式奖励和显式奖励之间的差异，统一了对策略模型的优化。

UNA 的理论基础

UNA 的理论基础源于对 RLHF 目标函数的重新推导。研究人员证明，给定 RLHF 的经典目标函数，最优策略可以通过一个隐式的奖励函数来诱导。该隐式奖励函数是策略模型与参考策略之间的对比结果，通过这个函数，UNA 能够将不同类型的奖励信息整合到统一的框架中进行处理。

实验结果与性能表现

研究人员通过一系列实验验证了 UNA 的有效性和优越性。在多个下游任务中，UNA 相较于传统的 RLHF、DPO 和 KTO 都有显著的性能提升，特别是在训练速度、内存占用和任务表现等方面。以下是实验结果的主要亮点：

任务表现：在多个语言理解任务和生成任务中，UNA 的表现优于 RLHF 和 DPO。例如，在 Huggingface 的 Open LLM Leadboard 数据集上的测试中，UNA 在多个评价指标上超越了 RLHF 和 DPO，表现出了更强的对齐能力和任务适应性。训练速度：由于 UNA 将 RLHF 中的强化学习任务转化为一个监督学习问题，其训练速度提高了近一倍。内存占用：UNA 的内存消耗显著低于 RLHF。由于 UNA 不再需要维护多个模型（如策略模型、参考策略、奖励模型和价值模型），其内存占用大幅减少，尤其在处理大规模模型时，这种优势尤为明显。

总结

UNA 的提出标志着大规模语言模型对齐技术的一个重要进展。通过统一 RLHF、DPO 和 KTO，UNA 不仅简化了模型的训练流程，还提高了训练的稳定性和效率。其通用的隐式奖励函数为模型的对齐提供了一个统一的框架，使得 UNA 在处理多样化反馈数据时具有更强的适应性和灵活性。实验结果表明，UNA 在多个下游任务中表现优越，为语言模型的实际应用提供了新的可能性。未来，随着 UNA 的进一步发展，预期它将在更多的应用场景中展现出强大的能力。

以上内容为资讯信息快照，由td.fyun.cc爬虫进行采集并收录，本站未对信息做任何修改，信息内容不代表本站立场。

快照生成时间：2024-10-10 11:45:07

本站信息快照查询为非营利公共服务，如有侵权请联系我们进行删除。

信息原文地址：

更多关于框架,优势,统一,综合,模型,奖励的资讯：

首个o1复现开源RL框架OpenR来了，UCL、上交等高校联

...学（广州）、西湖大学联合开源了首个类 o1 全链条训练框架「OpenR」，一个开源代码库，帮助用户快速实现构建自己的复杂推断模型

2024-10-15 09:56:00

LLM超越人类时该如何对齐？谷歌用新RLHF框架解决了这个问

...芝加哥大学一个研究团队开发了一种可扩展的开放式 RLHF 框架 eva，即 Evolving Alignment via Asymmetric Self-Play

2024-11-06 09:44:00

2023内容科技应用典型案例：农业银行大模型ChatABC

...模型：打造多模型融合开放新生态。AI平台采用开放式的框架，通过组件化方法快速纳入各类开源模型和商业模型。持续跟踪开源模型最新进展，逐步构建适应问答、文本向量化等不同场景的模型

2024-04-08 17:06:00

全模态对齐框架align-anything来啦：实现跨模态指

...京大学一支团队迅速跟进，用自研的全球首个全模态对齐框架「Align Anything」对 Llama 3.2 进行了微调

2024-10-18 09:47:00

大模型与传统统计模型融合的理论框架与性能边界研究

...不足。如何在理论层面理解二者的互补关系，并构建融合框架以平衡预测性能与统计可靠性，成为当前统计学与数据科学研究的重要议题。本文从方法论视角出发，系统分析传统统计模型与大模型的

2026-02-12 07:32:00

2223 万、电力（大模型）大单

...标工作。标包2：基于大模型的电力设备诊断与综合预测框架研究咨询服务。现有设备诊断存在依靠人工经验、多源多模态数据利用不充分、诊断准确度无法保证等技术难题。为解决上述问题，构建

2025-01-04 00:41:00

百度王海峰披露飞桨生态最新成果开发者数量已达800万

...步拓展。人工智能已进入工业大生产阶段。标准化方面，框架和模型联合优化，多硬件统一适配，应用模式简洁高效，大幅降低人工智能应用门槛；自动化方面，从训练、适配，到推理部署，提升人

2023-08-17 09:15:00

打造“新城建”，青云科技助力城投集团落地大模型应用示范中心

...用效率，能够在满足服务需求的同时降低运营成本。开放框架支撑生态与应用创新青云提供开放的应用框架和模型服务，支持城投集团的应用开发和测试，加速创新应用，同时便于接入第三方应用与

2025-08-05 20:18:00

国云注智聚力向新第七届数字中国建设峰会·电信生态成果体验

...云智超智算加速平台“云骁”支持多款国产芯片以及上层框架，可以对万卡规模智算集群进行纳管。算力分发网络平台“息壤”建立统一的算力度量体系，整合算与网资源，服务东数西算工程，让算

2024-05-24 11:06:00

更多关于科技的资讯：

不熟悉新手机误开收费业务

82岁老人换了新手机，但不熟悉操作，结果误开通多项收费业务。3月11日，老人收到扣费短信后向网格员求助，顺利取消了扣费服务

2026-03-11 17:36:00

【财眼观两会】专访皇甫宜川：让海外通过文化“新三样”看见真实

中新经纬3月11日电 (董湘依)近年来，中国文化“新三样”(网文、网剧、网游)在海外迅速走红。全国两会期间，全国政协委员

2026-03-11 19:27:00

薛洪言：“养龙虾”火出圈，算力变成稀缺资源

中新经纬3月11日电题：“养龙虾”火出圈，算力变成稀缺资源作者薛洪言星图金融研究院常务副院长、苏商银行特约研究员2026年的早春

2026-03-11 19:28:00

开滦股份范各庄矿：为天车作业装上智慧“防护门”

河北新闻网讯（闫丽颖、唐福刚）近日，开滦股份范各庄矿聚焦“物理隔离+智能管控”核心需求，创新应用一套具备智能闭锁、声光报警

2026-03-11 19:51:00

中国联通eSIM尝鲜季再添新力

3月11日上午，中国联通eSIM尝鲜季——三星国内首款eSIM手机Galaxy S26系列首销仪式在西单北营业厅隆重举行

2026-03-11 14:14:00

3·15维权添利器！安徽“皖美维保”平台上线，家电维修不怕“

大皖新闻讯家里空调、冰箱等家电出故障，找维修却怕遇上“小病大修”“坐地起价”。别愁，专为安徽消费者打造的家电维修“放心平台”来了

2026-03-11 14:55:00

深耕AI应用构筑新质生产力，罗普特（688619.SH）获“

近日，备受瞩目的2025年度“吴文俊人工智能科学技术奖”获奖名单正式揭晓。罗普特（股票代码：688619.SH）作为主要完成单位参与的《面向海上安防的通感算一体化大数据智能处理关键技术及产业化》项目

2026-03-11 15:01:00

新华保险“空中柜面”让保单服务零距离

鲁网3月11日讯“您好，欢迎使用新华保险空中柜面服务！”当客户通过手机视频联系接通后台柜员时，这一句温暖的问候便会准时响起

2026-03-11 16:35:00

“养龙虾”，怎么就火了？

新华社记者曾晋“你‘养龙虾’了吗？”这句略显无厘头的有趣问话，说的可是最近科技圈的一件大事。此“龙虾”并非餐桌上的美味

2026-03-11 16:02:00

好评中国｜中国“铁牛”何以耕耘世界“丰”景？-中国吉林网

长白时评评论员丁铁巴基斯坦独立新闻社日前报道，曾是大型农场专属的现代农业机械化，正因中国农机驶入全球田间地头被改写，手工耕作的辛劳正被高效的机械作业替代

2026-03-11 11:32:00

降噪新科技，轻松听清晰，潜能发展更可期----科利耳Nucl

在移动互联高度发达的当下，听损人士的生活场景愈发多元：孩子们在游乐场嬉戏，笑声与广播声交织；学生们在校园里讨论，声音此起彼伏

2026-03-11 13:01:00

海湾深化转型，打造第二增长曲线

2025年，海湾安全技术有限公司（以下简称"海湾"）迈入发展新阶段，在消防行业深度变革的浪潮中交出了一份亮眼的答卷。新年伊始

2026-03-11 13:02:00

八马以科技为翼，武夷山超级工厂破解茶行业非标发展桎梏

中国茶行业千年发展,却长期受困于“非标”痛点,品质参差、产能有限成为行业升级的最大阻碍。而作为“高端中国茶第一股”的八马茶业

2026-03-11 13:04:00

厦门“汇智办”让缴费人“会自办”

实现社保一站式便民服务厦门“汇智办”让缴费人“会自办”东南网3月11日讯（海峡导报记者孙春燕通讯员杨楠欢叶璐璐廖皓宇）受春节过后的“返工潮”影响

2026-03-11 13:46:00

探路制造出海“关键一跃”：华南师范大学调研团队走进华翱集团

面对复杂多变的国际环境，佛山制造业正迎来新一轮深度转型的关键期。从深耕国内市场到逐鹿全球蓝海，如何实现从单一“产品出海”向涵盖“技术-制造-品牌”的全链条出海跨越

2026-03-11 13:04:00

头条订阅服务

综合RLHF、DPO、KTO优势，统一对齐框架UNA来了