• 我的订阅
  • 科技

综合RLHF、DPO、KTO优势,统一对齐框架UNA来了

类别:科技 发布时间:2024-10-10 09:56:00 来源:机器之心Pro

综合RLHF、DPO、KTO优势,统一对齐框架UNA来了

AIxiv专栏是机器之心发布学术、技术内容的栏目。过去数年,机器之心AIxiv专栏接收报道了2000多篇内容,覆盖全球各大高校与企业的顶级实验室,有效促进了学术交流与传播。如果您有优秀的工作想要分享,欢迎投稿或者联系报道。

论文主要作者:

1. 王智超:本科就读于厦门大学土木工程系,研究生博士就读于佐治亚理工并获得土木工程和计算机工程硕士及机械工程博士,现任职于 Salesforce,专注于 LLM Alignment。

2. 闭彬:本科就读于华中科技大学计算机工程系,研究生就读于香港大学计算机科学系,博士就读于 UCLA 计算机科学系,现任职于 Salesforce,专注于 LLM Alignment。

3. 黄灿:厦门大学数学系副教授

随着大规模语言模型的快速发展,如 GPT、Claude 等,LLM 通过预训练海量的文本数据展现了惊人的语言生成能力。然而,即便如此,LLM 仍然存在生成不当或偏离预期的结果。这种现象在推理过程中尤为突出,常常导致不准确、不符合语境或不合伦理的回答。为了解决这一问题,学术界和工业界提出了一系列对齐(Alignment)技术,旨在优化模型的输出,使其更加符合人类的价值观和期望。

其中,RLHF 是一种广泛使用的方法,依赖于从人类反馈中学习强化策略。RLHF 的流程包括两个阶段:首先,通过人类偏好数据训练奖励模型(Reward Model, RM),然后使用该奖励模型指导策略模型(Policy Model)的强化学习优化。然而,RLHF 存在若干显著问题,如高内存占用、训练不稳定以及流程复杂等。

为了解决 RLHF 的复杂性,DPO 方法被提出。DPO 简化了 RLHF 的流程,将强化学习的训练阶段转化为一个二分类问题,减少了内存消耗并提高了训练稳定性。但 DPO 无法充分利用奖励模型,且仅适用于成对的偏好数据,无法处理更为广泛的反馈类型。

此外,KTO 进一步扩展了 DPO,能够处理二元数据(如正向和负向反馈),但它同样有其局限性,无法统一处理不同类型的反馈数据,也无法有效利用已有的奖励模型。

在这种背景下,来自 Salesforce、厦门大学的研究团队提出了一种名为 UNA 的新方法,它通过一种通用的隐式奖励函数,统一了当前主流的大规模语言模型(LLM)对齐技术。主要包括 RLHF、DPO 和 KTO,这些技术的结合不仅简化了模型的训练流程,还提高了模型对齐的性能,稳定性和效率。

综合RLHF、DPO、KTO优势,统一对齐框架UNA来了

论文标题:UNA: Unifying Alignments of RLHF/PPO, DPO and KTO by a Generalized Implicit Reward Function 论文地址:https://arxiv.org/abs/2408.15339

UNA 的创新点

UNA 的核心创新点在于通过一个(generalized implicit reward function)将 RLHF、DPO 和 KTO 统一为一个监督学习问题。UNA 的创新体现在以下几个方面:

推导通用的隐式奖励函数:UNA 通过使用 RLHF 的目标函数推导出一个通用的隐式奖励函数。 简化 RLHF 的流程:UNA 将传统 RLHF 中不稳定且资源密集的强化学习过程转化为一个稳定的监督学习过程,减少了训练的不稳定性和对内存的需求。 多种反馈数据的支持:UNA 能够处理不同类型的反馈数据,包括成对反馈(pairwise feedback)、二元反馈(binary feedback)以及基于评分的反馈(score-based feedback)。

综合RLHF、DPO、KTO优势,统一对齐框架UNA来了

监督学习框架的统一性:UNA 通过最小化隐式奖励和显式奖励之间的差异,统一了对策略模型的优化。

综合RLHF、DPO、KTO优势,统一对齐框架UNA来了

UNA 的理论基础

UNA 的理论基础源于对 RLHF 目标函数的重新推导。研究人员证明,给定 RLHF 的经典目标函数,最优策略可以通过一个隐式的奖励函数来诱导。该隐式奖励函数是策略模型与参考策略之间的对比结果,通过这个函数,UNA 能够将不同类型的奖励信息整合到统一的框架中进行处理。

综合RLHF、DPO、KTO优势,统一对齐框架UNA来了

实验结果与性能表现

研究人员通过一系列实验验证了 UNA 的有效性和优越性。在多个下游任务中,UNA 相较于传统的 RLHF、DPO 和 KTO 都有显著的性能提升,特别是在训练速度、内存占用和任务表现等方面。以下是实验结果的主要亮点:

任务表现:在多个语言理解任务和生成任务中,UNA 的表现优于 RLHF 和 DPO。例如,在 Huggingface 的 Open LLM Leadboard 数据集上的测试中,UNA 在多个评价指标上超越了 RLHF 和 DPO,表现出了更强的对齐能力和任务适应性。 训练速度:由于 UNA 将 RLHF 中的强化学习任务转化为一个监督学习问题,其训练速度提高了近一倍。 内存占用:UNA 的内存消耗显著低于 RLHF。由于 UNA 不再需要维护多个模型(如策略模型、参考策略、奖励模型和价值模型),其内存占用大幅减少,尤其在处理大规模模型时,这种优势尤为明显。

综合RLHF、DPO、KTO优势,统一对齐框架UNA来了

综合RLHF、DPO、KTO优势,统一对齐框架UNA来了

总结

UNA 的提出标志着大规模语言模型对齐技术的一个重要进展。通过统一 RLHF、DPO 和 KTO,UNA 不仅简化了模型的训练流程,还提高了训练的稳定性和效率。其通用的隐式奖励函数为模型的对齐提供了一个统一的框架,使得 UNA 在处理多样化反馈数据时具有更强的适应性和灵活性。实验结果表明,UNA 在多个下游任务中表现优越,为语言模型的实际应用提供了新的可能性。未来,随着 UNA 的进一步发展,预期它将在更多的应用场景中展现出强大的能力。

以上内容为资讯信息快照,由td.fyun.cc爬虫进行采集并收录,本站未对信息做任何修改,信息内容不代表本站立场。

快照生成时间:2024-10-10 11:45:07

本站信息快照查询为非营利公共服务,如有侵权请联系我们进行删除。

信息原文地址:

首个o1复现开源RL框架OpenR来了,UCL、上交等高校联合团队发布
...学(广州)、西湖大学联合开源了首个类 o1 全链条训练框架「OpenR」,一个开源代码库,帮助用户快速实现构建自己的复杂推断模型
2024-10-15 09:56:00
LLM超越人类时该如何对齐?谷歌用新RLHF框架解决了这个问题
...芝加哥大学一个研究团队开发了一种可扩展的开放式 RLHF 框架 eva,即 Evolving Alignment via Asymmetric Self-Play
2024-11-06 09:44:00
2023内容科技应用典型案例:农业银行大模型ChatABC
...模型:打造多模型融合开放新生态。AI平台采用开放式的框架,通过组件化方法快速纳入各类开源模型和商业模型。持续跟踪开源模型最新进展,逐步构建适应问答、文本向量化等不同场景的模型
2024-04-08 17:06:00
全模态对齐框架align-anything来啦:实现跨模态指令跟随
...京大学一支团队迅速跟进,用自研的全球首个全模态对齐框架「Align Anything」对 Llama 3.2 进行了微调
2024-10-18 09:47:00
2223 万、电力(大模型)大单
...标工作。标包2:基于大模型的电力设备诊断与综合预测框架研究咨询服务。现有设备诊断存在依靠人工经验、多源多模态数据利用不充分、诊断准确度无法保证等技术难题。为解决上述问题,构建
2025-01-04 00:41:00
百度王海峰披露飞桨生态最新成果 开发者数量已达800万
...步拓展。人工智能已进入工业大生产阶段。标准化方面,框架和模型联合优化,多硬件统一适配,应用模式简洁高效,大幅降低人工智能应用门槛;自动化方面,从训练、适配,到推理部署,提升人
2023-08-17 09:15:00
打造“新城建”,青云科技助力城投集团落地大模型应用示范中心
...用效率,能够在满足服务需求的同时降低运营成本。开放框架支撑生态与应用创新青云提供开放的应用框架和模型服务,支持城投集团的应用开发和测试,加速创新应用,同时便于接入第三方应用与
2025-08-05 20:18:00
国云注智 聚力向新 第七届数字中国建设峰会·电信生态成果体验馆盛大开馆
...云智超智算加速平台“云骁”支持多款国产芯片以及上层框架,可以对万卡规模智算集群进行纳管。算力分发网络平台“息壤”建立统一的算力度量体系,整合算与网资源,服务东数西算工程,让算
2024-05-24 11:06:00
卓翼飞思智能算法云仿真平台助推全国集群挑战赛,引爆行业热潮!
...法在线训练平台提供强化学习、深度学习算法调试和训练框架,可视化设置和修改奖励函数,快速进行模型参数修改,多维度查看训练效果。·支持虚实结合平台支持实体节点和虚拟节点。实体节点
2023-11-28 11:02:00
更多关于科技的资讯:
鲁网1月17日讯1月13日上午,普惠(临沂)投资服务有限公司考察组一行赴临沂市供应链金融协会开展学习交流活动。临沂市供应链金融协会会长
2026-01-17 14:47:00
1月16日,全球最大、起重量达2300吨的桥面吊机在河北省秦皇岛市一装备制造企业正式下线,标志着我国在大型桥梁施工装备领域又获重大突破
2026-01-17 15:44:00
2026天然苏打水市场趋势:健康化、场景化成主流 泉匠深耕多区域市场实现销量突破
随着健康消费理念的深度渗透,天然苏打水行业正迎来高质量发展的黄金期。据行业权威报告预测,2026年中国天然苏打水市场规模将突破260亿元
2026-01-17 15:58:00
开元云与广西大学人工智能学院达成战略合作,共建AI产教融合新高地
广西大学人工智能学院常务副院长张振荣、副院长赵志刚、陈燕教授等老师,出席双方产学研合作签约仪式。2026年1月15日 广西南宁
2026-01-17 15:58:00
数据接口安全风险监测国标正式发布!深信服深度参编
根据2025年12月2日国家市场监督管理总局、国家标准化管理委员会发布的中华人民共和国国家标准公告(2025年第33号)
2026-01-17 16:00:00
近日,国网潢川县供电公司依托用电信息采集系统及“专变负载可视化”数据集,构建反向有功异常自动监测告警机制,实现非光伏用户反向用电异常精准识别处置
2026-01-17 16:00:00
新消费|万物皆可租!这届年轻人为何“能租就不买”?
租一台口袋相机只需30元一天专业优质的画质却可以让旅途回忆更生动用百来元就能配齐一整套露营装备花100元便能轻松满足整趟出国旅行的穿搭需要……如今越来越多的年轻人正通过“租赁”重新定义自己的消费方式近日
2026-01-17 16:54:00
冷暖省电双先锋!美的酷省电二代横扫抖音商城三榜冠军
2026刚开年,空调行业首款爆品已然出现——全新上市美的酷省电二代便凭硬核实力脱颖而出,强势斩获抖音商城智能空调爆款榜
2026-01-17 16:00:00
厦门钨业通过技术创新与人才创新,不断攻克行业技术难题,塑造发展新动能让“有色”更出色东南网1月17日讯 (福建日报记者 戴敏 李向娟)近日
2026-01-17 11:38:00
在漳州龙文区,智能机器人等一批前沿项目正在聚集,新质生产力蓬勃生长——“未来场景”来到家门口东南网1月17日讯 (福建日报报业集团记者 杨凌怡 通讯员 张小惠)广场前
2026-01-17 11:41:00
中国姚绣站上巴黎大展C位
1月15日至19日,非遗苏绣品牌姚绣(Yao Silk)再度亮相巴黎M&O展,成为本届展会Fine Craft(精品工艺)展区唯一中国品牌
2026-01-17 09:40:00
民大学子全国“摘金” AI巧解垃圾分类与楼宇管理难题
荆楚网(湖北日报网)讯(记者林杉 许文秀 通讯员陈韶月 张祎晗)面对垃圾分类的效率瓶颈,人工智能与机械设计如何给出更优解
2026-01-17 10:36:00
长白时评评论员 久泰平近日多起滥用“七天无理由退货”的新闻引发社会关注。有商家曝光,有学生集体网购演出服,演出后再把带着污渍
2026-01-17 05:55:00
1月14日消息,工业和信息化部近日公布了2025年全国中小企业人工智能典型应用场景名单,晋西春雷自主研发的“AI视觉质检实现铜带缺陷精准识别”项目成功入选
2026-01-17 07:39:00
当患者或患者家属去医院的病案室复印住院病历时,会发现住院病案首页出院诊断表格上有一栏疾病编码,疾病编码栏下填有一串串字母数字组成的编码
2026-01-17 04:40:00