我的订阅
科技

我们正处于一个信息大暴发的时代，每天都能产生数以百万计的新闻资讯！

虽然有大数据推荐，但面对海量数据，通过我们的调研发现，在一个小时的时间里，您通常无法真正有效地获取您感兴趣的资讯！

头条新闻资讯订阅，旨在帮助您收集感兴趣的资讯内容，并且在第一时间通知到您。可以有效节约您获取资讯的时间，避免错过一些关键信息。

与OpenAI o1技术理念相似，TDPO-R算法有效缓解奖励过优化问题

类别：科技发布时间：2024-10-26 09:48:00 来源：机器之心Pro

AIxiv专栏是机器之心发布学术、技术内容的栏目。过去数年，机器之心AIxiv专栏接收报道了2000多篇内容，覆盖全球各大高校与企业的顶级实验室，有效促进了学术交流与传播。如果您有优秀的工作想要分享，欢迎投稿或者联系报道。

本论文作者主要包括澳大利亚科学院院士、欧洲科学院外籍院士、IEEE Fellow陶大程，现任南洋理工大学杰出教授；新加坡工程院院士、IEEE Fellow文勇刚，现为南洋理工大学计算机科学与工程学院校长讲席教授，同时担任IEEE Transactions on Multimedia主编；张森，曾在悉尼大学从事博士后研究工作，现任TikTok机器学习工程师；詹忆冰，京东探索研究院算法科学家。本文的通讯作者是武汉大学计算机学院教授、博士生导师、国家特聘青年专家罗勇。第一作者为张子屹，目前在武汉大学计算机学院攻读博士二年级，研究方向为强化学习、扩散模型和大模型对齐。

OpenAI 最近发布的 o1 模型在数学、代码生成和长程规划等复杂任务上取得了突破性进展，据业内人士分析披露，其关键技术在于基于强化学习的搜索与学习机制。通过迭代式的自举过程，o1 基于现有大语言模型的强大推理能力，生成合理的推理过程，并将这些推理融入到其强化学习训练过程中。

强化学习技术能够显著提升模型解决复杂问题的能力，尤其是在 o1 所采用的细粒度奖励机制的加持下。这种奖励机制为模型的每一步推理提供细粒度的反馈，而不仅是依赖最终答案的正确性来评估模型的表现。通过精细化的控制，使模型能够不断优化其推理路径，有效应对复杂任务中的长程依赖问题，确保模型在推理过程中保持逻辑一致性。

前不久，来自武汉大学、悉尼大学、京东探索研究院和南洋理工大学的研究人员便在ICML 2024上发表了一项 “扩散模型对齐” 方向的研究，所提出的名为TDPO-R 的强化学习算法与 o1 不谋而合地也采用了细粒度奖励机制。

论文链接：https://openreview.net/forum?id=v2o9rRJcEv 代码链接：https://github.com/ZiyiZhang27/tdpo

TDPO-R 在强化学习算法中引入了时间差分奖励机制，对文生图扩散模型的每一步生成过程提供细粒度的反馈，从而有效缓解了在扩散模型对齐时常见的奖励过优化问题。这项研究证实了细粒度奖励机制在扩散模型对齐中的关键性，而 o1 的最新技术同样揭示了这一机制在大模型领域中的广泛应用前景，有望推动生成模型在多样化、复杂任务中的持续发展与优化。

扩散模型（Diffusion Model）作为一种先进的生成式模型，通过学习并模拟自然界中的扩散过程来合成新数据，尤其在生成高质量逼真图像方面相较于其他模型架构具有显著优势。因此，尽管近年来也有基于 GPT 等其它架构的优秀图像、视频生成模型不断涌现，基于扩散模型的架构依然是当前大多数图像、视频生成任务的主流选择。

近期，为了确保生成的图像能够符合下游任务目标以及用户偏好，许多研究者开始探索如何对预训练扩散模型进行奖励或偏好驱动的微调训练 —— 这就是所谓的扩散模型对齐（Diffusion Model Alignment）。目前，最流行的对齐方法之一便是源于大语言模型领域的一项常用技术 —— 基于人类反馈的强化学习（Reinforcement Learning from Human Feedback, RLHF），即以强化学习方式依据人类反馈来不断地对已有的预训练模型参数进行迭代优化。

另外，也有其它一些不涉及强化学习的对齐方法，但它们大多也都需要以特定奖励函数作为优化目标，即将所对齐的下游任务目标（如图像美学质量、文图一致性等）构建为一个奖励函数 / 模型，并以最大化该奖励函数为目标对扩散模型进行迭代优化。还有一些方法，比如直接偏好优化（Direct Preference Optimization，DPO），虽然不显式地使用奖励函数来对齐模型，但其所采用的训练数据本身往往也隐含了某种奖励标准，间接引导模型朝着某种期望的目标优化。

扩散模型对齐中的奖励过优化

由于受奖励目标驱动，这些扩散模型对齐方法常常面临一个核心挑战 —— 奖励过优化（Reward Overoptimization），即经过微调后的模型可能会过度偏向于某一奖励目标，导致生成的图像丧失个性化和多样性、视觉保真度降低，最终偏离人类真实的审美偏好。如上图所示，当我们使用美学分数（Aesthetic Score）奖励模型，对 Stable Diffusion v1.4 模型进行对齐微调时，“奖励过优化” 这一现象在生成图像上肉眼可见为：图像风格趋于统一、与文本提示词的匹配度下降。

如何更加通俗地理解奖励过优化问题？想象你是一位学生，目标是通过考试拿到高分。你的老师设计了一套严格的评分标准（就像是奖励模型），目的是测试你的知识深度和理解能力。这套标准非常全面，涵盖了大量的知识点和难题，理论上应该能够准确衡量你的学习水平。

然而，你发现了一些 “捷径”：考试中虽然有很多问题，但也有着某些 “答题套路”，比如背诵标准答案，或者用某些关键词和答题模板。于是你并不真正花时间理解知识，而是把大量时间用在研究考试技巧上，专注于如何根据评分标准去 “迎合” 考试。结果，你每次考试都能拿到高分（就像模型获得了高奖励），但实际上你对知识的理解很肤浅。老师看到你的分数，误以为你学得非常好，但你自己知道，虽然分数高了，但你并没有真正掌握知识，甚至可能过于执着答题模板而错误地理解了一些问题，换另一位老师出题的话便可能原形毕露。

如何对奖励过优化问题进行定量分析？TDPO-R 算法的研究者发现，当扩散模型过度优化某一特定奖励函数时，其在域外奖励函数上的泛化能力随之下降。这种现象可以通过定量分析表现为：在以某一奖励函数为优化目标时，采用其他域外奖励函数（即不同于优化目标的奖励标准）对生成样本进行评分，会发现随着目标奖励逐渐上升，域外奖励评分的增长速度明显放缓，甚至出现域外评分逐渐下降的情况。这表明，模型在一个特定奖励函数上取得高分时，可能会以牺牲其在其他任务上的表现为代价，最终导致生成质量的不平衡。因此，研究者采用了这种跨奖励泛化度量，来定量地对比不同算法的奖励过优化程度。

研究者进一步指出，相较于基于监督学习的方法，基于强化学习的扩散模型对奖励过优化问题表现出更高的抗性。这是因为强化学习能够根据生成过程中的反馈信号不断调整策略，避免模型在单一目标上过度拟合。然而，这种抗性并非完全免疫。强化学习的这种优势往往是以牺牲样本效率为代价，即需要更多的样本和训练时间来达到较为平衡的效果。因此，在设计新的扩散模型对齐方法时，必须在提高样本效率与缓解奖励过优化之间做出权衡。

受到深度强化学习理论的启发，研究者首先从扩散模型对齐中的归纳偏置角度出发，分析了加重奖励过优化的潜在因素。归纳偏置（Inductive Bias）指的是机器学习算法在从有限的训练数据中学习时，基于特定假设提炼出的一般性模式。在深度强化学习的背景下，算法所采用的归纳偏置与其解决任务的契合程度，直接影响模型的泛化能力。简单来说，如果模型的偏置过于集中在某个特定目标上，就容易在泛化到新任务时出现问题。

然而，现有的扩散模型对齐方法往往过度依赖稀疏奖励 —— 也就是只根据最终生成图像的质量进行优化。这种做法隐含着一种假设，即最终图像的质量是最重要的评估标准，忽略了生成过程中的中间步骤（即每一步的去噪图像）。模型只在最后一步表现良好时被奖励，导致训练过程中没有充分利用多步去噪过程中的中间信息，而这部分信息恰恰包含了对生成过程的更细粒度反馈。因此，这种忽略中间步骤的做法，实际上引入了一种错位的归纳偏置 —— 即模型在训练时过于注重终极输出的奖励信号，而忽视了去噪过程中可能帮助模型提高质量的阶段性信号。这种偏置错位便是加重奖励过优化的潜在因素之一。

为了更好理解这种偏置错位，可以结合之前老师与学生的比喻：想象你是一名学生，你的老师只根据期末考试的成绩来评价你整个学期的表现（类似于稀疏奖励）。这种情况下，学生的学习过程（就像扩散模型中的中间去噪过程）没有被重视或衡量，学生很容易找到捷径（如通过背题库而非理解知识）来获得高分。这就类似于模型在训练中通过某种捷径，在最后生成的图像中获得高分，而忽视了生成过程中的细节和图像质量的演变。

然而，如果老师在整个学期中对你的每一次小测验、作业、甚至课堂表现都进行细粒度的评分和反馈（相当于细粒度奖励），那么你在每一步的学习过程中都会受到监控和指导。你无法依靠最后的考试来蒙混过关，必须在每个阶段都真正掌握知识。这与扩散模型对齐时类似，细粒度奖励机制能够让模型在每个生成步骤中都得到反馈，避免模型通过过度优化某一单一目标（如最终图像质量）来走捷径，确保生成过程中的每一步都保持质量和一致性。

TDPO-R 算法

面对以上问题，TDPO-R 通过引入时间差分奖励机制，为扩散模型的每一步去噪操作提供实时的奖励反馈，从而修正这种偏置错位，缓解奖励过优化问题。这种奖励机制将扩散过程中的每个时间步视为一个马尔科夫决策过程中的状态，模型在每一步的动作（即去噪操作）后，都会获得相应的奖励值。为了降低时间差分奖励函数的学习成本，TDPO-R 通过一个时间差分评判器（Temporal Critic）来近似估计每个时间步的奖励。这一评判器通过强化学习的方式与扩散模型一齐同步进行训练，逐步学习如何为每个时间步估算合适的奖励。具体来说，模型在每个时间步 t 做出去噪操作后，评判器会基于当前状态（中间去噪图像）与目标状态的差异，给出即时奖励反馈。

在策略更新时，TDPO-R 采用类似于策略梯度（Policy Gradient）的方法。特别是，得益于时间差分奖励机制提供了每个时间步的即时反馈，TDPO-R 在扩散模型去噪的每一步都可以立即进行策略更新，而无需等待所有步骤结束。这种即时更新让模型能够及时修正去噪过程中出现的偏差，避免问题在后续步骤中积累。同时，由于每一步都进行即时更新，模型可以在更短的时间内获得更好的优化效果，减少了传统全局更新方式下的延迟和不必要的计算开销，提高了训练的样本效率。

接着，从首要偏置（Primacy Bias）的角度出发，TDPO-R 的研究者进一步分析了奖励过优化的问题。首要偏置描述的是深度强化学习模型在训练中倾向于过度拟合早期的训练经验，从而影响后续训练阶段的优化效果的一种现象。他们发现，在扩散模型的对齐任务中，首要偏置与奖励过优化也有着密切的联系，特别是当模型在训练过程中过度倾向于某个早期的策略时，后续的生成质量可能会出现下降。

为了深入理解首要偏置与奖励过优化之间的关系，研究者引入了神经网络中神经元激活状态的概念。通常，深度神经网络中的神经元可以处于两种状态：

活跃神经元：在训练过程中频繁被激活的神经元，通常与当前任务的主要模式相关。休眠神经元：在训练中很少被激活的神经元，通常被认为对当前任务贡献较少，甚至被认为会阻碍模型的学习能力。

在以往的研究中，活跃神经元往往被视为是模型的核心，因为它们反映了模型对当前数据的主要适应能力。而休眠神经元则通常被认为是冗余的或不必要的，因为它们没有参与主要的学习过程。

而在 TDPO-R 的研究中，研究者惊讶地发现，休眠神经元实际上在应对奖励过优化方面起到了重要作用。具体而言：

活跃神经元更易受到首要偏置的影响：由于活跃神经元频繁参与早期训练任务，它们倾向于过拟合早期的学习模式。因此，这些神经元在模型的优化过程中可能会过度强化某一特定奖励目标，导致奖励过优化问题的加剧。例如，模型可能因为过度优化早期阶段的奖励信号，导致后续的生成结果表现不佳，甚至在其他奖励函数上的泛化能力下降。休眠神经元作为自适应正则化手段：与活跃神经元相反，休眠神经元由于较少参与训练任务，反而可以作为一种对抗奖励过优化的自适应正则化手段。这是因为，休眠神经元的低激活状态意味着它们没有过度依赖早期的奖励信号，从而在模型后期的训练中可以起到平衡的作用。另外，它们还能够提供一种类似于 “潜力储备” 的功能，在奖励函数发生变化或模型过拟合早期奖励信号时，休眠神经元可以重新被激活，以补充模型的适应能力，增强模型的泛化性能。

为了应对首要偏置，TDPO-R 引入了一种神经元重置机制。这种机制通过定期重置模型中的活跃神经元，将其恢复到类似 “休眠” 状态，从而打破首要偏置的影响，重新激发模型的学习能力。具体来说：

周期性神经元重置：在训练过程中，TDPO-R 会定期对评判器（critic）模型中过度活跃的神经元进行重置，降低它们的激活频率，从而打破它们在早期阶段对特定奖励信号的过拟合。通过这一操作，模型可以避免过度强化某一奖励目标，确保生成过程的多样性和泛化能力。重新激活休眠神经元：随着活跃神经元被重置，模型的其他神经元，包括那些此前处于休眠状态的神经元，会被激活，以参与新的学习任务。这种神经元的 “轮替” 确保了模型的学习能力不会因为早期训练经验的固定化而受到限制，从而缓解了奖励过优化的问题。

实验评估 —— 跨奖励泛化度量

研究者使用提出的 TDPO-R 对 Stable Diffusion v1.4 模型进行微调训练，并采取不同文本提示词集和奖励函数进行评估实验。为了更直观地展现跨奖励泛化度量的效果，研究者通过图表展示了在优化某一特定目标奖励函数（如 Aesthetic Score）时，模型在其他多种奖励函数（如 ImageReward、HPSv2 和 PickScore）上的得分如何变化。如上图所示，其中每幅图表的横坐标代表训练保存的中间模型在目标奖励函数上的得分，而纵坐标代表对应的中间模型在域外奖励函数上的得分。通过这些图表，可以清楚地观察到 TDPO-R 和其他扩散模型对齐方法（如 DDPO 和 AlignProp）在跨奖励泛化能力上的差异。

在泛化较差的目标奖励函数（如 Aesthetic Score）上，TDPO-R 能够保持域外奖励函数的得分没有显著下滑，而其它方法则表现为明显的下降趋势；而在泛化较好的目标奖励函数（如 HPSv2 和 PickScore）上，TDPO-R 能够使域外奖励函数的得分更快地上涨。这表明 TDPO-R 在优化特定目标时，展现出更强的跨奖励泛化能力，有效缓解了奖励过优化的问题。

除了定量指标的对比，研究者还通过可视化图像样本的对比展示了 TDPO-R 相较于其他方法的优势。如下图所示对比了 TDPO-R 与其他方法，皆将目标奖励函数（Aesthetic Score）的得分提升至同一临界值时所生成的样本图像。可以看出，在其它方法中，不同文本提示词对应的图像样本风格趋同，尤其是在光线、色调和构图风格方面，缺乏多样性，甚至还存在图像失真的情况。相比之下，TDPO-R 不仅能够生成更具视觉自然感和细节保真的图像，还保留了风格的多样性，具有更平衡的美学表现，直观地体现了 TDPO-R 缓解奖励过优化的有效性。

如下图所示，在生成包含复杂场景描述的图像时，其它方法存在图像细节不准确的问题，忽略了关键的语义元素（如物体的数量、类型以及场景地点等），表现出典型的文图语义不一致问题。而 TDPO-R 生成的图像不仅视觉丰富，还能够准确反映文本描述的内容。这体现了 TDPO-R 的跨任务泛化能力，即在提升图像美学表现的同时，还能够有效保留文图的语义一致性。

除了上述实验结果之外，研究者还展示了其他一些主要实验内容，包括 “算法样本效率对比”、“对未见提示词的泛化能力”、“神经元状态的影响” 以及 “应对过优化的其它替代策略” 等方面。对于这些补充实验以及 TDPO-R 方法的更多技术细节，感兴趣的读者可以参阅论文原文进一步了解。

以上内容为资讯信息快照，由td.fyun.cc爬虫进行采集并收录，本站未对信息做任何修改，信息内容不代表本站立场。

快照生成时间：2024-10-26 11:45:05

本站信息快照查询为非营利公共服务，如有侵权请联系我们进行删除。

信息原文地址：

更多关于算法,奖励,理念,问题,技术,模型的资讯：

打造高品质游戏 - 云上分布式AI实践

...中需要AI机器人的原因和挑战,以及强化学习的核心技术和算法。演讲重点介绍了亚马逊云科技如何支持游戏开发商实现AI虚拟玩家、自动化测试、实时决策优化和虚拟角色行为等功能,带来高

2024-04-22 11:37:00

首个o1复现开源RL框架OpenR来了，UCL、上交等高校联

... 和 RM-Max 组合进行选择。我们的框架允许我们在多种搜索算法中进行选择，例如 Beam Search、Best-of-N

2024-10-15 09:56:00

安全强化学习方法、理论与应用综述，慕工大、同济等深度解析

...：应用控制理论的原则来设计出能满足安全性要求的 RL 算法。形式化方法：利用形式化验证工具来确保策略的安全性。2. 无模型的安全强化学习方法：无模型的方法则不依赖于精确的

2024-10-09 09:51:00

波士顿大学提出无尺度强化学习算法，能用于金融交易和自动驾驶

...究的一个痛点是，为了保证学习率能被合适地设定，现有算法需要对奖励或惩罚的规模需要被限制。举例来说，对于现有的绝大数强化学习问题，一个默认的假设是奖励或惩罚对应的值位于 [-1

2024-04-28 10:36:00

这才是真开源模型！公开后训练一切，性能超越Llama 3.1

...多轮训练范式、使用人类数据 + 合成数据、使用多个训练算法和训练目标。也正因为此，这些模型的通用性能和专业能力都非常强。但遗憾的是，他们都没有透明地公开他们的训练数据和训练配

2024-11-26 09:44:00

河湟杯·数据湖算法大赛颁奖典礼举行

...报本报讯（记者祁树江）近日，青海首届河湟杯·数据湖算法大赛颁奖典礼暨国资信创灾备云产品发布会在海东河湟新区举行。据悉，经过初赛、复赛严格评审，FiberhomeAI团队获得

2023-09-19 00:03:00

北京经开区：加快打造AI原生产业创新高地，每年发放1亿元..

...体目标到2026年，人工智能核心技术取得重大突破，算力算法数据有效支撑，场景赋能的广度和深度全面拓展，数据要素市场化建设成效显著，全面构建自主可控软硬件人工智能产业生态。培育

2024-03-29 16:42:00

思明区发布十条有力措施每年一亿元资金推动AI产业建圈强链

...设人工智能产业公共服务平台●提供普惠算力●鼓励模型算法应用●促进数据要素流通●推动模型算法创新●鼓励企业“智改数转”●支持打造场景标杆●支持建设特色产业楼宇●提升专业人才技能

2024-12-23 08:39:00

测试用例优先级排序的强化学习方法应用

...括：状态空间构建、动作定义、奖励函数设计与策略更新算法选择。状态空间需能全面描述测试用例的多维属性，例如结合代码变更数据、历史执行结果、依赖路径深度等，建立“结构+行为+风险

2025-12-26 06:50:00

更多关于科技的资讯：

开拓捷报频传山西中电科开年新签单金额5500万元

近日，从山西转型综改示范区传来好消息，山西中电科电子装备有限公司市场开拓捷报频传，碳化硅涂层设备、纯化设备、铜铸锭炉等订单接连落地

2026-03-15 07:11:00

金华牵线企业家、投资家、科学家，抢抓人工智能发展机遇为场景

14日，“金华·金漪湖”2026人工智能产业融合发展大会在金义新区举行。今年全国两会上，政府工作报告提出“打造智能经济新形态”

2026-03-15 07:41:00

国家服贸基金二期在杭举办全国首场项目路演

杭州创新力量表现抢眼杭州日报讯 3月12日，国家服务贸易创新发展引导基金二期的首场项目路演会在杭州举行。22个来自数字贸易

2026-03-15 07:42:00

优化县域创新生态升级传统动能引擎慈溪千亿小家电，变了新模

这些天，乍暖还寒，慈溪家电企业的生产车间却热潮涌动。“我们自主研发的多功能高速风梳一开年就拿下了100万台订单。”宁波瑞卡电器负责人说

2026-03-15 07:42:00

中国科大提出常温常压绿氨合成的标准化方案

大皖新闻讯 3月14日，大皖新闻记者从中国科学技术大学获悉，该校熊宇杰教授团队提出基于等离子体和电催化耦合的绿氨合成技术的标准化实验方案

2026-03-14 21:31:00

优秀人才薪资上不封顶！“起跑春天”杭州盛会：机器人岗位受热捧

3月14日，2026“起跑春天”杭州青年人才交流大会在杭州大会展中心举办。现场很是热闹，一边是手拿简历的青年求职者，一边是求贤若渴的单位

2026-03-14 14:58:00

AWE探展｜别卷参数了！容声大冰象这台“大长腿”冰箱太圈粉

鲁网3月14日讯“这台‘大长腿’冰箱太好看了！”“冷冻30天的三文鱼竟能生食！”3月12日，伴随着AWE2026开幕，不少参展者发现

2026-03-14 15:37:00

海信璀璨650U8冰箱亮相AWE：AI真空磁场保鲜引领储鲜新

鲁网3月14日讯3月12日，2026年中国家电及消费电子博览会（AWE2026）正式拉开帷幕，此前于3月5日重磅发布的世界杯定制产品——海信璀璨650U8真空头等舱冰箱

2026-03-14 15:39:00

诚信为基，科技赋能！中国太保寿险以数智化让保险更安心

鲁网3月14日讯保险业正从规模扩张加速迈向以客户需求为导向，以产品、服务、队伍质量为核心的发展新阶段。在高质量发展的转型升级进程中

2026-03-14 12:03:00

合肥又添一座“AI驱动型OPC社区”

大皖新闻讯近日，AI“养龙虾”成为全网热点。对此，多地发文支持OpenClaw&OPC发展。OPC全称One Person Company

2026-03-14 12:20:00

高校开学第一课解锁AI正确打开方式

荆楚网（湖北日报网）讯（记者唐天琪通讯员邵国超）“如果用财务管理的指标评估你的恋爱关系，你觉得这笔‘投资’的回报率是多少

2026-03-14 12:34:00

一只“龙虾”引发的思考系列报道之三你“养虾”，究竟是为了什

“三天我只睡了七八个小时，其他时间都在和‘龙虾’聊天。”这是孙艾艾见到记者后说的第一句话，作为大厂后台工程师，她从“龙虾”爆火之初就沉迷于这项技术

2026-03-14 06:51:00

全球好物汇聚杭城明天，到国博二期“买遍全球、潮玩互动”

想一站式淘遍全球尖货、体验未来科技、邂逅国潮新品？机会来了！以“共享大市场·出口中国”为主题的“浙里买全球·消费启杭”活动

2026-03-14 06:52:00

如果没有深度阅读，有一天AI会真正取代我们 AI阅读时代，警

上班的地铁上，放眼望去，尽是抱着手机刷屏的年轻人；回到家，孩子或许正在iPad上看着动画片……我们正在进入AI数字化时代

2026-03-14 07:22:00

安装“小龙虾”要花5小时？一个多月前杭州这家公司动手开发第一

想体验一把“小龙虾”，结果光安装就花了四五个小时。今年1月底，当一个红色龙虾图标的AI智能体OpenClaw在硅谷极客圈开始发酵时

2026-03-14 07:22:00

头条订阅服务

与OpenAI o1技术理念相似，TDPO-R算法有效缓解奖励过优化问题