我的订阅
科技

我们正处于一个信息大暴发的时代，每天都能产生数以百万计的新闻资讯！

虽然有大数据推荐，但面对海量数据，通过我们的调研发现，在一个小时的时间里，您通常无法真正有效地获取您感兴趣的资讯！

头条新闻资讯订阅，旨在帮助您收集感兴趣的资讯内容，并且在第一时间通知到您。可以有效节约您获取资讯的时间，避免错过一些关键信息。

Meta提出“可持续思维链”，让大模型在连续潜空间中推理

类别：科技发布时间：2024-12-13 09:19:00 来源：学术头条

今日值得关注的大模型前沿论文

北大团队提出「自定义漫画生成」框架

UniReal：通过学习真实世界动态实现通用图像生成和编辑

苹果团队提出「可扩展视频生成」方法

利用扩散 Transformer 进行视频运动迁移

ObjCtrl-2.5D：无需训练的「图生视频」目标控制方法

Moxin-7B：一个完全开源的大语言模型

微软研究院：创建多用途、高质量 3D 资产

智源推出视觉条件多视角扩散模型

Turbo3D：超快速文本到 3D 生成

Meta 提出“可持续思维链”：让大语言模型在连续潜空间中推理

GameArena：通过实时电脑游戏评估 LLM 推理

想要第一时间获取每日最新大模型热门论文？点击阅读原文，查看「2024必读大模型论文」合集，以及申请加入「大模型技术分享群」。

1.北大团队提出「自定义漫画生成」框架

故事可视化是从文本描述创建视觉叙事的任务，文本到图像的生成模型已经取得了进展。然而，这些模型往往缺乏对角色外观和互动的有效控制，尤其是在多角色场景中。

为了解决这些局限性，来自北京大学的研究团队及其合作者提出了一项新任务：自定义漫画生成，并提出了 DiffSensei，这是一个专门用于生成动态多角色控制漫画的创新框架。DiffSensei 集成了基于扩散的图像生成器和多模态大语言模型（MLLM），后者是一种文本兼容身份适配器。他们的方法采用了掩码交叉注意力技术，可无缝整合字符特征，从而在不直接传输像素的情况下实现精确的布局控制。此外，基于 MLLM 的适配器还能调整角色特征，使其与特定面板的文本线索保持一致，从而灵活调整角色的表情、姿势和动作。

他们还提出了 MangaZero，这是一个专为这项任务定制的大型数据集，包含 43264 页漫画和 427147 个注释面板，支持跨连续帧的各种角色互动和动作的可视化。广泛的实验证明，DiffSensei 的性能优于现有模型，通过实现文本适应性角色定制，标志着漫画生成技术的重大进步。

论文链接：

https://arxiv.org/abs/2412.07589

项目地址：

https://jianzongwu.github.io/projects/diffsensei/

2.UniReal：通过学习真实世界动态实现通用图像生成和编辑

来自香港大学和 Adobe Research 的研究团队提出了 UniReal，这是一个旨在解决各种图像生成和编辑任务的统一框架。现有的解决方案往往因任务而异，但都有一个基本原则：在捕捉视觉变化的同时保持输入和输出之间的一致性。最近的视频生成模型有效地平衡了帧间的一致性和变化，受此启发，他们提出了一种统一的方法，将图像级任务视为不连续的视频生成。

具体来说，他们将不同数量的输入和输出图像视为帧，从而实现对图像生成、编辑、定制、合成等任务的无缝支持。虽然是为图像级任务设计的，但他们利用视频作为通用监督的可扩展来源。UniReal 可从大规模视频中学习世界动态，在处理阴影、反射、姿态变化和物体交互方面展示了先进的能力，同时还为新型应用展示了新兴能力。

论文链接：

https://arxiv.org/abs/2412.07774

项目地址：

https://xavierchen34.github.io/UniReal-Page/

3.苹果团队提出「可扩展视频生成」方法

视频生成领域已经取得了令人瞩目的进步，但我们仍然迫切需要一个清晰、系统的方法来指导开发鲁棒、可扩展的模型。在这项工作中，来自苹果公司和加州大学的研究团队进行了一项全面的研究，系统地探讨了模型架构、训练方法和数据整理策略之间的相互作用，并提出了一种名为 STIV 的简单、可扩展的文本、图像条件视频生成方法。

他们的框架通过帧置换将图像条件整合到扩散 Transformer（DiT）中，同时通过联合图像-文本条件无分类器引导整合文本条件。这种设计使 STIV 能够同时执行文本到视频（T2V）和文本到图像到视频（TI2V）任务。此外，STIV 还能轻松扩展到各种应用中，如视频预测、帧插值、多视图生成和长视频生成等。通过对 T2I、T2V 和 TI2V 进行全面的消融研究，STIV 尽管设计简单，却表现出了强大的性能。

分辨率为 512 的 8.7B 参数模型在 VBench T2V 上达到 83.1，超过了 CogVideoX-5B、Pika、Kling 和 Gen-3 等领先的开源和闭源模型。在分辨率为 512 的 VBench I2V 任务中，同样大小的模型也取得了 90.1 的 SOTA 成绩。通过提供用于构建尖端视频生成模型的透明且可扩展的方法，他们旨在增强未来研究的能力，并加快实现更通用、更可靠的视频生成解决方案。

论文链接：

https://arxiv.org/abs/2412.07730

4.利用扩散 Transformer 进行视频运动迁移

来自牛津大学和 Snap 的研究团队提出了 DiTFlow，这是一种将参考视频的运动迁移到新合成视频的方法，专为扩散 Transformer（DiT）而设计。他们首先用预先训练好的 DiT 处理参考视频，分析跨帧注意力图并提取称为注意力运动流（AMF）的片段运动信号。

他们以一种基于优化、无需训练的方式指导潜隐去噪过程，利用他们的 AMF 损失优化潜隐，生成再现参考视频运动的视频。他们还将优化策略应用于 Transformer 位置嵌入，从而提高了零样本运动迁移能力。他们将 DiTFlow 与最近发布的方法进行了对比评估，结果显示 DiTFlow 在多项指标和人工评估方面均优于所有方法。

论文链接：

https://arxiv.org/abs/2412.07776

项目地址：

https://ditflow.github.io/

5.ObjCtrl-2.5D：无需训练的「图生视频」目标控制方法

这项研究旨在图像到视频（I2V）生成过程中实现更精确、更多用途的目标控制。目前的方法通常使用二维轨迹来表示目标对象的空间运动，这种方法往往无法捕捉用户的意图，而且经常产生不自然的结果。

为了增强控制效果，南洋理工大学研究团队提出了 ObjCtrl-2.5D，这是一种无需训练的目标控制方法，它使用从带有深度信息的二维轨迹扩展而来的三维轨迹作为控制信号。通过将物体运动建模为相机运动，ObjCtrl-2.5D 将三维轨迹表示为相机姿态序列，从而无需训练即可使用现有的相机运动控制 I2V 生成模型（CMC-I2V）进行物体运动控制。为了使最初为全局运动控制而设计的 CMC-I2V 模型适应于处理局部物体运动，他们引入了一个模块，将目标物体从背景中分离出来，从而实现独立的局部控制。此外，他们还设计了一种有效方法，通过跨帧共享对象区域内的低频翘曲潜影，实现更精确的对象控制。

大量实验证明，与无需训练的方法相比，ObjCtrl-2.5D 能显著提高物体控制精度，与使用二维轨迹的基于训练的方法相比，ObjCtrl-2.5D 能提供更多样化的控制能力，实现物体旋转等复杂效果。

论文链接：

https://arxiv.org/abs/2412.07721

项目地址：

https://wzhouxiff.github.io/projects/ObjCtrl-2.5D/

6.Moxin-7B：一个完全开源的大语言模型

虽然开源大语言模型（LLM）为创新和研究提供了前所未有的机会，但 LLM 的商业化也引发了对透明度、可重复性和安全性的担忧。许多开源 LLM 未能满足基本的透明度要求，因为它们未公开训练代码和数据等重要组件，而且有些 LLM 在声称“开源”的同时还使用了限制性许可证，这可能会阻碍 LLM 的进一步创新。

为了缓解这一问题，来自美国东北大学的研究团队及其合作者推出了 Moxin-7B，它是一个完全开源的 LLM，是根据模型开放性框架（MOF）开发的。MOF 是一个等级分类系统，根据模型的完整性和开放性对人工智能模型进行评估，坚持开放科学、开放源代码、开放数据和开放访问的原则。通过全面发布预训练代码和配置、训练和微调数据集以及中间和最终检查点，他们的模型达到了 MOF 分类的最高级别“开放科学”。

实验表明，与流行的 7B 参数模型相比，他们的模型在零样本评估中取得了更优越的性能，在少样本中也具有竞争力。

论文链接：

https://arxiv.org/abs/2412.06845

7.微软研究院：创建多用途、高质量 3D 资产

微软研究院团队提出了一种新颖的 3D 生成方法，用于创建多用途和高质量的 3D 资产。该方法基于统一的结构化潜在（SLAT）表征，它允许解码为不同的输出格式，如辐射场、3D 高斯和网格。这是通过将稀疏填充的 3D 网格与从强大的视觉基础模型中提取的密集多视角视觉特征相结合来实现的，既能全面捕捉结构（几何）和纹理（外观）信息，又能在解码过程中保持灵活性。

他们采用为 SLAT 量身定制的整流 transformers 作为 3D 生成模型，并在包含 500K 个不同对象的大型 3D 资产数据集上训练参数多达 20 亿参数的模型。他们的模型可在文本或图像条件下生成高质量的结果，大大超越了现有的方法，包括最近类似规模的方法。他们展示了灵活的输出格式选择和本地 3D 编辑功能，这是以前的模型所不具备的。

论文链接：

https://arxiv.org/abs/2412.01506

项目地址：

https://trellis3d.github.io/

8.智源推出视觉条件多视角扩散模型

近期的 3D 生成模型通常依赖于有限规模的 3D“黄金标签”或 2D 扩散先验来创建 3D 内容。然而，由于缺乏可扩展的学习范例，它们的性能受到 3D 先验的限制。

在这项工作中，北京智源人工智能研究院团队推出了一个视觉条件多视角扩散模型——See3D，该模型在大规模互联网视频上训练，可用于开放世界的 3D 创作。该模型的目的是通过从海量且快速增长的视频数据中获取视觉内容来获取 3D 知识。

为实现这一目标，他们首先使用一个拟议的数据整理管道来扩大训练数据的规模，该管道可自动过滤掉源视频中的多视角不一致和观察不足的内容。这样就得到了一个高质量、丰富多样的大规模多视角图像数据集，即 WebVi3D，其中包含来自 1600 万个视频片段的 3.2 亿帧。然而，从没有明确 3D 几何图形或相机姿态标注的视频中学习通用 3D 先验并不容易，而且为网络规模的视频标注姿态的成本过高。为了消除对姿势条件的需求，他们引入了一种创新的视觉条件——通过在掩码视频数据中添加随时间变化的噪声而生成的纯 2D 归纳视觉信号。最后，他们通过将 See3D 集成到基于翘曲的高保真 3D 生成流水线中，引入了新颖的视觉条件 3D 生成框架。

他们在单一和稀疏重建基准上进行的数值和视觉比较表明，See3D 在经济高效且可扩展的视频数据上经过训练后，实现了显著的零样本和开放世界生成能力，明显优于在昂贵且受限的 3D 数据集上训练的模型。

论文链接：

https://arxiv.org/abs/2412.06699

项目地址：

https://vision.baai.ac.cn/see3d

9.Turbo3D：超快速文本到 3D 生成

来自卡内基·梅隆大学、麻省理工学院和 Adobe Research 的研究团队提出了 Turbo3D，这是一种超快速文本到 3D 系统，能够在一秒内生成高质量的高斯拼接资产。

Turbo3D 采用快速的 4 步 4 视图扩散生成器和高效的前馈高斯重构器，两者均在潜空间运行。4 步 4 视图生成器是通过新颖的双教师方法提炼出的学生模型，该方法鼓励学生从多视图教师那里学习视图一致性，从单视图教师那里学习照片逼真度。

通过将高斯重构器的输入从像素空间转移到潜空间，他们消除了额外的图像解码时间，并将 Transformer 序列长度减半，从而实现最高效率。与之前的基线方法相比，他们的方法展示了卓越的 3D 生成效果，而运行时间仅为它们的一小部分。

论文链接：

https://arxiv.org/abs/2412.04470

项目地址：

https://turbo-3d.github.io/

10.Meta 提出可持续思维链：让大模型在连续潜空间中推理

大语言模型（LLM）仅限在“语言空间”中进行推理，通常用思维链（CoT）来表达推理过程，从而解决复杂的推理问题。然而，来自 Meta 和加州大学圣地亚哥分校的研究团队认为，语言空间并不总是最佳推理空间。例如，大多数单词 token 主要是为了保持文本的连贯性，对推理并不重要，而一些关键 token 则需要复杂的规划，给 LLM 带来了巨大的挑战。

为了探索 LLM 在不受限制的潜空间中进行推理的潜力，而不是使用自然语言，他们提出了一种新的范式——可持续思维链（Coconut）。他们利用 LLM 的最后一个隐藏状态来表示推理状态（称为“连续思维”）。他们没有将其解码为单词 token，而是将其反馈给 LLM，作为直接嵌入连续空间的后续输入。实验表明，Coconut 可以在多项推理任务中有效增强 LLM。

这种新颖的潜在推理范式带来了新兴的高级推理模式：连续思维可以编码多个可供选择的下一步推理步骤，使模型能够执行广度优先搜索（BFS）来解决问题，而不是像 CoT 那样过早地进行单一的确定性路径。在某些逻辑推理任务中，Coconut 的表现优于 CoT，因为在规划过程中需要大量的回溯，而在推理过程中则需要较少的思考 token。

论文链接：

https://arxiv.org/abs/2412.06769

11.GameArena：通过实时电脑游戏评估 LLM 推理

评估大语言模型（LLM）的推理能力是一项挑战。现有的基准通常依赖于静态数据集，而静态数据集容易受到数据污染，并可能随着时间的推移而饱和；或者依赖于二进制的实时人类反馈，而这种反馈会将推理能力与其他能力混为一谈。尽管动态基准 Chatbot Arena 可评估真实世界环境中的开放式问题，但在评估特定推理能力方面缺乏精细度。

加州大学团队提出了 GameArena，这是一个动态基准，旨在通过与人类的互动游戏来评估 LLM 的推理能力。GameArena 由三个游戏组成，旨在测试特定的推理能力（如演绎推理和归纳推理），同时让参与者保持娱乐和参与。

他们对游戏数据进行回顾性分析，以揭示 LLM 的基本推理过程，并测量他们的细粒度推理能力。他们收集了 2000 多场游戏会话，并对五种 SOTA 的 LLM 的各种推理能力进行了详细评估。他们对 100 名参与者进行的用户研究表明，与 Chatbot Arena 相比，GameArena 提高了用户参与度，首次实现了在自然环境中收集逐步 LLM 推理数据。

论文链接：

https://arxiv.org/abs/2412.06394

如需转载或投稿，请直接在公众号内留言

以上内容为资讯信息快照，由td.fyun.cc爬虫进行采集并收录，本站未对信息做任何修改，信息内容不代表本站立场。

快照生成时间：2024-12-13 12:45:04

本站信息快照查询为非营利公共服务，如有侵权请联系我们进行删除。

信息原文地址：

更多关于推理,模型,思维,空间,模型,生成的资讯：

ICML2024演讲爆火!Meta朱泽园揭秘大模型内心世界:

...M) 是如何解数学题的？是通过模板记忆，还是真的学会了推理思维？模型的心算过程是怎样的？能学会怎样的推理技能？与人类相同，还是超越了人类？只学一种类型的数学题，是会对通用智能

2024-08-06 09:27:00

语言≠思维，大模型学不了推理：一篇Nature让AI社区炸锅

...到，人类大脑生成和解析语言的神经网络并不负责形式化推理，而且提出推理并不需要语言作为媒介。这篇论文声称「语言主要是用于交流的工具，而不是思考的工具，对于任何经过测试的思维形式

2024-06-25 09:45:00

CMU清华教LLM练成数学高手，LeanSTaR训练模型边思

...办？CMU清华团队提出了Lean-STaR训练框架，在语言模型进行推理的每一步中都植入CoT，提升了模型的定理证明能力

2024-08-10 09:47:00

清华团队提出大模型“密度定律”；足球领域首个视觉语言基础模型

...交视觉-语言-动作建模框架RevThink：使用逆向思维增强 LLM 推理想要第一时间获取每日最新大模型热门论文？点击阅读原文

2024-12-10 09:53:00

OpenAI o1模型到博士水平了?复旦教授:没有真正推理能

...小尺寸版o1-mini。OpenAI官方发文称，新模型旨在解决复杂推理问题，训练模型在响应之前花更多时间思考，类似于人类的思考方式

2024-09-13 16:44:00

阶跃星辰李璟：多模态是AGI的必经之路，视觉模型可按语言模型

...发力。一是在预训练的基础上加上强化学习，提高模型的推理能力。“强化学习还在早期，还会延续一长段时间。”第二个趋势是多模的理解生成一体化。李璟认为，文本领域已经实现生成理解任务

2025-05-17 12:05:00

大模型权威报告：讯飞星火得分第一

...“最聪明”大模型的重要体现，本次逻辑思维评测在逻辑推理、思维链等方面设计了较多的题目，包含类比、常识推理、空间方位、演绎推理、逻辑谬误检测、因果推理等19个二级分类，题型上相

2023-08-18 09:35:00

奥林匹克竞赛里选最聪明的AI：Claude-3.5-Sonn

...异，近来Anthropic公司最新发布的Claude-3.5-Sonnet因在知识型推理、数学推理、编程任务及视觉推理等任务上设立新行业基准而引发广泛讨论

2024-06-25 09:45:00

业界首款！中国联通发布元景思维链大模型：性能比肩OpenAI

...大慢思考能力，又具备不限于数学的多学科、多场景通用推理能力，且能做到针对不同任务和难度的自适应慢思考，大幅降低资源消耗。中国联通表示，主流榜单的测评结果显示，元景思维链大模型

2025-01-24 12:33:00

更多关于科技的资讯：

消费提质升级，解锁经济增长新密码

全球第二大消费市场地位稳固，新能源汽车市场渗透率超过五成，动画电影《哪吒之魔童闹海》创造票房神话，“中国游”的流量持续转化为“中国购”的增量……我国超大规模市场意味着无限机遇和无穷潜力

2025-08-19 17:18:00

四特天工·拾贰荣膺2025中国酒业金盛奖“最具代理价值产品”

8月8日，由酒业家传媒主办的2025中国酒业金盛奖颁奖盛典在山东国际会展中心隆重举行。在星光璀璨的中国酒业年度盛典上，四特酒倾力打造的高端战略新品“天工·拾贰”

2025-08-19 11:44:00

芝罘区企业服务中心联合海礴AI增长学社开展AI产品发布会

大众网通讯员崔智慧烟台报道近日，芝罘区企业服务中心联合海礴AI增长学社，在政务服务中心举办“AI驱动增长·共启商业未来”主题会议

2025-08-19 08:45:00

中消协：许多网店宣称儿童安全座椅“明星同款”为吸引眼球

中新经纬8月18日电据微信号“中国消费者协会”消息，针对部分网络平台热销的儿童安全座垫产品在碰撞测试中瞬间解体，难以保障乘车对象安全及少数网售儿童安全座椅类产品的操作演示信息存在常识性错误等问题

2025-08-19 08:07:00

“环境显微镜”守护蓝天白云

□南京日报/紫金山新闻记者孙秉印实习生赵璇通讯员麒轩8月18日，在麒麟科创园南京创蓝科技有限公司，一块大屏上展示着南京地图

2025-08-19 07:40:00

升级系统功能提升用电体验

8月17日，“网上国网”App发布消息，该平台升级了“用能分析”服务中的“用电预测”功能，旨在帮助用户更精准地掌握用电情况

2025-08-19 07:55:00

“主理人”何以成为“避雷指南”？

□裴桐这段时间，在互联网各大社交平台，各类“主理人”店铺遭到群嘲，“主理人主打不理人”“叫声服务员，能气疯一群主理人”等段子层出不穷

2025-08-18 08:47:00

三家厦企入选环保装备“国家队”

厦门网讯（厦门日报记者李晓平）近日，工信部公布符合环保装备制造业规范的企业名单（2025版），三家厦企入选最新“国家队”阵容

2025-08-18 08:50:00

2025世界人形机器人运动会闭幕世界人形机器人运动联合会宣

大皖新闻讯 8月17日，2025年世界人形机器人运动会在北京圆满闭幕。同时，世界人形机器人运动联合会（简称"WHRGF"或"联合会"）正式宣告成立

2025-08-18 09:02:00

23天跑出“炎和速度”：全球首条消费类钙钛矿电池全自动化生产

8月16日，炎和科技全球首条消费类钙钛矿电池全自动化生产线在常德正式投产。从7月24日启动产线调通到全线贯通出片仅用时23天

2025-08-18 09:03:00

热评｜以旧换新，换出生活新体验

暑假期间，很多人带着孩子走进商场、汽车4S店，有的家庭准备换家电，有的想换车。推动顾客将商品带回家的重要因素之一，就是消费品以旧换新政策

2025-08-18 09:20:00

“城市骑士”升级后续！阿里和蚂蚁旗下22个品牌共推橙意计划

8月18日，饿了么和淘宝闪购宣布升级“城市骑士”之后仅一天，第一个举措来了！阿里和蚂蚁旗下的22个品牌，共同宣布推出“城市骑士·橙意计划”

2025-08-18 09:42:00

2025 “乐业浔城” 共话创业之路启迪未来商机 —— 九

为积极响应国家“大众创业、万众创新”号召，赋能九江地区企业高质量发展，搭建人力资源从业者与创业者之间的交流合作平台，2025年 8月 15日

2025-08-18 10:40:00

潍坊寿光：3000亩“蔬菜硅谷”里的智慧革命

大众网记者刘晓雨潍坊报道在潍坊寿光市，一座占地3000亩的“蔬菜硅谷”正以科技为笔，书写着现代农业的新范式。这里是部

2025-08-18 10:41:00

旅游直播亟待从价格竞技场转向服务体验馆

皖中客据《工人日报》报道，“下单立减，数量有限”“全年无加价，落地0自费”“一家三口出行，酒店免费升级”……正值暑期旅游旺季

2025-08-18 11:04:00

头条订阅服务

Meta提出“可持续思维链”，让大模型在连续潜空间中推理