• 我的订阅
  • 科技

Meta提出“可持续思维链”,让大模型在连续潜空间中推理

类别:科技 发布时间:2024-12-13 09:19:00 来源:学术头条

今日值得关注的大模型前沿论文

北大团队提出「自定义漫画生成」框架

UniReal:通过学习真实世界动态实现通用图像生成和编辑

苹果团队提出「可扩展视频生成」方法

利用扩散 Transformer 进行视频运动迁移

ObjCtrl-2.5D:无需训练的「图生视频」目标控制方法

Moxin-7B:一个完全开源的大语言模型

微软研究院:创建多用途、高质量 3D 资产

智源推出视觉条件多视角扩散模型

Turbo3D:超快速文本到 3D 生成

Meta 提出“可持续思维链”:让大语言模型在连续潜空间中推理

GameArena:通过实时电脑游戏评估 LLM 推理

想要第一时间获取每日最新大模型热门论文? 点击阅读原文,查看「2024必读大模型论文」合集,以及申请加入「大模型技术分享群」。

1.北大团队提出「自定义漫画生成」框架

故事可视化是从文本描述创建视觉叙事的任务,文本到图像的生成模型已经取得了进展。然而,这些模型往往缺乏对角色外观和互动的有效控制,尤其是在多角色场景中。

为了解决这些局限性,来自北京大学的研究团队及其合作者提出了一项新任务:自定义漫画生成,并提出了 DiffSensei,这是一个专门用于生成动态多角色控制漫画的创新框架。DiffSensei 集成了基于扩散的图像生成器和多模态大语言模型(MLLM),后者是一种文本兼容身份适配器。他们的方法采用了掩码交叉注意力技术,可无缝整合字符特征,从而在不直接传输像素的情况下实现精确的布局控制。此外,基于 MLLM 的适配器还能调整角色特征,使其与特定面板的文本线索保持一致,从而灵活调整角色的表情、姿势和动作。

他们还提出了 MangaZero,这是一个专为这项任务定制的大型数据集,包含 43264 页漫画和 427147 个注释面板,支持跨连续帧的各种角色互动和动作的可视化。广泛的实验证明,DiffSensei 的性能优于现有模型,通过实现文本适应性角色定制,标志着漫画生成技术的重大进步。

论文链接:

https://arxiv.org/abs/2412.07589

项目地址:

https://jianzongwu.github.io/projects/diffsensei/

Meta提出“可持续思维链”,让大模型在连续潜空间中推理

2.UniReal:通过学习真实世界动态实现通用图像生成和编辑

来自香港大学和 Adobe Research 的研究团队提出了 UniReal,这是一个旨在解决各种图像生成和编辑任务的统一框架。现有的解决方案往往因任务而异,但都有一个基本原则:在捕捉视觉变化的同时保持输入和输出之间的一致性。最近的视频生成模型有效地平衡了帧间的一致性和变化,受此启发,他们提出了一种统一的方法,将图像级任务视为不连续的视频生成。

具体来说,他们将不同数量的输入和输出图像视为帧,从而实现对图像生成、编辑、定制、合成等任务的无缝支持。虽然是为图像级任务设计的,但他们利用视频作为通用监督的可扩展来源。UniReal 可从大规模视频中学习世界动态,在处理阴影、反射、姿态变化和物体交互方面展示了先进的能力,同时还为新型应用展示了新兴能力。

论文链接:

https://arxiv.org/abs/2412.07774

项目地址:

https://xavierchen34.github.io/UniReal-Page/

Meta提出“可持续思维链”,让大模型在连续潜空间中推理

3.苹果团队提出「可扩展视频生成」方法

视频生成领域已经取得了令人瞩目的进步,但我们仍然迫切需要一个清晰、系统的方法来指导开发鲁棒、可扩展的模型。在这项工作中,来自苹果公司和加州大学的研究团队进行了一项全面的研究,系统地探讨了模型架构、训练方法和数据整理策略之间的相互作用,并提出了一种名为 STIV 的简单、可扩展的文本、图像条件视频生成方法。

他们的框架通过帧置换将图像条件整合到扩散 Transformer(DiT)中,同时通过联合图像-文本条件无分类器引导整合文本条件。这种设计使 STIV 能够同时执行文本到视频(T2V)和文本到图像到视频(TI2V)任务。此外,STIV 还能轻松扩展到各种应用中,如视频预测、帧插值、多视图生成和长视频生成等。通过对 T2I、T2V 和 TI2V 进行全面的消融研究,STIV 尽管设计简单,却表现出了强大的性能。

分辨率为 512 的 8.7B 参数模型在 VBench T2V 上达到 83.1,超过了 CogVideoX-5B、Pika、Kling 和 Gen-3 等领先的开源和闭源模型。在分辨率为 512 的 VBench I2V 任务中,同样大小的模型也取得了 90.1 的 SOTA 成绩。通过提供用于构建尖端视频生成模型的透明且可扩展的方法,他们旨在增强未来研究的能力,并加快实现更通用、更可靠的视频生成解决方案。

论文链接:

https://arxiv.org/abs/2412.07730

Meta提出“可持续思维链”,让大模型在连续潜空间中推理

4.利用扩散 Transformer 进行视频运动迁移

来自牛津大学和 Snap 的研究团队提出了 DiTFlow,这是一种将参考视频的运动迁移到新合成视频的方法,专为扩散 Transformer(DiT)而设计。他们首先用预先训练好的 DiT 处理参考视频,分析跨帧注意力图并提取称为注意力运动流(AMF)的片段运动信号。

他们以一种基于优化、无需训练的方式指导潜隐去噪过程,利用他们的 AMF 损失优化潜隐,生成再现参考视频运动的视频。他们还将优化策略应用于 Transformer 位置嵌入,从而提高了零样本运动迁移能力。他们将 DiTFlow 与最近发布的方法进行了对比评估,结果显示 DiTFlow 在多项指标和人工评估方面均优于所有方法。

论文链接:

https://arxiv.org/abs/2412.07776

项目地址:

https://ditflow.github.io/

Meta提出“可持续思维链”,让大模型在连续潜空间中推理

5.ObjCtrl-2.5D:无需训练的「图生视频」目标控制方法

这项研究旨在图像到视频(I2V)生成过程中实现更精确、更多用途的目标控制。目前的方法通常使用二维轨迹来表示目标对象的空间运动,这种方法往往无法捕捉用户的意图,而且经常产生不自然的结果。

为了增强控制效果,南洋理工大学研究团队提出了 ObjCtrl-2.5D,这是一种无需训练的目标控制方法,它使用从带有深度信息的二维轨迹扩展而来的三维轨迹作为控制信号。通过将物体运动建模为相机运动,ObjCtrl-2.5D 将三维轨迹表示为相机姿态序列,从而无需训练即可使用现有的相机运动控制 I2V 生成模型(CMC-I2V)进行物体运动控制。为了使最初为全局运动控制而设计的 CMC-I2V 模型适应于处理局部物体运动,他们引入了一个模块,将目标物体从背景中分离出来,从而实现独立的局部控制。此外,他们还设计了一种有效方法,通过跨帧共享对象区域内的低频翘曲潜影,实现更精确的对象控制。

大量实验证明,与无需训练的方法相比,ObjCtrl-2.5D 能显著提高物体控制精度,与使用二维轨迹的基于训练的方法相比,ObjCtrl-2.5D 能提供更多样化的控制能力,实现物体旋转等复杂效果。

论文链接:

https://arxiv.org/abs/2412.07721

项目地址:

https://wzhouxiff.github.io/projects/ObjCtrl-2.5D/

Meta提出“可持续思维链”,让大模型在连续潜空间中推理

6.Moxin-7B:一个完全开源的大语言模型

虽然开源大语言模型(LLM)为创新和研究提供了前所未有的机会,但 LLM 的商业化也引发了对透明度、可重复性和安全性的担忧。许多开源 LLM 未能满足基本的透明度要求,因为它们未公开训练代码和数据等重要组件,而且有些 LLM 在声称“开源”的同时还使用了限制性许可证,这可能会阻碍 LLM 的进一步创新。

为了缓解这一问题,来自美国东北大学的研究团队及其合作者推出了 Moxin-7B,它是一个完全开源的 LLM,是根据模型开放性框架(MOF)开发的。MOF 是一个等级分类系统,根据模型的完整性和开放性对人工智能模型进行评估,坚持开放科学、开放源代码、开放数据和开放访问的原则。通过全面发布预训练代码和配置、训练和微调数据集以及中间和最终检查点,他们的模型达到了 MOF 分类的最高级别“开放科学”。

实验表明,与流行的 7B 参数模型相比,他们的模型在零样本评估中取得了更优越的性能,在少样本中也具有竞争力。

论文链接:

https://arxiv.org/abs/2412.06845

7.微软研究院:创建多用途、高质量 3D 资产

微软研究院团队提出了一种新颖的 3D 生成方法,用于创建多用途和高质量的 3D 资产。该方法基于统一的结构化潜在(SLAT)表征,它允许解码为不同的输出格式,如辐射场、3D 高斯和网格。这是通过将稀疏填充的 3D 网格与从强大的视觉基础模型中提取的密集多视角视觉特征相结合来实现的,既能全面捕捉结构(几何)和纹理(外观)信息,又能在解码过程中保持灵活性。

他们采用为 SLAT 量身定制的整流 transformers 作为 3D 生成模型,并在包含 500K 个不同对象的大型 3D 资产数据集上训练参数多达 20 亿参数的模型。他们的模型可在文本或图像条件下生成高质量的结果,大大超越了现有的方法,包括最近类似规模的方法。他们展示了灵活的输出格式选择和本地 3D 编辑功能,这是以前的模型所不具备的。

论文链接:

https://arxiv.org/abs/2412.01506

项目地址:

https://trellis3d.github.io/

Meta提出“可持续思维链”,让大模型在连续潜空间中推理

8.智源推出视觉条件多视角扩散模型

近期的 3D 生成模型通常依赖于有限规模的 3D“黄金标签”或 2D 扩散先验来创建 3D 内容。然而,由于缺乏可扩展的学习范例,它们的性能受到 3D 先验的限制。

在这项工作中,北京智源人工智能研究院团队推出了一个视觉条件多视角扩散模型——See3D,该模型在大规模互联网视频上训练,可用于开放世界的 3D 创作。该模型的目的是通过从海量且快速增长的视频数据中获取视觉内容来获取 3D 知识。

为实现这一目标,他们首先使用一个拟议的数据整理管道来扩大训练数据的规模,该管道可自动过滤掉源视频中的多视角不一致和观察不足的内容。这样就得到了一个高质量、丰富多样的大规模多视角图像数据集,即 WebVi3D,其中包含来自 1600 万个视频片段的 3.2 亿帧。然而,从没有明确 3D 几何图形或相机姿态标注的视频中学习通用 3D 先验并不容易,而且为网络规模的视频标注姿态的成本过高。为了消除对姿势条件的需求,他们引入了一种创新的视觉条件——通过在掩码视频数据中添加随时间变化的噪声而生成的纯 2D 归纳视觉信号。最后,他们通过将 See3D 集成到基于翘曲的高保真 3D 生成流水线中,引入了新颖的视觉条件 3D 生成框架。

他们在单一和稀疏重建基准上进行的数值和视觉比较表明,See3D 在经济高效且可扩展的视频数据上经过训练后,实现了显著的零样本和开放世界生成能力,明显优于在昂贵且受限的 3D 数据集上训练的模型。

论文链接:

https://arxiv.org/abs/2412.06699

项目地址:

https://vision.baai.ac.cn/see3d

Meta提出“可持续思维链”,让大模型在连续潜空间中推理

9.Turbo3D:超快速文本到 3D 生成

来自卡内基·梅隆大学、麻省理工学院和 Adobe Research 的研究团队提出了 Turbo3D,这是一种超快速文本到 3D 系统,能够在一秒内生成高质量的高斯拼接资产。

Turbo3D 采用快速的 4 步 4 视图扩散生成器和高效的前馈高斯重构器,两者均在潜空间运行。4 步 4 视图生成器是通过新颖的双教师方法提炼出的学生模型,该方法鼓励学生从多视图教师那里学习视图一致性,从单视图教师那里学习照片逼真度。

通过将高斯重构器的输入从像素空间转移到潜空间,他们消除了额外的图像解码时间,并将 Transformer 序列长度减半,从而实现最高效率。与之前的基线方法相比,他们的方法展示了卓越的 3D 生成效果,而运行时间仅为它们的一小部分。

论文链接:

https://arxiv.org/abs/2412.04470

项目地址:

https://turbo-3d.github.io/

Meta提出“可持续思维链”,让大模型在连续潜空间中推理

10.Meta 提出可持续思维链:让大模型在连续潜空间中推理

大语言模型(LLM)仅限在“语言空间”中进行推理,通常用思维链(CoT)来表达推理过程,从而解决复杂的推理问题。然而,来自 Meta 和加州大学圣地亚哥分校的研究团队认为,语言空间并不总是最佳推理空间。例如,大多数单词 token 主要是为了保持文本的连贯性,对推理并不重要,而一些关键 token 则需要复杂的规划,给 LLM 带来了巨大的挑战。

为了探索 LLM 在不受限制的潜空间中进行推理的潜力,而不是使用自然语言,他们提出了一种新的范式——可持续思维链(Coconut)。他们利用 LLM 的最后一个隐藏状态来表示推理状态(称为“连续思维”)。他们没有将其解码为单词 token,而是将其反馈给 LLM,作为直接嵌入连续空间的后续输入。实验表明,Coconut 可以在多项推理任务中有效增强 LLM。

这种新颖的潜在推理范式带来了新兴的高级推理模式:连续思维可以编码多个可供选择的下一步推理步骤,使模型能够执行广度优先搜索(BFS)来解决问题,而不是像 CoT 那样过早地进行单一的确定性路径。在某些逻辑推理任务中,Coconut 的表现优于 CoT,因为在规划过程中需要大量的回溯,而在推理过程中则需要较少的思考 token。

论文链接:

https://arxiv.org/abs/2412.06769

Meta提出“可持续思维链”,让大模型在连续潜空间中推理

11.GameArena:通过实时电脑游戏评估 LLM 推理

评估大语言模型(LLM)的推理能力是一项挑战。现有的基准通常依赖于静态数据集,而静态数据集容易受到数据污染,并可能随着时间的推移而饱和;或者依赖于二进制的实时人类反馈,而这种反馈会将推理能力与其他能力混为一谈。尽管动态基准 Chatbot Arena 可评估真实世界环境中的开放式问题,但在评估特定推理能力方面缺乏精细度。

加州大学团队提出了 GameArena,这是一个动态基准,旨在通过与人类的互动游戏来评估 LLM 的推理能力。GameArena 由三个游戏组成,旨在测试特定的推理能力(如演绎推理和归纳推理),同时让参与者保持娱乐和参与。

他们对游戏数据进行回顾性分析,以揭示 LLM 的基本推理过程,并测量他们的细粒度推理能力。他们收集了 2000 多场游戏会话,并对五种 SOTA 的 LLM 的各种推理能力进行了详细评估。他们对 100 名参与者进行的用户研究表明,与 Chatbot Arena 相比,GameArena 提高了用户参与度,首次实现了在自然环境中收集逐步 LLM 推理数据。

论文链接:

https://arxiv.org/abs/2412.06394

Meta提出“可持续思维链”,让大模型在连续潜空间中推理

如需转载或投稿,请直接在公众号内留言

以上内容为资讯信息快照,由td.fyun.cc爬虫进行采集并收录,本站未对信息做任何修改,信息内容不代表本站立场。

快照生成时间:2024-12-13 12:45:04

本站信息快照查询为非营利公共服务,如有侵权请联系我们进行删除。

信息原文地址:

ICML2024演讲爆火!Meta朱泽园揭秘大模型内心世界:不同于人类推理
...M) 是如何解数学题的?是通过模板记忆,还是真的学会了推理思维?模型的心算过程是怎样的?能学会怎样的推理技能?与人类相同,还是超越了人类?只学一种类型的数学题,是会对通用智能
2024-08-06 09:27:00
语言≠思维,大模型学不了推理:一篇Nature让AI社区炸锅了
...到,人类大脑生成和解析语言的神经网络并不负责形式化推理,而且提出推理并不需要语言作为媒介。这篇论文声称「语言主要是用于交流的工具,而不是思考的工具,对于任何经过测试的思维形式
2024-06-25 09:45:00
CMU清华教LLM练成数学高手,LeanSTaR训练模型边思考边证明,登顶新SOTA
...办?CMU清华团队提出了Lean-STaR训练框架,在语言模型进行推理的每一步中都植入CoT,提升了模型的定理证明能力
2024-08-10 09:47:00
清华团队提出大模型“密度定律”;足球领域首个视觉语言基础模型
...交视觉-语言-动作建模框架RevThink:使用逆向思维增强 LLM 推理想要第一时间获取每日最新大模型热门论文? 点击阅读原文
2024-12-10 09:53:00
OpenAI o1模型到博士水平了?复旦教授:没有真正推理能力,学到的还是概率相关性
...小尺寸版o1-mini。OpenAI官方发文称,新模型旨在解决复杂推理问题,训练模型在响应之前花更多时间思考,类似于人类的思考方式
2024-09-13 16:44:00
阶跃星辰李璟:多模态是AGI的必经之路,视觉模型可按语言模型路线实现大一统
...发力。一是在预训练的基础上加上强化学习,提高模型的推理能力。“强化学习还在早期,还会延续一长段时间。”第二个趋势是多模的理解生成一体化。李璟认为,文本领域已经实现生成理解任务
2025-05-17 12:05:00
大模型权威报告:讯飞星火得分第一
...“最聪明”大模型的重要体现,本次逻辑思维评测在逻辑推理、思维链等方面设计了较多的题目,包含类比、常识推理、空间方位、演绎推理、逻辑谬误检测、因果推理等19个二级分类,题型上相
2023-08-18 09:35:00
奥林匹克竞赛里选最聪明的AI:Claude-3.5-Sonnet vs. GPT-4o?
...异,近来Anthropic公司最新发布的Claude-3.5-Sonnet因在知识型推理、数学推理、编程任务及视觉推理等任务上设立新行业基准而引发广泛讨论
2024-06-25 09:45:00
业界首款!中国联通发布元景思维链大模型:性能比肩OpenAI
...大慢思考能力,又具备不限于数学的多学科、多场景通用推理能力,且能做到针对不同任务和难度的自适应慢思考,大幅降低资源消耗。中国联通表示,主流榜单的测评结果显示,元景思维链大模型
2025-01-24 12:33:00
更多关于科技的资讯:
于都“织”出老区振兴新图景
本报讯 (全媒体记者李思成) 9月的赣南大地,秋意正浓。近日,记者随“高质量发展中国行·焕新江西”专题活动采访团一行走进赣州市于都县
2025-09-22 07:15:00
近日从太钢获悉,太钢供应用于国家能源局首台(套)重大技术装备项目——扎拉水电站的900兆帕超高强磁轭钢顺利通过叠检试验
2025-09-22 07:26:00
南京微短剧有流量更有“料”
微短剧《平凡警事》海报。微短剧《金箔奇缘》海报。百川短剧剧组在拍摄现场。 中国(南京)游戏谷。□芮天舒韶静王懿闫葛菲地铁里
2025-09-22 07:40:00
为什么越来越多的女生,恋爱前要交换体检报告?
“亲亲许可证”在即将接上吻的那一刻,女友的脑袋往后一躲,闪开了。紧接着,她抬起头,认真地盯着老王,问他,“你有没有幽门螺旋杆菌
2025-09-22 00:56:00
河北日报讯(见习记者康晓博)AI工业内窥镜、无针注射笔、分布式储能路灯、风滚草仿生播种机器人……9月20日,2025河北国际工业设计周活动开幕
2025-09-21 08:12:00
厦门网讯(厦门日报记者 林钦圣 通讯员 江安娜 徐燕) 最近,不少厦门市民都注意到这样一个现象:上班高峰期,正当大家为等候BRT快速公交车而焦急时
2025-09-21 09:00:00
乐陵杨安镇香辛料数智化交易平台正式启动
9月20日,乐陵市杨安镇以“智链未来・香聚全球”为主题的香辛料数智化交易平台启动仪式暨黄河商品交易市场香辛料品种上线仪式隆重举行
2025-09-21 09:25:00
现场签约金额达115亿元!中国制造业民营企业合作交流对接会聚焦“AI+”
大皖新闻讯 9月20日,2025世界制造业大会中国制造业民营企业合作交流对接会在合肥举行。活动现场签约项目10个,总额115
2025-09-21 10:14:00
留交会上首次设立“新招引企业专区”,200多个岗位虚席以待——这里有一份令人“新”动的邀约□南京日报/紫金山新闻记者张甜甜在9月20日举行的留交会现场
2025-09-21 10:24:00
“+”上去,活下来——2025世界制造业大会采访引发的思考
大河网讯 9月20日,2025世界制造业大会在安徽合肥开幕。河南省作为主宾省参会,30家企业参展。在人们的印象中,河南农业可圈可点
2025-09-21 14:48:00
十堰成功举办2025新能源汽车零部件交易会项目路演 十大前沿技术项目集中亮相
十堰广电讯(全媒体记者 耿吉国 通讯员 刘爱理)9月21日上午,2025新能源汽车零部件交易会项目路演活动在十堰国际会展中心成功举办
2025-09-21 15:32:00
河北新闻网讯(王丽英)近日,宁晋县晶龙餐饮管理总公司凭借市场化转型与外向型发展战略的深入实施,成功签约宁晋县产融区学生食堂
2025-09-21 15:53:00
中新经纬9月20日电 题:L2新国标将给智能驾驶立“铁律”作者 江瀚 盘古智库高级研究员智能网联汽车组合驾驶辅助系统或将迎来国家标准
2025-09-21 19:36:00
壹家之言丨“中国味都”迈入香辛料全球数字贸易新时代
9月20日,山东乐陵杨安镇香辛料数智交易平台正式启动,标志着“中国味都”迈入香辛料全球数字贸易新时代。这场发生在鲁北小镇的产业变革
2025-09-21 19:39:00
第三届全国技能大赛丨零售项目选手陈俪夫:以双语匠心赴技能之约
第三届全国技能大赛赛场热潮涌动,零售项目比拼现场,来自长春科技学院英语专业的陈俪夫正全神贯注地完成她的国赛首秀。曾斩获“21世纪杯全国英语演讲比赛”季军的陈俪夫
2025-09-21 18:07:00