我的订阅
科技

我们正处于一个信息大暴发的时代，每天都能产生数以百万计的新闻资讯！

虽然有大数据推荐，但面对海量数据，通过我们的调研发现，在一个小时的时间里，您通常无法真正有效地获取您感兴趣的资讯！

头条新闻资讯订阅，旨在帮助您收集感兴趣的资讯内容，并且在第一时间通知到您。可以有效节约您获取资讯的时间，避免错过一些关键信息。

「See Video, Get 3D」，智源开源无标注视频学习3D生成模型See3D

类别：科技发布时间：2024-12-11 09:54:00 来源：机器之心Pro

近日，著名 AI 学者、斯坦福大学教授李飞飞团队 World Labs 推出首个【空间智能】模型，仅输入单张图片，即可生成一个逼真的 3D 世界，这被认为是迈向空间智能的第一步。

几乎同时，国内智源研究院推出了首个利用大规模无标注的互联网视频学习的 3D生成模型See3D---See Video, Get 3D。不同于传统依赖相机参数（pose-condition）的 3D生成模型，See3D 采用全新的视觉条件（visual-condition）技术，仅依赖视频中的视觉线索，生成相机方向可控且几何一致的多视角图像。这一方法不依赖于昂贵的 3D 或相机标注，能够高效地从多样化、易获取的互联网视频中学习 3D 先验。See3D 不仅支持零样本和开放世界的 3D 生成，还无需微调即可执行 3D 编辑、表面重建等任务，展现出在多种 3D 创作应用中的广泛适用性。

「See Video, Get 3D」，智源开源无标注视频学习3D生成模型See3D

See3D 支持从文本、单视图和稀疏视图到 3D 的生成，同时还可支持 3D 编辑与高斯渲染。

相关的模型、代码、Demo 均已开源，更多技术细节请参考 See3D 论文。

论文地址: https://arxiv.org/abs/2412.06699 项目地址: https://vision.baai.ac.cn/see3d

效果展示

1. 解锁 3D 互动世界：输入图片，生成沉浸式可交互 3D 场景，实时探索真实空间结构；

实时 3D 交互（备注：为了实现实时交互式渲染，当前对 3D 模型和渲染过程进行了简化，离线渲染真实效果更佳）

视频链接：https://mp.weixin.qq.com/s/tP_YOkL6kAdeoHf-44Ls5Q?token=1912244716&lang=zh_CN

2. 基于稀疏图片的 3D 重建：输入稀疏的 (3-6 张) 图片，模型可生成一个精细化的 3D 场景。

基于 6 张视图的 3D 重建

基于 3 张视图的 3D 重建

视频链接：https://mp.weixin.qq.com/s/tP_YOkL6kAdeoHf-44Ls5Q?token=1912244716&lang=zh_CN

3. 开放世界 3D 生成：根据文本提示，生成一副艺术化的图片，基于此图片，模型可生成一个虚拟化的 3D 场景。

开放世界 3D 生成样例

4. 基于单视图的 3D 生成：输入一张真实场景图片，模型可生成一个逼真的 3D 场景。

基于单张图片的 3D 生成

视频链接：https://mp.weixin.qq.com/s/tP_YOkL6kAdeoHf-44Ls5Q?token=1912244716&lang=zh_CN

研究动机

3D 数据具有完整的几何结构和相机信息，能够提供丰富的多视角信息，是训练 3D 模型最直接的选择。然而，现有方法通常依赖人工设计（designed artists）、立体匹配（stereo matching）或运动恢复结构（Structure from Motion, SfM）等技术来收集这些数据。尽管经过多年发展，当前 3D 数据的积累规模依然有限，例如 DLV3D (0.01M)、RealEstate10K (0.08M)、MVImgNet (0.22M) 和 Objaverse (0.8M)。这些数据的采集过程不仅耗时且成本高昂，还可能难以实施，导致其数据规模难以扩展，无法满足大规模应用的需求。

与此不同，人类视觉系统无需依赖特定的 3D 表征，仅通过连续多视角的观察即可建立对 3D 世界的理解。单帧图像难以实现这一点，而视频因其天然包含多视角关联性和相机运动信息，具备揭示 3D 结构的潜力。更重要的是，视频来源广泛且易于获取，具有高度的可扩展性。基于此，See3D 提出 “See Video, Get 3D” 的理念，旨在通过视频中的多视图信息，让模型像人类一样，学习并推理物理世界的三维结构，而非直接建模其几何形态。

方法介绍

为了实现可扩展的 3D 生成，See3D 提供了一套系统化的解决方案，具体包括：

1）数据集：团队提出了一个视频数据筛选流程，自动去除源视频中多视角不一致或观察视角不充分的视频，构建了一个高质量、多样化的大规模多视角图像数据集WebVi3D。该数据集涵盖来自 1600 万个视频片段的 3.2 亿帧图像，可通过自动化流程随互联网视频量的增长而不断扩充。

WebVi3D 数据集样本展示

视频链接：https://mp.weixin.qq.com/s/tP_YOkL6kAdeoHf-44Ls5Q?token=1912244716&lang=zh_CN

2）模型：标注大规模视频数据的相机信息成本极高，且在缺乏显式 3D 几何或相机标注的情况下，从视频中学习通用 3D 先验是更具挑战的任务。为解决这一问题，See3D 引入了一种新的视觉条件 —— 通过向掩码视频数据添加时间依赖噪声，生成一种纯粹的 2D 归纳视觉信号。这一视觉信号支持可扩展的多视图扩散模型（MVD）训练，避免对相机条件的依赖，实现了 “仅通过视觉获得 3D” 的目标，绕过了昂贵的 3D 标注。

See3D 方法展示

3）3D 生成框架：See3D 学到的 3D 先验能够使一系列 3D 创作应用成为可能，包括基于单视图的 3D 生成、稀疏视图重建以及开放世界场景中的 3D 编辑等，支持在物体级与场景级复杂相机轨迹下的长序列视图的生成。

基于 See3D 的多视图生成

优势

a) 数据扩展性：模型的训练数据源自海量互联网视频，相较于传统 3D 数据集，构建的多视图数据集 (16M) 在规模上实现了数量级的提升。随着互联网的持续发展，该数据集可持续扩充，进一步增强模型能力的覆盖范围。

b）相机可控性：模型可支持在任意复杂的相机轨迹下的场景生成，既可以实现场景级别的漫游，也能聚焦于场景内特定的物体细节，提供灵活多样的视角操控能力。

c) 几何一致性：模型可支持长序列新视角的生成，保持前后帧视图的几何一致性，并遵循真实三维几何的物理规则。即使视角轨迹发生变化，返回时场景依然保持高逼真和一致性。

总结

通过扩大数据集规模，See3D 为突破 3D 生成的技术瓶颈提供了新的思路，所学习到的 3D 先验为一系列 3D 创作应用提供了支持。希望这项工作能够引发 3D 研究社区对大规模无相机标注数据的关注，避免高昂的 3D 数据采集成本，同时缩小与现有强大闭源 3D 解决方案之间的差距。

以上内容为资讯信息快照，由td.fyun.cc爬虫进行采集并收录，本站未对信息做任何修改，信息内容不代表本站立场。

快照生成时间：2024-12-11 12:45:03

本站信息快照查询为非营利公共服务，如有侵权请联系我们进行删除。

信息原文地址：

更多关于生成,模型,学习,视频,生成,数据的资讯：

2022生成模型进展有多快，新论文盘点9类生成模型代表作

ChatGPT的出现，彻底将生成AI推向爆发。但别忘了，AI生成模型可不止ChatGPT一个，光是基于文本输入的就有7种——图像

2023-01-30 16:34:00

类Sora模型能否理解物理规律？字节豆包大模型团队系统性研究

视频生成模型虽然可以生成一些看似符合常识的视频，但被证实目前还无法理解物理规律！自从 Sora 横空出世，业界便掀起了一场「视频生成模型到底懂不懂物理规律」的争论。图灵奖得主 Y

2024-11-09 09:59:00

昆仑万维SkyReels团队正式发布并开源SkyReels-

...—首个使用扩散强迫(Diffusion-forcing)框架的无限时长电影生成模型，其通过结合多模态大语言模型(MLLM)

2025-04-21 13:53:00

Meta提出“可持续思维链”，让大模型在连续潜空间中推理

...日值得关注的大模型前沿论文北大团队提出「自定义漫画生成」框架UniReal：通过学习真实世界动态实现通用图像生成和编辑苹果团队提出「可扩展视频生成」方法利用扩散 Transformer 进行视频运动迁移ObjCtrl-2

2024-12-13 09:19:00

首个3d人像视频生成模型来了

...。眨个眼、动动嘴，都是小case~最近AIGC爆火，3D人像模型生成这边也没闲着。如StyleNerf、StyleSDF

2023-02-22 19:23:00

文生视频让自动驾驶看到新方向

...频让自动驾驶看到新方向来源：视觉中国陈颖聪近年来，生成式人工智能在AI技术应用中成为焦点，尤其是文本生成视频大模型Sora，近来更是在全球范围内激发了科技创新的热潮。香港科技

2024-03-14 05:26:00

AI视野：Gen-2支持生成4K高清视频；Midjourne

AI应用Gen-2史诗级更新允许用户通过简单文本生成4K高清视频Runway的AI视频生成工具Gen-2经历了一次重大更新

2023-11-06 14:25:00

百度文心一格总架构师肖欣延：历程坎坷但未来已至，大模型赋能智

...总架构师肖欣延发表了题为《跨模态大模型赋能智能内容生成》的主题演讲。在肖欣延看来，生成式人工智能时代已经到来，内容生成将成为新一代生产方式，带来行业发展的新机遇。肖欣延分别从

2023-05-26 15:52:00

掰开揉碎告诉你，ChatGPT凭啥是人工智能“流量王”

...，又带给我们怎样的启发？本文将围绕ChatGPT的出发点、生成式AI、人工智能算法框架技术演进、预训练大模型PLM

2023-05-29 11:00:00

更多关于科技的资讯：

优秀人才薪资上不封顶！“起跑春天”杭州盛会：机器人岗位受热捧

3月14日，2026“起跑春天”杭州青年人才交流大会在杭州大会展中心举办。现场很是热闹，一边是手拿简历的青年求职者，一边是求贤若渴的单位

2026-03-14 14:58:00

AWE探展｜别卷参数了！容声大冰象这台“大长腿”冰箱太圈粉

鲁网3月14日讯“这台‘大长腿’冰箱太好看了！”“冷冻30天的三文鱼竟能生食！”3月12日，伴随着AWE2026开幕，不少参展者发现

2026-03-14 15:37:00

海信璀璨650U8冰箱亮相AWE：AI真空磁场保鲜引领储鲜新

鲁网3月14日讯3月12日，2026年中国家电及消费电子博览会（AWE2026）正式拉开帷幕，此前于3月5日重磅发布的世界杯定制产品——海信璀璨650U8真空头等舱冰箱

2026-03-14 15:39:00

诚信为基，科技赋能！中国太保寿险以数智化让保险更安心

鲁网3月14日讯保险业正从规模扩张加速迈向以客户需求为导向，以产品、服务、队伍质量为核心的发展新阶段。在高质量发展的转型升级进程中

2026-03-14 12:03:00

合肥又添一座“AI驱动型OPC社区”

大皖新闻讯近日，AI“养龙虾”成为全网热点。对此，多地发文支持OpenClaw&OPC发展。OPC全称One Person Company

2026-03-14 12:20:00

高校开学第一课解锁AI正确打开方式

荆楚网（湖北日报网）讯（记者唐天琪通讯员邵国超）“如果用财务管理的指标评估你的恋爱关系，你觉得这笔‘投资’的回报率是多少

2026-03-14 12:34:00

一只“龙虾”引发的思考系列报道之三你“养虾”，究竟是为了什

“三天我只睡了七八个小时，其他时间都在和‘龙虾’聊天。”这是孙艾艾见到记者后说的第一句话，作为大厂后台工程师，她从“龙虾”爆火之初就沉迷于这项技术

2026-03-14 06:51:00

全球好物汇聚杭城明天，到国博二期“买遍全球、潮玩互动”

想一站式淘遍全球尖货、体验未来科技、邂逅国潮新品？机会来了！以“共享大市场·出口中国”为主题的“浙里买全球·消费启杭”活动

2026-03-14 06:52:00

如果没有深度阅读，有一天AI会真正取代我们 AI阅读时代，警

上班的地铁上，放眼望去，尽是抱着手机刷屏的年轻人；回到家，孩子或许正在iPad上看着动画片……我们正在进入AI数字化时代

2026-03-14 07:22:00

安装“小龙虾”要花5小时？一个多月前杭州这家公司动手开发第一

想体验一把“小龙虾”，结果光安装就花了四五个小时。今年1月底，当一个红色龙虾图标的AI智能体OpenClaw在硅谷极客圈开始发酵时

2026-03-14 07:22:00

三联家电章丘世茂店盛大开业：抢抓“春日经济”，助力市民“焕新

鲁网3月13日讯春风送暖，万象更新。在这生机盎然的春日里，三联家电章丘世茂店于3月13日盛大开业。正值“春日经济”消费热潮

2026-03-13 17:40:00

一场对话 “对”出了什么？

鲁网3月13日讯“我们依托 AI 工具实现了内容快速生产，但算力成本高、高端人才缺，政策层面有什么支持？”“有支持的，我们推出了‘算力券’政策

2026-03-13 18:14:00

新华保险河北分公司以高品质服务守护千家万户

近年来，新华保险河北分公司持续推动服务升级，以高品质服务守护千家万户。在今年3·15国际消费者权益日到来之际，新华保险河北分公司党委书记

2026-03-13 20:25:00

分期乐等5家平台运营机构被约谈

中新经纬3月13日电据国家金融监管总局13日消息，近日，针对互联网助贷业务问题，金融监管总局对分期乐、奇富借条、你我贷借款

2026-03-13 21:29:00

面向自动驾驶环境的道路交通管理适应性策略研究

马嘉良河北公安警察职业学院摘要：自动驾驶技术的演进对传统静态交通管理体系提出了适应性变革要求,为保障混合交通流的安全与效率

2026-03-13 21:36:00

头条订阅服务

「See Video, Get 3D」，智源开源无标注视频学习3D生成模型See3D