• 我的订阅
  • 科技

「See Video, Get 3D」,智源开源无标注视频学习3D生成模型See3D

类别:科技 发布时间:2024-12-11 09:54:00 来源:机器之心Pro

近日,著名 AI 学者、斯坦福大学教授李飞飞团队 World Labs 推出首个【空间智能】模型,仅输入单张图片,即可生成一个逼真的 3D 世界,这被认为是迈向空间智能的第一步。

几乎同时,国内智源研究院推出了首个利用大规模无标注的互联网视频学习的 3D生成模型See3D---See Video, Get 3D。不同于传统依赖相机参数(pose-condition)的 3D生成模型,See3D 采用全新的视觉条件(visual-condition)技术,仅依赖视频中的视觉线索,生成相机方向可控且几何一致的多视角图像。这一方法不依赖于昂贵的 3D 或相机标注,能够高效地从多样化、易获取的互联网视频中学习 3D 先验。See3D 不仅支持零样本和开放世界的 3D 生成,还无需微调即可执行 3D 编辑、表面重建等任务,展现出在多种 3D 创作应用中的广泛适用性。

「See Video, Get 3D」,智源开源无标注视频学习3D生成模型See3D

See3D 支持从文本、单视图和稀疏视图到 3D 的生成,同时还可支持 3D 编辑与高斯渲染。

相关的模型、代码、Demo 均已开源,更多技术细节请参考 See3D 论文。

论文地址: https://arxiv.org/abs/2412.06699 项目地址: https://vision.baai.ac.cn/see3d

效果展示

1. 解锁 3D 互动世界:输入图片,生成沉浸式可交互 3D 场景,实时探索真实空间结构;

「See Video, Get 3D」,智源开源无标注视频学习3D生成模型See3D

实时 3D 交互(备注:为了实现实时交互式渲染,当前对 3D 模型和渲染过程进行了简化,离线渲染真实效果更佳)

视频链接:https://mp.weixin.qq.com/s/tP_YOkL6kAdeoHf-44Ls5Q?token=1912244716&lang=zh_CN

2. 基于稀疏图片的 3D 重建:输入稀疏的 (3-6 张) 图片,模型可生成一个精细化的 3D 场景。

「See Video, Get 3D」,智源开源无标注视频学习3D生成模型See3D

「See Video, Get 3D」,智源开源无标注视频学习3D生成模型See3D

基于 6 张视图的 3D 重建

「See Video, Get 3D」,智源开源无标注视频学习3D生成模型See3D

基于 3 张视图的 3D 重建

视频链接:https://mp.weixin.qq.com/s/tP_YOkL6kAdeoHf-44Ls5Q?token=1912244716&lang=zh_CN

3. 开放世界 3D 生成:根据文本提示,生成一副艺术化的图片,基于此图片,模型可生成一个虚拟化的 3D 场景。

「See Video, Get 3D」,智源开源无标注视频学习3D生成模型See3D

开放世界 3D 生成样例

4. 基于单视图的 3D 生成:输入一张真实场景图片,模型可生成一个逼真的 3D 场景。

「See Video, Get 3D」,智源开源无标注视频学习3D生成模型See3D

基于单张图片的 3D 生成

视频链接:https://mp.weixin.qq.com/s/tP_YOkL6kAdeoHf-44Ls5Q?token=1912244716&lang=zh_CN

研究动机

3D 数据具有完整的几何结构和相机信息,能够提供丰富的多视角信息,是训练 3D 模型最直接的选择。然而,现有方法通常依赖人工设计(designed artists)、立体匹配(stereo matching)或运动恢复结构(Structure from Motion, SfM)等技术来收集这些数据。尽管经过多年发展,当前 3D 数据的积累规模依然有限,例如 DLV3D (0.01M)、RealEstate10K (0.08M)、MVImgNet (0.22M) 和 Objaverse (0.8M)。这些数据的采集过程不仅耗时且成本高昂,还可能难以实施,导致其数据规模难以扩展,无法满足大规模应用的需求。

与此不同,人类视觉系统无需依赖特定的 3D 表征,仅通过连续多视角的观察即可建立对 3D 世界的理解。单帧图像难以实现这一点,而视频因其天然包含多视角关联性和相机运动信息,具备揭示 3D 结构的潜力。更重要的是,视频来源广泛且易于获取,具有高度的可扩展性。基于此,See3D 提出 “See Video, Get 3D” 的理念,旨在通过视频中的多视图信息,让模型像人类一样,学习并推理物理世界的三维结构,而非直接建模其几何形态。

方法介绍

为了实现可扩展的 3D 生成,See3D 提供了一套系统化的解决方案,具体包括:

1)数据集:团队提出了一个视频数据筛选流程,自动去除源视频中多视角不一致或观察视角不充分的视频,构建了一个高质量、多样化的大规模多视角图像数据集WebVi3D。该数据集涵盖来自 1600 万个视频片段的 3.2 亿帧图像,可通过自动化流程随互联网视频量的增长而不断扩充。

「See Video, Get 3D」,智源开源无标注视频学习3D生成模型See3D

WebVi3D 数据集样本展示

视频链接:https://mp.weixin.qq.com/s/tP_YOkL6kAdeoHf-44Ls5Q?token=1912244716&lang=zh_CN

2)模型:标注大规模视频数据的相机信息成本极高,且在缺乏显式 3D 几何或相机标注的情况下,从视频中学习通用 3D 先验是更具挑战的任务。为解决这一问题,See3D 引入了一种新的视觉条件 —— 通过向掩码视频数据添加时间依赖噪声,生成一种纯粹的 2D 归纳视觉信号。这一视觉信号支持可扩展的多视图扩散模型(MVD)训练,避免对相机条件的依赖,实现了 “仅通过视觉获得 3D” 的目标,绕过了昂贵的 3D 标注。

「See Video, Get 3D」,智源开源无标注视频学习3D生成模型See3D

See3D 方法展示

3)3D 生成框架:See3D 学到的 3D 先验能够使一系列 3D 创作应用成为可能,包括基于单视图的 3D 生成、稀疏视图重建以及开放世界场景中的 3D 编辑等, 支持在物体级与场景级复杂相机轨迹下的长序列视图的生成。

「See Video, Get 3D」,智源开源无标注视频学习3D生成模型See3D

基于 See3D 的多视图生成

优势

a) 数据扩展性:模型的训练数据源自海量互联网视频,相较于传统 3D 数据集,构建的多视图数据集 (16M) 在规模上实现了数量级的提升。随着互联网的持续发展,该数据集可持续扩充,进一步增强模型能力的覆盖范围。

b)相机可控性:模型可支持在任意复杂的相机轨迹下的场景生成,既可以实现场景级别的漫游,也能聚焦于场景内特定的物体细节,提供灵活多样的视角操控能力。

c) 几何一致性:模型可支持长序列新视角的生成,保持前后帧视图的几何一致性,并遵循真实三维几何的物理规则。即使视角轨迹发生变化,返回时场景依然保持高逼真和一致性。

总结

通过扩大数据集规模,See3D 为突破 3D 生成的技术瓶颈提供了新的思路,所学习到的 3D 先验为一系列 3D 创作应用提供了支持。希望这项工作能够引发 3D 研究社区对大规模无相机标注数据的关注,避免高昂的 3D 数据采集成本,同时缩小与现有强大闭源 3D 解决方案之间的差距。

以上内容为资讯信息快照,由td.fyun.cc爬虫进行采集并收录,本站未对信息做任何修改,信息内容不代表本站立场。

快照生成时间:2024-12-11 12:45:03

本站信息快照查询为非营利公共服务,如有侵权请联系我们进行删除。

信息原文地址:

2022生成模型进展有多快,新论文盘点9类生成模型代表作
ChatGPT的出现,彻底将生成AI推向爆发。但别忘了,AI生成模型可不止ChatGPT一个,光是基于文本输入的就有7种——图像
2023-01-30 16:34:00
类Sora模型能否理解物理规律?字节豆包大模型团队系统性研究揭秘
视频生成模型虽然可以生成一些看似符合常识的视频,但被证实目前还无法理解物理规律!自从 Sora 横空出世,业界便掀起了一场「视频生成模型到底懂不懂物理规律」的争论。图灵奖得主 Y
2024-11-09 09:59:00
昆仑万维SkyReels团队正式发布并开源SkyReels-V2
...—首个使用扩散强迫(Diffusion-forcing)框架的无限时长电影生成模型,其通过结合多模态大语言模型(MLLM)
2025-04-21 13:53:00
Meta提出“可持续思维链”,让大模型在连续潜空间中推理
...日值得关注的大模型前沿论文北大团队提出「自定义漫画生成」框架UniReal:通过学习真实世界动态实现通用图像生成和编辑苹果团队提出「可扩展视频生成」方法利用扩散 Transformer 进行视频运动迁移ObjCtrl-2
2024-12-13 09:19:00
首个3d人像视频生成模型来了
...。眨个眼、动动嘴,都是小case~最近AIGC爆火,3D人像模型生成这边也没闲着。 如StyleNerf、StyleSDF
2023-02-22 19:23:00
文生视频让自动驾驶看到新方向
...频让自动驾驶看到新方向来源:视觉中国陈颖聪近年来,生成式人工智能在AI技术应用中成为焦点,尤其是文本生成视频大模型Sora,近来更是在全球范围内激发了科技创新的热潮。香港科技
2024-03-14 05:26:00
AI视野:Gen-2支持生成4K高清视频;Midjourney推出Style Tuner工具;
AI应用Gen-2史诗级更新 允许用户通过简单文本生成4K高清视频Runway的AI视频生成工具Gen-2经历了一次重大更新
2023-11-06 14:25:00
百度文心一格总架构师肖欣延:历程坎坷但未来已至,大模型赋能智能内容生成|WISE2023颠覆AIGC产业发展峰会
...总架构师肖欣延发表了题为《跨模态大模型赋能智能内容生成》的主题演讲。在肖欣延看来,生成式人工智能时代已经到来,内容生成将成为新一代生产方式,带来行业发展的新机遇。肖欣延分别从
2023-05-26 15:52:00
掰开揉碎告诉你,ChatGPT凭啥是人工智能“流量王”
...,又带给我们怎样的启发?本文将围绕ChatGPT的出发点、生成式AI、人工智能算法框架技术演进、预训练大模型PLM
2023-05-29 11:00:00
更多关于科技的资讯:
参展企业334家,展位数再创新高达840个斩获银奖!“南京智造”闪耀广交会南报网讯(记者黄琳燕通讯员宁商轩)第138届广交会将于10月15日在广州开幕
2025-10-15 08:09:00
“云”上调度 雨中守护|雷沃数智化服务为抢收装上智慧大脑
秋收关键期遭遇连绵阴雨,让秋收秋种受阻。除了满足抢收抢烘抢播的智能农机,潍柴雷沃还创新数智化服务,通过智能调度与精准服务
2025-10-15 01:05:00
茶酒融合催生“微醺”新赛道,新茶饮品牌争饮“昼夜”经济
当白天的提神茶饮与夜晚的放松酒品打破边界,正催生出国内消费市场一股新的“微醺”风潮。近期,茶百道经典白酒奶茶回归即创下销量佳绩
2025-10-14 11:33:00
嘎子谢孟伟被执行超1400万,已被限高,此前因穿警服带货被行拘7日
近日,因穿警服直播带货被行政拘留、账号遭封禁的嘎子谢孟伟发视频称 “我回来了”,并向所有观众诚恳道歉。视频中,其透露公司员工已被安排回老家
2025-10-14 11:33:00
平谷将打造全国农业科创中心
原标题:世界农业科创大会开幕 农业中关村核心区2.0发布平谷将打造全国农业科创中心本报讯(记者 赵婷婷)昨天,2025世界农业科技创新大会(WAFI)在北京平谷开幕
2025-10-14 11:59:00
据大象新闻报道,近期蜜雪冰城的小票成了年轻人追捧的“追更凭证”,其上连载着名为《雪王在古代卖咖啡》的小说,20个章节随机印在消费小票上
2025-10-14 12:10:00
电通创意发布《2025首席营销官报告》:算法与人性的重构力量
AI时代,品牌的长期价值回归于人性与文化共鸣,人类的创造力、同理心与文化相关性愈加重要。•AI已成日常:几乎所有CMO都在使用AI
2025-10-14 13:29:00
近日,一则“美团外卖骑手能屏蔽顾客”的消息在网络上引发热议。据媒体报道,美团已在福建晋江、浙江绍兴等七个城市试点上线骑手评价用户和屏蔽用户功能
2025-10-14 13:40:00
这座产业园一年制造千万颗球胆、百万颗整球——沂南县“造球记”
齐鲁晚报·齐鲁壹点 记者 公绪成 李其峰 通讯员 陈婉塑炼、分切、热压......沂南县泽辉体育产业园内,工人们正紧忙制作新一批篮球内胆10月9日
2025-10-14 15:00:00
在数字经济奔涌向前的浪潮中,VR正加速与新一代信息技术融合,不断催生新的应用场景。紧抓发展机遇,江西移动聚焦VR产业发展的核心问题
2025-10-14 16:02:00
行业首个!海尔智家牵头制定《智能门锁安装和售后服务要求》
据洛图科技数据显示,2025年上半年,中国智能门锁市场全渠道销量达到897万套,同比增长6.8%。面对日益增长的智能安防需求
2025-10-14 16:14:00
蜜雪冰城卖啤酒,5.9元一杯冲上热搜!网友:期待雪王啤酒了
10月14日,蜜雪冰城啤酒5.9元一杯冲上微博热搜榜。10月1日,蜜雪集团在港交所发布的公告显示,蜜雪冰城以2.856亿元增资认购鲜啤福鹿家新增注册资本
2025-10-14 16:40:00
【宅男财经|专家面对面】据媒体报道,近日,有网友在社交媒体发帖称,美团外卖骑手能屏蔽顾客了。相关页面信息显示,目前已在晋江
2025-10-14 17:08:00
华为、OPPO等国内厂商也将陆续上市eSIM手机
日前,苹果宣布iPhoneAir国行版将于10月17日早9点预购,10月22日正式发售。随后,中国移动、中国联通、中国电信三大运营商相继宣布
2025-10-14 17:49:00
无人驾驶获《时代》2025最佳发明奖:萝卜快跑、谷歌、特斯拉“三大家”全球竞速
中国青年报客户端讯(中青报·中青网记者 王军利)近日,《时代》公布2025年最佳发明榜单,无人驾驶技术赫然在列。作为人工智能在物理世界的典型应用
2025-10-14 22:56:00