• 我的订阅
  • 科技

“3D视频版Sora”来了!

类别:科技 发布时间:2024-07-26 09:30:00 来源:智东西

输入单个物体视频,就能获取任意拍摄视角的全视图3D动态视频了!

智东西7月25日消息,昨日晚间,AI独角兽Stability AI推出其首个视频生视频(video-to-video)模型Stable Video 4D(SV4D),该模型能够将单个物体的视频输入,转换为8个不同视角的多个新视频,用户可任意指定摄像机角度。

目前,SV4D可以通过一次推理,在约40秒内生成8个视图的各5帧视频,整个4D优化需要20-25分钟。该模型已在Hugging Face上开源,适用于游戏开发、视频编辑、虚拟现实(VR)等场景的应用,可免费用于研究、非商业用途。

SV4D技术论文也同步发表,研究团队由Stability AI和东北大学学者组成,其中详细解读了该模型的框架结构、优化策略、测评结果等。

Stability AI从2019年成立起,就致力于研发文字、图像、音频、视频等多个领域的开源模型,其在2022年跻身独角兽行列。虽然从去年以来它就陷入寻求卖身、核心技术团队离职、CEO卸任等困境,但即便如此也没能打断其不断开源新模型的脚步。

今年6月,Stability AI在债台高筑的情况下获得前Facebook总裁Sean Parker等投资者的8000万美元注资,并迎来了新任CEO——前Weta FX(维塔数码)负责人Prem Akkaraju。自Akkaraju上任以来,Stability AI在一个月内又接连发布聊天机器人Stable Assistant、音频生成模型Stable Audio Open以及此次发布的SV4D。

论文地址:

https://arxiv.org/abs/2407.17470

Hugging Face开源地址:

https://huggingface.co/stabilityai/sv4d

一、基于SVD升级4D框架,40秒生成视角视频

SV4D主要用在3D模型的多视角视频生成。其输入为单个物体的单视角视频,输出为同一物体8个不同角度的多视角视频。

据介绍,该模型以图生视频模型Stable Video Diffusion(SVD)为基础,实现了从图生视频到视频生视频的能力飞跃。

具体运行时,用户首先上传一段视频并指定所需的摄像机角度,SV4D会根据指定的摄像机视角生成8个新视角视频,从而提供拍摄对象的全面、多角度视频。生成的视频可用于优化拍摄对象的动态表示,适用于游戏开发、视频编辑、VR等场景的应用。

目前,SV4D仍处于研究阶段,可在40秒左右的时间内生成8个视角各5帧视频,整个4D优化流程约耗时20-25分钟。

以往用于多视角视频生成的方法,通常需要从图像扩散模型、视频扩散模型和多视图扩散模型的组合中进行采样,而SV4D能够同时生成多个新视图视频,大大提高了空间和时间轴的一致性。此外,该方法还可以实现更轻量的4D优化框架,而无需使用多个扩散模型进行繁琐的分数蒸馏采样。

与其他方法相比,SV4D能够生成更多样的多视图视频,且更加细致、忠实于输入视频,在帧和视图之间保持一致。

SV4D是Stability AI推出的首个视频到视频生成模型,已在Hugging Face上开源发布。Stability AI称,团队仍在积极完善该模型,使其能够处理更广泛的现实世界视频,而不仅仅是用于训练的合成数据集。

二、混合采样保持时间一致,4D生成全面超基准线

SV4D的技术论文也同步发表,其中详细解读了该模型的框架结构。

总的来说,SV4D是一个用来生成动态3D对象新视图视频的统一扩散模型。给定一个单目参考视频,SV4D为每个视频帧生成在时间上一致的新视图,然后使用生成的新视图视频来有效地优化隐式4D表示,而不需要基于分数蒸馏采样的优化。

“3D视频版Sora”来了!

▲SV4D框架概述及生成的4D资产

SV4D的模型结构如下图。基于相机条件,SV4D将相机视点的正弦嵌入传递给UNet中的卷积块,并在空间和视图注意力块中,使用输入视频进行交叉注意力条件设定。为了提高时间一致性,SV4D引入了一个额外的运动注意力块,并以第一帧的相应视图为交叉注意力条件。

“3D视频版Sora”来了!

▲SV4D模型结构

为了在保持时间一致性的同时,扩展生成的多视图视频,研发团队在推理过程中提出了一种新颖的混合采样策略。

首先,SV4D采样一组稀疏的锚定帧,然后将锚定帧作为新的条件图像,对中间帧进行密集采样/插值。为了确保连续生成之间的平滑过渡,SV4D在密集采样期间,交替使用时间窗口内的第一帧前向帧或最后一帧后向帧进行条件设置。

“3D视频版Sora”来了!

▲SV4D模型采样

在框架的优化上,SV4D使用参考多视图图像的第一帧,优化由多分辨率哈希网格以及密度和颜色多层感知机(MLP)表示的静态NeRF,然后解冻时间变形MLP,并使用随机采样的视图和帧来优化动态NeRF。

“3D视频版Sora”来了!

▲优化框架概述

为了训练统一的新视图视频生成模型,SV4D研发团队从现有的Objaverse数据集中整理了一个动态3D对象数据集。在多个数据集上的实验结果和用户研究表明,与之前的工作相比,SV4D在新视图视频合成以及4D生成方面具有最先进的性能。

“3D视频版Sora”来了!

▲ObjaverseDy数据集上4D输出的评估

在ObjaverseDy数据集上的4D输出评估中,SV4D在所有指标方面优于基线,在视觉质量(LPIPS和CLIP-S)、视频帧一致性(FVD-F)、多视图一致性(FVD-V)和多视图视频一致性(FVD-Diag和FV4D)方面都击败了此前的模型。

结语:Stability AI多模态再添新布局

Stability AI以文生图开源模型起家,在文本、视频、3D等多个模态上都有所布局。此次开源SV4D,是其在3D+视频生成两个方向上的共同进展。

尽管该模型目前仍处于前期研究阶段,但它在各指标表现出的优秀能力和模型架构上的创新思路,为未来的发展开辟了广阔的前景。随着模型的迭代和优化,SV4D有望在游戏、VR等更多领域的应用发挥重要作用。

以上内容为资讯信息快照,由td.fyun.cc爬虫进行采集并收录,本站未对信息做任何修改,信息内容不代表本站立场。

快照生成时间:2024-07-26 12:45:02

本站信息快照查询为非营利公共服务,如有侵权请联系我们进行删除。

信息原文地址:

「See Video, Get 3D」,智源开源无标注视频学习3D生成模型See3D
...,国内智源研究院推出了首个利用大规模无标注的互联网视频学习的 3D生成模型See3D---See Video, Get 3D
2024-12-11 09:54:00
单图解锁全景视角!北大/港中文/腾讯等推出ViewCrafter | 已开源
...,可以从单张或稀疏输入图像生成精确相机可控的新视角视频。还支持场景级文生3D、图生3D、以及稀疏视角重建等应用。目前论文和代码均已开源
2024-09-19 13:37:00
Meta提出“可持续思维链”,让大模型在连续潜空间中推理
...世界动态实现通用图像生成和编辑苹果团队提出「可扩展视频生成」方法利用扩散 Transformer 进行视频运动迁移ObjCtrl-2
2024-12-13 09:19:00
突破次元壁!新加坡国立发布GenXD:拿捏真实感3D、4D动态场景
...动态场景的生成更加快速和真实。在我们熟知的2D图像和视频生成技术蓬勃发展之际,3D和4D的世界依然是前沿科技的「无人区」。面对真实场景中复杂的物体运动和视角变化,3D、4D生
2024-11-14 09:45:00
把Waymo玩成GTA游戏!全生成式的车辆行驶轨迹视频合成器来了
...能够作为生成引擎渲染真实场景中任意车辆行驶轨迹下的视频。FreeVS 可被直接部署于任何测试场景,而无需负担通常耗时 2-3 小时的场景重建过程
2024-11-09 09:54:00
腾讯3D大模型全面开源,文本图像10秒转3D资产
3D生成开源界首个同时支持文字、图像转3D的模型来了,效果还是SOTA级别。就在刚刚,腾讯宣布推出Hunyuan3D-1.0,一口气开源轻量版和标准版两个模型。最快10秒就能端到
2024-11-06 09:43:00
腾讯发布首个工业级AIGC生产引擎,可提供一站式AI素材生成服务
...成符合游戏标准A/T pose的角色多视图 + 360°角色旋转演示视频。传统的游戏美术工作,需要同时绘制出多张角色在不同视角下的图片,以便让3D建模师准确理解原画的想法,但
2025-05-21 07:51:00
SIGGRAPH上首个Real-Time Live的中国团队用生成式AI创建3D世界
... CLAY 的 3D 生成技术不仅指引着业界方向,还将对图像和视频的生成起到积极作用。因为从信息熵的角度来说,你提供的信息越少,模型发挥的空间就越大。而 3D 模型化可以锚定
2024-08-10 09:46:00
腾讯混元上线“游戏工业级”视觉生成平台:效率最高提升数十倍!
...一页面绘制草图,并一键生成标准三视图和360°旋转演示视频,整个过程无需切换软件、无需手动拼接。实现角色从0到1的快速设计,能够节省大量时间和精力。此前,AI一直被行业抱怨不
2025-05-20 12:49:00
更多关于科技的资讯:
人工智能如何赋能“安徽万物”?
大皖新闻讯 1月16日,《安徽省“人工智能+万物”应用行动方案》发布,到2030年,安徽“人工智能+万物”应用落地将超万个
2026-01-17 21:56:00
鲁网1月17日讯1月13日上午,普惠(临沂)投资服务有限公司考察组一行赴临沂市供应链金融协会开展学习交流活动。临沂市供应链金融协会会长
2026-01-17 14:47:00
1月16日,全球最大、起重量达2300吨的桥面吊机在河北省秦皇岛市一装备制造企业正式下线,标志着我国在大型桥梁施工装备领域又获重大突破
2026-01-17 15:44:00
2026天然苏打水市场趋势:健康化、场景化成主流 泉匠深耕多区域市场实现销量突破
随着健康消费理念的深度渗透,天然苏打水行业正迎来高质量发展的黄金期。据行业权威报告预测,2026年中国天然苏打水市场规模将突破260亿元
2026-01-17 15:58:00
开元云与广西大学人工智能学院达成战略合作,共建AI产教融合新高地
广西大学人工智能学院常务副院长张振荣、副院长赵志刚、陈燕教授等老师,出席双方产学研合作签约仪式。2026年1月15日 广西南宁
2026-01-17 15:58:00
数据接口安全风险监测国标正式发布!深信服深度参编
根据2025年12月2日国家市场监督管理总局、国家标准化管理委员会发布的中华人民共和国国家标准公告(2025年第33号)
2026-01-17 16:00:00
近日,国网潢川县供电公司依托用电信息采集系统及“专变负载可视化”数据集,构建反向有功异常自动监测告警机制,实现非光伏用户反向用电异常精准识别处置
2026-01-17 16:00:00
新消费|万物皆可租!这届年轻人为何“能租就不买”?
租一台口袋相机只需30元一天专业优质的画质却可以让旅途回忆更生动用百来元就能配齐一整套露营装备花100元便能轻松满足整趟出国旅行的穿搭需要……如今越来越多的年轻人正通过“租赁”重新定义自己的消费方式近日
2026-01-17 16:54:00
冷暖省电双先锋!美的酷省电二代横扫抖音商城三榜冠军
2026刚开年,空调行业首款爆品已然出现——全新上市美的酷省电二代便凭硬核实力脱颖而出,强势斩获抖音商城智能空调爆款榜
2026-01-17 16:00:00
厦门钨业通过技术创新与人才创新,不断攻克行业技术难题,塑造发展新动能让“有色”更出色东南网1月17日讯 (福建日报记者 戴敏 李向娟)近日
2026-01-17 11:38:00
在漳州龙文区,智能机器人等一批前沿项目正在聚集,新质生产力蓬勃生长——“未来场景”来到家门口东南网1月17日讯 (福建日报报业集团记者 杨凌怡 通讯员 张小惠)广场前
2026-01-17 11:41:00
中国姚绣站上巴黎大展C位
1月15日至19日,非遗苏绣品牌姚绣(Yao Silk)再度亮相巴黎M&O展,成为本届展会Fine Craft(精品工艺)展区唯一中国品牌
2026-01-17 09:40:00
民大学子全国“摘金” AI巧解垃圾分类与楼宇管理难题
荆楚网(湖北日报网)讯(记者林杉 许文秀 通讯员陈韶月 张祎晗)面对垃圾分类的效率瓶颈,人工智能与机械设计如何给出更优解
2026-01-17 10:36:00
长白时评评论员 久泰平近日多起滥用“七天无理由退货”的新闻引发社会关注。有商家曝光,有学生集体网购演出服,演出后再把带着污渍
2026-01-17 05:55:00
1月14日消息,工业和信息化部近日公布了2025年全国中小企业人工智能典型应用场景名单,晋西春雷自主研发的“AI视觉质检实现铜带缺陷精准识别”项目成功入选
2026-01-17 07:39:00