• 我的订阅
  • 科技

“3D视频版Sora”来了!

类别:科技 发布时间:2024-07-26 09:30:00 来源:智东西

输入单个物体视频,就能获取任意拍摄视角的全视图3D动态视频了!

智东西7月25日消息,昨日晚间,AI独角兽Stability AI推出其首个视频生视频(video-to-video)模型Stable Video 4D(SV4D),该模型能够将单个物体的视频输入,转换为8个不同视角的多个新视频,用户可任意指定摄像机角度。

目前,SV4D可以通过一次推理,在约40秒内生成8个视图的各5帧视频,整个4D优化需要20-25分钟。该模型已在Hugging Face上开源,适用于游戏开发、视频编辑、虚拟现实(VR)等场景的应用,可免费用于研究、非商业用途。

SV4D技术论文也同步发表,研究团队由Stability AI和东北大学学者组成,其中详细解读了该模型的框架结构、优化策略、测评结果等。

Stability AI从2019年成立起,就致力于研发文字、图像、音频、视频等多个领域的开源模型,其在2022年跻身独角兽行列。虽然从去年以来它就陷入寻求卖身、核心技术团队离职、CEO卸任等困境,但即便如此也没能打断其不断开源新模型的脚步。

今年6月,Stability AI在债台高筑的情况下获得前Facebook总裁Sean Parker等投资者的8000万美元注资,并迎来了新任CEO——前Weta FX(维塔数码)负责人Prem Akkaraju。自Akkaraju上任以来,Stability AI在一个月内又接连发布聊天机器人Stable Assistant、音频生成模型Stable Audio Open以及此次发布的SV4D。

论文地址:

https://arxiv.org/abs/2407.17470

Hugging Face开源地址:

https://huggingface.co/stabilityai/sv4d

一、基于SVD升级4D框架,40秒生成视角视频

SV4D主要用在3D模型的多视角视频生成。其输入为单个物体的单视角视频,输出为同一物体8个不同角度的多视角视频。

据介绍,该模型以图生视频模型Stable Video Diffusion(SVD)为基础,实现了从图生视频到视频生视频的能力飞跃。

具体运行时,用户首先上传一段视频并指定所需的摄像机角度,SV4D会根据指定的摄像机视角生成8个新视角视频,从而提供拍摄对象的全面、多角度视频。生成的视频可用于优化拍摄对象的动态表示,适用于游戏开发、视频编辑、VR等场景的应用。

目前,SV4D仍处于研究阶段,可在40秒左右的时间内生成8个视角各5帧视频,整个4D优化流程约耗时20-25分钟。

以往用于多视角视频生成的方法,通常需要从图像扩散模型、视频扩散模型和多视图扩散模型的组合中进行采样,而SV4D能够同时生成多个新视图视频,大大提高了空间和时间轴的一致性。此外,该方法还可以实现更轻量的4D优化框架,而无需使用多个扩散模型进行繁琐的分数蒸馏采样。

与其他方法相比,SV4D能够生成更多样的多视图视频,且更加细致、忠实于输入视频,在帧和视图之间保持一致。

SV4D是Stability AI推出的首个视频到视频生成模型,已在Hugging Face上开源发布。Stability AI称,团队仍在积极完善该模型,使其能够处理更广泛的现实世界视频,而不仅仅是用于训练的合成数据集。

二、混合采样保持时间一致,4D生成全面超基准线

SV4D的技术论文也同步发表,其中详细解读了该模型的框架结构。

总的来说,SV4D是一个用来生成动态3D对象新视图视频的统一扩散模型。给定一个单目参考视频,SV4D为每个视频帧生成在时间上一致的新视图,然后使用生成的新视图视频来有效地优化隐式4D表示,而不需要基于分数蒸馏采样的优化。

“3D视频版Sora”来了!

▲SV4D框架概述及生成的4D资产

SV4D的模型结构如下图。基于相机条件,SV4D将相机视点的正弦嵌入传递给UNet中的卷积块,并在空间和视图注意力块中,使用输入视频进行交叉注意力条件设定。为了提高时间一致性,SV4D引入了一个额外的运动注意力块,并以第一帧的相应视图为交叉注意力条件。

“3D视频版Sora”来了!

▲SV4D模型结构

为了在保持时间一致性的同时,扩展生成的多视图视频,研发团队在推理过程中提出了一种新颖的混合采样策略。

首先,SV4D采样一组稀疏的锚定帧,然后将锚定帧作为新的条件图像,对中间帧进行密集采样/插值。为了确保连续生成之间的平滑过渡,SV4D在密集采样期间,交替使用时间窗口内的第一帧前向帧或最后一帧后向帧进行条件设置。

“3D视频版Sora”来了!

▲SV4D模型采样

在框架的优化上,SV4D使用参考多视图图像的第一帧,优化由多分辨率哈希网格以及密度和颜色多层感知机(MLP)表示的静态NeRF,然后解冻时间变形MLP,并使用随机采样的视图和帧来优化动态NeRF。

“3D视频版Sora”来了!

▲优化框架概述

为了训练统一的新视图视频生成模型,SV4D研发团队从现有的Objaverse数据集中整理了一个动态3D对象数据集。在多个数据集上的实验结果和用户研究表明,与之前的工作相比,SV4D在新视图视频合成以及4D生成方面具有最先进的性能。

“3D视频版Sora”来了!

▲ObjaverseDy数据集上4D输出的评估

在ObjaverseDy数据集上的4D输出评估中,SV4D在所有指标方面优于基线,在视觉质量(LPIPS和CLIP-S)、视频帧一致性(FVD-F)、多视图一致性(FVD-V)和多视图视频一致性(FVD-Diag和FV4D)方面都击败了此前的模型。

结语:Stability AI多模态再添新布局

Stability AI以文生图开源模型起家,在文本、视频、3D等多个模态上都有所布局。此次开源SV4D,是其在3D+视频生成两个方向上的共同进展。

尽管该模型目前仍处于前期研究阶段,但它在各指标表现出的优秀能力和模型架构上的创新思路,为未来的发展开辟了广阔的前景。随着模型的迭代和优化,SV4D有望在游戏、VR等更多领域的应用发挥重要作用。

以上内容为资讯信息快照,由td.fyun.cc爬虫进行采集并收录,本站未对信息做任何修改,信息内容不代表本站立场。

快照生成时间:2024-07-26 12:45:02

本站信息快照查询为非营利公共服务,如有侵权请联系我们进行删除。

信息原文地址:

「See Video, Get 3D」,智源开源无标注视频学习3D生成模型See3D
...,国内智源研究院推出了首个利用大规模无标注的互联网视频学习的 3D生成模型See3D---See Video, Get 3D
2024-12-11 09:54:00
单图解锁全景视角!北大/港中文/腾讯等推出ViewCrafter | 已开源
...,可以从单张或稀疏输入图像生成精确相机可控的新视角视频。还支持场景级文生3D、图生3D、以及稀疏视角重建等应用。目前论文和代码均已开源
2024-09-19 13:37:00
Meta提出“可持续思维链”,让大模型在连续潜空间中推理
...世界动态实现通用图像生成和编辑苹果团队提出「可扩展视频生成」方法利用扩散 Transformer 进行视频运动迁移ObjCtrl-2
2024-12-13 09:19:00
突破次元壁!新加坡国立发布GenXD:拿捏真实感3D、4D动态场景
...动态场景的生成更加快速和真实。在我们熟知的2D图像和视频生成技术蓬勃发展之际,3D和4D的世界依然是前沿科技的「无人区」。面对真实场景中复杂的物体运动和视角变化,3D、4D生
2024-11-14 09:45:00
把Waymo玩成GTA游戏!全生成式的车辆行驶轨迹视频合成器来了
...能够作为生成引擎渲染真实场景中任意车辆行驶轨迹下的视频。FreeVS 可被直接部署于任何测试场景,而无需负担通常耗时 2-3 小时的场景重建过程
2024-11-09 09:54:00
腾讯3D大模型全面开源,文本图像10秒转3D资产
3D生成开源界首个同时支持文字、图像转3D的模型来了,效果还是SOTA级别。就在刚刚,腾讯宣布推出Hunyuan3D-1.0,一口气开源轻量版和标准版两个模型。最快10秒就能端到
2024-11-06 09:43:00
腾讯发布首个工业级AIGC生产引擎,可提供一站式AI素材生成服务
...成符合游戏标准A/T pose的角色多视图 + 360°角色旋转演示视频。传统的游戏美术工作,需要同时绘制出多张角色在不同视角下的图片,以便让3D建模师准确理解原画的想法,但
2025-05-21 07:51:00
SIGGRAPH上首个Real-Time Live的中国团队用生成式AI创建3D世界
... CLAY 的 3D 生成技术不仅指引着业界方向,还将对图像和视频的生成起到积极作用。因为从信息熵的角度来说,你提供的信息越少,模型发挥的空间就越大。而 3D 模型化可以锚定
2024-08-10 09:46:00
腾讯混元上线“游戏工业级”视觉生成平台:效率最高提升数十倍!
...一页面绘制草图,并一键生成标准三视图和360°旋转演示视频,整个过程无需切换软件、无需手动拼接。实现角色从0到1的快速设计,能够节省大量时间和精力。此前,AI一直被行业抱怨不
2025-05-20 12:49:00
更多关于科技的资讯:
戴着千问AI眼镜上两会,外媒记者:采访更高效了
今年全国两会现场,一款中国AI眼镜成为外媒记者的新宠。来自摩洛哥的中阿卫视记者毕诺,与多位国际同行纷纷戴上千问AI眼镜进行两会报道
2026-03-12 11:37:00
【奋进春天里】冲刺2200亿 2026年贵阳贵安将持续做大数智产业集群
编者按:一年春作首,奋进正当时。三月的黔中大地,生机盎然、干劲冲天,企业车间开足马力忙生产,项目工地塔吊林立赶进度。春日的沃土上
2026-03-12 11:52:00
鲁网3月12日讯3月12日,2026中国家电及消费电子博览会(AWE2026)在上海新国际博览中心正式开幕。继去年首发AI之眼技术
2026-03-12 12:08:00
3月11日,贵州省商务厅启动“2026年贵州食品、日用百货类商品线上促消费活动”,以“平台优惠+折扣立减”的促销方式,面向全国消费者发放总额1000万元的政府补贴
2026-03-12 12:22:00
鲁网3月12日讯在数字化金融服务全面普及的今天,掌上软件让越来越多的客户实现足不出户、指尖办业务,平安人寿推出的金管家APP
2026-03-12 13:52:00
实现从光芯片设计到模块封装量产每日商报讯 近日,位于拱墅区大运河数智未来城省级高新区核心区块的拱政工出【2025】6号地块标准厂房(一期)项目(以下称“芯速联高速硅光模块智能制造基地”)正式完工
2026-03-12 08:12:00
涂鸦智能:以开放平台与AI能力重塑宠物喂食器解决方案
宠物智能用品正从基础的“联网控制”迈向“主动关怀”的深度智能时代。传统宠物喂食器多限于手机App远程定时出粮,难以应对动态调整食量
2026-03-12 08:34:00
纵览原创|石家庄“装虾”线上线下冰火两重天:多家线下店铺称“没听说过”,有线上卖家已安装20多单
见习记者 朱荣琛“你养龙虾了吗?”成为近期网络热议的话题。最近,这款名为OpenClaw(网友俗称“龙虾”)的开源AI智能体工具迅速走红网络
2026-03-12 08:47:00
长白时评评论员 崔越然近期一款名为OpenClaw的开源人工智能体工具火遍全网,因其鲜红的图标被广大网民亲切地称为“龙虾”
2026-03-12 10:29:00
想尝鲜,又怕烫手 西湖边,数百人排队免费领养本地版“龙虾”
西湖边掀起“养虾”热潮。春夜渐凉,西湖边的“养虾”热潮,到昨晚8点仍没有退去。从中午开始,滨次元AI文旅驿站外的12号场地就排起了长队
2026-03-12 09:13:00
杭州日报讯 近日,在中国纺织信息中心浙江分中心·国际纺织时尚交流中心的组织下,涛搏纺织、凯亨纺织、卓伦纺织、优时进出口等10家绍兴柯桥纺织标杆企业组团亮相越南西贡会展中心
2026-03-12 07:11:00
杭州日报讯 “开年前两个月,订单量同比两位数增长,完成甚至突破预定生产目标,我们信心很足!”“产线满负荷运转,订单排得满满当当
2026-03-12 07:11:00
数字贸易平台海外版上线杭州日报讯 昨日,在2026年中国国际针织(春夏)博览会上,濮院毛衫数字贸易平台海外版正式上线,其专属海外品牌“PlinkX”同步亮相
2026-03-12 07:11:00
推动进口贸易与消费升级深度融合杭州日报讯 为深入推进高水平对外开放,释放中国超大规模市场红利,推动进口贸易与消费升级深度融合
2026-03-12 07:11:00
82岁老人换了新手机,但不熟悉操作,结果误开通多项收费业务。3月11日,老人收到扣费短信后向网格员求助,顺利取消了扣费服务
2026-03-11 17:36:00