• 我的订阅
  • 科技

“3D视频版Sora”来了!

类别:科技 发布时间:2024-07-26 09:30:00 来源:智东西

输入单个物体视频,就能获取任意拍摄视角的全视图3D动态视频了!

智东西7月25日消息,昨日晚间,AI独角兽Stability AI推出其首个视频生视频(video-to-video)模型Stable Video 4D(SV4D),该模型能够将单个物体的视频输入,转换为8个不同视角的多个新视频,用户可任意指定摄像机角度。

目前,SV4D可以通过一次推理,在约40秒内生成8个视图的各5帧视频,整个4D优化需要20-25分钟。该模型已在Hugging Face上开源,适用于游戏开发、视频编辑、虚拟现实(VR)等场景的应用,可免费用于研究、非商业用途。

SV4D技术论文也同步发表,研究团队由Stability AI和东北大学学者组成,其中详细解读了该模型的框架结构、优化策略、测评结果等。

Stability AI从2019年成立起,就致力于研发文字、图像、音频、视频等多个领域的开源模型,其在2022年跻身独角兽行列。虽然从去年以来它就陷入寻求卖身、核心技术团队离职、CEO卸任等困境,但即便如此也没能打断其不断开源新模型的脚步。

今年6月,Stability AI在债台高筑的情况下获得前Facebook总裁Sean Parker等投资者的8000万美元注资,并迎来了新任CEO——前Weta FX(维塔数码)负责人Prem Akkaraju。自Akkaraju上任以来,Stability AI在一个月内又接连发布聊天机器人Stable Assistant、音频生成模型Stable Audio Open以及此次发布的SV4D。

论文地址:

https://arxiv.org/abs/2407.17470

Hugging Face开源地址:

https://huggingface.co/stabilityai/sv4d

一、基于SVD升级4D框架,40秒生成视角视频

SV4D主要用在3D模型的多视角视频生成。其输入为单个物体的单视角视频,输出为同一物体8个不同角度的多视角视频。

据介绍,该模型以图生视频模型Stable Video Diffusion(SVD)为基础,实现了从图生视频到视频生视频的能力飞跃。

具体运行时,用户首先上传一段视频并指定所需的摄像机角度,SV4D会根据指定的摄像机视角生成8个新视角视频,从而提供拍摄对象的全面、多角度视频。生成的视频可用于优化拍摄对象的动态表示,适用于游戏开发、视频编辑、VR等场景的应用。

目前,SV4D仍处于研究阶段,可在40秒左右的时间内生成8个视角各5帧视频,整个4D优化流程约耗时20-25分钟。

以往用于多视角视频生成的方法,通常需要从图像扩散模型、视频扩散模型和多视图扩散模型的组合中进行采样,而SV4D能够同时生成多个新视图视频,大大提高了空间和时间轴的一致性。此外,该方法还可以实现更轻量的4D优化框架,而无需使用多个扩散模型进行繁琐的分数蒸馏采样。

与其他方法相比,SV4D能够生成更多样的多视图视频,且更加细致、忠实于输入视频,在帧和视图之间保持一致。

SV4D是Stability AI推出的首个视频到视频生成模型,已在Hugging Face上开源发布。Stability AI称,团队仍在积极完善该模型,使其能够处理更广泛的现实世界视频,而不仅仅是用于训练的合成数据集。

二、混合采样保持时间一致,4D生成全面超基准线

SV4D的技术论文也同步发表,其中详细解读了该模型的框架结构。

总的来说,SV4D是一个用来生成动态3D对象新视图视频的统一扩散模型。给定一个单目参考视频,SV4D为每个视频帧生成在时间上一致的新视图,然后使用生成的新视图视频来有效地优化隐式4D表示,而不需要基于分数蒸馏采样的优化。

“3D视频版Sora”来了!

▲SV4D框架概述及生成的4D资产

SV4D的模型结构如下图。基于相机条件,SV4D将相机视点的正弦嵌入传递给UNet中的卷积块,并在空间和视图注意力块中,使用输入视频进行交叉注意力条件设定。为了提高时间一致性,SV4D引入了一个额外的运动注意力块,并以第一帧的相应视图为交叉注意力条件。

“3D视频版Sora”来了!

▲SV4D模型结构

为了在保持时间一致性的同时,扩展生成的多视图视频,研发团队在推理过程中提出了一种新颖的混合采样策略。

首先,SV4D采样一组稀疏的锚定帧,然后将锚定帧作为新的条件图像,对中间帧进行密集采样/插值。为了确保连续生成之间的平滑过渡,SV4D在密集采样期间,交替使用时间窗口内的第一帧前向帧或最后一帧后向帧进行条件设置。

“3D视频版Sora”来了!

▲SV4D模型采样

在框架的优化上,SV4D使用参考多视图图像的第一帧,优化由多分辨率哈希网格以及密度和颜色多层感知机(MLP)表示的静态NeRF,然后解冻时间变形MLP,并使用随机采样的视图和帧来优化动态NeRF。

“3D视频版Sora”来了!

▲优化框架概述

为了训练统一的新视图视频生成模型,SV4D研发团队从现有的Objaverse数据集中整理了一个动态3D对象数据集。在多个数据集上的实验结果和用户研究表明,与之前的工作相比,SV4D在新视图视频合成以及4D生成方面具有最先进的性能。

“3D视频版Sora”来了!

▲ObjaverseDy数据集上4D输出的评估

在ObjaverseDy数据集上的4D输出评估中,SV4D在所有指标方面优于基线,在视觉质量(LPIPS和CLIP-S)、视频帧一致性(FVD-F)、多视图一致性(FVD-V)和多视图视频一致性(FVD-Diag和FV4D)方面都击败了此前的模型。

结语:Stability AI多模态再添新布局

Stability AI以文生图开源模型起家,在文本、视频、3D等多个模态上都有所布局。此次开源SV4D,是其在3D+视频生成两个方向上的共同进展。

尽管该模型目前仍处于前期研究阶段,但它在各指标表现出的优秀能力和模型架构上的创新思路,为未来的发展开辟了广阔的前景。随着模型的迭代和优化,SV4D有望在游戏、VR等更多领域的应用发挥重要作用。

以上内容为资讯信息快照,由td.fyun.cc爬虫进行采集并收录,本站未对信息做任何修改,信息内容不代表本站立场。

快照生成时间:2024-07-26 12:45:02

本站信息快照查询为非营利公共服务,如有侵权请联系我们进行删除。

信息原文地址:

「See Video, Get 3D」,智源开源无标注视频学习3D生成模型See3D
...,国内智源研究院推出了首个利用大规模无标注的互联网视频学习的 3D生成模型See3D---See Video, Get 3D
2024-12-11 09:54:00
单图解锁全景视角!北大/港中文/腾讯等推出ViewCrafter | 已开源
...,可以从单张或稀疏输入图像生成精确相机可控的新视角视频。还支持场景级文生3D、图生3D、以及稀疏视角重建等应用。目前论文和代码均已开源
2024-09-19 13:37:00
Meta提出“可持续思维链”,让大模型在连续潜空间中推理
...世界动态实现通用图像生成和编辑苹果团队提出「可扩展视频生成」方法利用扩散 Transformer 进行视频运动迁移ObjCtrl-2
2024-12-13 09:19:00
突破次元壁!新加坡国立发布GenXD:拿捏真实感3D、4D动态场景
...动态场景的生成更加快速和真实。在我们熟知的2D图像和视频生成技术蓬勃发展之际,3D和4D的世界依然是前沿科技的「无人区」。面对真实场景中复杂的物体运动和视角变化,3D、4D生
2024-11-14 09:45:00
把Waymo玩成GTA游戏!全生成式的车辆行驶轨迹视频合成器来了
...能够作为生成引擎渲染真实场景中任意车辆行驶轨迹下的视频。FreeVS 可被直接部署于任何测试场景,而无需负担通常耗时 2-3 小时的场景重建过程
2024-11-09 09:54:00
腾讯3D大模型全面开源,文本图像10秒转3D资产
3D生成开源界首个同时支持文字、图像转3D的模型来了,效果还是SOTA级别。就在刚刚,腾讯宣布推出Hunyuan3D-1.0,一口气开源轻量版和标准版两个模型。最快10秒就能端到
2024-11-06 09:43:00
腾讯发布首个工业级AIGC生产引擎,可提供一站式AI素材生成服务
...成符合游戏标准A/T pose的角色多视图 + 360°角色旋转演示视频。传统的游戏美术工作,需要同时绘制出多张角色在不同视角下的图片,以便让3D建模师准确理解原画的想法,但
2025-05-21 07:51:00
SIGGRAPH上首个Real-Time Live的中国团队用生成式AI创建3D世界
... CLAY 的 3D 生成技术不仅指引着业界方向,还将对图像和视频的生成起到积极作用。因为从信息熵的角度来说,你提供的信息越少,模型发挥的空间就越大。而 3D 模型化可以锚定
2024-08-10 09:46:00
腾讯混元上线“游戏工业级”视觉生成平台:效率最高提升数十倍!
...一页面绘制草图,并一键生成标准三视图和360°旋转演示视频,整个过程无需切换软件、无需手动拼接。实现角色从0到1的快速设计,能够节省大量时间和精力。此前,AI一直被行业抱怨不
2025-05-20 12:49:00
更多关于科技的资讯:
鲁网2月14日讯为提升居民网络使用体验,助力智慧社区建设,近日,山东移动临沂分公司装维团队深入多个社区,开展 “移动装维进社区”专项服务活动
2026-02-14 15:10:00
山东移动临沂分公司:智慧装维服务升级,开启家庭网络新体验
鲁网2月14日讯“您好,我是中国移动装维工程师张师傅,现在上门为您检测网络,这是我的工作证件。”周六上午9点,临沂北城新区书香苑小区的王女士刚结束早间会议
2026-02-14 15:11:00
字节跳动发布豆包大模型2.0,主打真实世界复杂任务执行力
在连续发布Seedance 2.0视频模型、Seedream 5.0 Lite图像模型之后,2月14日,字节跳动宣布推出豆包大模型2
2026-02-14 15:35:00
从米兰冬奥会看全球消费趋势:为何“由你”成了2026年的新叙事?
过去十年,全球化品牌的策略多为“We are the best”,强调品牌的权威感。但现在的趋势是“Its your turn”
2026-02-14 16:20:00
千问大免单再加3天,邀请全国人民体验AI买电影票,激活春节AI新消费
2月14日,千问突然宣布免单再加3天,接入大麦、飞猪,邀请全国人民体验AI买电影票、门票等新功能,激活春节AI新消费。从今天下午3点到大年初一
2026-02-14 16:36:00
依据河北省消费者权益保护委员会联合北京阳光消费大数据研究院于2025年8月发布的智能坐便器比较试验结果,九牧送检样品(型号ZD9640-SA-CJM000
2026-02-14 15:10:00
随着春节的脚步渐近,一场年味十足的“消费盛宴”即将开启。在春节9天假期里,围绕新春采购、美食盛宴、文旅消费、假期休闲等领域
2026-02-14 15:36:00
中亦科技荣膺徽商银行“核心系统3.0”项目“最佳合作伙伴奖”
近日,在徽商银行“核心系统3.0”建设项目总结表彰中,中亦科技凭借在金融核心场域的深度贡献,荣获“最佳合作伙伴奖”。唯一殊荣
2026-02-14 12:50:00
东阿生力源阿胶股份有限公司:千年阿胶文化的传承者与创新者
东阿生力源阿胶股份有限公司,成立于2002年,坐落于“千年阿胶福寿乡”——山东东阿黄河之滨,历经二十多年的深耕细作,现已发展为一家集阿胶等生物养生滋补品研发创新
2026-02-14 12:52:00
作为浙江省第一家海洋生物医药类上市公司,浙江诚意药业股份有限公司(下称“诚意药业”,股票代码:603811)深耕海洋生物医药领域多年
2026-02-14 11:53:00
厦门网讯(厦门日报记者 应洁 通讯员 帅浩)车间内机械臂精准运转,刚下线的无人驾驶清扫机器人正完成最后的调试——近日,集美灌口智能制造产业园区内
2026-02-14 08:24:00
智造引擎解锁产业新赛道 厦门航天思尔特研发制造基地建成投产
在厦门航天思尔特总装总调厂房车间,工业机器人让制造更智能。(厦门日报记者 许秋珩 摄)厦门网讯(厦门日报记者 应洁) 厦门航天思尔特研发制造基地的车间里
2026-02-14 08:24:00
春节临近,礼品市场进入一年中最活跃的周期。走访多家商超渠道及翻阅十余份健康消费品年度报告后发现,2026年的春节滋补礼品市场正经历一次显著的消费逻辑转向——“送贵的不如送对的”成为主流决策标尺
2026-02-14 08:45:00
对于女生来说,卫生巾不仅是日常刚需,更是私处健康的第一道防线,高洁丝1994年与中国女性初见面,在近30年的发展中,品牌知名度和渗透率持续提升
2026-02-14 08:46:00