• 我的订阅
  • 科技

“3D视频版Sora”来了!

类别:科技 发布时间:2024-07-26 09:30:00 来源:智东西

输入单个物体视频,就能获取任意拍摄视角的全视图3D动态视频了!

智东西7月25日消息,昨日晚间,AI独角兽Stability AI推出其首个视频生视频(video-to-video)模型Stable Video 4D(SV4D),该模型能够将单个物体的视频输入,转换为8个不同视角的多个新视频,用户可任意指定摄像机角度。

目前,SV4D可以通过一次推理,在约40秒内生成8个视图的各5帧视频,整个4D优化需要20-25分钟。该模型已在Hugging Face上开源,适用于游戏开发、视频编辑、虚拟现实(VR)等场景的应用,可免费用于研究、非商业用途。

SV4D技术论文也同步发表,研究团队由Stability AI和东北大学学者组成,其中详细解读了该模型的框架结构、优化策略、测评结果等。

Stability AI从2019年成立起,就致力于研发文字、图像、音频、视频等多个领域的开源模型,其在2022年跻身独角兽行列。虽然从去年以来它就陷入寻求卖身、核心技术团队离职、CEO卸任等困境,但即便如此也没能打断其不断开源新模型的脚步。

今年6月,Stability AI在债台高筑的情况下获得前Facebook总裁Sean Parker等投资者的8000万美元注资,并迎来了新任CEO——前Weta FX(维塔数码)负责人Prem Akkaraju。自Akkaraju上任以来,Stability AI在一个月内又接连发布聊天机器人Stable Assistant、音频生成模型Stable Audio Open以及此次发布的SV4D。

论文地址:

https://arxiv.org/abs/2407.17470

Hugging Face开源地址:

https://huggingface.co/stabilityai/sv4d

一、基于SVD升级4D框架,40秒生成视角视频

SV4D主要用在3D模型的多视角视频生成。其输入为单个物体的单视角视频,输出为同一物体8个不同角度的多视角视频。

据介绍,该模型以图生视频模型Stable Video Diffusion(SVD)为基础,实现了从图生视频到视频生视频的能力飞跃。

具体运行时,用户首先上传一段视频并指定所需的摄像机角度,SV4D会根据指定的摄像机视角生成8个新视角视频,从而提供拍摄对象的全面、多角度视频。生成的视频可用于优化拍摄对象的动态表示,适用于游戏开发、视频编辑、VR等场景的应用。

目前,SV4D仍处于研究阶段,可在40秒左右的时间内生成8个视角各5帧视频,整个4D优化流程约耗时20-25分钟。

以往用于多视角视频生成的方法,通常需要从图像扩散模型、视频扩散模型和多视图扩散模型的组合中进行采样,而SV4D能够同时生成多个新视图视频,大大提高了空间和时间轴的一致性。此外,该方法还可以实现更轻量的4D优化框架,而无需使用多个扩散模型进行繁琐的分数蒸馏采样。

与其他方法相比,SV4D能够生成更多样的多视图视频,且更加细致、忠实于输入视频,在帧和视图之间保持一致。

SV4D是Stability AI推出的首个视频到视频生成模型,已在Hugging Face上开源发布。Stability AI称,团队仍在积极完善该模型,使其能够处理更广泛的现实世界视频,而不仅仅是用于训练的合成数据集。

二、混合采样保持时间一致,4D生成全面超基准线

SV4D的技术论文也同步发表,其中详细解读了该模型的框架结构。

总的来说,SV4D是一个用来生成动态3D对象新视图视频的统一扩散模型。给定一个单目参考视频,SV4D为每个视频帧生成在时间上一致的新视图,然后使用生成的新视图视频来有效地优化隐式4D表示,而不需要基于分数蒸馏采样的优化。

“3D视频版Sora”来了!

▲SV4D框架概述及生成的4D资产

SV4D的模型结构如下图。基于相机条件,SV4D将相机视点的正弦嵌入传递给UNet中的卷积块,并在空间和视图注意力块中,使用输入视频进行交叉注意力条件设定。为了提高时间一致性,SV4D引入了一个额外的运动注意力块,并以第一帧的相应视图为交叉注意力条件。

“3D视频版Sora”来了!

▲SV4D模型结构

为了在保持时间一致性的同时,扩展生成的多视图视频,研发团队在推理过程中提出了一种新颖的混合采样策略。

首先,SV4D采样一组稀疏的锚定帧,然后将锚定帧作为新的条件图像,对中间帧进行密集采样/插值。为了确保连续生成之间的平滑过渡,SV4D在密集采样期间,交替使用时间窗口内的第一帧前向帧或最后一帧后向帧进行条件设置。

“3D视频版Sora”来了!

▲SV4D模型采样

在框架的优化上,SV4D使用参考多视图图像的第一帧,优化由多分辨率哈希网格以及密度和颜色多层感知机(MLP)表示的静态NeRF,然后解冻时间变形MLP,并使用随机采样的视图和帧来优化动态NeRF。

“3D视频版Sora”来了!

▲优化框架概述

为了训练统一的新视图视频生成模型,SV4D研发团队从现有的Objaverse数据集中整理了一个动态3D对象数据集。在多个数据集上的实验结果和用户研究表明,与之前的工作相比,SV4D在新视图视频合成以及4D生成方面具有最先进的性能。

“3D视频版Sora”来了!

▲ObjaverseDy数据集上4D输出的评估

在ObjaverseDy数据集上的4D输出评估中,SV4D在所有指标方面优于基线,在视觉质量(LPIPS和CLIP-S)、视频帧一致性(FVD-F)、多视图一致性(FVD-V)和多视图视频一致性(FVD-Diag和FV4D)方面都击败了此前的模型。

结语:Stability AI多模态再添新布局

Stability AI以文生图开源模型起家,在文本、视频、3D等多个模态上都有所布局。此次开源SV4D,是其在3D+视频生成两个方向上的共同进展。

尽管该模型目前仍处于前期研究阶段,但它在各指标表现出的优秀能力和模型架构上的创新思路,为未来的发展开辟了广阔的前景。随着模型的迭代和优化,SV4D有望在游戏、VR等更多领域的应用发挥重要作用。

以上内容为资讯信息快照,由td.fyun.cc爬虫进行采集并收录,本站未对信息做任何修改,信息内容不代表本站立场。

快照生成时间:2024-07-26 12:45:02

本站信息快照查询为非营利公共服务,如有侵权请联系我们进行删除。

信息原文地址:

「See Video, Get 3D」,智源开源无标注视频学习3D生成模型See3D
...,国内智源研究院推出了首个利用大规模无标注的互联网视频学习的 3D生成模型See3D---See Video, Get 3D
2024-12-11 09:54:00
单图解锁全景视角!北大/港中文/腾讯等推出ViewCrafter | 已开源
...,可以从单张或稀疏输入图像生成精确相机可控的新视角视频。还支持场景级文生3D、图生3D、以及稀疏视角重建等应用。目前论文和代码均已开源
2024-09-19 13:37:00
Meta提出“可持续思维链”,让大模型在连续潜空间中推理
...世界动态实现通用图像生成和编辑苹果团队提出「可扩展视频生成」方法利用扩散 Transformer 进行视频运动迁移ObjCtrl-2
2024-12-13 09:19:00
突破次元壁!新加坡国立发布GenXD:拿捏真实感3D、4D动态场景
...动态场景的生成更加快速和真实。在我们熟知的2D图像和视频生成技术蓬勃发展之际,3D和4D的世界依然是前沿科技的「无人区」。面对真实场景中复杂的物体运动和视角变化,3D、4D生
2024-11-14 09:45:00
把Waymo玩成GTA游戏!全生成式的车辆行驶轨迹视频合成器来了
...能够作为生成引擎渲染真实场景中任意车辆行驶轨迹下的视频。FreeVS 可被直接部署于任何测试场景,而无需负担通常耗时 2-3 小时的场景重建过程
2024-11-09 09:54:00
腾讯3D大模型全面开源,文本图像10秒转3D资产
3D生成开源界首个同时支持文字、图像转3D的模型来了,效果还是SOTA级别。就在刚刚,腾讯宣布推出Hunyuan3D-1.0,一口气开源轻量版和标准版两个模型。最快10秒就能端到
2024-11-06 09:43:00
腾讯发布首个工业级AIGC生产引擎,可提供一站式AI素材生成服务
...成符合游戏标准A/T pose的角色多视图 + 360°角色旋转演示视频。传统的游戏美术工作,需要同时绘制出多张角色在不同视角下的图片,以便让3D建模师准确理解原画的想法,但
2025-05-21 07:51:00
SIGGRAPH上首个Real-Time Live的中国团队用生成式AI创建3D世界
... CLAY 的 3D 生成技术不仅指引着业界方向,还将对图像和视频的生成起到积极作用。因为从信息熵的角度来说,你提供的信息越少,模型发挥的空间就越大。而 3D 模型化可以锚定
2024-08-10 09:46:00
腾讯混元上线“游戏工业级”视觉生成平台:效率最高提升数十倍!
...一页面绘制草图,并一键生成标准三视图和360°旋转演示视频,整个过程无需切换软件、无需手动拼接。实现角色从0到1的快速设计,能够节省大量时间和精力。此前,AI一直被行业抱怨不
2025-05-20 12:49:00
更多关于科技的资讯:
于琛刚刚过去的这个“双十二”,除了各电商平台推出的促销活动,抖音出台严打“假揭黑真带货”等违规行为的多项举措,也成为人们热议的话题
2025-12-16 11:02:00
近日,全国首家“现代骑手学院”正式揭牌,该学院设在广州职业技术大学,为在职外卖骑手和快递员提供学历和技能“双提升”通道
2025-12-16 08:07:00
12月12日“双十二”购物节当天,西湖区黄龙国际中心K-lab广场人气高涨,“疯狂碰友日·西湖首发季”2025西湖区新消费活动在此启动
2025-12-16 08:30:00
为加快培养适应人工智能时代发展需求的高水平创新人才,10月底,《浙江省中小学人工智能通识教育指导意见》发布。此前,杭州将人工智能通识课程纳入中小学各学段地方课程
2025-12-16 08:31:00
从“标准答案”到“缤纷选生活”:这届年轻人如何重构生活脚本
“年轻人要敢于尝试”“要找一条安稳的轨道”“年轻就要及时享乐”“年轻人要提前做好规划”……你有没有感受过这样的瞬间?耳边建议不断
2025-12-16 08:32:00
厦门网讯(厦门日报记者 沈彦彦)近日,2025金梧桐中国餐厅指南·星级餐厅颁奖盛典举行,厦门餐饮军团表现亮眼,共斩获10项星级“金梧桐”
2025-12-16 08:36:00
PITAKA × Gordon Hunt | 品牌十周年艺术联展,以科技编织自然瞬间
2025年12月14日,PITAKA于品牌十周年之际,携手英国当代艺术家Gordon Hunt,在深圳华侨城OCAT正式启幕十周年艺术联展——「觉知伏流 GLINTS OF AWARENESS」
2025-12-16 09:02:00
糖蒜科技对网络直播带货行业的规范化发展实践探索
网络直播带货作为数字经济时代的新兴商业模式,近年来以年均300%的增速迅猛发展,2023年市场规模突破3.5万亿元,带动就业超2000万人次
2025-12-16 10:32:00
走进海信双工厂,看5G+AI改写智造速度
鲁网12月15日讯当冰箱能“记忆”食物的最佳状态,一台电视可以“感知”你的观看喜好,你是否好奇,这些智能家电如何从冰冷的零件蜕变为懂你的家庭伙伴
2025-12-16 09:18:00
12月12日,2025浙江省新消费创新大赛资源对接活动在杭州举行,会上揭晓了本届大赛的获奖项目。聚焦新技术、新需求、新场景
2025-12-16 08:00:00
“与其扎在低价内卷里互相消耗,不如瞄准高端赛道奋力突围!”上完这堂课,杭商同学有了自己的新思考
王水福说,高端路上很辛苦,但高端路上不拥堵。全球约80%的新商用飞机上都有“西子造”,每年为全球提供约65万个零部件。 “与其扎在低价内卷里互相消耗
2025-12-16 08:00:00
陈勇摘要:企业文化是企业战略管理的重要支撑力量,其价值观、行为+准则等核心要素深刻影响企业战略的制定、实施与调整。契合企业发展需求的企业文化
2025-12-16 06:57:00
李玲摘要:随着珠宝行业的竞争加剧,服务质量在消费者购买决策中占据越来越重要的地位。本文结合珠宝行业特点及服务营销理论,构建了一套全面系统的营销服务质量评价指标体系
2025-12-16 06:57:00
冯智 华蓥市人民医院在安静的夜晚,耳边却持续萦绕着嗡嗡声、蝉鸣声或嘶嘶声,这种“无中生有”的声音困扰着不少人,这就是耳鸣
2025-12-16 06:57:00
AI时代下的日新月异正加速向更多领域蔓延,支付便是其中之一。对着手机说两句话,在10秒不到的时间里完成咖啡点单,这是杭州白领小露最近每天都在尝试的“新玩意儿”
2025-12-16 07:29:00