• 我的订阅
  • 科技

突破次元壁!新加坡国立发布GenXD:拿捏真实感3D、4D动态场景

类别:科技 发布时间:2024-11-14 09:45:00 来源:新智元

突破次元壁!新加坡国立发布GenXD:拿捏真实感3D、4D动态场景

【新智元导读】GenXD模型结合CamVid-30K数据集突破了3D和4D场景生成的挑战,能从单张图片生成逼真的动态3D和4D场景。这一进展为虚拟世界构建带来新的可能性,让动态场景的生成更加快速和真实。

在我们熟知的2D图像和视频生成技术蓬勃发展之际,3D和4D的世界依然是前沿科技的「无人区」。

面对真实场景中复杂的物体运动和视角变化,3D、4D生成一直面临数据和模型设计的双重瓶颈。然而,一项令人振奋的突破即将改变这一现状!

近日,新加坡国立大学(NUS)的研究人员提出了一种全新的生成框架——GenXD,不但能生成极具真实感的3D场景,还实现了从相机视角和物体图片中「生长」出逼真的4D动态场景。

突破次元壁!新加坡国立发布GenXD:拿捏真实感3D、4D动态场景

项目主页: https://gen-x-d.github.io/

论文链接: https://arxiv.org/abs/2411.02319

代码链接: https://github.com/HeliosZhao/GenXD

GenXD能够实现单图片静态虚拟物体和场景的生成,实现高质量的3D内容创作:

突破次元壁!新加坡国立发布GenXD:拿捏真实感3D、4D动态场景

突破次元壁!新加坡国立发布GenXD:拿捏真实感3D、4D动态场景

突破次元壁!新加坡国立发布GenXD:拿捏真实感3D、4D动态场景

突破次元壁!新加坡国立发布GenXD:拿捏真实感3D、4D动态场景

GenXD也能够实现稀疏图片场景的重建,作为先验完善3D重建任务:

突破次元壁!新加坡国立发布GenXD:拿捏真实感3D、4D动态场景

突破次元壁!新加坡国立发布GenXD:拿捏真实感3D、4D动态场景

GenXD可以实现单图4D生成,生成任意时刻以及任意视角:

突破次元壁!新加坡国立发布GenXD:拿捏真实感3D、4D动态场景

突破次元壁!新加坡国立发布GenXD:拿捏真实感3D、4D动态场景

GenXD也能够助力视频插帧和可控视频生成,使用多图和相机路径作为控制信号:

突破次元壁!新加坡国立发布GenXD:拿捏真实感3D、4D动态场景

突破次元壁!新加坡国立发布GenXD:拿捏真实感3D、4D动态场景

CamVid-30K 4D数据构建

突破次元壁!新加坡国立发布GenXD:拿捏真实感3D、4D动态场景

图1 数据标注

在动态3D任务的发展中,缺乏大规模4D场景数据一直是一个关键瓶颈。这不仅影响到4D生成、动态相机姿态估计等任务,也限制了可控视频生成等应用的进展。

为了解决这一难题,研究团队推出了一个高质量4D数据集——CamVid-30K,为未来的动态3D任务奠定了坚实基础。

CamVid-30K数据集的创建过程包括了一系列精细的步骤。首先,研究人员使用基于运动恢复结构(SfM)的方法来估计相机姿态。

SfM通过从多张图像的投影中重建3D结构,其中包括特征检测与提取、特征匹配、3D重建与相机姿态估计等关键步骤。

为了确保准确性,特征匹配仅限于静态场景部分,以避免动态物体误导相机的运动估计。

与之前方法不同的是,CamVid-30K使用了一种实例分割模型,将所有可能移动的像素进行分割。

相比早期的运动分割模块,该实例分割方法具备更强的泛化能力,特别是在复杂场景下更为适用。随后,利用改进的Particle-SfM对静态背景进行处理,最终生成精准的相机姿态和稀疏点云信息。

为进一步筛选出真正的动态场景,CamVid-30K还引入了运动强度指标来识别物体的真实运动。通过对齐深度投影,将动态物体在3D空间中进行重投影,以便检测位移,确保所包含的场景具有丰富的动态细节。这一过程确保了CamVid-30K不仅包含相机的运动信息,还捕捉到了物体本身的运动,使其成为高质量的4D数据资源。

模型架构

突破次元壁!新加坡国立发布GenXD:拿捏真实感3D、4D动态场景

图2 整体框架

为了实现更自然的3D和4D场景生成,GenXD使用隐变量扩散模型(LDM),生成出符合相机视角和时间序列的场景图像。此外,GenXD提出多视角-时间层,将3D和时间信息有效解耦和融合。

对于相机视角信息,GenXD使用每个视角下的Plucker Ray作为控制信号。而对于单张或多张图像信息,GenXD使用掩码隐变量条件(mask latent conditioning)方式利用图像信息。

该方法在图像条件输入时具有三大优势:首先,无需对模型参数进行修改,便可以支持任意视角输入;其次,在多视图生成或视频生成过程中,无需固定条件帧的位置,确保了更大的灵活性;最后,省去了额外的条件嵌入,从而减少了模型参数量。这种设计不仅使得GenXD更高效,还可以处理复杂的多视角输入场景。

为了实现3D和4D的生成,GenXD引入了多视角-时间模块,分别对多视角信息和时间信息进行建模。通过设计多视角层与时间层,GenXD可以在3D生成时忽略时间信息,而在4D生成时引入多视角与时间信息的融合。

此外,模型采用了alpha融合策略,利用一个可学习的融合权重来控制4D生成的多视角和时间信息融合效果,从而实现更精准的动态场景生成。

此外,为了解决运动控制的问题,GenXD将CamVid-30K数据集中提供的运动强度引入多视角-时间ResBlock中。这样,模型可以准确地表达物体运动,从而在生成的场景中体现更自然的动态效果。

实验结果

GenXD在单视角4D生成,相机控制的视频生成,单视角3D生成以及少视角3D重建任务上均可用,并取得了很好的效果。

单视角4D生成

突破次元壁!新加坡国立发布GenXD:拿捏真实感3D、4D动态场景

表1 单视角4D生成

对于单视角4D生成,GenXD首先生成4D视频,然后使用生成的视频优化4D高斯泼溅网络因此,与过去基于SDS的方法相比,GenXD有更快的优化速度,也有更好的效果。

相机控制的视频生成

突破次元壁!新加坡国立发布GenXD:拿捏真实感3D、4D动态场景

表2 相机控制的视频生成

GenXD也与过去相机控制的运动生成方法进行了比较,过去的方法只能使用单张图片作为条件,无法实现视频插帧的功能。但单图条件下,GenXD超越过去的方法, 若使用多图作为条件,GenXD的效果可以得到更大的提升。

单视角3D生成

突破次元壁!新加坡国立发布GenXD:拿捏真实感3D、4D动态场景

表3 单视角3D生成

突破次元壁!新加坡国立发布GenXD:拿捏真实感3D、4D动态场景

图3 单视角3D生成

GenXD也在3D合成物体生成任务上进行了评估。在此任务上,GenXD首先生成360度视频,并利用此视频优化3D高斯泼溅网络。过去的方法在合成物体3D数据集上单独训练,而GenXD使用了不同分布的真实数据和4D数据。即使如此,GenXD也与过去的方法有相近的效果。此外,从可视化结果来看,GenXD没有过去方法常见的过度平滑和过度饱和问题。

少视角3D重建

突破次元壁!新加坡国立发布GenXD:拿捏真实感3D、4D动态场景

表4 少视角3D重建

突破次元壁!新加坡国立发布GenXD:拿捏真实感3D、4D动态场景

图4 少视角3D重建

GenXD可以使用多张图片作为条件,生成尺度一致的3D内容。因此,GenXD可以将生成的图片作为补充,提升少视角3D重建的效果。在此项目中,GenXD与两个重建网络(ZipNeRF和3DGS)相结合,极大地提升重建的效果。

运动控制

突破次元壁!新加坡国立发布GenXD:拿捏真实感3D、4D动态场景

图5 运动控制

数据标注管线中提出了运动强度的概念,并且被引入到多视角-时间ResBlock里进行运动控制。图5可视化了运动控制的效果。使用同样的图片和相机条件,增大运动强度可以提高物体运动的速度,从而实现可控生成。

总结

GenXD模型和CamVid-30K数据集为3D和4D生成领域带来了全新突破。通过设计多视角-时间模块并引入掩码隐变量条件,GenXD不仅能够解耦相机和物体的运动,还可以支持任意数量的条件视图输入。

GenXD展示了在各类应用中的强大适应性,且在多项任务中达到了与现有方法相当或更优的表现。这一成果为未来的3D和4D生成任务奠定了坚实的基础,预示着虚拟世界构建与动态场景生成的无限可能。

参考资料:

https://gen-x-d.github.io/

以上内容为资讯信息快照,由td.fyun.cc爬虫进行采集并收录,本站未对信息做任何修改,信息内容不代表本站立场。

快照生成时间:2024-11-14 12:45:02

本站信息快照查询为非营利公共服务,如有侵权请联系我们进行删除。

信息原文地址:

用AI破局情境化学习,瓦拉英语发力在线英语教育
...,他亲眼看到一个六年级就通过大学英语六级的学生,在新加坡旅游时却全程沉默,所有交流都由父亲代劳,折射除了传统英语教育长期存在的结构性困境:重应试技巧,轻实际运用;重机械记忆,
2025-08-03 07:47:00
...动作,就能生成近似真人的舞蹈视频。据悉,MagicAnimate是新加坡国立大学和字节跳动联合推出的「人体图像动画生成器」,能够把指定的人物图片按照既定动作序列生成视频。其独
2023-12-08 10:03:00
植物疗法划时代突破!新加坡国立大学曾运雄博士团队:雪蓝朵为患者点亮生命曙光
...促使着研究者们不断去寻找更高效、更安全的解决办法。新加坡国立大学曾运雄博士团队,通过对植物活性成分的前沿研究,成功研发出雪蓝朵明日叶纳豆片,为中风治疗打开了全新的局面。临床突
2025-03-06 17:22:00
...到2023年底中国电动车销量将超800万辆》新能源应用风向新加坡国立大学实现1平方厘米钙钛矿太阳能电池效率24.35% 新加坡国立大学6月22日宣布
2023-06-29 12:10:00
求学海外 这些新动态别错过
...。美国院校展区,院校代表正在介绍信息。 现场举行的新加坡留学讲座。日前,由教育部留学服务中心主办的2024中国国际教育巡回展在北京举行。来自全球26个国家和地区的180多所
2024-04-25 05:57:00
新加坡国立大学曾运雄博士团队:前沿技术引领者与产业变革推动者
新加坡国立大学曾运雄博士团队在五大前沿技术领域取得了突破性进展,其成果是基础研究深厚积累的结晶,更是技术创新与产业需求深度融合的典范。该团队的核心贡献主要体现在技术突破、产业价值
2025-03-06 17:24:00
沈佳妮出演我的后半生惹争议,是容貌撑不起人设,还是演技不行?
...的刘丽娜虽然在刻意扮丑(素颜、油头、黑眼圈),却因真实感引发了观众的共鸣。 但尽管如此,有观众依然认为“原配的形象秒杀小三”,这种对比进一步凸显了沈佳妮所饰角色的尴尬处境。
2025-04-09 00:12:00
直到看了她的无效改台词,才知道张国立的有效改台词,有多绝!
...进行了多次尝试,发现演员可以表演许多场景,但饥饿的真实感,唯有真正饿了才能表现出来。饥饿实在影响了他的表演,他不愿意动弹,也不想说台词。正是在这种饥饿的状态下,他察觉到了剧本
2024-06-20 10:05:00
让AI管理大型代码库,开发者福音 | 阿里/新加坡国立/西安交大
...面存在局限。为了缓解现有RACG方法的通用性缺陷,来自新加坡国立大学、阿里巴巴、西安交通大学的研究人员提出了CodexGraph
2024-08-12 09:49:00
更多关于科技的资讯:
轻薄手感碰撞旗舰实力,AI加持更出彩:高颜值超薄手机推荐全能款
颜值与便携并重的当下,高颜值超薄手机推荐成用户核心选购诉求,优质机型需兼顾纤薄设计、出众颜值、旗舰性能与智能体验,而非单纯轻薄牺牲核心功能
2026-03-09 14:41:00
国网济宁供电公司开展配网“机器人”带电作业
鲁网3月9日讯3月6日,国网济宁供电公司2026年春季检修工作正式启动。与往年不同,今年春检首项带电作业任务由智能配网带电作业机器人独立完成
2026-03-09 15:14:00
长光卫星举行8颗卫星出征仪式 含“邮储银行号”等将择期发射
3月9日,长光卫星技术股份有限公司在吉林省航天信息产业园举行“邮储银行号”卫星、“吉星”高分07A02星、“吉星”高分07A04星
2026-03-09 15:26:00
贵州普瑞眼科启动近视防控挑战赛
多彩贵州网讯(本网记者 罗晟鸣)为积极响应国家近视防控政策,3月8日,贵州普瑞眼科医院正式启动2026近视防控挑战赛,以医院特色“三维一体近视防控体系”为核心
2026-03-09 15:38:00
女性成为中坚力量,携程助力近2.7万女性灵活就业
文旅产业高质量发展的浪潮中,女性正以多元姿态成为行业稳就业、促创新的核心中坚力量。2025年,携程依托平台生态累计带动文旅领域灵活就业超 12万人
2026-03-09 15:44:00
胶东在线3月9日讯(记者卢伟霞)“我们的工作职责就是对烟台移动的核心网络进行维护和管理,工作质量直接影响着全市上百万用户的用网体验
2026-03-09 16:56:00
海信发布世界杯定制冰箱 海信璀璨650U8以真空磁场技术领跑保鲜赛道
随着2026年美加墨世界杯的脚步日益临近,全球球迷的热情已被点燃。3月5日,海信冰箱正式推出了世界杯定制产品—海信璀璨650U8真空头等舱冰箱
2026-03-09 14:03:00
麦当劳开启2026年派Day欢庆,苹果香蕉双拼派限时上新
鲁网3月9日讯麦当劳中国宣布正式开启第十二届“派Day”。即日起至2026年3月15日,麦当劳派Day以“心想派成,吃派就对”为主题
2026-03-09 14:03:00
巾帼绽芳华 农商共相伴—博兴农商银行开展三八妇女节主题活动
鲁网3月9日讯春风拂暖,花开正好,在第116个“三八”国际妇女节来临之际,博兴农商银行组织辖内网点统一开展“巾帼绽芳华 农商共相伴”主题活动
2026-03-09 14:05:00
国产AI大模型探索普惠化发展新路径
当前,国内生成式人工智能产业已从早期的通用对话能力比拼,进入垂直场景深耕、专业能力攻坚的深水区。如何让大模型从“闲聊助手”转向能真正解决复杂问题的生产工具
2026-03-09 11:14:00
数据要素价值释放年|AI下半场,“大数据工厂”如何赋能千行百业?
近日,国家数据局局长刘烈宏指出:“当前人工智能要往下走,关键在数据;AI下半场,拼的是数据。”如何将海量原始数据转化为人工智能模型可高效吸收的“优质燃料”
2026-03-09 11:43:00
原点空间丨惊蛰之夜,AI大咖齐聚常州
中电信人工智能科技有限公司副总经理杨戈奉上一堂“数据实战课”,拆解将海量通信数据炼为行业黄金的秘诀。 中国电信人工智能研究院总工程师王腾则深入工厂一线
2026-03-09 13:18:00
原标题:2026北京亦庄人形机器人半马下月开赛 机器人“巴图鲁”挑战赛集训营开营经开区已集聚知名机器人生态企业300余家2026北京亦庄半程马拉松暨人形机器人半程马拉松将于4月19日开赛
2026-03-09 09:43:00
中新经纬3月8日电 据微信公众号“网络安全威胁和漏洞信息共享平台”消息,近期,工业和信息化部网络安全威胁和漏洞信息共享平台(NVDB)监测发现OpenClaw开源AI智能体部分实例在默认或不当配置情况下存在较高安全风险
2026-03-09 09:14:00
“只需站在这里拍1秒,就能生成和自己一模一样的数字分身?太神奇了!”3月5日,杭州城西银泰城的“数字未来+”华数银龄生活馆里
2026-03-09 07:13:00