• 我的订阅
  • 科技

世界模型突破!极佳科技首次利用世界模型增强4D驾驶场景重建效果

类别:科技 发布时间:2024-10-30 09:54:00 来源:机器之心Pro

近日,极佳科技联合中国科学院自动化研究所、理想汽车、北京大学、慕尼黑工业大学等单位提出DriveDreamer4D,是首个利用世界模型增强 4D 驾驶场景重建效果的工作。DriveDreamer4D 可以大幅提升多种自动驾驶 4D 重建算法的效果,在 user study 实验中获得了超过 80% 的偏好投票,为走向空间智能和 4D 世界模型迈出了坚实的一步。

世界模型突破!极佳科技首次利用世界模型增强4D驾驶场景重建效果

论文链接:https://arxiv.org/abs/2410.13571 项目主页:https://drivedreamer4d.github.io/ 代码地址:https://github.com/GigaAI-research/DriveDreamer4D

闭环仿真技术是推动端到端自动驾驶系统发展的关键。目前的传感器仿真方法,如 NeRF 与 3DGS,主要依赖于训练数据分布,若训练数据不足,则这些方法在复杂驾驶操作(例如变道、加速或减速)的重建效果不佳。近来,自动驾驶世界模型(World Model)证明其可以生成丰富驾驶数据。在此背景下,本文提出了 DriveDreamer4D,是首个利用世界模型来提升自动驾驶场景 4D 重建质量的算法。

DriveDreamer4D 可以为驾驶场景提供丰富多样的视角(包括变道、加速和减速等)数据,以增加动态驾驶场景下的闭环仿真能力。

DriveDreamer4D 利用世界模型作为数据引擎,基于真实世界的驾驶数据合成新轨迹视频(例如变道场景)。如下图所示,DriveDreamer4D 不仅可以提升多种重建算法(PVG,S3Gaussian,Deformable-GS)的图像渲染质量,还可以提升驾驶前景(车辆)和背景(车道线)的时空一致性。

世界模型突破!极佳科技首次利用世界模型增强4D驾驶场景重建效果

DriveDreamer4D 的总体结构框图如下所示,轨迹生成模块(NTGM)用于调整原始轨迹动作,如转向角度和速度,以生成新的轨迹。这些新轨迹为提取结构化信息(如车辆 3D 框和背景车道线细节)提供了全新的视角。随后,基于世界模型的视频生成能力,并利用更新轨迹后得到的结构化信息作为控制条件,可以合成新轨迹的视频。最后,原始轨迹视频与新轨迹视频相结合,进行 4DGS 模型的优化。

世界模型突破!极佳科技首次利用世界模型增强4D驾驶场景重建效果

在实验中,多种传统算法(PVG, S3Gaussian,Deformable-GS )在变道场景下的车道线、天空、车辆都会模糊,甚至出现 “鬼影” 现象。而 DriveDreamer4D 可以提升多种重建算法在复杂变道场景下的视频渲染效果,不仅消除了 “鬼影”,而且提升了交通元素的渲染质量,车辆和车道线都更加清晰。

世界模型突破!极佳科技首次利用世界模型增强4D驾驶场景重建效果

视频链接:https://mp.weixin.qq.com/s/PYh6khHqZqi2PMKKSpf3Ew

除了变道,在车辆变速场景下,传统算法(PVG,S3Gaussian,Deformable-GS)的表现能力也受到限制,如下第一列视频所示,这些算法在自车加速时,前方的车辆都出现了 “拖影” 现象。而经过 DriveDreamer4D 提升后,渲染的车辆的时空一致性更高。

世界模型突破!极佳科技首次利用世界模型增强4D驾驶场景重建效果

视频链接:https://mp.weixin.qq.com/s/PYh6khHqZqi2PMKKSpf3Ew

在定量实验中,本文证明了 DriveDreamer4D 不仅可以提升多种重建算法 (PVG, S3Gaussian,Deformable-GS)的图像渲染质量 (如表 2),还可以提升车辆和车道线渲染的时空一致性(如表 1)。此外,本文还通过 user study(表 3)证明用户更加偏好 DriveDreamer4D 的渲染效果,获得了超过 80% 的投票率。

世界模型突破!极佳科技首次利用世界模型增强4D驾驶场景重建效果

表 1 DriveDreamer4D 提升了车辆和车道线重建渲染的时空一致性

世界模型突破!极佳科技首次利用世界模型增强4D驾驶场景重建效果

表 2 DriveDreamer4D 提升了图像重建渲染质量

世界模型突破!极佳科技首次利用世界模型增强4D驾驶场景重建效果

表 3 User study 证明用户更加偏好 DriveDreamer4D 的渲染效果

本项 DriveDreamer4D 工作是极佳科技研究团队之前 DriveDreamer 和 DriveDreamer-2 工作的延续。

DriveDreamer 是首个面向真实驾驶场景的世界模型,可以根据不同的控制条件生成自动驾驶周视视频,有效提升了 BEV 感知的性能;DriveDreamer-2 在此基础上,引入大语言模型,可以生成用户自定义的驾驶数据,进一步提升了长尾和 corner case 场景下的数据生成能力。针对端到端自动驾驶和闭环仿真对于场景重建的迫切需求,DriveDreamer4D 利用 DriveDreamer 系列工作的能力,用以生成新轨迹视频(例如变道、加减速),从而大幅提升了多种 4DGS 算法的重建效果。

本篇论文的牵头完成单位为极佳科技,是一家空间智能公司,致力于将视频生成提升到 4D 世界模型,赋予 AI 大模型对于 4D 空间的理解、生成、常识和推理的能力,实现 4D 空间中的交互和行动,走向通用空间智能。通用空间智能对于影视游戏、元宇宙等虚拟空间的内容创作,以及自动驾驶、具身智能等物理空间的数据生成和认知推理能力,都有巨大的价值和作用。极佳科技是国内最早开始探索和布局世界模型和空间智能方向的公司,在物理空间和虚拟空间两方面都已取得显著的技术和商业进展,获得了行业广泛的认可。

以上内容为资讯信息快照,由td.fyun.cc爬虫进行采集并收录,本站未对信息做任何修改,信息内容不代表本站立场。

快照生成时间:2024-10-30 11:45:10

本站信息快照查询为非营利公共服务,如有侵权请联系我们进行删除。

信息原文地址:

...家论坛第十九届夏季高峰会上,与会嘉宾热议人工智能大模型。机器深度学习的革命GPT是一种先进的自然语言处理模型,通过预训练可以适应各种任务,以实现更高的语言理解和生成能力。36
2023-09-14 17:08:00
AI视频生成能操控运镜了!轻松推拉升降,秒拍电影大片,Runway出品
...11月1日,美国明星AI视频生成创企Runway为其Gen-3 Alpha Turbo模型推出了新的AI相机控制功能
2024-11-08 09:47:00
对话商汤王晓刚:自动驾驶借助强化学习将超越人类,今年商业化迎爆发
...去两年,自动驾驶厂商和车企,都在追求基于端到端的大模型,使得自动驾驶的能力持续突破。不过,王晓刚表示,这种端到端路线也有局限,非常依赖数据,且本质仍是模仿学习,很难突破人类驾
2025-02-27 11:36:00
华为、特斯拉带头 车企卷入“大模型”军备竞赛
作者 | 周永亮编辑 | 靖宇自动驾驶的进程,因为大模型又起波澜。近几年,自动驾驶近年发展迅猛,硬件预埋软件持续迭代的风潮下,车载算力急剧增长快速普及,但软件端功能进化滞后于算力
2023-06-16 16:48:00
商汤日日新大模型体系更迭升级,金融、医疗等行业场景落地已超20个|WAIC 2023
今年6月拍摄的商汤大模型产品商量SenseChat界面(来源:钛媒体App编辑拍摄)时隔仅3个月,商汤“日日新”AI大模型正式更新
2023-07-11 13:00:00
人工智能应用场景不断拓展
...近日,2024云栖大会在浙江杭州举行,一系列人工智能大模型的新成果、新应用集中亮相——人工智能应用场景不断拓展本报记者 刘 峣《 人民日报海外版 》( 2024年09月26日
2024-09-26 04:44:00
文生视频让自动驾驶看到新方向
...工智能在AI技术应用中成为焦点,尤其是文本生成视频大模型Sora,近来更是在全球范围内激发了科技创新的热潮。香港科技大学(广州)人工智能学领域助理教授兼博士生导师陈颖聪教授,
2024-03-14 05:26:00
自动驾驶领域 Sora大有可为
...击。 图/广州日报全媒体记者 邓莉想了解更多文生视频大模型Sora,请扫二维码观看。 视频/广州日报全媒体记者:陈馨
2024-02-22 04:06:00
商汤发布开源社区最大最强多模态多任务通用大模型“书生2.5”
商汤发布开源社区最大最强多模态多任务通用大模型“书生2.5” 3月14日,商汤科技发布多模态多任务通用大模型“书生(INTERN)2.5”,在多模态多任务处理能力方面实现多项全新
2023-03-15 13:30:00
更多关于科技的资讯: