我的订阅
科技

我们正处于一个信息大暴发的时代，每天都能产生数以百万计的新闻资讯！

虽然有大数据推荐，但面对海量数据，通过我们的调研发现，在一个小时的时间里，您通常无法真正有效地获取您感兴趣的资讯！

头条新闻资讯订阅，旨在帮助您收集感兴趣的资讯内容，并且在第一时间通知到您。可以有效节约您获取资讯的时间，避免错过一些关键信息。

复杂组合3D场景生成，LLMs对话式3D可控生成编辑框架来了

类别：科技发布时间：2024-08-01 09:33:00 来源：机器之心Pro

AIxiv专栏是机器之心发布学术、技术内容的栏目。过去数年，机器之心AIxiv专栏接收报道了2000多篇内容，覆盖全球各大高校与企业的顶级实验室，有效促进了学术交流与传播。如果您有优秀的工作想要分享，欢迎投稿或者联系报道。投稿邮箱：liyazhou@jiqizhixin.com；zhaoyunfeng@jiqizhixin.com

该论文的第一作者和通讯作者均来自北京大学王选计算机研究所的 VDIG (Visual Data Interpreting and Generation) 实验室，第一作者为博士生周啸宇，通讯作者为博士生导师王勇涛。VDIG 实验室近年来在 IJCV、CVPR、AAAI、ICCV、ICML、ECCV 等顶会上有多项代表性成果发表，多次荣获国内外 CV 领域重量级竞赛的冠亚军奖项，和国内外知名高校、科研机构广泛开展合作。

近年来，针对单个物体的 Text-to-3D 方法取得了一系列突破性进展，但是从文本生成可控的、高质量的复杂多物体 3D 场景仍然面临巨大挑战。之前的方法在生成场景的复杂度、几何质量、纹理一致性、多物体交互关系、可控性和编辑性等方面均存在较大缺陷。

最近，来自北京大学王选计算机研究所的 VDIG 研究团队与其合作者公布了最新研究成果 GALA3D。针对多物体复杂 3D 场景生成，该工作提出了 LLM 引导的复杂三维场景可控生成框架 GALA3D，能够生成高质量、高一致性、具有多物体和复杂交互关系的 3D 场景，支持对话式交互的可控编辑，论文已被 ICML 2024 录用。

论文标题：GALA3D: Towards Text-to-3D Complex Scene Generation via Layout-guided Generative Gaussian Splatting

论文链接：https://arxiv.org/pdf/2402.07207

论文代码：https://github.com/VDIGPKU/GALA3D

项目网站：https://gala3d.github.io/

GALA3D 是一个高质量的 Text-to-3D 复杂组合场景生成与可控编辑框架。用户输入一段描述文本，GALA3D 能够 zero-shot 地生成相应的具有多物体和复杂交互关系的三维场景。GALA3D 在保证生成 3D 场景与文本高度对齐的同时，展现了其在生成场景质量、多物体复杂交互、场景几何一致性等方面的卓越性能。此外，GALA3D 还支持用户友好的端到端生成和可控编辑，使得普通用户能够在对话式的交谈中轻松定制和编辑 3D 场景。在与用户的交流中，GALA3D 可以精准地实现复杂三维场景对话式的可控编辑，并根据用户的对话实现复杂三维场景的布局变换、数字资产嵌入、装修风格改变等多样化的可控编辑需求。

方法介绍

GALA3D 的整体架构如下图所示：

GALA3D 利用大型语言模型（LLMs）生成初始布局，并提出布局引导的生成式 3D 高斯表示构建复杂 3D 场景。GALA3D 设计通过自适应几何控制优化 3D 高斯的形状和分布，以生成具有一致几何、纹理、比例和精确交互的 3D 场景。此外，GALA3D 还提出了一种组合优化机制，结合条件扩散先验和文生图模型，协作生成具有一致风格的 3D 多物体场景，同时迭代优化从 LLMs 提取的初始布局先验，以获得更加逼真准确的真实场景空间布局。广泛的定量实验和定性研究表明 GALA3D 在文本到复杂三维场景生成方面取得了显著效果，超越现有文生 3D 场景方法。

a、基于 LLMs 的场景布局先验

大语言模型展现了优异的自然语言理解和推理能力，本文进一步探索了 LLMs 大语言模型在 3D 复杂场景的推理和布局生成能力。如何在没有人工设计的情况下获得相对合理的布局先验有助于减少场景建模和生成的代价。对此，我们使用 LLMs (例如 GPT-3.5) 对文本输入的实例及其空间关系进行抽取，并生成相应的 Layout 布局先验。然而，通过 LLMs 解读的场景 3D 空间布局和 Layout 先验与实际场景存在一定差距，通常表现生成悬浮 / 穿模的物体，比例差异过大的物体组合等。进一步地，我们提出了 Layout Refinement 模块，通过基于视觉的 Diffusion 先验和 Layout 引导的生成式 3D 高斯对上述生成的粗糙布局先验进行调整和优化。

b、Layout Refinement

GALA3D 使用基于 Diffusion 先验的 Layout 布局优化模块对上述 LLMs 生成的布局先验进行优化。具体地，我们将 Layout 引导的 3D 高斯空间布局的梯度优化加入 3D 生成过程，通过 ControlNet 对 LLM-generated Layouts 进行空间位置、旋转角度和尺寸比例的调整，如图展示了优化前后 3D 场景和 Layout 的对应关系。经过优化的 Layout 具有更加准确的空间位置和比例尺度，并且使得 3D 场景中多物体的交互关系更加合理。

c、布局引导的生成式 3D 高斯表示

我们首次将 3D-Layout 约束引入 3D 高斯表示，提出了布局引导的生成式 3D 高斯，用于复杂文生 3D 场景。Layout-guided 3D 高斯表示包含多个语义抽取的实例物体，其中每个实例物体的 Layout 先验可以参数化为：

其中，N 代表场景中实例物体的总数。具体地，每一个实例 3D 高斯通过自适应几何控制进行优化，得到实例级的物体 3D 高斯表示。进一步地，我们将多个物体高斯根据相对位置关系组合到全场景中，生成布局引导的全局 3D 高斯并通过全局 Gaussian Splatting 渲染整个场景。

d、自适应几何控制

为了更好地控制 3D 高斯在生成过程中的空间分布和几何形状，我们提出了针对生成式 3D 高斯的自适应几何控制方法。首先给定一组初始高斯，为了将 3D 高斯约束在 Layout 范围内，GALA3D 使用一组密度分布函数来约束高斯椭球的空间位置。我们接着对 Layout 表面附近的高斯进行采样来拟合分布函数。之后，我们提出使用形状正则化控制 3D 高斯的几何形状。在 3D 生成的过程中，自适应几何控制不断优化高斯的分布和几何，从而生成更具纹理细节和规范几何的 3D 多物体与场景。自适应几何控制还保证了布局引导的生成式 3D 高斯具有更高的可控性和一致性。

实验结果

与现有 Text-to-3D 生成方法相比，GALA3D 展现了更加优异的 3D 场景生成质量和一致性，定量实验结果如下表所示：

我们还进行了广泛且有效的用户调研，邀请 125 位参与者（其中 39.2% 为相关领域的专家和从业人员）对本文方法和现有方法的生成场景进行多角度评估，结果如下表所示：

实验结果表明 GALA3D 在生成场景质量、几何保真度、文本一致性、场景一致性等多维度的测评指标中均超越现有方法，取得了最优的生成质量。

如下图定性实验结果所示，GALA3D 能够 zero-shot 地生成复杂多物体组合 3D 场景，并且具有良好的一致性：

下图展示了 GALA3D 能够支持用户友好的、对话式的可控生成和编辑：

更多研究细节，可参考原论文。

以上内容为资讯信息快照，由td.fyun.cc爬虫进行采集并收录，本站未对信息做任何修改，信息内容不代表本站立场。

快照生成时间：2024-08-01 12:45:03

本站信息快照查询为非营利公共服务，如有侵权请联系我们进行删除。

信息原文地址：

更多关于生成,框架,场景,对话,组合,高斯的资讯：

NeurIPS Spotlight｜从分类到生成：无训练的可

近年来，扩散模型（Diffusion Models）已成为生成模型领域的研究前沿，它们在图像生成、视频生成、分子设计、音频生成等众多领域展现出强大的能力。然而，生成符合特定条件（

2024-12-06 09:52:00

将他人AI作品做成实物展览被索赔50万，法院判赔1万：AI作

...，该判决确认了作者对AIGC作品的著作权，也对人工智能生成内容和人类利用智能工具创作的作品进行明显区分。经过实践和法律的磨合，这些相关案例经验对形成“生成式人工智能”权利归属

2024-11-15 13:44:00

高斯混合模型在概率建模中的应用

...的方法。图像中的每个像素都被认为是由这两个模型之一生成的。背景模型被认为是由一个单一的高斯分布描述的，而前景模型则可能由多个高斯分布组成。对象检测对象检测是指在一幅图像中定位

2023-10-23 03:37:00

突破次元壁！新加坡国立发布GenXD：拿捏真实感3D、4D动

...智元导读】GenXD模型结合CamVid-30K数据集突破了3D和4D场景生成的挑战，能从单张图片生成逼真的动态3D和4D场景

2024-11-14 09:45:00

喜马拉雅珠峰语音生成技术实现5秒极速克隆，亮相云栖大会

...展示了最新的自研语音技术成果，包括喜马拉雅珠峰语音生成式大模型和第二代智能语音交互系统，为参会者展示AIGC与文娱音频产业深度融合的最新成果。据了解，喜马拉雅珠峰语音生成式大

2023-11-01 17:06:00

大语言模型，实现智能客服知识库自动扩写功能

...数据、文献数据、问答数据等。语料规模和质量直接影响生成文本的效果。选择语言模型：选择一个合适的预训练语言模型，如BERT、GPT-3、Transformer等。不同模型适用不

2023-05-06 19:00:00

苏州创企，想要掀起一场三维重建的AI革命

...论文，详细介绍 3D 高斯溅射技术，这项技术使得大规模生成精细化 3D 模型成为可能。论文一经发出，便在计算机视觉领域引起极高关注。「这项技术具有划时代意义」，知天下创始人兼

2024-04-28 11:00:00

分分钟将图像转换成3D模型

...和笨重的缺点。基于运动结构的摄影测量方法由相机图像生成稀疏的3D点云，但光由这些点云生成干净、详细的表面模型就非常困难了。虽然质量很出众，但最先进的神经辐射场即使在现代GPU

2023-12-11 15:23:00

Meta提出“可持续思维链”，让大模型在连续潜空间中推理

...日值得关注的大模型前沿论文北大团队提出「自定义漫画生成」框架UniReal：通过学习真实世界动态实现通用图像生成和编辑苹果团队提出「可扩展视频生成」方法利用扩散 Transformer 进行视频运动迁移ObjCtrl-2

2024-12-13 09:19:00

更多关于科技的资讯：

兴业数金打造创新模式，助力“跨境理财通”服务升级

近日，兴业数金上线投产跨境人民币理财项目，建立基于手机银行APP的“跨境理财通”线上功能专区，助力本行成为第二家实现“跨境理财通”业务全线上办理的内地商业银行

2025-12-06 16:08:00

“杭小助”AI智能体上线构建残疾人服务数字化新生态

“我是一名肢残三级的残疾人，请问能享受哪些补贴？”输入文字，几秒钟过后，手机页面就出现了答案——杭州市各级政府的相关助残政策和补贴金额被清晰地列举出来

2025-12-06 10:21:00

辛集市公路桥梁养护启用无人机巡检

河北日报讯（张晓超、李娜）11月19日，辛集市教育北路高架桥上空，一架搭载高清摄像头与专业传感器的无人机缓缓升空，按照预设航线开展桥梁日常检测

2025-12-05 14:56:00

烟台南山学院斩获省部级科技奖荣誉

近日，2025年度中国纺织工业联合会科学技术奖励大会在北京人民大会堂隆重召开。烟台南山学院“针织经编一体成型3D智能织造关键技术及应用”项目斩获“技术发明奖二等奖”

2025-12-05 15:00:00

盐城盐都：“芯”智散热赋能科创驱动前行

江南时报讯以科创破局散热赛道，以匠心赋能产业升级。乘着聚焦“3+3”产业体系、培育新兴产业的发展浪潮，盐城市盐都区已在第三代半导体多个细分领域形成显著集聚优势

2025-12-05 15:07:00

中新建电力集团发电产业：智慧电厂新蓝图

近日，中新建电力集团天河热电分公司与上海电气集团举行了一场关键的技术交流会。会议聚焦于天河热电的智慧化升级，上海电气团队在会上系统性地展示了其先进的智慧电厂整体架构规划

2025-12-05 15:09:00

建行石家庄分行全省系统“人工智能＋”竞赛获佳绩

日前，建行河北省分行2025年“人工智能＋”劳动技能竞赛顺利结束。全省共有111支队伍选送90项作品参加初赛，经过严格的初审选拔

2025-12-05 15:09:00

全国首台套！助力煤矸石全量高值转化

12月1日，由中能建装配式建筑产业发展有限公司投资建设运营的山西大同千万吨级煤矸石综合利用新技术示范项目陶粒中试线成功建成投运

2025-12-05 15:10:00

如何“反内卷”？54.5%职场人将“优化薪酬激励机制”列为首

什么是“好工作”？工作有哪些特质会让员工有“好”感受？日前，智联招聘通过问卷调研的方式，对平台用户展开调研，回收3525份有效样本

2025-12-05 15:26:00

国航举办“国航+”生态主题发布会

海外网北京12月5日电（记者严冰）12月5日，中国国际航空股份有限公司（以下简称“国航”）在北京举办“云端无界凤启耀星河——‘国航+’生态主题发布会”

2025-12-05 15:33:00

乐购房山│实惠购—荟品仓城市奥莱北京首店盛大开业！

12月5日，国内仓储式品牌特卖开创者荟品仓，在房山区瑞来广场盛大开业，带来北京首家城市奥莱门店。近1万平方米超大空间、300+全球知名品牌及1-3折极致折扣

2025-12-05 15:55:00

易生支付“智慧分账”赋能安心鲜生驱动社区零售全国布局

在社区零售数字化转型加速深化的背景下，易生支付与“社区新零售”新兴企业陕西安心鲜生正式达成合作。依托易生支付的深厚技术积淀与成熟系统能力

2025-12-05 16:09:00

ED用药怎么选？金钢鸟领衔西地那非口崩片品牌阵营，购买渠道全

第91届全国药交会上，金鸿药业金钢鸟枸橼酸西地那非口崩片的亮相，让“枸橼酸西地那非品牌选择”“哪里有售”等问题成为行业热议焦点

2025-12-05 16:09:00

苏州黄埭镇推动“产学研”深度融合

江南时报讯日前，苏州冠鸿智能装备有限公司与中南大学计算机学院“跨界”合作，联合启动轮式双臂机器人研发项目，致力于推动创新成果向现实生产力加速转化

2025-12-05 16:13:00

近邻碰碰：以 “邻里经济”打造智慧社区消费新生态 —— 专访

鲁网12月4日讯“远亲不如近邻”，这句家喻户晓的俗语，如今被小门神传媒科技集团董事长付信中赋予了全新的商业内涵。由其集团研发推出的近邻碰碰 AI 智慧惠民设备

2025-12-05 16:47:00

头条订阅服务

复杂组合3D场景生成，LLMs对话式3D可控生成编辑框架来了