我的订阅
科技

我们正处于一个信息大暴发的时代，每天都能产生数以百万计的新闻资讯！

虽然有大数据推荐，但面对海量数据，通过我们的调研发现，在一个小时的时间里，您通常无法真正有效地获取您感兴趣的资讯！

头条新闻资讯订阅，旨在帮助您收集感兴趣的资讯内容，并且在第一时间通知到您。可以有效节约您获取资讯的时间，避免错过一些关键信息。

从未见过现实世界数据，MIT在虚拟环境中训练出机器狗，能跑酷

类别：科技发布时间：2024-11-19 09:50:00 来源：机器之心Pro

如今，机器人学习最大的瓶颈是缺乏数据。与图片和文字相比，机器人的学习数据非常稀少。目前机器人学科的主流方向是通过扩大真实世界中的数据收集来尝试实现通用具身智能，但是和其他的基础模型，比如初版的 StableDiffusion 相比，即使是 pi 的数据都会少七八个数量级。MIT 的这个团队希望用生成模型来作为机器人学习的新数据源，用工程手段来取代传统的数据收集，实现一条通过由生成模型加持的物理仿真来训练机器人视觉的技术路线。

随着机器人在训练过程中持续进化，进一步提升技能所需的数据也在增长。因此获取足够的数据对于提升机器人的性能至关重要，但在当前实践中，针对新场景和新任务获取数据是一个从头开始不断重复的手动过程。

另一种替代方法则是在模拟环境中训练，从中可以对更多样化的环境条件进行采样，并且机器人可以安全地探索故障案例并直接从它们自己的行为中学习。尽管业界已经在模拟物理和渲染方面投入了大量资金，但目前为实现真实性所做的最佳实践仍与现实存在差距。

一方面渲染真实的图像意味着要制作细致、逼真的场景内容，但大规模手动制作此类内容以获得机器人 sim-to-real（模拟到现实）迁移所需要的多样性，成本过高。另一方面，如果缺少多样化和高质量的场景内容，在模拟环境中训练的机器人在迁移到真实世界时表现得太脆弱。

因此，如何在无限的虚拟环境中匹配现实世界，并将色彩感知融入到 sim-to-real 学习中，这是一个关键挑战。

近日， MIT CSAIL 的研究者开发出了一套解决方案，他们将生成模型作为机器人学习的新数据源，并使用视觉跑酷（visual parkout）作为试验场景，让配备单色相机的机器狗快速攀爬障碍物。

研究者的愿景是完全在生成的虚拟世界中训练机器人，而核心在于找到精确控制语义组成和场景外观的方法，以对齐模拟物理世界，同时保持对于实现 sim-to-real 泛化至关重要的随机性。

arXiv 地址：https://arxiv.org/pdf/2411.00083 项目主页：https://lucidsim.github.io/ 论文标题：Learning Visual Parkour from Generated Images

下图 2 为本文 LucidSim 方法概览：采用了流行的物理引擎 MuJoCo，并在每一帧上渲染了深度图像和语义掩码，这些一起被用作深度条件 ControlNet 的输入。然后从已知的场景几何和相机姿态变化中计算真值密集光流，并在接下来的六个时间步中扭曲原始生成帧以生成时间一致的视频序列。

在学习方面，研究者训练的视觉策略分为两个阶段完成：首先优化策略以模拟从特权教师收集的 rollout 中获得的专家行为。在经过这一预训练步骤后，策略表现不佳。因此，后训练步骤包括从视觉策略本身收集 on-policy 数据，并与当前收集的所有数据的学习交错进行。重复这一步骤三次使得该视觉策略显著提升了自身性能。

研究者表示，该策略足够稳健，在他们的测试场景中可以将零样本转换为真实世界的色彩观察。

下面我们来看一段视频展示：

机器之心

，赞91

LucidSim：利用物理引导生成多样化视觉数据

研究者考虑了这样一种 sim-to-real 设置，机器人在模拟环境中接受训练，并无需进一步调整就能迁移到现实世界。他们对自己打算部署机器人的环境已经有部分了解，可能是粗略的描述或者参考图像。

由于信息不完整，研究者依赖生成模型内部的先验知识来填补空白。他们将这一引导过程称为先验辅助域生成（Prior -Assisted Domain Generation，PADG），并首先采用对合成不同域至关重要的自动提示技术。

LLM 成为多样化、结构化的提示来源。研究者很早就观察到，从同一提示中重复采样往往会重现类似的图像。因此，为了获得多样化的图像，他们首先使用了包含标题块、查询详情的「元」提示，以提示 ChatGPT 生成批量结构化的图像块，最后以一个要求 JSON 结构化输出的问题结束。具体如下图 4 所示。

研究者的要求包括特定天气、一天中的时间、光照条件和文化遗址。手动编辑生成的图像提示是不切实际的，因而他们通过生成少量图像来调整元提示，并进行迭代直到它们始终可以生成合理的图像。下图 5 下面一行显示了相同元提示、不同图像提示的多样化样本示例。

在几何和物理引导下生成图像。研究者增强了一个原始文本到图像模型，在增加额外语义和几何控制的同时，使它与模拟物理保持一致。他们首先将图像的文本提示替换为提示和语义掩码对，其中每个对应一种资产类型。比如在爬楼梯场景中，研究者通过文本指定了粗略轮廓内台阶的材质和纹理。

为了使图像在几何上保持一致，研究者采用了现成的 ControlNet，该模型使用来自 MiDAS 的单目深度估计进行训练。条件深度图像则通过反转 z 缓冲区并在每一张图像内进行归一化处理来计算。此外，调整控制强度以避免丢失图像细节非常重要。他们采用的场景几何是以往工作中出现的简单地形，包括可选的侧墙。同时避免随机化几何地形以专注视觉多样性分析。

为了制作短视频，研究者开发了 Dreams In Motion（DIM）技术，它根据场景几何计算出的真值光流以及两帧之间机器人相机视角的变化，将生成图像扭曲成后续帧。生成的图像堆栈包含对跑酷至关重要的计时信息。生成速度也很重要，DIM 显著提高了渲染速度，这得益于计算流和应用扭曲要比生成图像快得多。具体如下图 6 所示。

通过 on-policy 闭环训练来学习稳健的真实世界视觉策略

训练过程分为两个阶段：一是预训练阶段，通过模拟有权直接访问高度图的特权专家来引导视觉策略，其中高度图通过 RL 进行训练。研究者从专家及其不完美的早期检查点收集 rollout，并向专家查询动作标签以监督视觉策略。该视觉策略在预训练后表现不佳，但在第二阶段即后训练阶段做出了足够合理的决策来收集 on-policy 数据。具体如下图 7 所示。

研究者遵循 DAgger，将 on-policy rollout 与上一步中的教师 rollout 相结合。他们从专家教师那里收集了动作标签，并用余弦学习率计划下使用 Adam 优化器运行 70 个梯度下降 epoch。研究者在实验中仅需重复迭代 DAgger 三次就可以实现接近专家表现程度的视觉控制器。实际上第二阶段中的闭环训练过程是机器人出色表现的主要原因。

一个简单的 transformer 控制模型架构。研究者提出了一个简单的 transformer 架构，与之前extreme parkour，使用 transformer 大大减少了处理多模态输入时控制模型架构的复杂度，如下图 8 所示。以往四足跑酷的相关工作使用复合架构，首先使用 ConvNet 将深度图处理成紧凑的潜在向量，然后使用循环骨干网络。

研究者使用了带有多查询注意力的五层 transformer 骨干网络，输入的相机视频被切成小块，并由一个卷积层并行处理。然后，他们将这些 token 与同一时间步的本体感受观察的线性嵌入堆叠在一起。研究者对所有时间步重复此操作，并在 token 级添加了可学习的嵌入。他们发现，对于 RGB 图像，在卷积之前包含批归一化层也有帮助。

最后，研究者通过堆叠在输入序列末尾的额外类 token 来计算动作输出，然后是 ReLU 潜在层和线性映射。

实验结果

在实验环节，研究者考虑了以下任务：

追踪足球（chase-soccer）；追踪橙色交通锥（chase-cone）；攀爬各种材质的楼梯（stairs）。

他们分别在现实世界和一小部分使用 3D 高斯泼溅来模拟创建的真实世界场景中评估学习到的控制器性能。这些基准环境的示例如下图 9 所示。

此外，研究者进行了以下基线比较：

需要特权地形数据（障碍）的专家策略；使用相同 pipeline 训练的深度学生策略；使用纹理上经典域随机化训练的 RGB 学生策略；以及本文基于 DIM 生成的帧堆栈进行训练的 LucidSim。

从生成图像中学习要优于域随机化

在模拟评估中，研究者观察到 LucidSim 在几乎所有评估中都优于经典域随机化方法，如下表 1 和表 6 所示。其中，域随机化基线方法能够在模拟中非常高效地爬楼梯，但在跨越障碍任务中表现不佳。这是因为深度学生网络在 3D 场景中遭遇了微妙且常见的 sim-to-real 差距。

比如由于受到栏杆的影响，Oracle 策略在其中一个爬楼梯场景（Marble）中表现不佳，因为它在训练环境中从未见过栏杆。相反，LucidSim 受到的影响较小。

从零样本迁移到现实世界

研究者在配备廉价 RGB 网络摄像头的 Unitree Go1 上部署了 LucidSim，在 Jetson AGX Orin 上运行了推理。每个任务都在多种场景中进行评估，并记录了机器人是否追到了目标物（追逐）或成功跨越障碍物。

下图 11 展示了 LucidSim 与域随机化方法的比较结果，其中 LucidSim 不仅能够识别经典的黑白足球，而且由于之前看到了具有丰富多样性的生成数据，因而可以泛化到不同颜色的足球。

对于跨越障碍（hurdle）和爬楼梯（stair）场景，Domain Rand. 无法始终如一地识别前方障碍物，并经常出现正面碰撞，而 LucidSim 能够始终如一地预测前方的障碍物并成功跨越。

学习 on-policy 要优于原始的专家数据 Scaling

研究者在下图 12 中，将基于 on-policy 的学习与原始的专家数据收集方法进行了比较。结果显示，通过额外专家专用数据训练获得的性能增益很快达到饱和。在跨越障碍和爬楼梯场景中，通过 DAgger 进行 on-policy 学习对于制定足够稳健的策略很有必要。

下图 10 展示了 LucidSim 和域随机化基线方法下 DAgger 产生的益处，其中前者的整体性能更高。

仅深度的策略过拟合训练几何

除了极限跑酷，研究者还考虑了两种深度策略，它们都接受了与 LucidSim 相同的训练，但输入深度不同。第一种（如上表 1 和表 6 第三行）接收远距剪切至五米的深度，并实现 120° FoV（视场角）。第二种（上表 1 和表 6 第四行）接收剪切至两米的深度。

在模拟评估中，研究者观察到，使用未剪切深度的策略会过拟合训练场景中的最小和简单几何，并被评估场景背景中的干扰因素所干扰。而视觉有限的深度策略不太会受到测试场景中多样性的影响，并且性能可以显著地提高。

理解 DIM 的速度和性能

图像生成是本文 pipeline 中的瓶颈。DIM 大大加速了每个策略的展开，同时通过权衡多样性提供动态一致的帧堆栈。研究者探究了独立生成每一帧如何影响学生网络的性能，他们认为跨越障碍场景最具挑战性。如下图 13 所示，在性能类似的情况下，DIM 可以在短时间内实现相同结果。

强大的条件降低多样性和图像细节

研究者需要权衡几何准确率与生成图像细节丰富度。当条件强度过低时，图像会偏离场景几何（如下图 14 左侧）。当条件强度过高时，图像会失去多样性和丰富细节（图 14 右侧），并且由于过约束而变得失真严重。

以上内容为资讯信息快照，由td.fyun.cc爬虫进行采集并收录，本站未对信息做任何修改，信息内容不代表本站立场。

快照生成时间：2024-11-19 11:45:10

本站信息快照查询为非营利公共服务，如有侵权请联系我们进行删除。

信息原文地址：

更多关于从未,现实,机器,训练,环境,数据的资讯：

半年冒出近百家新公司，「具身智能」也有春天 | 36氪新风向

...例如星球大战中黑暗尊主达斯·维达之剑），还能学会在从未训练走过的路面走路。业界开始对具身智能投以热切的期待。Agility机器人能理解“达斯·维达”光剑颜色的盒子指红色盒子并识别拿起

2024-06-13 13:50:00

Meta联合开发机器人AI模型，任务成功率达90%

在机器人技术领域，让机器人在从未见过的环境中执行任务一直是一个棘手的问题。一般来说，研究人员需要针对每个新环境对机器人进行额外的训练，这个过程既耗时又昂贵。然而，最近的一项新研究

2024-09-23 10:02:00

Figure AI发布人形机器人通用大模型：能识别陌生物品，

离开OpenAI后，Figure AI正式发布“从未在人形机器人上看到过的东西”。当地时间2月21日，AI机器人初创公司Figure AI公布了端到端人形机器人VLA（视觉-语言-动作）通用大模型Helix

2025-02-21 12:11:00

浙大校友自研跨模态模型，打造具身智能的“通用语法”

...已有数据自动标注。这种自我标注机制能够极大提升模型从未标注数据中的学习效率和质量，因为它允许模型通过自身生成的预测，来不断校正和优化理解能力和表征能力，从而实现对于真实世界动

2024-03-22 10:31:00

全球首篇！调研近400篇文献，鹏城实验室&中大深度解析具身智

...内容：1)具身感知，2)具身交互，3)具身智能体和 4)虚拟到现实的迁移，这些研究内容涵盖了最先进的方法、基本范式和全面的数据集。此外，该综述还探讨了数字空间和物理世界中具身

2024-07-29 09:39:00

清华全球最大双臂机器人扩散大模型RDT，懂调酒能遛狗，登顶热

...，让倒 2/3 就倒 2/3，简直分毫不差！值得一提的是，RDT 从未见过 1/3 这个词，也就是说，没有人给 RDT 演示过 1/3 的水应该怎么倒

2024-10-21 09:55:00

SAM是如何做到“分割一切”的

...么物体，并将其纳入自己的数据库，这就是为什么SAM对于从未见过的物体，也能有很好的识别与分割效果。 “需要注意的是，这11亿个标注也不是纯手工完成的，而是通过渐进的方式自动

2023-04-17 01:26:00

人工智能催生训练要素新变化

...人主机辅”的“人为主导”式迈进。训练环境由“依托现实”向“虚实一体”延伸。依托实装实景的训练环境组织训练是传统军事训练的主要模式。这种训练模式存在对训练场地要求高、物资器

2024-04-30 05:24:00

机器人训练数据不缺了！英伟达团队推出DexMG：数据增强20

...real2sim2real方法生成了真实世界的演示。他们创建了一个现实世界罐子分类任务的数字孪生模型，通过在仿真环境中重放现实世界的人类演示

2024-11-23 09:44:00

更多关于科技的资讯：

邦德激光正式入驻Dream Park全球总部基地

近日，邦德激光总部员工全部迁入位于济南市历城区春晖路3999号的Dream Park全球总部基地，标志着公司发展进入全新阶段

2026-02-06 20:50:00

2026年WGS世界政府峰会迪拜王储乘坐百度萝卜快跑无人车

“解放双手、未来已来！”在体验完萝卜快跑全无人驾驶后，迪拜王储谢赫·哈姆丹主动在海外社交媒体上发文，赞叹这次“非常丝滑”的未来出行

2026-02-06 17:08:00

三联家电章丘首店世茂店盛大开业，一站式高端家电消费新升级

鲁网2月6日讯春启新程，盛境绽放！2月6日，扎根齐鲁四十一载的山东家电零售领军品牌三联家电，携章丘区域首店正式入驻章丘世茂广场

2026-02-06 17:12:00

面对“网络黑嘴”，你公司能扛过几道关

2026-02-06 17:46:00

“合作费”还是“封口费”？起底网络“黑嘴”的生意经

造谣一张嘴，辟谣跑断腿。一段时间以来，网络“黑嘴”伤企现象时有发生，严重影响企业正常发展。现摘编山东青岛市网信办文章《守护营商网络净土

2026-02-06 17:46:00

蚂蚁集团发布《2025年消费者权益保护年报》：金融普惠教育系

中国消费者报报道（记者司宇萌）日前，蚂蚁集团正式发布《2025年消费者权益保护年报》（以下简称《年报》）。《年报》显示

2026-02-06 18:11:00

第四届储能大会将于5月22日至24日在南京举办

中国消费者报北京讯（记者吴博峰）2月5日，以“技术突围•生态协同”为主题、由江苏省储能行业协会联合行业媒体共同主办的CESC2026第四届储能大会暨储能及智能电网设备应用展览会媒体见面会在京举行

2026-02-06 18:11:00

聚焦国际优质内容京东图书推动法国与英国经典作品销量与影响力

当下，法国文学在中国阅读市场的热度持续攀升，相关数据显示2025对华出口额同比增长超过30%。作为引进与销售海外文化作品的渠道之一

2026-02-06 18:17:00

河钢集团张宣科技：聚力体系构建推动智能制造向高端跃迁

河北新闻网讯（王杨、曹莹莹）曾经，以“氢冶炼”替代“碳冶炼”实现了行业突围。如今，产业向智造升级，河钢集团张宣科技又该如何续写传奇

2026-02-06 20:00:00

华工激光(HGLASER)：激光装备领域的全球引领者与智能制

在全球制造业向高端化、智能化转型的浪潮中，激光技术作为核心支撑力量，正重塑产业发展格局。武汉华工激光工程有限责任公司(以下简称 “华工激光”)作为中国激光工业化应用的开创者与引领者

2026-02-06 15:27:00

国家超算互联网核心节点上线试运行，托举中国AI算力应用关键一

2月5日，国家超算互联网应用技术大会暨核心节点上线试运行仪式在郑州隆重举行。发改委、科技部、工信部、国家数据局、国家自然科学基金委等单位莅临现场

2026-02-06 15:28:00

河北交投禄发集团徐水服务区升级改造换新颜顾客出行体验再提升

视频摄制：周明哲河北新闻网讯（牟岚）2月4日，位于京港澳高速公路京石段121公里处的河北交投禄发集团所属徐水服务区升级改造后重新亮相

2026-02-06 15:29:00

梨花教育助力银发族“轻装上阵”，畅享快乐学习之旅

随着银发经济从基础保障型供给向精神文化型消费升级，银发文教正在成为银发产业中最具潜力的细分赛道。与早期的兴趣培训不同，如今的银发文教已经覆盖文化素养

2026-02-06 15:39:00

倍轻松“早睡娃娃”全球巡展在即，海内外战略布局多点开花

近日，倍轻松推出的“早睡娃娃”系列以现象级热度席卷社交网络，成为年货消费市场的一抹亮色。1月23日至25日，全国巡展首站在深圳KKONE购物中心启动

2026-02-06 15:47:00

“钰”见雄安Vlog | 火遍全网的“哭哭马”老家就在雄安

毛绒玩具产业是雄安新区容城县的特色优势产业。马年春节将至，位于容城县的中国（雄安新区）玩具总部基地内，上百款马年毛绒玩具扎堆上新

2026-02-06 13:57:00

头条订阅服务

从未见过现实世界数据，MIT在虚拟环境中训练出机器狗，能跑酷