• 我的订阅
  • 科技

从未见过现实世界数据,MIT在虚拟环境中训练出机器狗,能跑酷

类别:科技 发布时间:2024-11-19 09:50:00 来源:机器之心Pro

如今,机器人学习最大的瓶颈是缺乏数据。与图片和文字相比,机器人的学习数据非常稀少。目前机器人学科的主流方向是通过扩大真实世界中的数据收集来尝试实现通用具身智能,但是和其他的基础模型,比如初版的 StableDiffusion 相比,即使是 pi 的数据都会少七八个数量级。MIT 的这个团队希望用生成模型来作为机器人学习的新数据源,用工程手段来取代传统的数据收集,实现一条通过由生成模型加持的物理仿真来训练机器人视觉的技术路线。

随着机器人在训练过程中持续进化,进一步提升技能所需的数据也在增长。因此获取足够的数据对于提升机器人的性能至关重要,但在当前实践中,针对新场景和新任务获取数据是一个从头开始不断重复的手动过程。

另一种替代方法则是在模拟环境中训练,从中可以对更多样化的环境条件进行采样,并且机器人可以安全地探索故障案例并直接从它们自己的行为中学习。尽管业界已经在模拟物理和渲染方面投入了大量资金,但目前为实现真实性所做的最佳实践仍与现实存在差距。

一方面渲染真实的图像意味着要制作细致、逼真的场景内容,但大规模手动制作此类内容以获得机器人 sim-to-real(模拟到现实)迁移所需要的多样性,成本过高。另一方面,如果缺少多样化和高质量的场景内容,在模拟环境中训练的机器人在迁移到真实世界时表现得太脆弱。

因此,如何在无限的虚拟环境中匹配现实世界,并将色彩感知融入到 sim-to-real 学习中,这是一个关键挑战。

近日, MIT CSAIL 的研究者开发出了一套解决方案,他们将生成模型作为机器人学习的新数据源,并使用视觉跑酷(visual parkout)作为试验场景,让配备单色相机的机器狗快速攀爬障碍物。

研究者的愿景是完全在生成的虚拟世界中训练机器人,而核心在于找到精确控制语义组成和场景外观的方法,以对齐模拟物理世界,同时保持对于实现 sim-to-real 泛化至关重要的随机性。

从未见过现实世界数据,MIT在虚拟环境中训练出机器狗,能跑酷

arXiv 地址:https://arxiv.org/pdf/2411.00083 项目主页:https://lucidsim.github.io/ 论文标题:Learning Visual Parkour from Generated Images

下图 2 为本文 LucidSim 方法概览:采用了流行的物理引擎 MuJoCo,并在每一帧上渲染了深度图像和语义掩码,这些一起被用作深度条件 ControlNet 的输入。然后从已知的场景几何和相机姿态变化中计算真值密集光流,并在接下来的六个时间步中扭曲原始生成帧以生成时间一致的视频序列。

在学习方面,研究者训练的视觉策略分为两个阶段完成:首先优化策略以模拟从特权教师收集的 rollout 中获得的专家行为。在经过这一预训练步骤后,策略表现不佳。因此,后训练步骤包括从视觉策略本身收集 on-policy 数据,并与当前收集的所有数据的学习交错进行。重复这一步骤三次使得该视觉策略显著提升了自身性能。

研究者表示,该策略足够稳健,在他们的测试场景中可以将零样本转换为真实世界的色彩观察。

从未见过现实世界数据,MIT在虚拟环境中训练出机器狗,能跑酷

下面我们来看一段视频展示:

机器之心

,赞91

LucidSim:利用物理引导生成多样化视觉数据

研究者考虑了这样一种 sim-to-real 设置,机器人在模拟环境中接受训练,并无需进一步调整就能迁移到现实世界。他们对自己打算部署机器人的环境已经有部分了解,可能是粗略的描述或者参考图像。

由于信息不完整,研究者依赖生成模型内部的先验知识来填补空白。他们将这一引导过程称为先验辅助域生成(Prior -Assisted Domain Generation,PADG),并首先采用对合成不同域至关重要的自动提示技术。

LLM 成为多样化、结构化的提示来源。研究者很早就观察到,从同一提示中重复采样往往会重现类似的图像。因此,为了获得多样化的图像,他们首先使用了包含标题块、查询详情的「元」提示,以提示 ChatGPT 生成批量结构化的图像块,最后以一个要求 JSON 结构化输出的问题结束。具体如下图 4 所示。

从未见过现实世界数据,MIT在虚拟环境中训练出机器狗,能跑酷

研究者的要求包括特定天气、一天中的时间、光照条件和文化遗址。手动编辑生成的图像提示是不切实际的,因而他们通过生成少量图像来调整元提示,并进行迭代直到它们始终可以生成合理的图像。下图 5 下面一行显示了相同元提示、不同图像提示的多样化样本示例。

从未见过现实世界数据,MIT在虚拟环境中训练出机器狗,能跑酷

在几何和物理引导下生成图像。研究者增强了一个原始文本到图像模型,在增加额外语义和几何控制的同时,使它与模拟物理保持一致。他们首先将图像的文本提示替换为提示和语义掩码对,其中每个对应一种资产类型。比如在爬楼梯场景中,研究者通过文本指定了粗略轮廓内台阶的材质和纹理。

为了使图像在几何上保持一致,研究者采用了现成的 ControlNet,该模型使用来自 MiDAS 的单目深度估计进行训练。条件深度图像则通过反转 z 缓冲区并在每一张图像内进行归一化处理来计算。此外,调整控制强度以避免丢失图像细节非常重要。他们采用的场景几何是以往工作中出现的简单地形,包括可选的侧墙。同时避免随机化几何地形以专注视觉多样性分析。

为了制作短视频,研究者开发了 Dreams In Motion(DIM)技术,它根据场景几何计算出的真值光流以及两帧之间机器人相机视角的变化,将生成图像扭曲成后续帧。生成的图像堆栈包含对跑酷至关重要的计时信息。生成速度也很重要,DIM 显著提高了渲染速度,这得益于计算流和应用扭曲要比生成图像快得多。具体如下图 6 所示。

从未见过现实世界数据,MIT在虚拟环境中训练出机器狗,能跑酷

通过 on-policy 闭环训练来学习稳健的真实世界视觉策略

训练过程分为两个阶段:一是预训练阶段,通过模拟有权直接访问高度图的特权专家来引导视觉策略,其中高度图通过 RL 进行训练。研究者从专家及其不完美的早期检查点收集 rollout,并向专家查询动作标签以监督视觉策略。该视觉策略在预训练后表现不佳,但在第二阶段即后训练阶段做出了足够合理的决策来收集 on-policy 数据。具体如下图 7 所示。

研究者遵循 DAgger,将 on-policy rollout 与上一步中的教师 rollout 相结合。他们从专家教师那里收集了动作标签,并用余弦学习率计划下使用 Adam 优化器运行 70 个梯度下降 epoch。研究者在实验中仅需重复迭代 DAgger 三次就可以实现接近专家表现程度的视觉控制器。实际上第二阶段中的闭环训练过程是机器人出色表现的主要原因。

从未见过现实世界数据,MIT在虚拟环境中训练出机器狗,能跑酷

一个简单的 transformer 控制模型架构。研究者提出了一个简单的 transformer 架构,与之前extreme parkour, 使用 transformer 大大减少了处理多模态输入时控制模型架构的复杂度,如下图 8 所示。以往四足跑酷的相关工作使用复合架构,首先使用 ConvNet 将深度图处理成紧凑的潜在向量,然后使用循环骨干网络。

研究者使用了带有多查询注意力的五层 transformer 骨干网络,输入的相机视频被切成小块,并由一个卷积层并行处理。然后,他们将这些 token 与同一时间步的本体感受观察的线性嵌入堆叠在一起。研究者对所有时间步重复此操作,并在 token 级添加了可学习的嵌入。他们发现,对于 RGB 图像,在卷积之前包含批归一化层也有帮助。

最后,研究者通过堆叠在输入序列末尾的额外类 token 来计算动作输出,然后是 ReLU 潜在层和线性映射。

从未见过现实世界数据,MIT在虚拟环境中训练出机器狗,能跑酷

实验结果

在实验环节,研究者考虑了以下任务:

追踪足球(chase-soccer); 追踪橙色交通锥(chase-cone); 攀爬各种材质的楼梯(stairs)。

他们分别在现实世界和一小部分使用 3D 高斯泼溅来模拟创建的真实世界场景中评估学习到的控制器性能。这些基准环境的示例如下图 9 所示。

从未见过现实世界数据,MIT在虚拟环境中训练出机器狗,能跑酷

此外,研究者进行了以下基线比较:

需要特权地形数据(障碍)的专家策略; 使用相同 pipeline 训练的深度学生策略; 使用纹理上经典域随机化训练的 RGB 学生策略; 以及本文基于 DIM 生成的帧堆栈进行训练的 LucidSim。

从生成图像中学习要优于域随机化

在模拟评估中,研究者观察到 LucidSim 在几乎所有评估中都优于经典域随机化方法,如下表 1 和表 6 所示。其中,域随机化基线方法能够在模拟中非常高效地爬楼梯,但在跨越障碍任务中表现不佳。这是因为深度学生网络在 3D 场景中遭遇了微妙且常见的 sim-to-real 差距。

比如由于受到栏杆的影响,Oracle 策略在其中一个爬楼梯场景(Marble)中表现不佳,因为它在训练环境中从未见过栏杆。相反,LucidSim 受到的影响较小。

从未见过现实世界数据,MIT在虚拟环境中训练出机器狗,能跑酷

从未见过现实世界数据,MIT在虚拟环境中训练出机器狗,能跑酷

从零样本迁移到现实世界

研究者在配备廉价 RGB 网络摄像头的 Unitree Go1 上部署了 LucidSim,在 Jetson AGX Orin 上运行了推理。每个任务都在多种场景中进行评估,并记录了机器人是否追到了目标物(追逐)或成功跨越障碍物。

下图 11 展示了 LucidSim 与域随机化方法的比较结果,其中 LucidSim 不仅能够识别经典的黑白足球,而且由于之前看到了具有丰富多样性的生成数据,因而可以泛化到不同颜色的足球。

对于跨越障碍(hurdle)和爬楼梯(stair)场景,Domain Rand. 无法始终如一地识别前方障碍物,并经常出现正面碰撞,而 LucidSim 能够始终如一地预测前方的障碍物并成功跨越。

从未见过现实世界数据,MIT在虚拟环境中训练出机器狗,能跑酷

学习 on-policy 要优于原始的专家数据 Scaling

研究者在下图 12 中,将基于 on-policy 的学习与原始的专家数据收集方法进行了比较。结果显示,通过额外专家专用数据训练获得的性能增益很快达到饱和。在跨越障碍和爬楼梯场景中,通过 DAgger 进行 on-policy 学习对于制定足够稳健的策略很有必要。

从未见过现实世界数据,MIT在虚拟环境中训练出机器狗,能跑酷

下图 10 展示了 LucidSim 和域随机化基线方法下 DAgger 产生的益处,其中前者的整体性能更高。

从未见过现实世界数据,MIT在虚拟环境中训练出机器狗,能跑酷

仅深度的策略过拟合训练几何

除了极限跑酷,研究者还考虑了两种深度策略,它们都接受了与 LucidSim 相同的训练,但输入深度不同。第一种(如上表 1 和表 6 第三行)接收远距剪切至五米的深度,并实现 120° FoV(视场角)。第二种(上表 1 和表 6 第四行)接收剪切至两米的深度。

在模拟评估中,研究者观察到,使用未剪切深度的策略会过拟合训练场景中的最小和简单几何,并被评估场景背景中的干扰因素所干扰。而视觉有限的深度策略不太会受到测试场景中多样性的影响,并且性能可以显著地提高。

理解 DIM 的速度和性能

图像生成是本文 pipeline 中的瓶颈。DIM 大大加速了每个策略的展开,同时通过权衡多样性提供动态一致的帧堆栈。研究者探究了独立生成每一帧如何影响学生网络的性能,他们认为跨越障碍场景最具挑战性。如下图 13 所示,在性能类似的情况下,DIM 可以在短时间内实现相同结果。

从未见过现实世界数据,MIT在虚拟环境中训练出机器狗,能跑酷

强大的条件降低多样性和图像细节

研究者需要权衡几何准确率与生成图像细节丰富度。当条件强度过低时,图像会偏离场景几何(如下图 14 左侧)。当条件强度过高时,图像会失去多样性和丰富细节(图 14 右侧),并且由于过约束而变得失真严重。

从未见过现实世界数据,MIT在虚拟环境中训练出机器狗,能跑酷

以上内容为资讯信息快照,由td.fyun.cc爬虫进行采集并收录,本站未对信息做任何修改,信息内容不代表本站立场。

快照生成时间:2024-11-19 11:45:10

本站信息快照查询为非营利公共服务,如有侵权请联系我们进行删除。

信息原文地址:

半年冒出近百家新公司,「具身智能」也有春天 | 36氪新风向
...例如星球大战中黑暗尊主达斯·维达之剑),还能学会在从未训练走过的路面走路。业界开始对具身智能投以热切的期待。Agility机器人能理解“达斯·维达”光剑颜色的盒子指红色盒子并识别拿起
2024-06-13 13:50:00
Meta联合开发机器人AI模型,任务成功率达90%
在机器人技术领域,让机器人在从未见过的环境中执行任务一直是一个棘手的问题。一般来说,研究人员需要针对每个新环境对机器人进行额外的训练,这个过程既耗时又昂贵。然而,最近的一项新研究
2024-09-23 10:02:00
离开OpenAI后,Figure AI正式发布“从未在人形机器人上看到过的东西”。当地时间2月21日,AI机器人初创公司Figure AI公布了端到端人形机器人VLA(视觉-语言-动作)通用大模型Helix
2025-02-21 12:11:00
浙大校友自研跨模态模型,打造具身智能的“通用语法”
...已有数据自动标注。这种自我标注机制能够极大提升模型从未标注数据中的学习效率和质量,因为它允许模型通过自身生成的预测,来不断校正和优化理解能力和表征能力,从而实现对于真实世界动
2024-03-22 10:31:00
全球首篇!调研近400篇文献,鹏城实验室&中大深度解析具身智能
...内容:1)具身感知,2)具身交互,3)具身智能体和 4)虚拟到现实的迁移,这些研究内容涵盖了最先进的方法、基本范式和全面的数据集。此外,该综述还探讨了数字空间和物理世界中具身
2024-07-29 09:39:00
清华全球最大双臂机器人扩散大模型RDT,懂调酒能遛狗,登顶热榜
...,让倒 2/3 就倒 2/3,简直分毫不差!值得一提的是,RDT 从未见过 1/3 这个词,也就是说,没有人给 RDT 演示过 1/3 的水应该怎么倒
2024-10-21 09:55:00
SAM是如何做到“分割一切”的
...么物体,并将其纳入自己的数据库,这就是为什么SAM对于从未见过的物体,也能有很好的识别与分割效果。 “需要注意的是,这11亿个标注也不是纯手工完成的,而是通过渐进的方式自动
2023-04-17 01:26:00
...人主机辅”的“人为主导”式迈进。 训练环境由“依托现实”向“虚实一体”延伸。依托实装实景的训练环境组织训练是传统军事训练的主要模式。这种训练模式存在对训练场地要求高、物资器
2024-04-30 05:24:00
机器人训练数据不缺了!英伟达团队推出DexMG:数据增强200倍
...real2sim2real方法生成了真实世界的演示。他们创建了一个现实世界罐子分类任务的数字孪生模型,通过在仿真环境中重放现实世界的人类演示
2024-11-23 09:44:00
更多关于科技的资讯:
上市“后备军”,钟楼+2!
近日,江苏省科技厅公布2025年度省科技企业上市培育计划拟入库企业名单,常州市共5家企业入选,其中钟楼区有2家,分别是
2025-11-06 09:09:00
□南京日报/紫金山新闻记者何洁实习生杨久久“人工智能+”专项赛中荣获特等奖!11月3日,在第十九届“挑战杯”中国移动全国大学生课外学术科技作品竞赛中
2025-11-06 07:46:00
记者走基层|巧搭“数字积木” 智绘梦想花园
10月29日,承德图布斯科技集团有限公司技术人员正在调试设计图。 河北日报记者 陈宝云摄10月29日,在承德图布斯科技集团有限公司(以下简称“图布斯公司”)的研发中心
2025-11-05 08:12:00
□曹清华党的二十届四中全会提出,实施新时代立德树人工程,促进思政课堂和社会课堂有效融合,加强体育、美育、劳动教育,完善教育评价体系
2025-11-05 08:16:00
2025年沪江网校课程质量高于预期:退费无忧+承诺与践行一致!
一、沪江网校简介为沪江教育旗下品牌,沪江网校自 2009 年成立以来,始终聚焦外语学习者需求,提供网校一对一,凭借专业教学服务与多元课程体系
2025-11-05 14:45:00
(一)开篇引言行业背景与痛点:中国信息通信研究院《2025年数字营销发展趋势报告》显示,2024年我国生成式引擎优化(GEO)市场规模已达47亿元
2025-11-05 14:47:00
在智能体产业快步迈入规模化的当下,南京正以软件产业的深厚积淀、政策生态的精准培育、应用场景的丰富储备,抢占AI科技革命新高点前几天
2025-11-05 15:06:00
Openloong开源社区亮相ROSCon China 2025大会,为智能开源注入新活力
10月31日至11月1日,ROSCon China 2025在上海虹桥新华联索菲特大酒店成功举办。这一汇聚了全球ROS领域顶尖专家与开发者的年度盛会
2025-11-05 15:29:00
职场“反内卷”调研报告 干货多多
近日,智联招聘《职场“反内卷”调研报告》,探究职场人对于“反内卷”的真实态度与选择,了解企业的相应举措。今年“多家知名企业实施强制下班”的新闻冲上热搜
2025-11-05 15:32:00
鲁网11月5日讯“真没想到,资金难题这么快就解决了!东平农商银行的‘同心乐商贷’真是及时雨,我的蛋糕房终于要开起来了。”近日
2025-11-05 15:55:00
中国联通(青岛)智算中心DC1获评“2025年度国家绿色数据中心”
鲁网11月5日讯10月27日,工业和信息化部节能与综合利用司发布《2025年度国家绿色数据中心名单公示》,中国联通(青岛)智算中心DC1荣获“2025年度国家绿色数据中心”称号
2025-11-05 15:57:00
10月19日至20日,2025世界VR产业大会在南昌举行,来自全球VR领域的专家学者、领军企业和业界精英齐聚南昌,共同探讨VR与AI融合发展的新趋势
2025-11-05 17:44:00
语言、技能与数字化:培生亮相CACIE 2025,共筑未来教育新生态
2025年10月29日至11月1日,第26届中国国际教育年会(CACIE)在北京国家会议中心举行。全球终身学习公司培生(FTS: PSON
2025-11-05 18:00:00
找对 “充电站”,心理从业者进阶不迷路!灵动生活集团幸福心理商学苑全维护航
“考下资格证却接不到个案,能做咨询却不懂怎么运营工作室”—— 这是国内超 70% 心理从业者入行后都会遇到的 “成长困境”
2025-11-05 18:01:00
第二十届福州市青少年机器人竞赛圆满落幕 近3500名青少年点燃科创热情
福州新闻网11月5日讯(记者 徐昕昀 文/图)11月2日,随着最后一场机器人竞技挑战赛的终场指令在福州高新区青少年活动中心响起
2025-11-05 18:05:00