• 我的订阅
  • 科技

从未见过现实世界数据,MIT在虚拟环境中训练出机器狗,能跑酷

类别:科技 发布时间:2024-11-19 09:50:00 来源:机器之心Pro

如今,机器人学习最大的瓶颈是缺乏数据。与图片和文字相比,机器人的学习数据非常稀少。目前机器人学科的主流方向是通过扩大真实世界中的数据收集来尝试实现通用具身智能,但是和其他的基础模型,比如初版的 StableDiffusion 相比,即使是 pi 的数据都会少七八个数量级。MIT 的这个团队希望用生成模型来作为机器人学习的新数据源,用工程手段来取代传统的数据收集,实现一条通过由生成模型加持的物理仿真来训练机器人视觉的技术路线。

随着机器人在训练过程中持续进化,进一步提升技能所需的数据也在增长。因此获取足够的数据对于提升机器人的性能至关重要,但在当前实践中,针对新场景和新任务获取数据是一个从头开始不断重复的手动过程。

另一种替代方法则是在模拟环境中训练,从中可以对更多样化的环境条件进行采样,并且机器人可以安全地探索故障案例并直接从它们自己的行为中学习。尽管业界已经在模拟物理和渲染方面投入了大量资金,但目前为实现真实性所做的最佳实践仍与现实存在差距。

一方面渲染真实的图像意味着要制作细致、逼真的场景内容,但大规模手动制作此类内容以获得机器人 sim-to-real(模拟到现实)迁移所需要的多样性,成本过高。另一方面,如果缺少多样化和高质量的场景内容,在模拟环境中训练的机器人在迁移到真实世界时表现得太脆弱。

因此,如何在无限的虚拟环境中匹配现实世界,并将色彩感知融入到 sim-to-real 学习中,这是一个关键挑战。

近日, MIT CSAIL 的研究者开发出了一套解决方案,他们将生成模型作为机器人学习的新数据源,并使用视觉跑酷(visual parkout)作为试验场景,让配备单色相机的机器狗快速攀爬障碍物。

研究者的愿景是完全在生成的虚拟世界中训练机器人,而核心在于找到精确控制语义组成和场景外观的方法,以对齐模拟物理世界,同时保持对于实现 sim-to-real 泛化至关重要的随机性。

从未见过现实世界数据,MIT在虚拟环境中训练出机器狗,能跑酷

arXiv 地址:https://arxiv.org/pdf/2411.00083 项目主页:https://lucidsim.github.io/ 论文标题:Learning Visual Parkour from Generated Images

下图 2 为本文 LucidSim 方法概览:采用了流行的物理引擎 MuJoCo,并在每一帧上渲染了深度图像和语义掩码,这些一起被用作深度条件 ControlNet 的输入。然后从已知的场景几何和相机姿态变化中计算真值密集光流,并在接下来的六个时间步中扭曲原始生成帧以生成时间一致的视频序列。

在学习方面,研究者训练的视觉策略分为两个阶段完成:首先优化策略以模拟从特权教师收集的 rollout 中获得的专家行为。在经过这一预训练步骤后,策略表现不佳。因此,后训练步骤包括从视觉策略本身收集 on-policy 数据,并与当前收集的所有数据的学习交错进行。重复这一步骤三次使得该视觉策略显著提升了自身性能。

研究者表示,该策略足够稳健,在他们的测试场景中可以将零样本转换为真实世界的色彩观察。

从未见过现实世界数据,MIT在虚拟环境中训练出机器狗,能跑酷

下面我们来看一段视频展示:

机器之心

,赞91

LucidSim:利用物理引导生成多样化视觉数据

研究者考虑了这样一种 sim-to-real 设置,机器人在模拟环境中接受训练,并无需进一步调整就能迁移到现实世界。他们对自己打算部署机器人的环境已经有部分了解,可能是粗略的描述或者参考图像。

由于信息不完整,研究者依赖生成模型内部的先验知识来填补空白。他们将这一引导过程称为先验辅助域生成(Prior -Assisted Domain Generation,PADG),并首先采用对合成不同域至关重要的自动提示技术。

LLM 成为多样化、结构化的提示来源。研究者很早就观察到,从同一提示中重复采样往往会重现类似的图像。因此,为了获得多样化的图像,他们首先使用了包含标题块、查询详情的「元」提示,以提示 ChatGPT 生成批量结构化的图像块,最后以一个要求 JSON 结构化输出的问题结束。具体如下图 4 所示。

从未见过现实世界数据,MIT在虚拟环境中训练出机器狗,能跑酷

研究者的要求包括特定天气、一天中的时间、光照条件和文化遗址。手动编辑生成的图像提示是不切实际的,因而他们通过生成少量图像来调整元提示,并进行迭代直到它们始终可以生成合理的图像。下图 5 下面一行显示了相同元提示、不同图像提示的多样化样本示例。

从未见过现实世界数据,MIT在虚拟环境中训练出机器狗,能跑酷

在几何和物理引导下生成图像。研究者增强了一个原始文本到图像模型,在增加额外语义和几何控制的同时,使它与模拟物理保持一致。他们首先将图像的文本提示替换为提示和语义掩码对,其中每个对应一种资产类型。比如在爬楼梯场景中,研究者通过文本指定了粗略轮廓内台阶的材质和纹理。

为了使图像在几何上保持一致,研究者采用了现成的 ControlNet,该模型使用来自 MiDAS 的单目深度估计进行训练。条件深度图像则通过反转 z 缓冲区并在每一张图像内进行归一化处理来计算。此外,调整控制强度以避免丢失图像细节非常重要。他们采用的场景几何是以往工作中出现的简单地形,包括可选的侧墙。同时避免随机化几何地形以专注视觉多样性分析。

为了制作短视频,研究者开发了 Dreams In Motion(DIM)技术,它根据场景几何计算出的真值光流以及两帧之间机器人相机视角的变化,将生成图像扭曲成后续帧。生成的图像堆栈包含对跑酷至关重要的计时信息。生成速度也很重要,DIM 显著提高了渲染速度,这得益于计算流和应用扭曲要比生成图像快得多。具体如下图 6 所示。

从未见过现实世界数据,MIT在虚拟环境中训练出机器狗,能跑酷

通过 on-policy 闭环训练来学习稳健的真实世界视觉策略

训练过程分为两个阶段:一是预训练阶段,通过模拟有权直接访问高度图的特权专家来引导视觉策略,其中高度图通过 RL 进行训练。研究者从专家及其不完美的早期检查点收集 rollout,并向专家查询动作标签以监督视觉策略。该视觉策略在预训练后表现不佳,但在第二阶段即后训练阶段做出了足够合理的决策来收集 on-policy 数据。具体如下图 7 所示。

研究者遵循 DAgger,将 on-policy rollout 与上一步中的教师 rollout 相结合。他们从专家教师那里收集了动作标签,并用余弦学习率计划下使用 Adam 优化器运行 70 个梯度下降 epoch。研究者在实验中仅需重复迭代 DAgger 三次就可以实现接近专家表现程度的视觉控制器。实际上第二阶段中的闭环训练过程是机器人出色表现的主要原因。

从未见过现实世界数据,MIT在虚拟环境中训练出机器狗,能跑酷

一个简单的 transformer 控制模型架构。研究者提出了一个简单的 transformer 架构,与之前extreme parkour, 使用 transformer 大大减少了处理多模态输入时控制模型架构的复杂度,如下图 8 所示。以往四足跑酷的相关工作使用复合架构,首先使用 ConvNet 将深度图处理成紧凑的潜在向量,然后使用循环骨干网络。

研究者使用了带有多查询注意力的五层 transformer 骨干网络,输入的相机视频被切成小块,并由一个卷积层并行处理。然后,他们将这些 token 与同一时间步的本体感受观察的线性嵌入堆叠在一起。研究者对所有时间步重复此操作,并在 token 级添加了可学习的嵌入。他们发现,对于 RGB 图像,在卷积之前包含批归一化层也有帮助。

最后,研究者通过堆叠在输入序列末尾的额外类 token 来计算动作输出,然后是 ReLU 潜在层和线性映射。

从未见过现实世界数据,MIT在虚拟环境中训练出机器狗,能跑酷

实验结果

在实验环节,研究者考虑了以下任务:

追踪足球(chase-soccer); 追踪橙色交通锥(chase-cone); 攀爬各种材质的楼梯(stairs)。

他们分别在现实世界和一小部分使用 3D 高斯泼溅来模拟创建的真实世界场景中评估学习到的控制器性能。这些基准环境的示例如下图 9 所示。

从未见过现实世界数据,MIT在虚拟环境中训练出机器狗,能跑酷

此外,研究者进行了以下基线比较:

需要特权地形数据(障碍)的专家策略; 使用相同 pipeline 训练的深度学生策略; 使用纹理上经典域随机化训练的 RGB 学生策略; 以及本文基于 DIM 生成的帧堆栈进行训练的 LucidSim。

从生成图像中学习要优于域随机化

在模拟评估中,研究者观察到 LucidSim 在几乎所有评估中都优于经典域随机化方法,如下表 1 和表 6 所示。其中,域随机化基线方法能够在模拟中非常高效地爬楼梯,但在跨越障碍任务中表现不佳。这是因为深度学生网络在 3D 场景中遭遇了微妙且常见的 sim-to-real 差距。

比如由于受到栏杆的影响,Oracle 策略在其中一个爬楼梯场景(Marble)中表现不佳,因为它在训练环境中从未见过栏杆。相反,LucidSim 受到的影响较小。

从未见过现实世界数据,MIT在虚拟环境中训练出机器狗,能跑酷

从未见过现实世界数据,MIT在虚拟环境中训练出机器狗,能跑酷

从零样本迁移到现实世界

研究者在配备廉价 RGB 网络摄像头的 Unitree Go1 上部署了 LucidSim,在 Jetson AGX Orin 上运行了推理。每个任务都在多种场景中进行评估,并记录了机器人是否追到了目标物(追逐)或成功跨越障碍物。

下图 11 展示了 LucidSim 与域随机化方法的比较结果,其中 LucidSim 不仅能够识别经典的黑白足球,而且由于之前看到了具有丰富多样性的生成数据,因而可以泛化到不同颜色的足球。

对于跨越障碍(hurdle)和爬楼梯(stair)场景,Domain Rand. 无法始终如一地识别前方障碍物,并经常出现正面碰撞,而 LucidSim 能够始终如一地预测前方的障碍物并成功跨越。

从未见过现实世界数据,MIT在虚拟环境中训练出机器狗,能跑酷

学习 on-policy 要优于原始的专家数据 Scaling

研究者在下图 12 中,将基于 on-policy 的学习与原始的专家数据收集方法进行了比较。结果显示,通过额外专家专用数据训练获得的性能增益很快达到饱和。在跨越障碍和爬楼梯场景中,通过 DAgger 进行 on-policy 学习对于制定足够稳健的策略很有必要。

从未见过现实世界数据,MIT在虚拟环境中训练出机器狗,能跑酷

下图 10 展示了 LucidSim 和域随机化基线方法下 DAgger 产生的益处,其中前者的整体性能更高。

从未见过现实世界数据,MIT在虚拟环境中训练出机器狗,能跑酷

仅深度的策略过拟合训练几何

除了极限跑酷,研究者还考虑了两种深度策略,它们都接受了与 LucidSim 相同的训练,但输入深度不同。第一种(如上表 1 和表 6 第三行)接收远距剪切至五米的深度,并实现 120° FoV(视场角)。第二种(上表 1 和表 6 第四行)接收剪切至两米的深度。

在模拟评估中,研究者观察到,使用未剪切深度的策略会过拟合训练场景中的最小和简单几何,并被评估场景背景中的干扰因素所干扰。而视觉有限的深度策略不太会受到测试场景中多样性的影响,并且性能可以显著地提高。

理解 DIM 的速度和性能

图像生成是本文 pipeline 中的瓶颈。DIM 大大加速了每个策略的展开,同时通过权衡多样性提供动态一致的帧堆栈。研究者探究了独立生成每一帧如何影响学生网络的性能,他们认为跨越障碍场景最具挑战性。如下图 13 所示,在性能类似的情况下,DIM 可以在短时间内实现相同结果。

从未见过现实世界数据,MIT在虚拟环境中训练出机器狗,能跑酷

强大的条件降低多样性和图像细节

研究者需要权衡几何准确率与生成图像细节丰富度。当条件强度过低时,图像会偏离场景几何(如下图 14 左侧)。当条件强度过高时,图像会失去多样性和丰富细节(图 14 右侧),并且由于过约束而变得失真严重。

从未见过现实世界数据,MIT在虚拟环境中训练出机器狗,能跑酷

以上内容为资讯信息快照,由td.fyun.cc爬虫进行采集并收录,本站未对信息做任何修改,信息内容不代表本站立场。

快照生成时间:2024-11-19 11:45:10

本站信息快照查询为非营利公共服务,如有侵权请联系我们进行删除。

信息原文地址:

半年冒出近百家新公司,「具身智能」也有春天 | 36氪新风向
...例如星球大战中黑暗尊主达斯·维达之剑),还能学会在从未训练走过的路面走路。业界开始对具身智能投以热切的期待。Agility机器人能理解“达斯·维达”光剑颜色的盒子指红色盒子并识别拿起
2024-06-13 13:50:00
Meta联合开发机器人AI模型,任务成功率达90%
在机器人技术领域,让机器人在从未见过的环境中执行任务一直是一个棘手的问题。一般来说,研究人员需要针对每个新环境对机器人进行额外的训练,这个过程既耗时又昂贵。然而,最近的一项新研究
2024-09-23 10:02:00
离开OpenAI后,Figure AI正式发布“从未在人形机器人上看到过的东西”。当地时间2月21日,AI机器人初创公司Figure AI公布了端到端人形机器人VLA(视觉-语言-动作)通用大模型Helix
2025-02-21 12:11:00
浙大校友自研跨模态模型,打造具身智能的“通用语法”
...已有数据自动标注。这种自我标注机制能够极大提升模型从未标注数据中的学习效率和质量,因为它允许模型通过自身生成的预测,来不断校正和优化理解能力和表征能力,从而实现对于真实世界动
2024-03-22 10:31:00
全球首篇!调研近400篇文献,鹏城实验室&中大深度解析具身智能
...内容:1)具身感知,2)具身交互,3)具身智能体和 4)虚拟到现实的迁移,这些研究内容涵盖了最先进的方法、基本范式和全面的数据集。此外,该综述还探讨了数字空间和物理世界中具身
2024-07-29 09:39:00
清华全球最大双臂机器人扩散大模型RDT,懂调酒能遛狗,登顶热榜
...,让倒 2/3 就倒 2/3,简直分毫不差!值得一提的是,RDT 从未见过 1/3 这个词,也就是说,没有人给 RDT 演示过 1/3 的水应该怎么倒
2024-10-21 09:55:00
SAM是如何做到“分割一切”的
...么物体,并将其纳入自己的数据库,这就是为什么SAM对于从未见过的物体,也能有很好的识别与分割效果。 “需要注意的是,这11亿个标注也不是纯手工完成的,而是通过渐进的方式自动
2023-04-17 01:26:00
...人主机辅”的“人为主导”式迈进。 训练环境由“依托现实”向“虚实一体”延伸。依托实装实景的训练环境组织训练是传统军事训练的主要模式。这种训练模式存在对训练场地要求高、物资器
2024-04-30 05:24:00
机器人训练数据不缺了!英伟达团队推出DexMG:数据增强200倍
...real2sim2real方法生成了真实世界的演示。他们创建了一个现实世界罐子分类任务的数字孪生模型,通过在仿真环境中重放现实世界的人类演示
2024-11-23 09:44:00
更多关于科技的资讯:
佳盛机电乘风而上,今年前8月产值同比增长超38%抢占新赛道,270多名员工假期忙“冲刺”南报网讯(通讯员单维亮记者张希)“我们是智能电网产业链条上的配套企业
2025-10-07 08:41:00
培育壮大十大千亿级产业集群丨十堰臻融:创新与技改“双轮”驱动 产值同比增长30%
十堰广电讯(全媒体记者 何旭 通讯员 胡新)科技创新是提升核心竞争力关键。十堰臻融汽车科技有限公司以智能化装备升级与专利技术研发为双引擎
2025-10-07 20:43:00
沉浸式AR科技盛宴:打造“可触摸”的科普实验室,重构科普新形态
这个国庆去哪玩?中国科学技术馆告诉你!2025年10月1日——10月7日由中国科学技术馆、北京峰火文化科技有限公司、Rokid联合打造的以“探境・AR科技智慧”为主题的AR体验活动正火热开展中
2025-10-07 09:05:00
2025年全国大学生计算机大赛总决赛落幕 西工大获奖数量质量再创新高
近日,2025年全国大学生计算机系统能力大赛各赛道总决赛圆满落幕。本届大赛吸引了来自清华大学、北京大学、复旦大学、华中科技大学
2025-10-07 11:40:00
太划算!遵义多重补贴点燃消费热情
多彩贵州网讯国庆中秋“双节”同至,遵义市推出的“悦·遵义‘双节’欢乐购”促消费活动覆盖整个长假,其中“焕新过节·乐享生活”家电家居促销活动形式丰富
2025-10-07 14:51:00
□南京日报/紫金山新闻记者 张安琪9月23日,2025南京金秋经贸洽谈会开幕式上,一批全球首个、国内首批、性能全球最高的科技成果密集亮相
2025-10-06 09:49:00
国庆中秋长假期间,新能源汽车已成为众多家庭出游的重要选择。为进一步破解高速服务区“充电难、排队久”的现实困境,山西交控集团坚持“科技创新+服务升级”双轮驱动
2025-10-06 18:01:00
邮储信用卡气球雨惊喜派对即将空降青岛李沧万达,国庆中秋邀您共启幸运之旅!
鲁网9月30日讯2025年国庆、中秋双节同庆之际,为回馈广大市民与持卡人长期以来的支持,邮储银行青岛分行将于10月1日-8日
2025-10-06 14:11:00
□南京日报/紫金山新闻记者 于洁尘 通讯员陈天骄“干我们这行的,哪有节假日?越是假期越要忙。”10月5日一大早,28岁的陈潇离开南京
2025-10-06 09:48:00
节日我在岗丨十堰高周波:抓创新赶订单 全力冲刺年度目标
十堰广电讯(全媒体记者 陈林)在国庆中秋假期,位于十堰经济开发区的十堰高周波科工贸有限公司抓创新赶订单,全力冲刺年度目标
2025-10-05 20:21:00
节日我在岗丨艾斯卓智能科技:节日不休 赶制订单
十堰广电讯(全媒体记者 耿吉国)放假不放松,生产不停工。国庆中秋长假,我市各生产企业铆足干劲抓生产、赶订单,奋力冲刺年度目标任务
2025-10-05 20:21:00
普阳钢铁工程机械用高强高韧宽厚板全国市场占有率名列前茅一块宽厚板的靶向发力——“铁疙瘩”怎样变成“金娃娃”(十)从矿山到港口
2025-10-05 07:47:00
人气旺 厦门多个商场假日客流爆棚、销售额亮眼
集美大悦城商圈内,小朋友和机器人亲密互动。(本组图/厦门日报记者 黄晓珍 摄)国庆中秋假期, 厦门SM购物中心潮玩店内人气火爆
2025-10-04 09:20:00
省数据和政务服务局发布公告公开征集一批河北省高质量数据集河北日报讯(记者解楚楚)9月26日,河北省数据和政务服务局发布公告
2025-10-04 08:03:00
央媒看太原9月30日,央视财经频道《经济信息联播》栏目以《双节市场备货足美食特产受青睐》为题,报道了假期到来,太原市各大综合市场提前备货
2025-10-04 07:17:00