• 我的订阅
  • 科技

从未见过现实世界数据,MIT在虚拟环境中训练出机器狗,能跑酷

类别:科技 发布时间:2024-11-19 09:50:00 来源:机器之心Pro

如今,机器人学习最大的瓶颈是缺乏数据。与图片和文字相比,机器人的学习数据非常稀少。目前机器人学科的主流方向是通过扩大真实世界中的数据收集来尝试实现通用具身智能,但是和其他的基础模型,比如初版的 StableDiffusion 相比,即使是 pi 的数据都会少七八个数量级。MIT 的这个团队希望用生成模型来作为机器人学习的新数据源,用工程手段来取代传统的数据收集,实现一条通过由生成模型加持的物理仿真来训练机器人视觉的技术路线。

随着机器人在训练过程中持续进化,进一步提升技能所需的数据也在增长。因此获取足够的数据对于提升机器人的性能至关重要,但在当前实践中,针对新场景和新任务获取数据是一个从头开始不断重复的手动过程。

另一种替代方法则是在模拟环境中训练,从中可以对更多样化的环境条件进行采样,并且机器人可以安全地探索故障案例并直接从它们自己的行为中学习。尽管业界已经在模拟物理和渲染方面投入了大量资金,但目前为实现真实性所做的最佳实践仍与现实存在差距。

一方面渲染真实的图像意味着要制作细致、逼真的场景内容,但大规模手动制作此类内容以获得机器人 sim-to-real(模拟到现实)迁移所需要的多样性,成本过高。另一方面,如果缺少多样化和高质量的场景内容,在模拟环境中训练的机器人在迁移到真实世界时表现得太脆弱。

因此,如何在无限的虚拟环境中匹配现实世界,并将色彩感知融入到 sim-to-real 学习中,这是一个关键挑战。

近日, MIT CSAIL 的研究者开发出了一套解决方案,他们将生成模型作为机器人学习的新数据源,并使用视觉跑酷(visual parkout)作为试验场景,让配备单色相机的机器狗快速攀爬障碍物。

研究者的愿景是完全在生成的虚拟世界中训练机器人,而核心在于找到精确控制语义组成和场景外观的方法,以对齐模拟物理世界,同时保持对于实现 sim-to-real 泛化至关重要的随机性。

从未见过现实世界数据,MIT在虚拟环境中训练出机器狗,能跑酷

arXiv 地址:https://arxiv.org/pdf/2411.00083 项目主页:https://lucidsim.github.io/ 论文标题:Learning Visual Parkour from Generated Images

下图 2 为本文 LucidSim 方法概览:采用了流行的物理引擎 MuJoCo,并在每一帧上渲染了深度图像和语义掩码,这些一起被用作深度条件 ControlNet 的输入。然后从已知的场景几何和相机姿态变化中计算真值密集光流,并在接下来的六个时间步中扭曲原始生成帧以生成时间一致的视频序列。

在学习方面,研究者训练的视觉策略分为两个阶段完成:首先优化策略以模拟从特权教师收集的 rollout 中获得的专家行为。在经过这一预训练步骤后,策略表现不佳。因此,后训练步骤包括从视觉策略本身收集 on-policy 数据,并与当前收集的所有数据的学习交错进行。重复这一步骤三次使得该视觉策略显著提升了自身性能。

研究者表示,该策略足够稳健,在他们的测试场景中可以将零样本转换为真实世界的色彩观察。

从未见过现实世界数据,MIT在虚拟环境中训练出机器狗,能跑酷

下面我们来看一段视频展示:

机器之心

,赞91

LucidSim:利用物理引导生成多样化视觉数据

研究者考虑了这样一种 sim-to-real 设置,机器人在模拟环境中接受训练,并无需进一步调整就能迁移到现实世界。他们对自己打算部署机器人的环境已经有部分了解,可能是粗略的描述或者参考图像。

由于信息不完整,研究者依赖生成模型内部的先验知识来填补空白。他们将这一引导过程称为先验辅助域生成(Prior -Assisted Domain Generation,PADG),并首先采用对合成不同域至关重要的自动提示技术。

LLM 成为多样化、结构化的提示来源。研究者很早就观察到,从同一提示中重复采样往往会重现类似的图像。因此,为了获得多样化的图像,他们首先使用了包含标题块、查询详情的「元」提示,以提示 ChatGPT 生成批量结构化的图像块,最后以一个要求 JSON 结构化输出的问题结束。具体如下图 4 所示。

从未见过现实世界数据,MIT在虚拟环境中训练出机器狗,能跑酷

研究者的要求包括特定天气、一天中的时间、光照条件和文化遗址。手动编辑生成的图像提示是不切实际的,因而他们通过生成少量图像来调整元提示,并进行迭代直到它们始终可以生成合理的图像。下图 5 下面一行显示了相同元提示、不同图像提示的多样化样本示例。

从未见过现实世界数据,MIT在虚拟环境中训练出机器狗,能跑酷

在几何和物理引导下生成图像。研究者增强了一个原始文本到图像模型,在增加额外语义和几何控制的同时,使它与模拟物理保持一致。他们首先将图像的文本提示替换为提示和语义掩码对,其中每个对应一种资产类型。比如在爬楼梯场景中,研究者通过文本指定了粗略轮廓内台阶的材质和纹理。

为了使图像在几何上保持一致,研究者采用了现成的 ControlNet,该模型使用来自 MiDAS 的单目深度估计进行训练。条件深度图像则通过反转 z 缓冲区并在每一张图像内进行归一化处理来计算。此外,调整控制强度以避免丢失图像细节非常重要。他们采用的场景几何是以往工作中出现的简单地形,包括可选的侧墙。同时避免随机化几何地形以专注视觉多样性分析。

为了制作短视频,研究者开发了 Dreams In Motion(DIM)技术,它根据场景几何计算出的真值光流以及两帧之间机器人相机视角的变化,将生成图像扭曲成后续帧。生成的图像堆栈包含对跑酷至关重要的计时信息。生成速度也很重要,DIM 显著提高了渲染速度,这得益于计算流和应用扭曲要比生成图像快得多。具体如下图 6 所示。

从未见过现实世界数据,MIT在虚拟环境中训练出机器狗,能跑酷

通过 on-policy 闭环训练来学习稳健的真实世界视觉策略

训练过程分为两个阶段:一是预训练阶段,通过模拟有权直接访问高度图的特权专家来引导视觉策略,其中高度图通过 RL 进行训练。研究者从专家及其不完美的早期检查点收集 rollout,并向专家查询动作标签以监督视觉策略。该视觉策略在预训练后表现不佳,但在第二阶段即后训练阶段做出了足够合理的决策来收集 on-policy 数据。具体如下图 7 所示。

研究者遵循 DAgger,将 on-policy rollout 与上一步中的教师 rollout 相结合。他们从专家教师那里收集了动作标签,并用余弦学习率计划下使用 Adam 优化器运行 70 个梯度下降 epoch。研究者在实验中仅需重复迭代 DAgger 三次就可以实现接近专家表现程度的视觉控制器。实际上第二阶段中的闭环训练过程是机器人出色表现的主要原因。

从未见过现实世界数据,MIT在虚拟环境中训练出机器狗,能跑酷

一个简单的 transformer 控制模型架构。研究者提出了一个简单的 transformer 架构,与之前extreme parkour, 使用 transformer 大大减少了处理多模态输入时控制模型架构的复杂度,如下图 8 所示。以往四足跑酷的相关工作使用复合架构,首先使用 ConvNet 将深度图处理成紧凑的潜在向量,然后使用循环骨干网络。

研究者使用了带有多查询注意力的五层 transformer 骨干网络,输入的相机视频被切成小块,并由一个卷积层并行处理。然后,他们将这些 token 与同一时间步的本体感受观察的线性嵌入堆叠在一起。研究者对所有时间步重复此操作,并在 token 级添加了可学习的嵌入。他们发现,对于 RGB 图像,在卷积之前包含批归一化层也有帮助。

最后,研究者通过堆叠在输入序列末尾的额外类 token 来计算动作输出,然后是 ReLU 潜在层和线性映射。

从未见过现实世界数据,MIT在虚拟环境中训练出机器狗,能跑酷

实验结果

在实验环节,研究者考虑了以下任务:

追踪足球(chase-soccer); 追踪橙色交通锥(chase-cone); 攀爬各种材质的楼梯(stairs)。

他们分别在现实世界和一小部分使用 3D 高斯泼溅来模拟创建的真实世界场景中评估学习到的控制器性能。这些基准环境的示例如下图 9 所示。

从未见过现实世界数据,MIT在虚拟环境中训练出机器狗,能跑酷

此外,研究者进行了以下基线比较:

需要特权地形数据(障碍)的专家策略; 使用相同 pipeline 训练的深度学生策略; 使用纹理上经典域随机化训练的 RGB 学生策略; 以及本文基于 DIM 生成的帧堆栈进行训练的 LucidSim。

从生成图像中学习要优于域随机化

在模拟评估中,研究者观察到 LucidSim 在几乎所有评估中都优于经典域随机化方法,如下表 1 和表 6 所示。其中,域随机化基线方法能够在模拟中非常高效地爬楼梯,但在跨越障碍任务中表现不佳。这是因为深度学生网络在 3D 场景中遭遇了微妙且常见的 sim-to-real 差距。

比如由于受到栏杆的影响,Oracle 策略在其中一个爬楼梯场景(Marble)中表现不佳,因为它在训练环境中从未见过栏杆。相反,LucidSim 受到的影响较小。

从未见过现实世界数据,MIT在虚拟环境中训练出机器狗,能跑酷

从未见过现实世界数据,MIT在虚拟环境中训练出机器狗,能跑酷

从零样本迁移到现实世界

研究者在配备廉价 RGB 网络摄像头的 Unitree Go1 上部署了 LucidSim,在 Jetson AGX Orin 上运行了推理。每个任务都在多种场景中进行评估,并记录了机器人是否追到了目标物(追逐)或成功跨越障碍物。

下图 11 展示了 LucidSim 与域随机化方法的比较结果,其中 LucidSim 不仅能够识别经典的黑白足球,而且由于之前看到了具有丰富多样性的生成数据,因而可以泛化到不同颜色的足球。

对于跨越障碍(hurdle)和爬楼梯(stair)场景,Domain Rand. 无法始终如一地识别前方障碍物,并经常出现正面碰撞,而 LucidSim 能够始终如一地预测前方的障碍物并成功跨越。

从未见过现实世界数据,MIT在虚拟环境中训练出机器狗,能跑酷

学习 on-policy 要优于原始的专家数据 Scaling

研究者在下图 12 中,将基于 on-policy 的学习与原始的专家数据收集方法进行了比较。结果显示,通过额外专家专用数据训练获得的性能增益很快达到饱和。在跨越障碍和爬楼梯场景中,通过 DAgger 进行 on-policy 学习对于制定足够稳健的策略很有必要。

从未见过现实世界数据,MIT在虚拟环境中训练出机器狗,能跑酷

下图 10 展示了 LucidSim 和域随机化基线方法下 DAgger 产生的益处,其中前者的整体性能更高。

从未见过现实世界数据,MIT在虚拟环境中训练出机器狗,能跑酷

仅深度的策略过拟合训练几何

除了极限跑酷,研究者还考虑了两种深度策略,它们都接受了与 LucidSim 相同的训练,但输入深度不同。第一种(如上表 1 和表 6 第三行)接收远距剪切至五米的深度,并实现 120° FoV(视场角)。第二种(上表 1 和表 6 第四行)接收剪切至两米的深度。

在模拟评估中,研究者观察到,使用未剪切深度的策略会过拟合训练场景中的最小和简单几何,并被评估场景背景中的干扰因素所干扰。而视觉有限的深度策略不太会受到测试场景中多样性的影响,并且性能可以显著地提高。

理解 DIM 的速度和性能

图像生成是本文 pipeline 中的瓶颈。DIM 大大加速了每个策略的展开,同时通过权衡多样性提供动态一致的帧堆栈。研究者探究了独立生成每一帧如何影响学生网络的性能,他们认为跨越障碍场景最具挑战性。如下图 13 所示,在性能类似的情况下,DIM 可以在短时间内实现相同结果。

从未见过现实世界数据,MIT在虚拟环境中训练出机器狗,能跑酷

强大的条件降低多样性和图像细节

研究者需要权衡几何准确率与生成图像细节丰富度。当条件强度过低时,图像会偏离场景几何(如下图 14 左侧)。当条件强度过高时,图像会失去多样性和丰富细节(图 14 右侧),并且由于过约束而变得失真严重。

从未见过现实世界数据,MIT在虚拟环境中训练出机器狗,能跑酷

以上内容为资讯信息快照,由td.fyun.cc爬虫进行采集并收录,本站未对信息做任何修改,信息内容不代表本站立场。

快照生成时间:2024-11-19 11:45:10

本站信息快照查询为非营利公共服务,如有侵权请联系我们进行删除。

信息原文地址:

半年冒出近百家新公司,「具身智能」也有春天 | 36氪新风向
...例如星球大战中黑暗尊主达斯·维达之剑),还能学会在从未训练走过的路面走路。业界开始对具身智能投以热切的期待。Agility机器人能理解“达斯·维达”光剑颜色的盒子指红色盒子并识别拿起
2024-06-13 13:50:00
Meta联合开发机器人AI模型,任务成功率达90%
在机器人技术领域,让机器人在从未见过的环境中执行任务一直是一个棘手的问题。一般来说,研究人员需要针对每个新环境对机器人进行额外的训练,这个过程既耗时又昂贵。然而,最近的一项新研究
2024-09-23 10:02:00
离开OpenAI后,Figure AI正式发布“从未在人形机器人上看到过的东西”。当地时间2月21日,AI机器人初创公司Figure AI公布了端到端人形机器人VLA(视觉-语言-动作)通用大模型Helix
2025-02-21 12:11:00
浙大校友自研跨模态模型,打造具身智能的“通用语法”
...已有数据自动标注。这种自我标注机制能够极大提升模型从未标注数据中的学习效率和质量,因为它允许模型通过自身生成的预测,来不断校正和优化理解能力和表征能力,从而实现对于真实世界动
2024-03-22 10:31:00
全球首篇!调研近400篇文献,鹏城实验室&中大深度解析具身智能
...内容:1)具身感知,2)具身交互,3)具身智能体和 4)虚拟到现实的迁移,这些研究内容涵盖了最先进的方法、基本范式和全面的数据集。此外,该综述还探讨了数字空间和物理世界中具身
2024-07-29 09:39:00
清华全球最大双臂机器人扩散大模型RDT,懂调酒能遛狗,登顶热榜
...,让倒 2/3 就倒 2/3,简直分毫不差!值得一提的是,RDT 从未见过 1/3 这个词,也就是说,没有人给 RDT 演示过 1/3 的水应该怎么倒
2024-10-21 09:55:00
SAM是如何做到“分割一切”的
...么物体,并将其纳入自己的数据库,这就是为什么SAM对于从未见过的物体,也能有很好的识别与分割效果。 “需要注意的是,这11亿个标注也不是纯手工完成的,而是通过渐进的方式自动
2023-04-17 01:26:00
...人主机辅”的“人为主导”式迈进。 训练环境由“依托现实”向“虚实一体”延伸。依托实装实景的训练环境组织训练是传统军事训练的主要模式。这种训练模式存在对训练场地要求高、物资器
2024-04-30 05:24:00
机器人训练数据不缺了!英伟达团队推出DexMG:数据增强200倍
...real2sim2real方法生成了真实世界的演示。他们创建了一个现实世界罐子分类任务的数字孪生模型,通过在仿真环境中重放现实世界的人类演示
2024-11-23 09:44:00
更多关于科技的资讯:
奇安信集团董事长齐向东:重塑内生安全体系 实现“十五五”时期安全能力新升维
大众网记者 李欣 菏泽报道9月15日—21日,2025年国家网络安全宣传周在全国范围举办。15日上午,2025网安周山东省活动启动仪式在菏泽市举行
2025-09-15 19:03:00
工业大模型需“冷思考” 中国智造呼唤“深扎根”
随着中国制造业加速“出海”,工业智能正成为企业应对全球化挑战的关键工具。在9月11日举办的“数智未来 根在工业”树根科技工业智能生态日活动现场
2025-09-15 17:38:00
全球最大超级电容调频电站在山西成功并网,我国新型储能技术应用取得世界级突破
近日,由深圳市今朝时代股份有限公司提供核心技术与整体解决方案的山西偏关百兆瓦级独立调频电站一期项目顺利并网。该项目是全球首个百兆瓦级大规模应用超级电容混合储能技术的调频电站
2025-09-15 13:46:00
鸿蒙开发者孙晨阳:撬动端侧 AI 开发新可能
在 HarmonyOS 生态快速发展的浪潮中,开发者孙晨阳凭借扎实的技术积累和敏锐的生态洞察力,连续三年在鸿蒙极客松大赛中斩获佳绩——从2023年的《赏金猎人》优秀奖
2025-09-15 13:59:00
齐鲁晚报·齐鲁壹点客户端 李孟霏近日,威海举办好客山东·美食争霸赛,作为本次大型文旅消费季赛事的重要通信支持单位,山东移动威海分公司(以下简称“威海移动”)全力护航本次赛事通信畅通
2025-09-15 12:22:00
泰岳小漫 eSIM 产品,全球连接赋能跨境出行
在eSIM技术普及的浪潮中,神州泰岳旗下泰岳小漫前瞻性布局海外eSIM市场,推出FiRoam eSIM服务跨境人群,为海外用户打造便捷
2025-09-15 09:45:00
华芢生物冲刺港股:PDGF 技术破局医保减负撬动千亿愈合市场
2025 年以来,恒指强势反弹,港股新股市场吸引了全球投资者的目光。华芢生物科技(青岛)股份有限公司正稳步推进港股上市进程——继 2024 年 12 月完成证监会备案后
2025-09-15 09:50:00
【奋进七十年 大厂再出发】大厂:科技创新驱动县域经济活力迸发
河北新闻网讯(刘英、黄蕾)“前不久,我们又获得了‘廊坊市工业设计中心’的荣誉。”9月5日,位于大厂高新区的河北时硕微芯科技有限公司展厅内
2025-09-15 10:15:00
海尔空调全面推进大暖通全流程平台建设
依托大暖通战略布局,海尔空调正以全屋空气解决方案突破行业同质化竞争困局。9月11日,在2025年海尔空气产业第14届营销俱乐部峰会上
2025-09-15 10:24:00
大众网记者 邢晨 梁鹏 烟台报道作为全市网络安全宣传教育的标杆,烟台联通数字化展厅依托先进技术手段与创新传播模式,打造了集“沉浸式体验
2025-09-15 09:19:00
9月4日15时,记者走进石家庄市高新区想象国际小区兔喜生活快递驿站,只见崭新的智能快递柜排列整齐,白色的柜体搭配清晰的触控显示屏
2025-09-15 08:03:00
“以前打包,一天弯腰上百次,考验手又考验腰,现在机器全搞定,咱只要盯着设备运转就行!”近日,在国内办公家具行业头部企业圣奥科技股份有限公司深州生产基地(以下简称“圣奥深州生产基地”)
2025-09-15 07:59:00
体验首家潮流店的独特,感受首个主题展览的魅力,领略首场大秀的震撼……越来越多的消费者逐渐被首店经济吸引。通过首店经济,创新消费场景涌现
2025-09-15 07:13:00
明势、BAI和蚂蚁,AI投资的乐观派、悲观派和中间派聚在一场圆桌上
文|周鑫雨编辑|苏建勋如今的AI投资人,也分“乐观派”和“悲观派”。2025年9月12日,Inclusion外滩大会。在由36氪CEO冯大刚主持的圆桌论坛“AI应用落地首战
2025-09-14 17:16:00
王兴兴、朱啸虎们说了些AI创业真心话
文|周鑫雨 富充编辑|苏建勋2025年9月11日开幕的Inclusion外滩大会,为当下的AI创业者、学者和投资人,攒了一个“真心话”局
2025-09-14 19:30:00