• 我的订阅
  • 科技

机器人轻松模仿人类,还能泛化到不同任务和智能体

类别:科技 发布时间:2024-10-23 12:05:00 来源:量子位

让机械臂模仿人类动作的新方法来了,不怕缺高质量机器人数据的那种。

微软提出图像目标表示(IGOR,Image-GOal Representation),“投喂”模型人类与现实世界的交互数据。

IGOR能直接为人类和机器人学习一个统一的动作表示空间,实现跨任务和智能体的知识迁移以及下游任务效果的提升。

要知道,在训练具身智能领域的基础模型时,高质量带有标签的机器人数据是保证模型质量的关键,而直接采集机器人数据成本较高。

考虑到互联网视频数据中也展示了丰富的人类活动,包括人类是如何与现实世界中的各种物体进行交互的,由此来自微软的研究团队提出了IGOR。

机器人轻松模仿人类,还能泛化到不同任务和智能体

究竟怎样才能学到人类和机器人统一的动作表示呢?

IGOR框架解读

IGOR框架如下所示,包含三个基础模型:

Latent Action Model、Policy Model和World Model。

机器人轻松模仿人类,还能泛化到不同任务和智能体

具体来说,IGOR先是提出了潜在动作模型LAM(Latent Action Model),将初始状态和目标状态之间的视觉变化压缩为低维向量,并通过最小化初始状态和动作向量对目标状态的重建损失来进行训练。

这样一来,具有相似视觉变化的图像状态将具有相似的动作向量,代表了他们在语义空间而非像素空间上的变化。

通过LAM,可以将互联网规模的视频数据转化为带有潜在动作标注的数据,大大扩展了具身智能基础模型能够使用的数据量。

这个统一的潜在动作空间使团队能够在几乎任意由机器人和人类执行的任务上训练Policy Model和World Model。

通过结合LAM和World Model,IGOR成功地将一个视频中的物体运动“迁移”到其他视频中。并且,这些动作实现了跨任务和跨智能体的迁移。

也就是说,用人的行为给机器人做演示,机器人也能做出正确的动作。如下图所示,LAM得到的潜在动作表示可以同时实现跨任务(用手移动不同物体)和跨智能体(用手的移动指导机械臂的移动)的迁移。

机器人轻松模仿人类,还能泛化到不同任务和智能体

机器人轻松模仿人类,还能泛化到不同任务和智能体

△Latent Action实现跨任务和智能体的迁移

以下是模型架构的具体细节。

Latent Action Model

LAM的目标是以无监督的方式从互联网规模的视频数据中学习和标注潜在动作,即给定视频帧序列,对于每一对相邻帧提取潜在动作表示。

为此,LAM模型由一个Inverse Dynamic Model(IDM)和Forward Dynamic Model(FDM)组成。

IDM的从视频帧序列中提取潜在动作表示,而FDM负责用学到的表示和当前视频帧来重建接下来的视频帧。

由于将潜在动作表示限定在较低的维度,因此LAM模型会将两帧之间语义上的区别学习到之中。

值得注意的是,这种方式天然保证了学到的潜在动作是具有泛化性的。

如下图所示, 在未见数据集上,LAM学到的相似潜在动作反映了相似的语义,包括打开夹子、机械臂向左移动和关闭夹子,这些潜在动作在不同任务间共享,进而提升下游模型的泛化性。

机器人轻松模仿人类,还能泛化到不同任务和智能体

△Latent Action Model在未见数据集上的表现

Foundation World Model

World Model的作用是根据历史视频帧和未来多帧的潜在动作表示,生成在历史帧的基础上执行各个潜在动作之后的未来视频帧。

为此,研究人员选择从预训练的视频生成模型上进行微调,将条件从文本换成了潜在动作表示和FDM的重建输出。

在具身智能的相关数据集上进行微调之后,研究人员观察到World Model可以成功地在给定相同历史帧时,针对不同的潜在动作表示生成相对应的未来视频帧。

如下图所示,此方法可以通过潜在动作和World Model控制不同物体的独立移动。

机器人轻松模仿人类,还能泛化到不同任务和智能体

△World Model对于给定的不同潜在动作表示时的生成结果

Foundation Policy Model

Policy Model的目标是在具体的下游任务上,根据视频帧和文本指令来预测智能体每一步要采取的动作。

在IGOR中,它的训练分为了两个阶段。

在第一阶段,Policy Model将根据输入的视频帧和文本指令来预测LAM提取出的相应的潜在运动表示,从而建立从视频帧到通用潜在运动表示的映射。

在第二阶段,该模型则会根据文本指令、视频帧以及第一阶段模型预测出来的潜在动作表示共同预测下游任务上具体的运动标签。

和现有模型相比,第一阶段预测出的潜在动作表示蕴含了完成该任务需要达成的短期目标,丰富了模型的输入信息,因此提升了最终策略的任务成功率,如下图所示。

机器人轻松模仿人类,还能泛化到不同任务和智能体

△Policy Model在下游机器人任务上的表现

在相同的场景下给定不同的文本指令,研究人员也验证了Policy Model的有效性,即模型可以根据不同的指令生成相应的潜在动作表示,进而通过World Model模拟执行相应的指令。

机器人轻松模仿人类,还能泛化到不同任务和智能体

△Policy Model和World Model对于不同文本指令的生成结果

总的来说,IGOR提出了通过大量人类和机器人视频预训练学习动作表示并泛化到不同任务和智能体的新方法。通过从大量视频中学到的动作表示,IGOR可以实现机器人轻松模仿人类动作,进而实现更通用的智能体。

项目主页:https://aka.ms/project-igor论文:https://aka.ms/project-igor-paper

以上内容为资讯信息快照,由td.fyun.cc爬虫进行采集并收录,本站未对信息做任何修改,信息内容不代表本站立场。

快照生成时间:2024-10-23 15:45:02

本站信息快照查询为非营利公共服务,如有侵权请联系我们进行删除。

信息原文地址:

探索人形机器人的奥秘(开卷知新)
...铸造了金属巨人塔罗斯以守护家园;经典科幻作品《我,机器人》畅想2035年机器人不仅具备高超的运动能力,还衍生出人类情感,高度融入人类生活。如今,随着人工智能与机器人技术迅猛发
2024-07-16 05:59:00
...种新的方式,帮助人工智能(AI)系统在编码、战略规划和机器人科学三个领域执行复杂推理任务。聊天生成预训练转换器(ChatGPT)和“克劳德3-奥普斯”(Claude 3 Opus)等大语言模型(LLM)
2024-06-12 18:15:00
我们去看了智元机器人的「数采厂」,等等!这不是《星球大战》片场吗?
...025年初,我们了解到一件事,国内具身智能独角兽“智元机器人”(就是B站知名UP主“稚晖君”当CTO的那家公司),在上海,建了一座“数据采集工厂”(简称“数采厂”)。这是啥?
2025-01-24 06:34:00
OpenAI家庭机器人NEO登场,动作丝滑逼近人类!穿着西装的「人」却专做家务
...OpenAI支持的明星初创1X Technologies,发布了最新的通用家务机器人NEO。不仅外形自然拟人,还有仿生设计带来的丝滑动作
2024-09-02 13:33:00
稚晖君独家撰文:具身智能即将为通用机器人补全最后一块拼图
...某产业智能论坛上提出,随着基础模型的突破,通用智能机器人(具身智能)是未来的发展方向。在产业界,微软、谷歌、英伟达等大厂均开展了相关研究
2023-08-28 16:38:00
清华全球最大双臂机器人扩散大模型RDT,懂调酒能遛狗,登顶热榜
...证了 RDT 大模型的诞生,它就像 “小脑” 一样负责控制机器人的运动。同行看后纷纷表示:有了十亿参数的 RDT
2024-10-21 09:55:00
GR-2登场!ByteDance Research提出机器人大模型,具备世界建模
最近,ByteDance Research 的第二代机器人大模型 —— GR-2,终于放出了官宣视频和技术报告。GR-2 以其卓越的泛化能力和多任务通用性
2024-10-10 09:57:00
本文转自:人民网电影《流浪地球2》中,人工智能机器人550W量子计算机“小苔藓”、四足仿生机器人机械狗“笨笨”受到了观众的喜爱与关注。事实上,不少科幻电影中的机器人并非特效制作,
2023-03-14 10:10:00
国泰君安证券:具身智能,人工智能的下一个浪潮
...伟达高调布局具身智能;具身智能带来的AI价值远比人形机器人更大。以下为原文内容:从符号主义到联结主义,智能体与真实世界的交互得到日益重视。上世纪五十年代的达特茅斯会议之后的一
2023-06-30 10:01:00
更多关于科技的资讯: