我的订阅
科技

我们正处于一个信息大暴发的时代，每天都能产生数以百万计的新闻资讯！

虽然有大数据推荐，但面对海量数据，通过我们的调研发现，在一个小时的时间里，您通常无法真正有效地获取您感兴趣的资讯！

头条新闻资讯订阅，旨在帮助您收集感兴趣的资讯内容，并且在第一时间通知到您。可以有效节约您获取资讯的时间，避免错过一些关键信息。

机器人轻松模仿人类，还能泛化到不同任务和智能体

类别：科技发布时间：2024-10-23 12:05:00 来源：量子位

让机械臂模仿人类动作的新方法来了，不怕缺高质量机器人数据的那种。

微软提出图像目标表示（IGOR，Image-GOal Representation），“投喂”模型人类与现实世界的交互数据。

IGOR能直接为人类和机器人学习一个统一的动作表示空间，实现跨任务和智能体的知识迁移以及下游任务效果的提升。

要知道，在训练具身智能领域的基础模型时，高质量带有标签的机器人数据是保证模型质量的关键，而直接采集机器人数据成本较高。

考虑到互联网视频数据中也展示了丰富的人类活动，包括人类是如何与现实世界中的各种物体进行交互的，由此来自微软的研究团队提出了IGOR。

究竟怎样才能学到人类和机器人统一的动作表示呢？

IGOR框架解读

IGOR框架如下所示，包含三个基础模型：

Latent Action Model、Policy Model和World Model。

具体来说，IGOR先是提出了潜在动作模型LAM（Latent Action Model），将初始状态和目标状态之间的视觉变化压缩为低维向量，并通过最小化初始状态和动作向量对目标状态的重建损失来进行训练。

这样一来，具有相似视觉变化的图像状态将具有相似的动作向量，代表了他们在语义空间而非像素空间上的变化。

通过LAM，可以将互联网规模的视频数据转化为带有潜在动作标注的数据，大大扩展了具身智能基础模型能够使用的数据量。

这个统一的潜在动作空间使团队能够在几乎任意由机器人和人类执行的任务上训练Policy Model和World Model。

通过结合LAM和World Model，IGOR成功地将一个视频中的物体运动“迁移”到其他视频中。并且，这些动作实现了跨任务和跨智能体的迁移。

也就是说，用人的行为给机器人做演示，机器人也能做出正确的动作。如下图所示，LAM得到的潜在动作表示可以同时实现跨任务（用手移动不同物体）和跨智能体（用手的移动指导机械臂的移动）的迁移。

△Latent Action实现跨任务和智能体的迁移

以下是模型架构的具体细节。

Latent Action Model

LAM的目标是以无监督的方式从互联网规模的视频数据中学习和标注潜在动作，即给定视频帧序列，对于每一对相邻帧提取潜在动作表示。

为此，LAM模型由一个Inverse Dynamic Model（IDM）和Forward Dynamic Model（FDM）组成。

IDM的从视频帧序列中提取潜在动作表示，而FDM负责用学到的表示和当前视频帧来重建接下来的视频帧。

由于将潜在动作表示限定在较低的维度，因此LAM模型会将两帧之间语义上的区别学习到之中。

值得注意的是，这种方式天然保证了学到的潜在动作是具有泛化性的。

如下图所示，在未见数据集上，LAM学到的相似潜在动作反映了相似的语义，包括打开夹子、机械臂向左移动和关闭夹子，这些潜在动作在不同任务间共享，进而提升下游模型的泛化性。

△Latent Action Model在未见数据集上的表现

Foundation World Model

World Model的作用是根据历史视频帧和未来多帧的潜在动作表示，生成在历史帧的基础上执行各个潜在动作之后的未来视频帧。

为此，研究人员选择从预训练的视频生成模型上进行微调，将条件从文本换成了潜在动作表示和FDM的重建输出。

在具身智能的相关数据集上进行微调之后，研究人员观察到World Model可以成功地在给定相同历史帧时，针对不同的潜在动作表示生成相对应的未来视频帧。

如下图所示，此方法可以通过潜在动作和World Model控制不同物体的独立移动。

△World Model对于给定的不同潜在动作表示时的生成结果

Foundation Policy Model

Policy Model的目标是在具体的下游任务上，根据视频帧和文本指令来预测智能体每一步要采取的动作。

在IGOR中，它的训练分为了两个阶段。

在第一阶段，Policy Model将根据输入的视频帧和文本指令来预测LAM提取出的相应的潜在运动表示，从而建立从视频帧到通用潜在运动表示的映射。

在第二阶段，该模型则会根据文本指令、视频帧以及第一阶段模型预测出来的潜在动作表示共同预测下游任务上具体的运动标签。

和现有模型相比，第一阶段预测出的潜在动作表示蕴含了完成该任务需要达成的短期目标，丰富了模型的输入信息，因此提升了最终策略的任务成功率，如下图所示。

△Policy Model在下游机器人任务上的表现

在相同的场景下给定不同的文本指令，研究人员也验证了Policy Model的有效性，即模型可以根据不同的指令生成相应的潜在动作表示，进而通过World Model模拟执行相应的指令。

△Policy Model和World Model对于不同文本指令的生成结果

总的来说，IGOR提出了通过大量人类和机器人视频预训练学习动作表示并泛化到不同任务和智能体的新方法。通过从大量视频中学到的动作表示，IGOR可以实现机器人轻松模仿人类动作，进而实现更通用的智能体。

项目主页：https://aka.ms/project-igor论文：https://aka.ms/project-igor-paper

以上内容为资讯信息快照，由td.fyun.cc爬虫进行采集并收录，本站未对信息做任何修改，信息内容不代表本站立场。

快照生成时间：2024-10-23 15:45:02

本站信息快照查询为非营利公共服务，如有侵权请联系我们进行删除。

信息原文地址：

更多关于机器人,机器,人类,任务,智能,动作的资讯：

探索人形机器人的奥秘（开卷知新）

...铸造了金属巨人塔罗斯以守护家园；经典科幻作品《我，机器人》畅想2035年机器人不仅具备高超的运动能力，还衍生出人类情感，高度融入人类生活。如今，随着人工智能与机器人技术迅猛发

2024-07-16 05:59:00

混合架构赋予AI人类推理能力

...种新的方式，帮助人工智能(AI)系统在编码、战略规划和机器人科学三个领域执行复杂推理任务。聊天生成预训练转换器(ChatGPT)和“克劳德3-奥普斯”(Claude 3 Opus)等大语言模型(LLM)

2024-06-12 18:15:00

我们去看了智元机器人的「数采厂」，等等！这不是《星球大战》片

...025年初，我们了解到一件事，国内具身智能独角兽“智元机器人”（就是B站知名UP主“稚晖君”当CTO的那家公司），在上海，建了一座“数据采集工厂”（简称“数采厂”）。这是啥？

2025-01-24 06:34:00

OpenAI家庭机器人NEO登场，动作丝滑逼近人类！穿着西装

...OpenAI支持的明星初创1X Technologies，发布了最新的通用家务机器人NEO。不仅外形自然拟人，还有仿生设计带来的丝滑动作

2024-09-02 13:33:00

稚晖君独家撰文：具身智能即将为通用机器人补全最后一块拼图

...某产业智能论坛上提出，随着基础模型的突破，通用智能机器人（具身智能）是未来的发展方向。在产业界，微软、谷歌、英伟达等大厂均开展了相关研究

2023-08-28 16:38:00

清华全球最大双臂机器人扩散大模型RDT，懂调酒能遛狗，登顶热

...证了 RDT 大模型的诞生，它就像 “小脑” 一样负责控制机器人的运动。同行看后纷纷表示：有了十亿参数的 RDT

2024-10-21 09:55:00

GR-2登场！ByteDance Research提出机器人

最近，ByteDance Research 的第二代机器人大模型 —— GR-2，终于放出了官宣视频和技术报告。GR-2 以其卓越的泛化能力和多任务通用性

2024-10-10 09:57:00

“人形机器人”打开通用场景大门技术进步成商业化落地关键

本文转自：人民网电影《流浪地球2》中，人工智能机器人550W量子计算机“小苔藓”、四足仿生机器人机械狗“笨笨”受到了观众的喜爱与关注。事实上，不少科幻电影中的机器人并非特效制作，

2023-03-14 10:10:00

国泰君安证券：具身智能，人工智能的下一个浪潮

...伟达高调布局具身智能；具身智能带来的AI价值远比人形机器人更大。以下为原文内容：从符号主义到联结主义，智能体与真实世界的交互得到日益重视。上世纪五十年代的达特茅斯会议之后的一

2023-06-30 10:01:00

更多关于科技的资讯：

春晚与淘宝，如何成为“最佳搭档”的？

2025-02-03 07:17:00

2024年全新上市车型销量榜：比亚迪秦L第一一年狂卖228

2025-02-02 23:10:00

苹果宣布开源Swift Build：拓展开发者生态建设

2025-02-02 23:40:00

阿西莫夫三定律还适用于今天的AI吗

2025-02-02 23:40:00

想买YU7 先看看这台14000公里的创始版SU7现在咋样了

2025-02-03 01:10:00

“新冰箱吸不住高价买的冰箱贴”，气疯有囤积癖的年轻人

2025-02-03 03:03:00

电动车主分享高速服务区充电小妙招：过个通道立马不用排队等桩

2025-02-02 12:40:00

《哪吒》导演饺子：试过外包给国际团队制作但效果不理想

2025-02-02 12:40:00

最便宜的50系列显卡终于来了！RTX 5060 Ti/506

2025-02-02 12:40:00

DeepSeek-R1大模型登陆腾讯云：一键部署 3分钟调用

2025-02-02 13:10:00

Intel下一代移动、桌面CPU官宣！Panther Lak

2025-02-02 14:10:00

华为三折叠即将走向世界！Mate XT非凡大师获阿联酋认证

2025-02-02 15:10:00

头条订阅服务

机器人轻松模仿人类，还能泛化到不同任务和智能体