• 我的订阅
  • 科技

机器人轻松模仿人类,还能泛化到不同任务和智能体

类别:科技 发布时间:2024-10-23 12:05:00 来源:量子位

让机械臂模仿人类动作的新方法来了,不怕缺高质量机器人数据的那种。

微软提出图像目标表示(IGOR,Image-GOal Representation),“投喂”模型人类与现实世界的交互数据。

IGOR能直接为人类和机器人学习一个统一的动作表示空间,实现跨任务和智能体的知识迁移以及下游任务效果的提升。

要知道,在训练具身智能领域的基础模型时,高质量带有标签的机器人数据是保证模型质量的关键,而直接采集机器人数据成本较高。

考虑到互联网视频数据中也展示了丰富的人类活动,包括人类是如何与现实世界中的各种物体进行交互的,由此来自微软的研究团队提出了IGOR。

机器人轻松模仿人类,还能泛化到不同任务和智能体

究竟怎样才能学到人类和机器人统一的动作表示呢?

IGOR框架解读

IGOR框架如下所示,包含三个基础模型:

Latent Action Model、Policy Model和World Model。

机器人轻松模仿人类,还能泛化到不同任务和智能体

具体来说,IGOR先是提出了潜在动作模型LAM(Latent Action Model),将初始状态和目标状态之间的视觉变化压缩为低维向量,并通过最小化初始状态和动作向量对目标状态的重建损失来进行训练。

这样一来,具有相似视觉变化的图像状态将具有相似的动作向量,代表了他们在语义空间而非像素空间上的变化。

通过LAM,可以将互联网规模的视频数据转化为带有潜在动作标注的数据,大大扩展了具身智能基础模型能够使用的数据量。

这个统一的潜在动作空间使团队能够在几乎任意由机器人和人类执行的任务上训练Policy Model和World Model。

通过结合LAM和World Model,IGOR成功地将一个视频中的物体运动“迁移”到其他视频中。并且,这些动作实现了跨任务和跨智能体的迁移。

也就是说,用人的行为给机器人做演示,机器人也能做出正确的动作。如下图所示,LAM得到的潜在动作表示可以同时实现跨任务(用手移动不同物体)和跨智能体(用手的移动指导机械臂的移动)的迁移。

机器人轻松模仿人类,还能泛化到不同任务和智能体

机器人轻松模仿人类,还能泛化到不同任务和智能体

△Latent Action实现跨任务和智能体的迁移

以下是模型架构的具体细节。

Latent Action Model

LAM的目标是以无监督的方式从互联网规模的视频数据中学习和标注潜在动作,即给定视频帧序列,对于每一对相邻帧提取潜在动作表示。

为此,LAM模型由一个Inverse Dynamic Model(IDM)和Forward Dynamic Model(FDM)组成。

IDM的从视频帧序列中提取潜在动作表示,而FDM负责用学到的表示和当前视频帧来重建接下来的视频帧。

由于将潜在动作表示限定在较低的维度,因此LAM模型会将两帧之间语义上的区别学习到之中。

值得注意的是,这种方式天然保证了学到的潜在动作是具有泛化性的。

如下图所示, 在未见数据集上,LAM学到的相似潜在动作反映了相似的语义,包括打开夹子、机械臂向左移动和关闭夹子,这些潜在动作在不同任务间共享,进而提升下游模型的泛化性。

机器人轻松模仿人类,还能泛化到不同任务和智能体

△Latent Action Model在未见数据集上的表现

Foundation World Model

World Model的作用是根据历史视频帧和未来多帧的潜在动作表示,生成在历史帧的基础上执行各个潜在动作之后的未来视频帧。

为此,研究人员选择从预训练的视频生成模型上进行微调,将条件从文本换成了潜在动作表示和FDM的重建输出。

在具身智能的相关数据集上进行微调之后,研究人员观察到World Model可以成功地在给定相同历史帧时,针对不同的潜在动作表示生成相对应的未来视频帧。

如下图所示,此方法可以通过潜在动作和World Model控制不同物体的独立移动。

机器人轻松模仿人类,还能泛化到不同任务和智能体

△World Model对于给定的不同潜在动作表示时的生成结果

Foundation Policy Model

Policy Model的目标是在具体的下游任务上,根据视频帧和文本指令来预测智能体每一步要采取的动作。

在IGOR中,它的训练分为了两个阶段。

在第一阶段,Policy Model将根据输入的视频帧和文本指令来预测LAM提取出的相应的潜在运动表示,从而建立从视频帧到通用潜在运动表示的映射。

在第二阶段,该模型则会根据文本指令、视频帧以及第一阶段模型预测出来的潜在动作表示共同预测下游任务上具体的运动标签。

和现有模型相比,第一阶段预测出的潜在动作表示蕴含了完成该任务需要达成的短期目标,丰富了模型的输入信息,因此提升了最终策略的任务成功率,如下图所示。

机器人轻松模仿人类,还能泛化到不同任务和智能体

△Policy Model在下游机器人任务上的表现

在相同的场景下给定不同的文本指令,研究人员也验证了Policy Model的有效性,即模型可以根据不同的指令生成相应的潜在动作表示,进而通过World Model模拟执行相应的指令。

机器人轻松模仿人类,还能泛化到不同任务和智能体

△Policy Model和World Model对于不同文本指令的生成结果

总的来说,IGOR提出了通过大量人类和机器人视频预训练学习动作表示并泛化到不同任务和智能体的新方法。通过从大量视频中学到的动作表示,IGOR可以实现机器人轻松模仿人类动作,进而实现更通用的智能体。

项目主页:https://aka.ms/project-igor论文:https://aka.ms/project-igor-paper

以上内容为资讯信息快照,由td.fyun.cc爬虫进行采集并收录,本站未对信息做任何修改,信息内容不代表本站立场。

快照生成时间:2024-10-23 15:45:02

本站信息快照查询为非营利公共服务,如有侵权请联系我们进行删除。

信息原文地址:

探索人形机器人的奥秘(开卷知新)
...铸造了金属巨人塔罗斯以守护家园;经典科幻作品《我,机器人》畅想2035年机器人不仅具备高超的运动能力,还衍生出人类情感,高度融入人类生活。如今,随着人工智能与机器人技术迅猛发
2024-07-16 05:59:00
...种新的方式,帮助人工智能(AI)系统在编码、战略规划和机器人科学三个领域执行复杂推理任务。聊天生成预训练转换器(ChatGPT)和“克劳德3-奥普斯”(Claude 3 Opus)等大语言模型(LLM)
2024-06-12 18:15:00
我们去看了智元机器人的「数采厂」,等等!这不是《星球大战》片场吗?
...025年初,我们了解到一件事,国内具身智能独角兽“智元机器人”(就是B站知名UP主“稚晖君”当CTO的那家公司),在上海,建了一座“数据采集工厂”(简称“数采厂”)。这是啥?
2025-01-24 06:34:00
OpenAI家庭机器人NEO登场,动作丝滑逼近人类!穿着西装的「人」却专做家务
...OpenAI支持的明星初创1X Technologies,发布了最新的通用家务机器人NEO。不仅外形自然拟人,还有仿生设计带来的丝滑动作
2024-09-02 13:33:00
来,看看机器人的“类人生活”(瞰前沿)
...日报图①:第二十七届中国北京国际科技产业博览会上,机器人在“点赞”。宋家儒摄(影像中国)图②:2025年贵州“村超”40强交叉赛的比赛间隙,机器人进行趣味足球赛。新华社记者
2025-05-24 05:40:00
稚晖君独家撰文:具身智能即将为通用机器人补全最后一块拼图
...某产业智能论坛上提出,随着基础模型的突破,通用智能机器人(具身智能)是未来的发展方向。在产业界,微软、谷歌、英伟达等大厂均开展了相关研究
2023-08-28 16:38:00
清华全球最大双臂机器人扩散大模型RDT,懂调酒能遛狗,登顶热榜
...证了 RDT 大模型的诞生,它就像 “小脑” 一样负责控制机器人的运动。同行看后纷纷表示:有了十亿参数的 RDT
2024-10-21 09:55:00
GR-2登场!ByteDance Research提出机器人大模型,具备世界建模
最近,ByteDance Research 的第二代机器人大模型 —— GR-2,终于放出了官宣视频和技术报告。GR-2 以其卓越的泛化能力和多任务通用性
2024-10-10 09:57:00
本文转自:人民网电影《流浪地球2》中,人工智能机器人550W量子计算机“小苔藓”、四足仿生机器人机械狗“笨笨”受到了观众的喜爱与关注。事实上,不少科幻电影中的机器人并非特效制作,
2023-03-14 10:10:00
更多关于科技的资讯:
大年初一,匆匆赶到湖州的生产基地,给春节坚持留守在生产一线的一百多名员工发完新春红包后,金羽新能董事长兼总经理黄杜斌又拿起了手机
2026-02-19 08:20:00
以下为报道原文:从“猜你喜欢”到“懂你需要” 人工智能加速“嵌入”日常生活人民日报 记者 谷业凯“帮我订春节假期南京到三亚的往返机票
2026-02-18 17:52:00
重要突破!中国科大发现新型有序物态——理想非晶体
大皖新闻讯 2月18日,大皖新闻记者从中国科学技术大学获悉,该校童华教授、徐宁教授及其合作者在非晶物态理论研究中取得重要突破
2026-02-18 17:53:00
新岁启程,马蹄声疾。骉(biāo),《说文解字》解读为“众马也”。单从字形便觉气势如虹,三马叠加,并辔而行。从一马当先
2026-02-18 14:39:00
以“兴趣”为引,开启银龄健康生活新方式:简橙太极如何助力科学养生、乐享晚年
在当今社会,随着健康老龄化的理念日益深入人心,越来越多的中老年人开始积极追求丰富多彩的退休生活和身心和谐的健康状态。这一趋势催生了对优质
2026-02-18 12:53:00
【网络中国节·春节】AI机器人带来新春消费新体验 带旺厦门文旅市场
AI机器人带来新春消费新体验厦门通过AI赋能打造新业态新场景,带旺假期文旅消费市场市民游客观看机器人咖啡师制作咖啡。(夏商咖啡供图)厦门网讯(厦门日报记者 沈彦彦 王元晖)厦门中山路“两岸数智非遗年”现场
2026-02-18 09:55:00
全力保交付 海辰储能厦门基地春节期间维持满负荷生产
位于同翔高新城的海辰储能厦门基地春节期间——满负荷生产 全力保交付春节期间,海辰储能满负荷生产。(厦门日报记者 卢剑豪 摄)厦门网讯(厦门日报记者 林露虹)大年初一
2026-02-18 10:26:00
成功捕获到约6500光年外的宇宙线信号网通院参研的LACT首台望远镜完成“首光”河北新闻网讯(河北日报记者王璐丹)近日
2026-02-18 07:58:00
2026年央视马年春晚,成为机器人扎堆亮相的“超级秀场”。而最牵动人心的,当属杭州宇树科技机器人与河南塔沟武术学校的小朋友同台呈现的节目《武BOT》
2026-02-18 07:04:00
2026年央视春晚演出现场,观众席间不少人佩戴的红围巾火了。微博上有网友实时提问:哪里能买到同款?这条名为“骐骥驰骋”的红围巾
2026-02-18 07:04:00
杭州智造“飞”上春晚 全球首次极寒载人飞行惊艳哈尔滨
图为央视春晚哈尔滨分会场彩排画面。除夕夜,央视春晚哈尔滨分会场以精彩的《冰雪暖世界》演出,带来了属于“冰城”的浪漫和温暖
2026-02-18 07:04:00
宇树春晚的表演,创下至少五个全球第一
网友热议“浙江黑科技” “太硬核了”“不愧是诞生‘六小龙’的地方”当虹科技8K超高清编码技术支持下,演员衣服上的刺绣纹理清晰可见
2026-02-18 07:34:00
豆包除夕AI互动19亿次 Seedance2.0为春晚提供技术支持
河北新闻网讯(记者 李春炜)2月16日,字节跳动旗下AI助手豆包与央视总台春晚联动,面向全国观众送出10万份科技好礼,并推出多项AI互动玩法
2026-02-17 20:35:00
中新经纬2月17日电 千问App数据显示,春节活动期间,全国超过1.3亿人第一次体验AI购物,说了50亿次“千问帮我”
2026-02-17 14:16:00
新春走基层|港口老司机“秀”新操作
2月16日,秦港股份九公司集控中心操作员曹宏璐在工作中。河北日报记者 张辉摄2月16日,农历除夕。下午2时30分许,随着“航旭鑫海”轮进入秦皇岛港902泊位
2026-02-17 08:53:00