• 我的订阅
  • 科技

空间智能新进展:教机器人组装家具,实现操作步骤与真实视频对齐

类别:科技 发布时间:2024-11-27 09:57:00 来源:量子位

斯坦福吴佳俊团队,给机器人设计了一套组装宜家家具的视频教程!

具体来说,团队提出了用于机器人的大型多模态数据集IKEA Video Manuals,已入选NeurIPS。

空间智能新进展:教机器人组装家具,实现操作步骤与真实视频对齐

数据集涵盖了6大类IKEA家具,每种家具都包含完整的3D模型、组装说明书和实际组装视频。

而且划分精细,拆解出的安装子步骤多达1000多个。

空间智能新进展:教机器人组装家具,实现操作步骤与真实视频对齐

作者介绍,该数据集首次实现了组装指令在真实场景中的4D对齐,为研究这一复杂问题提供了重要基准。

知名科技博主、前微软策略研究者Robert Scoble说,有了这个数据集,机器人将可以学会自己组装家具。

空间智能新进展:教机器人组装家具,实现操作步骤与真实视频对齐

团队成员、斯坦福访问学者李曼玲(Manling Li)表示,这是空间智能领域的一项重要工作:

这项工作将组装规划从2D推进到3D空间,通过理解底层视觉细节,解决了空间智能研究中的一个主要瓶颈。

空间智能新进展:教机器人组装家具,实现操作步骤与真实视频对齐

1120个子步骤详述组装过程

IKEA Video Manuals数据集中,涵盖了6大类36种IKEA家具,从简单的凳子到复杂的柜子,呈现了不同难度的组装任务。

每一款家具,都包括以下三种模态:

安装说明书,提供了任务的整体分解和关键步骤; 真实组装视频,展示了详细的组装过程; 3D模型,定义了部件之间的精确空间关系。

并且这三种模态并非简单地堆砌在一起,作者通过对视频和操作步骤的拆解,将三种模态进行了精细的对齐。

空间智能新进展:教机器人组装家具,实现操作步骤与真实视频对齐

举个例子,在这样一条关于长凳的数据当中,包含了其基本概况、视频信息、关键帧信息,以及安装步骤。

从下图中可以看出,安装步骤当中有主要步骤和子步骤的划分,还标注了对应的视频位置。

空间智能新进展:教机器人组装家具,实现操作步骤与真实视频对齐

整个数据集中,共包含了137个手册步骤,根据安装视频被细分为了1120个具体子步骤,捕捉了完整的组装过程。

并且通过6D Pose追踪,每个部件的空间轨迹都被精确记录,最终在视频帧、家具组装说明书和3D模型之间建立了密集的对应关系。

时空信息精细标注

IKEA Video Manuals数据集是在IKEA-Manual和IKEA Assembly in the Wild(IAW)两个数据集的基础上建立的。

其中,IKEA-Manual数据集提供了模型及其对应说明书,IAW则包含了大量用户组装宜家家具的视频片段。

这些视频来自90多个不同的环境,包括室内外场景、不同光照条件,真实反映了家具组装的多样性。

与在实验室环境下采集的数据相比,这些真实视频带来了更丰富的挑战:

部件经常被手或其他物体遮挡; 相似部件识别(如四条一模一样的桌子腿); 摄像机频繁移动、变焦,带来参数估计的困难; 室内外场景、不同光照条件下的多样性。

空间智能新进展:教机器人组装家具,实现操作步骤与真实视频对齐

为了获得高质量的标注,应对真实视频带来的挑战,研究团队建立了一套可靠的标注系统:

识别并标注相机参数变化的关键帧,确保片段内的一致性; 结合2D-3D对应点和RANSAC算法进行相机参数估计; 通过多视角验证和时序约束保证标注质量。

空间智能新进展:教机器人组装家具,实现操作步骤与真实视频对齐

首先,研究者们首先定义了一套层次化的装配过程描述框架,将整个装配过程分为步骤、子步骤和视频帧等多个层级。

作者首先从IAW数据集中提取每个手动步骤的视频片段,并将每个视频片段分解为更小的间隔(子步骤)。

对于每个子步骤,作者以1FPS的速度采样视频帧,并在每个子步骤的第一帧中标注出家具部件。

空间智能新进展:教机器人组装家具,实现操作步骤与真实视频对齐

为了在整个组装视频中对家具部件进行跟踪,作者还在采样帧中为3D部件注释了2D图像分割掩码。

为了促进注释过程,研究团队开发了一个显示辅助2D和3D信息的Web界面,同时该界面还可基于Segment Anything Model(SAM)模型进行交互式掩码注释。

空间智能新进展:教机器人组装家具,实现操作步骤与真实视频对齐

标注过程中,标注人员会在3D模型上选中零件,然后在2D视频帧上指示其大致位置,并将其输入到SAM模型中以实时生成2D分割掩码。

为了解决SAM在提取具有相似纹理的部分之间或低光区域的边界方面的固有局限,作者还允许标注人员使用画笔和橡皮擦工具进行手动调整。

此外,作者还要估计视频中的相机参数,为此研究者们首先人工标记出视频帧中可能出现相机运动(如焦距变化、切换视角等)的位置,然后标注出视频帧和3D模型之间的2D-3D对应关键点。

最后,结合这两类标注信息,研究者们使用PnP (Perspective-n-Point)算法估计出每段视频的相机内参数,得到相机参数的初始估计后,利用交互式工具来细化每个视频帧中零件的6D姿态。

空间模型能力评估

基于IKEA Video Manuals数据集,团队设计了多个核心任务来评估当前AI系统在理解和执行家具组装,以及空间推理(spatial reasoning)方面的能力。

首先是基于3D模型的分割(Segmentation)与姿态估计 (Pose Estimation)。

此类任务输入3D模型和视频帧,要求AI准确分割出特定部件区域,并估计其在视频中的6自由度姿态。

空间智能新进展:教机器人组装家具,实现操作步骤与真实视频对齐

△上:基于3D模型的分割,下:基于3D模型的姿态估计

实验测试了最新的分割模型(CNOS, SAM-6D)和姿态估计模型(MegaPose)。

分析发现,它们在以下场景表现不佳:

遮挡问题:手部遮挡、近距离拍摄导致部分可见、遮挡引起的深度估计误差; 特征缺失:缺乏纹理的部件难以分割、对称部件的方向难以判断; 特殊拍摄角度(如俯视)导致的尺度误判。

空间智能新进展:教机器人组装家具,实现操作步骤与真实视频对齐

△上:遮挡问题,左下:特征缺失,右下:特殊角度

第二类任务是视频目标分割,作者对比测试了两个最新的视频追踪模型SAM2和Cutie。

结果显示,在真实组装场景中,这些模型同样面临着三大挑战。

一是相机的运动,可能导致目标丢失。

空间智能新进展:教机器人组装家具,实现操作步骤与真实视频对齐

二是难以区分外观相似的部件(如多个相同的桌腿)。

空间智能新进展:教机器人组装家具,实现操作步骤与真实视频对齐

最后,保持长时间追踪的准确度也存在一定难度。

第三类任务,是基于视频的形状组装。

团队提出了一个创新的组装系统,包含关键帧检测、部件识别、姿态估计和迭代组装四个步骤。

实验采用两种设置:

使用GPT-4V自动检测关键帧:结果不理想,Chamfer Distance达0.55,且1/3的测试视频未能完成组装; 使用人工标注的关键帧:由于姿态估计模型的局限性,最终Chamfer Distance仍达0.33。

空间智能新进展:教机器人组装家具,实现操作步骤与真实视频对齐

这些实验结果揭示了当前AI模型的两个关键局限:

视频理解能力不足:当前的视频模型对时序信息的分析仍然较弱,往往停留在单帧图像分析的层面; 空间推理受限:在真实场景的复杂条件下(如光照变化、视角改变、部件遮挡等),现有模型的空间推理能力仍显不足。

作者简介

本项目第一作者,是斯坦福大学计算机科学硕士生刘雨浓(Yunong Liu)目前在斯坦福SVL实验室(Vision and Learning Lab),由吴佳俊教授指导。

空间智能新进展:教机器人组装家具,实现操作步骤与真实视频对齐

她本科毕业于爱丁堡大学电子与计算机科学专业(荣誉学位),曾在德克萨斯大学奥斯汀分校从事研究实习。

斯坦福大学助理教授、清华姚班校友吴佳俊,是本项目的指导教授。

空间智能新进展:教机器人组装家具,实现操作步骤与真实视频对齐

另据论文信息显示,斯坦福大学博士后研究员刘蔚宇(Weiyu Liu),与吴佳俊具有同等贡献。

空间智能新进展:教机器人组装家具,实现操作步骤与真实视频对齐

此外,Salesforce AI Research研究主任Juan Carlos Niebles,西北大学计算机科学系助理教授、斯坦福访问学者李曼玲(Manling Li)等人亦参与了此项目。

空间智能新进展:教机器人组装家具,实现操作步骤与真实视频对齐

空间智能新进展:教机器人组装家具,实现操作步骤与真实视频对齐

其他作者情况如下:

空间智能新进展:教机器人组装家具,实现操作步骤与真实视频对齐

项目主页:https://yunongliu1.github.io/ikea-video-manual/论文地址:https://arxiv.org/abs/2411.11409

以上内容为资讯信息快照,由td.fyun.cc爬虫进行采集并收录,本站未对信息做任何修改,信息内容不代表本站立场。

快照生成时间:2024-11-27 12:45:04

本站信息快照查询为非营利公共服务,如有侵权请联系我们进行删除。

信息原文地址:

全自动组装家具! 斯坦福发布IKEA Video Manuals数据集:首次实现「组装指令」真实场景4D对齐
...理解和执行复杂空间任务提供了新的挑战和研究基准,让机器人或AR眼镜指导家具组装不再是梦。随着人工智能技术的快速发展,让机器理解并执行复杂的空间任务成为一个重要研究方向。在复杂
2024-12-04 09:53:00
江西赣州:智能制造 降本增效
...定制家具智能制造企业车间里,工人在生产线上操作智能机器人加工板材。人民网 朱海鹏摄人民网赣州4月9日电(朱海鹏)近日,江西省赣州市南康区的一家定制家具智能制造企业车间里,工人
2024-04-09 19:08:00
高度还原人类手臂灵巧度!吉林大学任雷教授国际首创仿生拉压体机器人取得重要新进展
仿人机器人作为人工智能、先进制造、新材料等前沿科学技术的集大成者,已成为全球科技竞争的新高地。在保障人机物理交互安全性的同时,提升机器人的运动自然性、经济性、环境适应性、灵活性与
2025-03-20 19:47:00
...后一方混凝土浇筑完成,山西转型综改示范区采煤工作面机器人集群无人化控制系统制造基地项目4层主厂房提前封顶,整个项目预计2025年竣工。项目位于唐槐园区“专精特新”中小企业产业
2024-11-17 19:43:00
宁德时代联创出手了一家具身智能公司丨36氪独家
...前出手的唯一一家具身智能公司。「千寻智能」由前珞石机器人CTO韩峰涛创办,创立于2024年2月,成立至今 9个月已经完成了三轮融资。据了解,该公司新一轮融资还在进行中。汽车工
2024-11-11 10:36:00
...发及提升交付效率。公司成立于2018年7月,是一家专注于机器人智能磨抛工作站及核心部件研发、生产、销售的公司。打磨、抛光、去毛刺作为工业制造中的关键工序,是决定产品表面质量的
2023-08-08 10:32:00
中企智臻智能起诉苹果并索赔100亿元案新进展:5月5日将在上海再次开庭
...司”),案由为侵害发明专利权纠纷。IT之家截图自小 i 机器人官网诉讼原告为上海智臻智能网络科技股份有限公司(下称“智臻智能”),智臻智能指控苹果公司的 Siri 侵犯了其
2023-04-24 11:33:00
高端装备智能化生产取得新进展(经济新方位·探访智能工厂)
...树脂材料进、存、用全流程自动化,打造叶片“肌肉”;机器人配合激光引导技术,自动完成叶片表面打磨、喷漆工作,完善叶片“皮肤”……只要一天,智能车间就能下线一支82米长的叶片。“
2025-03-24 06:40:00
珠海加速布局具身智能!灵巧操作巅峰对决,官宣明年百万美元奖励
...聚了海内外众多具身智能人才参与到挑战赛之中,展现了机器人在各种灵巧操作任务中的巨大潜能,也打造了一个产学研深度结合的交流平台,推动着珠海在具身智能产业链攻关上更进一步。一、机
2024-11-08 09:48:00
更多关于科技的资讯: