• 我的订阅
  • 科技

李飞飞团队ReKep荣获CoRL-LEAP研讨会最佳论文奖,具身智能又下一城!

类别:科技 发布时间:2024-12-04 09:51:00 来源:新智元

李飞飞团队ReKep荣获CoRL-LEAP研讨会最佳论文奖,具身智能又下一城!

【新智元导读】如何让机器人拥有人一样的协调行动能力是具身智能不可避免的挑战,而李飞飞团队在CoRL-LEAP研讨会获得最佳论文奖的ReKep对于这一挑战交出了一张亮眼的答卷。

AI发展如火如荼的今天,机器人距离人类的协调行动能力还有多远?

近日,李飞飞团队发布关于机器人操控的最新研究「关系关键点约束ReKep」(Relational Keypoint Constraints),其基于视觉的环境自适应的操纵表现让人眼前一亮!

这项研究也获得了CoRL 2024-Learning Effective Abstractions for Planning (LEAP)的最佳论文奖。

李飞飞团队ReKep荣获CoRL-LEAP研讨会最佳论文奖,具身智能又下一城!

简要来讲,团队通过ReKep研究证明,通过将不同的操作行为指定为一系列对语义关键点进行操作的可优化时空约束函数,就可以采用分层优化程序,以实时频率解决机器人动作与感知-动作循环的问题。

此外,为了避免为每个新任务手动指定ReKep,他们设计了一个自动化程序,利用预训练的LVM(large vision models)和VLM(vision-language models),从语言指令和RGB-D观察结果中生成ReKep。

研究介绍了在轮式单臂平台和固定双臂平台上的系统实现情况,这些平台可以执行各种操作任务,例如下列视频中所展示的打包鞋子、双臂协同折叠衣物、开放环境放置书籍、茶壶倒水任务,所有这些都不需要特定任务数据或环境模型。

打包鞋子

折叠衣物

放置书籍

茶壶倒水

机器人操纵涉及与环境中物体的复杂交互,这些交互通常可以用空间和时间领域的约束条件来表示。

请看上列视频中将茶倒入杯中的任务:机器人首先必须抓住茶壶柄,在运输过程中保持茶壶水平,接着将茶壶嘴对准目标容器,然后将其倾斜到正确的角度倒茶。

在这里,约束条件不仅包括中间子目标(例如,将壶嘴对准茶杯),还包括过渡行为(例如,在运输过程中保持茶壶水平),这些约束共同决定了机器人在与环境互动时的空间、时间和其他组合要求。

然而,如何有效地为现实世界中的各种任务制定这些约束条件是一个巨大的挑战。

虽然使用机器人与物体之间的相对姿势来表示约束是一种直接且广泛使用的方法,但涉及到刚体变换,这种方法便无法描述几何细节,而且也无法用于可形变物体。

另一方面,数据驱动方法可以直接在视觉空间中学习约束。虽然这种方法更加灵活,但由于约束条件的数量随着对象和任务的组合而不断增加,如何有效地收集训练数据仍是一个未知数。

因此,研究团队提出了这样一个问题:如何才能让操纵符合以下三条特性?

广泛适用性:可适应需要多阶段、野外、双臂和反应行为的任务;

可扩展性:通过基础模型的进步,有可能实现完全自动化;

实时优化性:可通过现成的求解器有效求解,以产生复杂的操纵行为

团队还证明了ReKep的特定形式具有独特的优势,因为它们可以通过预先训练的大型视觉模型(LVM)和视觉语言模型(VLM)实现自动化,从而能够根据RGB-D观察结果和自由形式的语言指令对ReKep在大约10Hz的时间内进行实时调控。

具体方法

什么是关键点约束?为清楚起见,研究者假设已经指定了一组K个关键点。具体来说,每个关键点指的是场景表面上的一个3D点,其相应的笛卡尔坐标依赖于任务语义和环境(例如,手柄上的抓取点)。

接着,ReKep将约束表示为Python函数,这些函数将一组关键点映射到一个数值,其中每个关键点是场景中一个任务特定的、语义上有意义的3D点。

每个函数由对关键点的(可能是非线性的)算术操作组成,这些操作可能是非线性和非凸的。本质上,这些函数是编码了关键点之间对应的「空间关系」,这些关键点可能属于环境中的不同实体,例如机器人手臂、物体部件和其他对象。

虽然每个关键点仅由其在世界坐标系中的3D笛卡尔坐标组成,但如果对关键点施加刚性约束,多个关键点就可以共同指定线条、表面以及3D旋转。

ReKep在序列操作问题的背景下进行研究,其中每个任务涉及多个具有时空依赖关系的阶段(例如,在前述示例中的「抓取」「对齐」和「倒水」)。

然而,一个操作任务通常涉及多个空间关系,并且可能有多个时间上依赖的阶段,每个阶段包含不同的空间关系。

为此,研究团队将任务分解为N个阶段,并使用ReKep为每个阶段 指定两种类型的约束:

一组子目标约束 和一组路径约束 ,其中 编码了在第i阶段结束时需要实现的关键点关系,而 编码了在第i阶段内每个状态下需要满足的关键点关系。

以下图中的倒茶任务为例,该任务由三个阶段组成:抓取、对齐和倒水。

阶段1的子目标约束将末端执行器拉向茶壶把手。然后,阶段2的子目标约束指定茶壶的嘴部需要位于杯口上方。此外,阶段2的路径约束确保在运输过程中茶壶保持直立,以防止溢出。最后,阶段3的子目标约束指定了所需的倒水角度。

李飞飞团队ReKep荣获CoRL-LEAP研讨会最佳论文奖,具身智能又下一城!

ReKep概览

如何使用ReKep将操作表述为约束优化问题

为了执行操作任务,我们的目标是通过如下方式将控制问题进行公式化,从而获得整体的离散时间轨迹。

李飞飞团队ReKep荣获CoRL-LEAP研讨会最佳论文奖,具身智能又下一城!

其中, 表示时间t时的末端执行器姿态, 表示从阶段i转换到阶段i+1的时间点,这些也是辅助决策变量, 是 时间t时的关键点位置数组,h是关键点的前向模型, 和 分别是子 目标和路径规划的辅助代价函数(例如,避免碰撞)。

具体而言,对于每个阶段i,优化过程将寻找满足下一个子目标的末端执行器姿态及其对应的计划时间序列,并找到一个能够实现子目标的姿态序列 , 并满足给定的ReKep约束和辅助代价。 该公式化方法可以视为轨迹优化中的direct shooting。

实时解决优化问题的算法实例化

为了能够实时求解上面的公式,作者将问题进行分解并只将下一个子目标和达到它的相应路径作为优化对象。

所有优化问题都使用SciPy实现和求解,决策变量归一化为[0,1]。它们最初是用Dual Annealing和SLSQP作为局部优化器(大约1秒)来解决的,随后仅根据前一个解在大约10Hz下使用局部优化器来解决。

子目标问题

为了知道当前阶段i对应的末端执行器姿态 , 首先应该求解如下公式对应的子目标问题:

李飞飞团队ReKep荣获CoRL-LEAP研讨会最佳论文奖,具身智能又下一城!

其中 包含辅助控制成本: 场景碰撞避免、可达性、姿势正则化、解一致性和用于双臂设置的自碰撞功能。 如果某个阶段与抓取有关,则还要包括grasp指标。

也就是说,上述方程试图找到一个满足 的子目标,同时最小化辅助成本。 作者团队通过利用AnyGrasp求解这个问题。

路径问题

在获得子目标 后,研究者继续求解从当前末端执行器姿态 到子目标 的轨迹 :

李飞飞团队ReKep荣获CoRL-LEAP研讨会最佳论文奖,具身智能又下一城!

其中, 包含以下辅助控制代价: 场景碰撞规避、可达性、路径长度、解的一致性,以及用于双臂设置的自碰撞功能。 如果到子目标 的距离在较小的容差 范围内,这时才可以进入下一个阶段i+1。

回溯

尽管在解决了子目标和路径问题后,已经可以在每个阶段内对于外部干扰做到实时反应。但若上一阶段的任意子目标约束条件受到影响而变得不再成立,依然无法完成整个工作任务。

为了避免这样的情况,研究团队让整体系统都可以进行跨阶段规划。具体来说,在每个控制流程中,系统都需要检查是否违反了 ,如果发现了这种情况,就需要回溯到之前满足条件的那个阶段去重新进行迭代。

对于关键点的前向模型

为了求解前述两个公式,在优化过程中必须使用前向模型h,以估计从末端执行器姿态变化 到关键点位置变化 。

作者对末端执行器与「抓取关键点」(属于同一物体或部件的刚性关键点组)之间做出刚性假设。 也就是说,给定末端执行器姿态的变化 ,就可以通过应用相同的刚性变换来计算关键点位置的变化: , 同时假设其他关键点保持静止。

如何从RGB-D观测数据和语言指令中自动获取ReKep

为了使系统能够在给定自由格式任务指令的情况下在开放环境执行任务,团队设计了一个使用大型视觉模型和视觉语言模型的pipeline,用于生成关键点proposal和ReKep,分别讨论如下:

获得候选关键点

给定一个RGB图像,首先从DINOv2中提取特征patch。然后执行双线性插值,将特征上采样到原始图像大小。为了确保候选关键点的范围可以涵盖场景中的所有相关对象,作者利用Segment Anything(SAM)提取场景中的所有掩码。对于每个掩码j,作者结合了k=5的k-means和余弦相似度指标,对掩码特征进行聚类。

再将每个聚类的质心用作关键点候选项,并使用校准的RGB-D将其投影到世界坐标。与其他候选项目相距不远的候选项目将被筛掉。

总之,这一流程能够很好地识别出一个较大比例的细粒度和有语义意义的对象区域。

ReKep生成

获得候选关键点后,就可以将它们用数字标记叠加在原始RGB图像上。接着结合任务的语言指令,使用visualprompt来对GPT-4o进行提问,以生成所需的阶段数以及每个阶段i相应的子目标约束和路径约束。

值得注意的是,这些函数不直接参与关键点位置的数值运算。相反,作者利用VLM的优势将空间关系指定为算术运算,例如关键点之间的L2距离或点积,这些运算只有在被调用时才实例化,并与专门的3D跟踪器跟踪的实际关键点位置一起使用。

此外,使用一组关键点位置进行算术运算的一个重要优势是,当提供足够的点并强制执行相关点之间的刚性时,它可以指定完整的三维旋转,但仅在任务语义需要时才这样做。这使得VLM能够使用三维笛卡尔空间中的算术运算来推理三维旋转,有效地避免了处理替代的三维旋转表示和执行数值计算的需求。

实验

作者将实验的目标设定为回答并验证以下研究问题:

我们的框架自动制定操作策略和对应综合操作行为的能力如何?

我们的系统能否推广到新对象和操作策略?

在一个轮式单臂平台和一个固定式双臂平台,各个组件如何导致系统的故障情况?

衡量标准和基准

作者设定了对于倒茶、放置书籍、回收罐子、打包盒子、折叠衣物、打包鞋子以及协作折叠七项任务的实验评估,并且还通过在执行过程中改变任务对象的姿态位置,对其中三个任务进行了外部干扰评估。

这七个任务旨在验证这个系统的不同方面,包括具有常识性知识的野外规范、具有时空依赖性的多阶段任务、具有几何意识的双臂协调以及在与人类协作和受到干扰时的反应能力。

李飞飞团队ReKep荣获CoRL-LEAP研讨会最佳论文奖,具身智能又下一城!

实验任务和可视化优化结果

作者评估了该系统的两个变体:「Auto」使用基础模型去自动生成ReKep,而「Annot」使用人工标注的ReKep。

每个任务评估有10次试验,其中物体的姿势是随机的。成功率见下表,作者将VoxPoser作为基准进行比较。

可以看出ReKep大幅领先VoxPoser,并且「Annot」也大幅领先「Auto」。

李飞飞团队ReKep荣获CoRL-LEAP研讨会最佳论文奖,具身智能又下一城!

下表则是显示了系统两个变体「Auto」、「Annot」对于倒茶、打包盒子、协作折叠三个任务受到外部干扰时的具体表现,同样地也是ReKep大幅领先VoxPoser,并且「Annot」也大幅领先「Auto」。

综上则说明了,人工标注的ReKep「Auto」的综合性能最好。

李飞飞团队ReKep荣获CoRL-LEAP研讨会最佳论文奖,具身智能又下一城!

操作策略中的泛化

作者系统地评估了如何通过专注于一项任务来发展出新颖的操作策略。

对于服装折叠这个单一任务,其中包含8个独特的服装类别,每个类别都需要独特的折叠方式,并且需要几何与常识推理。评估是在双臂平台上完成的,这给双臂协调带来了更进一步的挑战。

对于操作策略的泛化,作者依然采用了获得候选关键点部分的方案,即为使用visual prompt来对GPT-4o进行提问,其提示词仅包含一般说明,没有上下文示例。「策略成功率」衡量生成的ReKep是否可行,这同时测试了关键点建议模块和VLM,而「执行成功率」衡量的是给定每件服装可行策略的系统成功率。每种方法都要进行10次试验。

有趣的是,结果是不同类别的策略截然不同,其中许多策略与人类折叠每件衣服的方式一致。例如,它可以识别出两个袖子经常在完全折叠衣服之前折叠在一起。

在不需要使用两只手臂的情况下,类似于人类折叠衣服的方式,只使用一只手臂。

然而,我们确实观察到VLM可能会错过某些步骤,无法按照操作员的预期完成折叠,但我们认识到,这本质上是一个开放式问题,通常基于个人的喜好。

ReKep用于折叠不同类别服装的新型双臂策略及其成功率

成功率。由于ReKep在这项任务中总是一次关联两个点,因此如果两个关键点需要对齐,则会用箭头将其连接起来。

连接。关键点的颜色表示顺序。在毛衣任务中,两个袖子

首先用两只手臂同时折叠,然后两只手臂抓住圆领对齐到底部。

李飞飞团队ReKep荣获CoRL-LEAP研讨会最佳论文奖,具身智能又下一城!

结论和不足

在这项工作中,作者介绍了关系关键点约束(ReKep),这是一种使用约束的结构任务表示法,它通过语义关键点来指定机器人手臂、物体(部件)和环境中其他代理之间的预期关系。

结合点跟踪器,我们证明了ReKep约束条件可以在分层优化框架中重复有效地求解,从而作为闭环策略以实时频率运行。我们还展示了ReKep的独特优势,即它可以由大型视觉模型和视觉语言模型自动合成。我们在两个机器人平台和各种任务上展示了结果,这些任务具有多阶段、野外、双臂和反应行为等特点,所有这些都不需要特定任务数据、额外训练或环境模型。

尽管前景看好,但仍存在一些局限性。首先,优化框架依赖于基于刚性假设的关键点前向模型,尽管高频反馈回路放宽了对模型准确性的要求。其次,ReKep依靠精确的点跟踪来正确优化闭环行动,而由于间歇性遮挡严重,这本身就是一项具有挑战性的3D视觉任务。

最后,目前的方案假设每个任务都有固定的阶段序列(即骨架)。使用不同的骨架重新规划需要高频率地运行关键点建议和VLM,这给计算带来了相当大的挑战。

参考资料:

https://rekep-robot.github.io/

https://leap-workshop.github.io/

以上内容为资讯信息快照,由td.fyun.cc爬虫进行采集并收录,本站未对信息做任何修改,信息内容不代表本站立场。

快照生成时间:2024-12-04 12:45:02

本站信息快照查询为非营利公共服务,如有侵权请联系我们进行删除。

信息原文地址:

首秀即获权威认可!武职大教师荣获国家级奖项
...业》联合主办的“第十一届(2025 年)全国针织创新技术研讨会”在上海召开。期间,武汉职业技术大学戴冬秀团队依托企业横向项目研发的科研论文《凉感速干复合功能针织面料开发实践及
2025-12-20 18:42:00
年度生成式AI大会上海站公布最新嘉宾,报名进入最后阶段
...AI大会首次登陆上海举办,整体将由“主会场峰会+分会场研讨会+展览区”三个部分组成。其中,主会场将进行大模型峰会、AI Infra峰会,分会场将组织端侧生成式AI、AI视频生
2024-11-26 09:38:00
...要。我们利用很多办法做到这一点,包括举办全球性细胞研讨会、区域性行业研讨会,建立区域性合作伙伴关系等。此外,还有支持期刊发展的外部顾问委员会、评估研究内容并确保其具有多样化观
2024-05-31 05:15:00
IJCAI 2023可信联邦学习国际研讨会召开,顶尖学者共探技术生态建设
8月21日,IJCAI2023 可信联邦学习国际研讨会(FL-IJCAI’23)在第32届国际人工智能联合会议大会(IJCAI)期间于澳门举办
2023-08-24 12:00:00
信也科技亮相国际AI顶会IJCAI2024,多维展示AI实力
...信也科技杯”决赛两周后,全球八强选手再次汇聚IJCAI,在研讨会现场展示了针对语音深度鉴伪的算法解决方案。研讨会面向IJCAI的所有参会人员开放,其中不乏语音算法领域的专家。
2024-08-13 16:09:00
...类实践”为主题的第二十五届中国科协年会深空探测高端研讨会在安徽合肥召开,近200名相关领域学者参会,聚焦深空探测领域最新科技进展与突破等。该研讨会由中国科学技术协会和安徽省人
2023-10-23 22:09:00
共话传承保护!首届文献保护与文化传承学术研讨会在穗召开
...承的佳话。11月19日至21日,首届文献保护与文化传承学术研讨会在华南理工大学五山校区举办。会议通过多视角、深层次、跨领域的互动交流,充分展示纸质文献抢救性保护、整理研究和出
2023-11-22 22:58:00
山东财经大学举办山东省研究生“数字治理与公共政策创新”学术创新研讨会
...新”暨山东省社科重点基地“绿色高质量发展”学术创新研讨会在山东财经大学举办。校党委书记王邵军出席并致辞。王邵军书记在致辞中表达了对与会学者的欢迎,并向与会嘉宾介绍了学校近年来
2023-11-01 17:56:00
KDD 2024中国队闪耀登场!AI巨头齐聚,专题研讨亮点全总结
...独角兽企业,松鼠Ai共有4篇主会论文(Research Paper),2个研讨会(Workshop)和1个教程(Tutorial)被接受
2024-08-28 09:47:00
更多关于科技的资讯:
在全球经济充满不确定性的时代背景下,企业如何在危机中把握机遇、在变局中实现稳健增长,成为衡量领导者战略能力的重要标尺。作为荷美尔亚太区总裁
2026-02-28 17:17:00
电与未来同行:松下中国在海南开展电能知识可持续科普活动
2026年1月,松下中国来到海南乡村学生身边,在万宁市和乐、莲花、礼纪等地开展可持续教育科普活动。课程活动以“电能”为核心线索
2026-02-28 17:19:00
350+中企将集体亮相,展示通信与AI交织的中国力量
再过两天,世界移动通信大会(MWC2026)就要在西班牙巴塞罗那开幕,这场全球科技行业瞩目的盛会,也即将迎来它落地巴塞罗那二十周年的里程碑
2026-02-28 17:04:00
中国消费者报杭州讯(记者郑铁峰)2月25日,浙江省市场监管局党委书记、局长谢小云把一张特种设备检验检测机构核准证,交到浙江石油化工有限公司(以下简称浙石化)负责人手中
2026-02-28 17:09:00
无锡锡山又一高端制造业项目签约落地
新春伊始,锡山新能源汽车产业发展再添新动能。2月27日,总投资5亿元的新能源汽车三电系统关键零部件研发及生产项目举行签约仪式
2026-02-28 14:18:00
华商3.15维权进行时|| 万元iPhone 17 Pro“星宇橙”褪成粉色 消费者遭遇维权难 商家称“外壳不在保修范围”
冲着那一抹独特的“橙”,消费者万元入手IPhone17Pro等机型,却没想到这份橙色的“保质期”仅一个多月就出现褪色。更让消费者无法接受的是
2026-02-28 16:52:00
山东移动滨州分公司:以科技赋能“春满古城·贺岁盛典” 铸就网络保障新典范
鲁网2月28日讯2026年2月10日至23日,无棣古城“春满古城·贺岁盛典”活动期间,滨州移动以“硬核科技+精细服务”双轮驱动
2026-02-28 14:21:00
【宅男财经|专家面对面】国家统计局28日发布《中华人民共和国2025年国民经济和社会发展统计公报》提到,全年完成92次宇航发射
2026-02-28 15:17:00
MWC2026,浩鲸科技发布全新愿景与品牌宣传片
2026年世界移动通信大会(MWC2026)将于3月2日—5日在西班牙巴塞罗那Fira Gran Via展馆盛大启幕。作为全球通信与数字科技领域的年度顶级盛会
2026-02-28 15:31:00
绿色物流新国标发布,安得智联以标准引领行业绿色新征程
近日,国家市场监督管理总局、国家标准化管理委员会正式发布《绿色物流指标构成与核算方法》(GB/T37099—2026)国家标准(以下简称“标准”)
2026-02-28 15:31:00
鲁网2月28日讯春节前夕,“OPC”一词引发热议。当“一人公司”代表着新型创业模式加速照进现实,青岛市崂山区作为全市人工智能产业园所在地和国家人工智能创新应用先导区核心承载区
2026-02-28 15:30:00
临沂联通打造“直播保障专网”护航临沭曹洼大集数字经济新业态
鲁网2月28日讯春节后的临沭曹洼大集更加火爆,吸引着各地游客纷至沓来,农民日报等直播活动轮番上演,更是一度荣登央视,让全国的观众感受这一方的烟火气
2026-02-28 11:23:00
浙江日报讯 (记者 孟琳) 近日,在位于湖州市吴兴区的微仪光电(浙江)有限公司内,技术人员正对超分辨光学显微镜进行调试
2026-02-28 08:44:00