• 我的订阅
  • 科技

清华全球最大双臂机器人扩散大模型RDT,懂调酒能遛狗,登顶热榜

类别:科技 发布时间:2024-10-21 09:55:00 来源:机器之心Pro

清华全球最大双臂机器人扩散大模型RDT,懂调酒能遛狗,登顶热榜

今天,世界见证了 RDT 大模型的诞生,它就像 “小脑” 一样负责控制机器人的运动。

同行看后纷纷表示:有了十亿参数的 RDT ,智能机器人时代不远矣!去酒吧点 RDT 调酒师,赛博朋克感瞬间拉满。

清华全球最大双臂机器人扩散大模型RDT,懂调酒能遛狗,登顶热榜

在领略了 RDT 的强大后,是时候揭开它的神秘面纱了 —— RDT 的全称是 Robotics Diffusion Transformer,是全球最大的针对双臂机器人操作任务的扩散基础模型,由清华大学人工智能研究院 TSAIL 团队构建。

当前,机器人领域公认的卡脖子问题是 “不够智能”。许多模型需要人教几十遍才能完成单个任务,面对没教过的情况则 “束手无策”。

而 RDT 正是这个 “智能困境” 的破壁者之一。它为 ALOHA 硬件本体植入了 “小脑”,使其能摆脱人类的操控,自主完成没见过的任务。RDT 将 “小模型” 扩展为 “大模型”,从 “单臂” 变为 “双臂”,是目前运动控制水平最接近人类的机器人小脑之一。

更惊喜的是,清华团队已将 RDT 的代码、模型,甚至训练它的双臂数据集彻底开源。他们坚信,开源 RDT 能极大加速机器人研发和产业化进程。

清华全球最大双臂机器人扩散大模型RDT,懂调酒能遛狗,登顶热榜

项目主页:https://rdt-robotics.github.io/rdt-robotics 论文链接:https://arxiv.org/pdf/2410.07864 论文标题:RDT-1B: a Diffusion Foundation Model for Bimanual Manipulation

值得注意的是,目前 RDT 在世界最大的开源模型平台 —— HuggingFace 上的机器人榜单「热度排名第一」。

清华全球最大双臂机器人扩散大模型RDT,懂调酒能遛狗,登顶热榜

在 RDT 模型的加持下,双臂机器人成功挑战 7 项高难度任务,平均成功率上比当前最好的模型还要惊人地高出 56%。

让我们一起来看看,有了 RDT,双臂机器人还能解锁哪些高阶特征吧。

效果展示

1. 灵巧操作:“机器人遛狗” 竟成现实

起猛了,发现机器人能遛机器狗了?

在 RDT 的指挥下,机器人能灵巧地握住长度不到 2cm 的迷你摇杆,控制机器狗走出完美直线。

清华全球最大双臂机器人扩散大模型RDT,懂调酒能遛狗,登顶热榜

清华全球最大双臂机器人扩散大模型RDT,懂调酒能遛狗,登顶热榜

而如果把 RDT 换成其他模型,就会导致机器狗会走弯路、甚至见墙就撞。

没办法,控制精度不足!

清华全球最大双臂机器人扩散大模型RDT,懂调酒能遛狗,登顶热榜

2. 指令遵循:善解人意的倒水大师

RDT 能充分理解并遵循人类的语言指令。

倒水大师 RDT,让倒 1/3 的水就倒 1/3 的水,让倒 2/3 就倒 2/3,简直分毫不差!

值得一提的是,RDT 从未见过 1/3 这个词,也就是说,没有人给 RDT 演示过 1/3 的水应该怎么倒。

RDT 完全是凭借自己的泛化性,准确地理解了 “1/3” 这个量词和现实世界中 1/3 水位高度之间的对应关系。

清华全球最大双臂机器人扩散大模型RDT,懂调酒能遛狗,登顶热榜

清华全球最大双臂机器人扩散大模型RDT,懂调酒能遛狗,登顶热榜

与之相对,其他模型会指挥机器人倒得过多或过少,甚至尴尬洒水。

清华全球最大双臂机器人扩散大模型RDT,懂调酒能遛狗,登顶热榜

清华全球最大双臂机器人扩散大模型RDT,懂调酒能遛狗,登顶热榜

3. 未见物体与场景:自信地与未知共舞

谁说人类才是唯一能适应环境变化的智能体?RDT 也能轻松做到。

清洗以前从没见过的杯子、在多个装饰完全不同的房间中端茶倒水...

变换任务对象和环境都难不倒它。

清华全球最大双臂机器人扩散大模型RDT,懂调酒能遛狗,登顶热榜

清华全球最大双臂机器人扩散大模型RDT,懂调酒能遛狗,登顶热榜

清华全球最大双臂机器人扩散大模型RDT,懂调酒能遛狗,登顶热榜

清华全球最大双臂机器人扩散大模型RDT,懂调酒能遛狗,登顶热榜

4. 少样本学习:一点就通的高材生

更厉害的是,RDT 有很强的领悟力,是机器人模型中的“学霸”。

教会 RDT 叠衣服仅需演示 1 遍,而其他模型要重复教几十遍才能勉强学会。

清华全球最大双臂机器人扩散大模型RDT,懂调酒能遛狗,登顶热榜

清华全球最大双臂机器人扩散大模型RDT,懂调酒能遛狗,登顶热榜

初识 RDT:Scaling Law 魅力时刻

相比其他机器人模型,为什么 RDT 能做到如此智能?相比同行最优水准领先多少?

三个 “最大” 是 RDT 实现智能飞跃的秘密:

在机器人扩散模型中,RDT 拥有目前「最大的模型参数量」,高达 1.2B。比之前由谷歌、Deepmind 等牵头研发的最大的具身扩散模型(八爪鱼,Octo,93M)还要大一个数量级。 RDT 在「最大的具身数据集」上预训练。预训练数据集包含 46 个不同的机器人数据集,总共有超过 100 万条人类演示数据。模型在 48 块 H100 显卡上预训练了 1M 步。 RDT 拥有目前「最大的双臂微调数据集」。清华团队构建了包括 300+ 任务和 6K+ 条演示的数据集。与之对比,先前由斯坦福、MIT 等领衔研发的具身大模型 OpenVLA 的微调数据集仅有几百条演示。

解密 RDT:从问题与挑战讲起

在大多数情况,人们会在日常生活中使用双手。机器人如果能像人一样挥动双臂,显然更灵活,也更能帮助人类。

但是,目前的双臂机器人距离落地还有一段路要走,根本原因是双臂的人类演示数据匮乏,“巧妇难为无米之炊”,而且模型泛化能力不足,不能“举一反三”。

为了解决这个问题,一种通常的做法是,利用多种不同机器人的数据,训练一个可泛化的「大模型」。

但这又会带来两个新的挑战:

一是,在机器人领域,缺乏一个像 GPT 一样的通用、强大的「模型架构」。

它不仅需要能学会各种的动作模式(modality),还需要具备可扩展性(scalability)。换言之,扩大模型的参数量,它的性能也要跟着一起涨。

二是,在之前的研究中,尚没有一个公认的在多种机器人数据上训练的方案。

这主要是因为不同机器人的硬件结构和传感器不同,进而导致数据的格式五花八门,难以进行统一的处理。

在本文中,研究者通过提出创新型的多模态模型架构,以及统一的物理可解释动作空间,来解决这些挑战。

设计 RDT:双臂机器人操作的新架构

「模仿学习」是当前开发通用机器人模型的主流方法。即机器人通过模仿人类的演示来学习各种各样的技能,比如擦桌子和倒水等。

然而,人类的动作模式千变万化,就连抓起一个方块都有好几种做法(见下图)。

清华全球最大双臂机器人扩散大模型RDT,懂调酒能遛狗,登顶热榜

为了能学会多样的动作模式,研究者采用扩散模型(diffusion model)来进行建模。

图 3 描绘了 RDT 的整体架构,接下来我们逐一进行介绍。

清华全球最大双臂机器人扩散大模型RDT,懂调酒能遛狗,登顶热榜

首先是多模态输入的编码。

对于一个具体的机器人任务,模型在收到人类发出的语言指令后,需要结合自己的视觉观察,来预测完成任务所需的机械臂动作(action)。

这里就涉及到了语言、图片和动作三种模态。

动作具有低维度和高频的特点。研究者采用具有傅里叶特征的多层感知机(MLP)来进行编码。 图片具有高维度的特点,同时含有丰富的空间和语义信息。研究者采用经过对齐的 SigLIP 进行编码。 语言具有变长的特点,并且高度抽象。研究者采用一个具有丰富知识的语言大模型 —— T5-XXL 来进行编码。

此外,不同模态包含的信息量不尽相同。

咱们人都喜欢看信息量大的图而不喜欢看信息量小的文字。其实模型也一样。

为了避免模型 “偷懒”,只看信息量大的模态,在训练中,研究者会以一定概率随机遮蔽(mask)各个模态。

接下来介绍具体的网络结构。

为了保证可扩展性,研究者选择 Transformer 作为骨干网络,并做出如下关键修改:

由于传感器失灵等原因,机器人数据中往往会出现极端值。这种极端值可能导致梯度不稳定和数值溢出等问题。研究者采用更加先进的 QKNorm 和 RMSNorm 来进行缓解。 机器人的动作往往符合非线性动力学的物理规律。为了增强对非线性的近似能力,研究者将最终层的线性解码器替换为非线性的 MLP 解码器。 图像的维度通常远高于文本的维度。同时将这两种模态注入到主干网络中时,往往图像会淹没文本,从而削弱模型的指令遵循能力。为此,研究者采取了交替注入的方式。

训练 RDT:预训练与微调相结合

为了在多种机器人数据上进行预训练,研究者需要对数据格式进行统一。

具体来说,研究者构建了一个统一的动作空间(如图 3 左侧所示)。

该空间的每个维度具有明确的物理含义,以保证模型能够从不同机器人数据中学习到共享的物理规律。

在有了统一数据格式后,研究者就能将所有不同类型的机器人数据汇聚在一起,形成了目前最大的数据集,其包含超过 100 万条演示。

正因为在如此大的数据集上进行预训练,RDT 获得了无与伦比的泛化性。

最后,研究者还采集了目前质量最高的双臂微调数据集,用来微调 RDT 以增强其双臂操作能力。

该数据集具有如下特点:

数量大:6K+ 演示数据。 范围全:300+ 任务,从简单的抓取到精细操作,甚至包括黑板上解数学题一类的高难度操作。 多样性:100+ 不同类型的物体,15+ 不同的房间以及光照条件。

测试 RDT:泛化性与操作精度并举

该团队设计了 7 个挑战性任务,从不同维度评估 RDT 的泛化能力和操作精度。

对于清洗杯子的任务,需要双手协调和物体泛化性。

具体来说,机器人需要拿起未见过的杯子,用另一只手打开水龙头,清洗杯子,倒干净杯中的水,并关闭水龙头。

这个任务对于单臂机器人来说几乎无法完成。

清华全球最大双臂机器人扩散大模型RDT,懂调酒能遛狗,登顶热榜

对于遥控机器狗,需要双手协调和极高的操作精确性。

机器人需要用一只手抓住遥控器,并用另一只手推动遥杆控制机器狗向前。

这项任务比洗杯子的精度要求更高,因为迷你摇杆的长度不到 2cm,且稍有偏移机器狗就会 “走弯路”。

清华全球最大双臂机器人扩散大模型RDT,懂调酒能遛狗,登顶热榜

对于倒水任务,模型需要能泛化到未见过的环境与语言指令,并理解用户要求,倒水至特定水位。

清华全球最大双臂机器人扩散大模型RDT,懂调酒能遛狗,登顶热榜

而对于传递物体和叠裤子的任务,仅给少量演示(1 - 5 条),RDT 就需要学会一个全新的技能。

清华全球最大双臂机器人扩散大模型RDT,懂调酒能遛狗,登顶热榜

实验评估(结果见表 3)中,研究者主要回答以下问题:

Q: RDT 能否对未见的物体和场景实现零样本(Zero-Shot)泛化?并遵循未见过的自然语言指令?

A:可以。在洗杯子(Wash Cup)和倒水(Pour Water)任务中,RDT 对未见场景和物体仍能达到较高成功率,其表现与见过的情况相差不大。

在 Pour Water-L-1/3 和 Pour Water-R-2/3 任务中,RDT 精确地理解了应该用哪只手操作、倒多少水,并能够严格遵循指令,即便它从未见过类似 “三分之一” 或 “三分之二” 这样的词汇。

Q:RDT 能否仅通过少量演示就学会新的技能?

A:可以。在物品传递(Handover)和折叠短裤(Fold Shorts)任务中,对于两个与已知动作模式完全不同的全新技能,RDT 仅分别通过 1 和 5 条演示的训练就轻松掌握,而其他方法几乎无法成功。

Q:RDT 是否能够完成需要精细操作的任务?

A:可以。在遥控机器狗(Robot Dog)任务中,RDT 在推动操纵杆时准确控制了角度,而其他模型会导致机器狗发生偏离。

清华全球最大双臂机器人扩散大模型RDT,懂调酒能遛狗,登顶热榜

Q:扩散建模、大模型以及大数据是否有助于提升 RDT 的性能?

A:是的。如表 2 所示,研究人员对三者分别进行了消融实验,结果表明缺少任何一者都会带来极大的性能损失。

特别地,仅用双臂数据训练的 RDT (scratch) 在未见物体和场景上表现极差,这表明预训练中学会的知识对于泛化性至关重要。

清华全球最大双臂机器人扩散大模型RDT,懂调酒能遛狗,登顶热榜

关于作者

该工作有两位共同一作。一位是清华大学计算机系的二年级博士生刘松铭,主要研究方向是具身智能和 AI for Science,此前在 ICML 和 NeurIPS 等顶级会议发表多篇论文,曾获清华大学本科生特等奖学金。

清华全球最大双臂机器人扩散大模型RDT,懂调酒能遛狗,登顶热榜

另一位是清华大学计算机系的二年级博士生吴凌轩,目前主要研究方向是人工智能安全和具身智能,此前在 ICLR 发表过论文。

清华全球最大双臂机器人扩散大模型RDT,懂调酒能遛狗,登顶热榜

论文团队

该项目的团队是清华大学计算机系 TSAIL 课题组,团队在扩散模型的基础理论和关键技术方面有长期的积累,提出了首个扩散模型与 Transformer 融合的架构 U-ViT,联合研制了全球首个性能全面对标 Sora 的视频大模型 Vidu,部分成果获国际表示学习大会(ICLR 2022)杰出论文奖,被华为、OpenAI、苹果、Stable Diffusion 等国内外领军企业的文生图大模型采用。特别的,TSAIL 团队在国际上率先提出 “扩散策略 “概念,并长期进行 “扩散策略” 构建算法研究,在 ICLR/NeurIPS/ICML 等顶级国际会议上连续发表了多篇相关研究工作 [1-4],包括扩散策略模型动作重采样方法 SfBC,奖励函数引导采样算法 CEP,高效扩散策略梯度蒸馏算法 SRPO,扩散策略对齐算法 EDA 等。

参考文献

[1] Huayu Chen, Cheng Lu, Chengyang Ying, Hang Su, and Jun Zhu. Offline Reinforcement Learning via High-Fidelity Generative Behavior Modeling. In International Conference on Learning Representations (ICLR), 2023.

[2] Cheng Lu, Huayu Chen, Jianfei Chen, Hang Su, Chongxuan Li, and Jun Zhu. Contrastive Energy Prediction for Exact Energy-Guided Diffusion Sampling in Offline Reinforcement Learning. In International Conference on Machine Learning (ICML), 2023.

[3] Huayu Chen, Cheng Lu, Zhengyi Wang, Hang Su, and Jun Zhu. Score regularized policy optimization through diffusion behavior. In International Conference on Learning Representations (ICLR), 2024.

[4] Huayu Chen, Kaiwen Zheng, Hang Su, Jun Zhu. Aligning Diffusion Behavior with Q-function for Efficient Continuous Control. In Annual Conference on Neural Information Processing Systems (NeurIPS), 2024.

[5] Cheng Chi, Siyuan Feng, Yilun Du, Zhenjia Xu, Eric Cousineau, Benjamin Burchfiel, and Shuran Song. Diffusion policy: Visuomotor policy learning via action diffusion. In Proceedings of Robotics: Science and Systems (RSS), 2023.

[6] Fan Bao, Shen Nie, Kaiwen Xue, Yue Cao, Chongxuan Li, Hang Su, and Jun Zhu. All are worth words: A vit backbone for diffusion models. In Proceedings of the IEEE/CVF conference on computer vision and pattern recognition, pp. 22669–22679, 2023.

[7] Zipeng Fu, Tony Z Zhao, and Chelsea Finn. Mobile aloha: Learning bimanual mobile manipulation with low-cost whole-body teleoperation. arXiv preprint arXiv:2401.02117, 2024.

[8] Moo Jin Kim, Karl Pertsch, Siddharth Karamcheti, Ted Xiao, Ashwin Balakrishna, Suraj Nair, Rafael Rafailov, Ethan Foster, Grace Lam, Pannag Sanketi, et al. Openvla: An open-source vision-language-action model. arXiv preprint arXiv:2406.09246, 2024.

[9] Hao-Shu Fang, Hongjie Fang, Zhenyu Tang, Jirong Liu, Junbo Wang, Haoyi Zhu, and Cewu Lu. Rh20t: A robotic dataset for learning diverse skills in one-shot. In RSS 2023 Workshop on Learning for Task and Motion Planning, 2023.

[10] Team, O. M., Ghosh, D., Walke, H., Pertsch, K., Black, K., Mees, O., ... & Levine, S. (2024). Octo: An open-source generalist robot policy. arXiv preprint arXiv:2405.12213.

[11] https://mp.weixin.qq.com/s/L-4oxWuiOht1d3Cx_cI8Yw

以上内容为资讯信息快照,由td.fyun.cc爬虫进行采集并收录,本站未对信息做任何修改,信息内容不代表本站立场。

快照生成时间:2024-10-21 12:45:01

本站信息快照查询为非营利公共服务,如有侵权请联系我们进行删除。

信息原文地址:

北京,冲刺人形机器人第一城
今年,人形机器人仿佛被按下了加速器!27款人形机器人扎堆亮相,跳舞、书法、做咖啡样样全能;数十笔亿元大额融资涌向人形机器人,银河通用7亿元拿下上半年最大额天使轮;明星玩家的人形机
2024-09-24 14:21:00
成立半年拿到超亿元天使轮融资,星动纪元专注研发具身智能人形机器人|硬氪首发
作者 | 周倩编辑 | 彭孝秋硬氪获悉,人形机器人研发公司「星动纪元」获超亿元天使轮融资,由联想创投领投,金鼎资本、清控天诚跟投,老股东世纪金源超额追投,华兴资本担任本次融资独家
2024-01-10 09:54:00
Cyan 青心意创“全面拟人”机器人 Orca Ⅰ 发布
...创(原“青心创新 / 萨恩异创”)于昨日发布了通用人形机器人 OrcaⅠ。Cyan 青心意创展示了 OrcaⅠ 在“拟人直膝”状态下的行走
2024-11-01 09:19:00
●多模态使人形机器人能融合图像、语义、力感知、环境感知等多种因素,综合判断、生成任务并执行任务,是让人形机器人具有自主思考能力的关键核心技术●标志着成都在我国多模态模型应用于人形
2024-08-13 06:37:00
游族网络旗下具身智能公司获新一轮融资,米哈游也布局该赛道
...以下简称“游族网络”)宣布,其参股公司上海星云智慧机器人有限公司(以下简称“星云智慧机器人”)拟进行金额为2000万元人民币的新一轮融资
2024-10-07 23:33:00
人形机器人组团“十八金刚”各类AI助手工具百花齐放
...能大会上,展馆入口处有“十八金刚 众创未来——人形机器人先锋阵列”。小朋友在展会现场与机器人“元萝卜”下象棋。2024世界人工智能大会,一家人工智能公司推出的“具身智能本体”
2024-07-13 09:49:00
5年投资超1000亿,北京公布一系列AI重磅成果,北大清华百度蚂蚁微软大佬齐谈AI未来|钛媒体AGI
中关村国际创新中心咨询台机器人小柒(图片来源:钛媒体App编辑拍摄)钛媒体App获悉,4月27日,2024中关村论坛年会首次举办“人工智能主题日”,包括在未来人工智能先锋论坛、通
2024-04-28 11:00:00
机器人迈向ChatGPT时刻!清华团队首次发现具身智能Scaling Laws
...in.com想象这样一个场景:你正在火锅店和朋友畅聊,一个机器人熟练地为你倒饮料、端菜,完全不需要你分心招呼服务员。这个听起来像科幻的场景,已经被清华大学交叉信息院的研究者们
2024-11-04 09:52:00
申城“创新因子”持续释放新动能
...医”协同创新的加速度。走进医用机器研究所,术锐手术机器人正在完成一台“手术”——为鹌鹑蛋剥壳,同时还不能撕破蛋膜。剥蛋其实只是“副业”,这一自主研发的机器人是世界上首套单孔腔
2024-05-27 06:17:00
更多关于科技的资讯: