• 我的订阅
  • 科技

强化学习训练一两个小时,自主完成任务:机器人ChatGPT时刻来了?

类别:科技 发布时间:2024-10-30 09:53:00 来源:机器之心Pro

把平均成功率从 50% 拉到了 100%。

最近,AI 的进步有目共睹,现在这些进步已经开始传递到机器人领域。强大的 AI 技术也能帮助机器人更好地理解其所处的物理世界并采取更合理的行动。

近日,UC 伯克利 BAIR 实验室的 Sergey Levine 研究团队提出了一个强化学习框架 HIL-SERL,可直接在现实世界中训练通用的基于视觉的机器人操作策略。HIL-SERL 的表现堪称前所未有的卓越,仅需 1-2.5 小时的训练就能在所有任务上实现 100% 的成功率。要知道,基线方法的平均成功率还不到50%。就算有外部干扰,机器人也能取得很好的表现。

强化学习训练一两个小时,自主完成任务:机器人ChatGPT时刻来了?

论文一作 Jianlan Luo 的推文,他目前正在 UC 伯克利 BAIR 实验室从事博士后研究

强化学习训练一两个小时,自主完成任务:机器人ChatGPT时刻来了?

团队导师 Sergey Levine 也发了推文宣传这项研究,他是一位非常著名的 AI 和机器人研究科学家,曾是 2021 年发表相关论文最多的研究者,参阅机器之心报道《2021 年 ML 和 NLP 学术统计:谷歌断层第一,强化学习大牛 Sergey Levine 位居榜首》

空口无凭,眼见为实,那就先让机器人来煎个蛋吧。

强化学习训练一两个小时,自主完成任务:机器人ChatGPT时刻来了?

在主板上安装一块固态硬盘?机器人也能与人类搭配,轻松完成。

强化学习训练一两个小时,自主完成任务:机器人ChatGPT时刻来了?

插入 USB,问题也不大,看起来比人执行这个操作还流畅,毕竟很多人插 USB 都要对准两三次才能成功。

强化学习训练一两个小时,自主完成任务:机器人ChatGPT时刻来了?

这么好的效果,不禁让人怀疑,这不会是远程操控吧?Nonono!这些任务都是机器人独立完成的,这次人类的角色也不是站在身后发号施令,而是在它旁边捣乱。

对于没有独立思考能力的机器人来说,任务执行起来那是相当死板。一旦目标物体换了一个位置,它们就会迷失方向。但对于采取 HIL-SERL 框架的机器人,就算你强行夺走它手中这根 USB 线,它依然能自动定位,重新完成任务。

强化学习训练一两个小时,自主完成任务:机器人ChatGPT时刻来了?

机器人如何变得如此厉害?下面我们就来看看 UC 伯克利的这项研究。

强化学习训练一两个小时,自主完成任务:机器人ChatGPT时刻来了?

论文标题:Precise and Dexterous Robotic Manipulation via Human-in-the-Loop Reinforcement Learning 论文地址:https://hil-serl.github.io/static/hil-serl-paper.pdf 项目地址:https://hil-serl.github.io/

简而言之,他们设计了一个有人类参与的强化学习框架。在此之前,基于强化学习的技术已经为机器人领域带来了一些技术突破,使机器人已经能够熟练地处理一些简单任务。但是,真实世界环境非常动态多变,而且非常复杂,如果能开发出某种基于视觉的通用方法,必定有助于机器人掌握更加复杂的技能。

这正是该团队做出贡献的地方,他们开发的基于视觉的强化学习系统可以让机器人掌握大量不同的机器人技能。

他们将该系统命名为 Human-in-the-Loop Sample-Efficient Robotic Reinforcement Learning,即有人类参与的样本高效型机器人强化学习,简称 HIL-SERL。

为了解决优化稳定性问题,他们采用了预训练的视觉主干网络来实现策略学习。

为了处理样本复杂性问题,他们利用了基于 RLPD 的样本高效型离策略强化学习算法,该算法还结合了人工演示和校正。

此外,为了确保策略训练期间的安全性,他们还纳入了一个精心设计的低级控制器。

在训练时,该系统会向人类操作员询问潜在的校正,然后以离策略的方式使用这些校正来更新策略。他们发现,这种有人类参与的校正程序可让策略从错误中学习并提高性能,尤其是对于这项研究中考虑的一些难以从头开始学习的任务。

如图 1 所示,该系统可解决的任务纷繁多样,包括动态翻转平底锅中的物体、从积木塔中抽出一块积木、在两个机器臂之间递交物体以及使用一个或两个机械臂组装复杂的设备,例如计算机主板、宜家置物架、汽车仪表板或正时皮带。

强化学习训练一两个小时,自主完成任务:机器人ChatGPT时刻来了?

这些任务复杂而精细,有着动态且高维的动作空间。之前一些研究者甚至认为无法通过强化学习来学习其中一些技能,但 BAIR 这个团队的研究证否了这个说法。

研究和实验表明,他们的系统能在相当短的时间(1-2.5 小时)内在所有这些任务上都实现几近完美的成功率。

使用同样数量的人类数据(演示和校正的数量)时,他们训练的策略远胜过模仿学习方法 —— 成功率平均超过 101%,周期时间平均快 1.8 倍。

这是个具有重大意义的结果,因为其表明强化学习确实可以直接在现实世界中,使用实际可行的训练时间学会大量不同的基于视觉的复杂操作策略。而之前的强化学习方法无法做到这一点。此外,强化学习还能达到超越人类的水平,远远胜过模仿学习和人工设计的控制器。

下面展示了一个超越人类水平的有趣示例:用一根鞭子将一块积木抽打出去,同时保证积木塔整体稳定。很显然,这个任务对大多数人来说都非常困难,但这台机器人通过强化学习掌握了这一技能。

有人类参与的强化学习系统

系统概况

HIL-SERL 系统由三个主要组件组成:actor 过程、learner 过程和位于 learner 过程中的重放缓存。它们都能以分布式的方式运行,如图 2 所示。

强化学习训练一两个小时,自主完成任务:机器人ChatGPT时刻来了?

actor 过程与环境交互的方式是在机器人上执行当前策略,并将数据发送回重放缓存。

环境采用了模块化设计,允许灵活配置各种设备,包括支持多个摄像头、集成 SpaceMouse 等用于远程操作的输入设备。

为了评估任务是否成功,也需要一个奖励函数,而该奖励函数是使用人类演示离线训练的。

在 actor 过程中,人类可使用 SpaceMouse 从强化学习策略接管机器人的控制权,从而干预机器人的行动。

该团队采用了两种重放缓存,一种是为了存储离线的人类演示(演示缓存),另一种则是为了存储在策略数据(RL 缓存)。

learner 过程会从演示缓存和 RL 缓存平等地采样数据,使用 RLPD 优化策略,并定期将更新后的策略发送到 actor 进程。

详细的系统设计选择这里不再赘述,请访问原论文。

有人类参与的强化学习

此前,强化学习理论 (Jin et al., 2018; 2020; Azar et al., 2012; Kearns and Singh, 1998) 已经证明了智能体能学会的难度和它要处理的信息量密切相关。具体来说,状态 / 动作空间的大小、任务的难度,这些变量不断累加,会导致智能体在找到最优策略时所需的样本成倍增加。最终在超过某个阈值时,所需要的样本量过多,智能体实在学不动了,摆烂了,在现实世界中训练 RL 策略也变得不切实际。

为了解决用强化学习训练真实机器人策略的难题,该团队研究后发现,人类反馈很好用 —— 可以引导学习过程,实现更高效的策略探索。具体来说,就是在训练期间监督机器人,并在有必要时进行干预,纠正其动作。如上图 2 所示。

在该系统的设计中,干预数据会被同时存储在演示缓存和 RL 缓存中,但仅有 RL 缓存带有策略转移(即干预前后的状态和动作)。事实证明,这种方法可以提升策略的训练效率。

这种干预在以下情况下至关重要:

策略导致机器人处于不可恢复或不良状态时; 当机器人陷入局部最优状态时 —— 如果没有人工帮助,就可能需要大量时间才能克服。

在训练过程的开始阶段,人类会更频繁地干预以提供正确动作,随着策略的改进,频率会逐渐降低。根据该团队的经验,相比于让机器人自行探索,当人类操作员给出具体的纠正措施时,策略改进速度会更快。

研究团队放出了任务训练过程的完整录像

更具体的训练过程请访问原论文。

实验结果

研究团队选择了七个任务来测试 HIL-SERL。这些任务对应着一系列挑战,比如操纵动态物体(在平底锅中翻煎蛋)、精确操作(插 USB 线)、动态和精确操作相结合(在主板移动时插入组件)、操纵柔性物体(组装正时皮带)、包含多个子任务的多阶段任务(组装宜家书架)。

强化学习训练一两个小时,自主完成任务:机器人ChatGPT时刻来了?

如上表所示,在几乎所有任务上,HIL-SERL 在 1 到 2.5 小时的真实世界训练里达到了 100% 的成功率。这比基线方法 HG-DAgger 的平均成功率 49.7% 有了显著提高。对于抽积木、插入 RAM 条等,这种更复杂的任务,HIL-SERL 的优势就更为明显了。

强化学习训练一两个小时,自主完成任务:机器人ChatGPT时刻来了?

上图中显示了采用 HIL-SERL 方法的机械臂在执行任务时被人工干预的次数。为了便于统计,研究团队计算了每次干预的时步数与单次尝试中的总时步数之比(干预率),并统计了 20 次实验的动态平均值。从图表中不难看出,干预率随着训练逐渐降低。这表明 HIL-SERL 策略会不断优化,越来越不需要人类操心了。

同时,人工干预的总时长也大幅度减少。策略不成熟时,机械臂犯错,需要花较长时间纠正,随着 HIL-SERL 不断完善,较短的干预就足以减少错误。相比之下,HG-DAgger 需要更频繁的干预,亦不会因为策略逐渐完善减少犯错的次数。

强化学习训练一两个小时,自主完成任务:机器人ChatGPT时刻来了?

上图展示了 HIL-SERL 的零样本鲁棒性。这证明新提出的策略能够让机器人灵活地适应即时变化,有效地处理外部干扰。

比如有人故意地松开了齿轮上的皮带,受 HIL-SERL 指导的两个机械臂,一个把皮带放回了原位,另一个配合着把滑轮恢复到了适当的位置。

强化学习训练一两个小时,自主完成任务:机器人ChatGPT时刻来了?

在两个机械臂对接时,研究人员有意让其中一个机械臂「失误」,放开了手中的物体。在 HIL-SERL 的加持下,两个机械臂自主分工合作,又恢复了搬运物体的平衡。

强化学习训练一两个小时,自主完成任务:机器人ChatGPT时刻来了?

https://x.com/jianlanluo/status/1850902348010557453

https://x.com/svlevine/status/1850934397090078948

以上内容为资讯信息快照,由td.fyun.cc爬虫进行采集并收录,本站未对信息做任何修改,信息内容不代表本站立场。

快照生成时间:2024-10-30 11:45:10

本站信息快照查询为非营利公共服务,如有侵权请联系我们进行删除。

信息原文地址:

机器人迈向ChatGPT时刻!清华团队首次发现具身智能Scaling Laws
...in.com想象这样一个场景:你正在火锅店和朋友畅聊,一个机器人熟练地为你倒饮料、端菜,完全不需要你分心招呼服务员。这个听起来像科幻的场景,已经被清华大学交叉信息院的研究者们
2024-11-04 09:52:00
具身智能GPT-2时刻!国内公司做出全球最大端到端统一具身大模型
... (PI) 的一系列报道,让人们关注到具身智能大模型引发的机器人时代变革。目光转回国内,我们同样在中国公司中发现了这场变革浪潮的先行者。据机器之心了解,国内初创公司自变量机器
2024-11-08 09:48:00
机器人又拿下一种家务:10小时学会煮咖啡,仅需观看人类演示视频
上周斯坦福炒虾机器人炸场之后,又火了一个煮咖啡机器人。它的厉害之处在于通过观看人类的示范视频,仅需10小时端到端训练,就能学会并完全自主搞定这一任务。当然,更准确地来说是操作咖啡
2024-01-08 13:55:00
北大推出全新机器人多模态大模型!面向通用和机器人场景的高效推理和操作
...。本工作第二作者为刘梦真,研究方向为视觉基础模型与机器人操纵。指导老师为仉尚航,北京大学计算机学院研究员、博士生导师、博雅青年学者。从事多模态大模型与具身智能研究,取得了一系
2024-06-21 09:52:00
机器人训练数据不缺了!英伟达团队推出DexMG:数据增强200倍
...成系统DexMimicGen。该系统可基于少量人类演示,合成类人机器人的灵巧手运动轨迹,解决了训练数据集的获取难题,而且还提升了实验中机器人的表现。要知道,大规模、优质的机器
2024-11-23 09:44:00
AIGC+机器人=具身智能?硅谷最酷的两个男人不谋而合 A股预演“下个浪潮”
新的AI题材层出不穷,这次轮到“机器人+AI”融合而成的具身智能概念。“硅谷钢铁侠”马斯克和热爱黑色皮衣的“显卡教父”黄仁勋均作出积极表态,可谓不谋而合。当地时间5月16日, 特
2023-05-18 19:00:00
清华全球最大双臂机器人扩散大模型RDT,懂调酒能遛狗,登顶热榜
...证了 RDT 大模型的诞生,它就像 “小脑” 一样负责控制机器人的运动。同行看后纷纷表示:有了十亿参数的 RDT
2024-10-21 09:55:00
GR-2登场!ByteDance Research提出机器人大模型,具备世界建模
最近,ByteDance Research 的第二代机器人大模型 —— GR-2,终于放出了官宣视频和技术报告。GR-2 以其卓越的泛化能力和多任务通用性
2024-10-10 09:57:00
比“狗屁工作”更可怕的,是没有工作
...牲的生命构成的巨大而且正在变得更大的贫民窟,与智能机器人和亿万富翁构成的资本主义先锋之间不断扩大的鸿沟。只需要轻轻点击一下鼠标,就把野蛮和崇高捆绑在了一起。“人工的人工智能”
2023-09-05 14:27:00
更多关于科技的资讯:
合作再升级 阿维塔完成向华为115亿投资支付
阿维塔给华为打了34.5亿,这是第三笔投资款,算下来阿维塔前后一共给了115亿,现在这笔钱全付清了,这意味着阿维塔正式拿到了华为引望10%的股份
2025-10-10 12:16:00
记者10月9日获悉,国家发展改革委、市场监管总局近日发布《关于治理价格无序竞争维护良好市场价格秩序的公告》,提出在保护经营者自主定价权的前提下
2025-10-10 12:20:00
中新经纬10月10日电 题:京东为啥也要卖咖啡?作者 朱丹蓬 广东省食品安全保障促进会副会长、中国食品产业分析师随着消费者对“即买即得”需求的日益增长
2025-10-10 12:23:00
虎鲸文娱发布《2025国庆假期文娱消费报告》票房火热 大屏“圈粉”南报网讯(记者鲁舒婷)10月8日,虎鲸文娱发布的《2025国庆假期文娱消费报告》(以下简称《报告》)显示
2025-10-10 07:32:00
名创优品MINISO深耕IP战略:岭南骑楼店开业首日引爆Z世代消费热潮
2025年8月17日,名创优品MINISO LAND华南首店于广州北京路步行街正式开业。该店以百年岭南骑楼为空间载体,融合超过100个全球热门IP
2025-10-09 11:15:00
荣耀Magic8系列发布会官宣定档10月15日
10月9日,荣耀官方正式宣布,主题为“开新局・见未来”的荣耀 Magic8 系列暨 Magic OS10 发布会将于10 月15日正式举行
2025-10-09 11:30:00
局部降水量80毫米以上!10—14日烟台市将有持续连阴雨天气
齐鲁晚报·齐鲁壹点 周宣刚10月7日10时,烟台市气象局发布10—14日连阴雨天气预报和大风警报。受高空槽东移和暖湿气流输送北上的水汽影响
2025-10-09 11:31:00
权威发布, 福瑞达颐莲品牌价值评估突破120亿
2025年9月25日,在中国香料香精化妆品工业协会主办的“2025中国香妆品牌价值大会”上,福瑞达生物股份旗下颐莲品牌凭借卓越的市场表现与品牌影响力
2025-10-09 11:32:00
持续创新高!高德扫街榜上线23天用户超4亿
这个国庆黄金周,高德APP和高德扫街榜正在持续创新高——10月3日,高德扫街榜宣布:上线仅23天,累计用户超4亿。10月1日
2025-10-09 11:33:00
国庆中秋,大马再掀中餐热潮!“鱼你速度”树出海标杆!
国庆中秋双节期间,马来西亚再度掀起中餐热潮!以“鱼你在一起”为代表的中餐连锁品牌,在当地各大商圈持续引爆消费热情。“6个月
2025-10-09 11:34:00
开启商超智慧储鲜,澳柯玛新品冷柜让食材更鲜活
鲁网10月9日讯当社区团购爆单时冰柜塞不下?当生鲜进货量太大冻不透?当网红雪糕因串味被迫贱卖?针对这些让商超、饭馆等用户抓狂的痛点
2025-10-09 11:40:00
鸡排哥8天假期涨粉超40万,节前已成立工作室,10月9日休息一天
10月8日,江西景德镇鸡排哥在个人社交账号发布一则视频,向全国各地来到家乡景德镇游玩和打卡买鸡排的游客表示感谢。鸡排哥表示近期天气炎热
2025-10-09 12:09:00
大疆部分产品直降千元!消费者炸锅,官方回应
10月8日,大疆在官网提前挂出“双十一”促销信息,多款产品价格直降数百至上千元。此次降价幅度较大。从几百元到几千元不等
2025-10-09 13:45:00
单日游客最高突破6.9万人次 忠县橘若·忠州渡接住“泼天流量”
这个国庆假期,重庆忠县江畔的橘若·忠州渡结结实实地“火”出了圈,八天揽客30余万人次,游客单日最高接待量突破6.9万人次
2025-10-09 13:57:00
谷子科技“智慧票根”创新亮相2025和平精英PEL运动会
10月7日,由谷子科技集团、和平精英职业联赛(PEL)与腾讯音乐娱乐集团联合出品,腾讯音乐娱乐集团与安徽易趣网络科技有限公司承办
2025-10-09 14:01:00