• 我的订阅
  • 科技

让机器人拥有人一样潜意识,英伟达1.5M小模型就能实现通用控制了

类别:科技 发布时间:2024-11-01 09:28:00 来源:机器之心Pro
让机器人拥有人一样潜意识,英伟达1.5M小模型就能实现通用控制了

当机器人也有潜意识。

大模型固然性能强大,但限制也颇多。如果想在端侧塞进 405B 这种级别的大模型,那真是小庙供不起大菩萨。近段时间,小模型正在逐渐赢得人们更多关注。这一趋势不仅出现在语言模型领域,也出现在了机器人领域。

昨天晚上,朱玉可和 Jim Fan 团队(英伟达 GEAR 团队)新鲜发布了他们的最新研究成果 HOVER。这是一个仅有 1.5M 参数的神经网络,但它足以控制人形机器人执行多种机体运动。

先来看看效果,将 HOVER 在不同模式下控制的机器人放到一起组成阵列,其中每一台机器人都有自己的控制模式。还挺壮观的!这也佐证了 HOVER 的通用性。你能看出它们的不同之处吗?

无论是 H2O 模式、OmniH2O Mode 模式、还是 ExBody 模式 、HumanPlus 模式,左手和右手的慢动作都直接被 HOVER 大一统了。

让机器人拥有人一样潜意识,英伟达1.5M小模型就能实现通用控制了

实际上,HOVER 就是一个通用型的人形机器人控制器。

让机器人拥有人一样潜意识,英伟达1.5M小模型就能实现通用控制了

HOVER 一作 Tairan He(何泰然)的推文,他是 CMU 机器人研究所的二年级博士生,还是个有 38 万多粉丝的 B 站 up 主(WhynotTV)

据介绍,HOVER 的设计灵感来自人类的潜意识。人类在行走、保持平衡和调整四肢位置时都需要大量潜意识的计算,HOVER 将这种「潜意识」能力融合进了机器人。这个单一模型可以学习协调人形机器人的电机,从而实现运动和操控。

让机器人拥有人一样潜意识,英伟达1.5M小模型就能实现通用控制了

Jim Fan 的推文

让机器人拥有人一样潜意识,英伟达1.5M小模型就能实现通用控制了

论文标题:HOVER: Versatile Neural Whole-Body Controller for Humanoid Robots 论文地址:https://arxiv.org/pdf/2410.21229 项目地址:https://hover-versatile-humanoid.github.io/

HOVER 的训练使用了 NVIDIA Isaac,这是一个由 GPU 驱动的模拟套件,可将物理加速到实时的 1 万倍。按 Jim Fan 的比喻就是说,只需在一张 GPU 卡上运算大概 50 分钟,机器人就像是在虚拟「道场」中经历了一整年的密集训练。

然后,无需微调,就可以将这个神经网络以零样本方式迁移到真实世界。

HOVER 可以接收多种高级运动指令,即所谓的「控制模式(control mode)」,比如:

头部和手部姿势,可通过 Apple Vision Pro 等增强现实设备捕捉; 全身姿势,可通过 MoCap 或 RGB 相机; 全身关节角度:外骨骼; 根速度命令:操纵杆。

让机器人拥有人一样潜意识,英伟达1.5M小模型就能实现通用控制了

这项研究的贡献包括:

一个统一的界面,可让控制者使用任何方便的输入设备来控制机器人; 一种更简单的全身远程操作数据收集方法; 一个上游的视觉 - 语言 - 动作模型,可用于提供运动指令,之后 HOVER 会将其转换为高频的低级运动信号。

让机器人拥有人一样潜意识,英伟达1.5M小模型就能实现通用控制了

用户人形机器人控制的命令空间设计

对于腿部运动,根速度或位置跟踪是常用的命令空间。然而,仅仅关注根跟踪会限制人形机器人的全部能力,尤其是对于涉及全身运动的任务。

该团队研究了之前的工作,发现它们提出了一些各不一样的控制模式,并且每种模式通常都是针对某些特定的任务,因此缺乏通用人形机器人控制所需的灵活性。

而该团队的目标是设计一个全面的控制框架,以适应多种多样的场景和各种不同的人形机器人任务。为此,在构建命令空间时,必须满足以下关键标准:

通用性:命令空间应包含大多数现有配置,允许通用控制器替换针对特定任务的控制器,同时还不会牺牲性能或多功能性。并且该空间应具有足够的表现力,以便与现实世界的控制设备交互,包括操纵杆、键盘、动作捕捉系统、外骨骼和虚拟现实 (VR) 头设,如图 1 所示。 原子性:命令空间应由独立的维度组成,从而能够任意组合控制选项以支持各种模式。

让机器人拥有人一样潜意识,英伟达1.5M小模型就能实现通用控制了

基于这些标准,该团队定义了一个用于人形机器人全身控制的统一命令空间。该空间由两个主要控制区域组成 —— 上身和下身控制 —— 并包含三种不同的控制模式:

运动位置跟踪:机器人上关键刚体点的目标 3D 位置; 局部关节角度跟踪:每个机器人电机的目标关节角度; 根跟踪:目标根速度、高度和方向,由滚动、俯仰和偏航角指定。

在如图 1 所示的框架中,该团队引入了一个 one-hot 掩码向量来指定激活命令空间的哪些组件,以便后面跟踪。

如表 1 所示,可以将其它基于学习的人形全身控制的最新研究看作是新提出的统一命令空间的子集,其中每项研究都代表特定的配置。

让机器人拥有人一样潜意识,英伟达1.5M小模型就能实现通用控制了

运动重定向

近期有研究表明,如果学习的运动数据集很大,学习到的人形机器人全身运动控制策略就会更加稳健。

为了获得大型数据集,可将人类运动数据集重定向成人形机器人运动数据集,这个过程分为三步:

1. 使用正向运动学(forward kinematics)计算人形机器人的关键点位置,将其关节配置映射成工作空间坐标。

2. 拟合 SMPL 模型以匹配人形机器人的运动学,做法是优化 SMPL 参数以与正向运动学计算得到的关键点对齐。

3. 使用梯度下降来匹配已经拟合的 SMPL 模型和人形机器人之间的对应关键点,重定向 AMASS 数据集。

让机器人拥有人一样潜意识,英伟达1.5M小模型就能实现通用控制了
让机器人拥有人一样潜意识,英伟达1.5M小模型就能实现通用控制了
让机器人拥有人一样潜意识,英伟达1.5M小模型就能实现通用控制了

例如,在某些情况下,上半身可能只跟踪手的运动位置,而下半身只跟踪躯干的关节角度。模式和稀疏二元掩码的每一比特都来自伯努利分布 (0.5)。模式和稀疏掩码在事件情节(episode)开始时是随机的,并保持固定,直到该情节结束。

让机器人拥有人一样潜意识,英伟达1.5M小模型就能实现通用控制了

实验

研究团队针对以下问题,在 IsaacGym 和 Unitree H1 机器人上开展了广泛的实验:

Q1: HOVER 这个通用策略能比那些只针对特定指令训练的策略表现得更好吗? Q2: HOVER 能比其他训练方法更有效地训练多模态仿人机器人控制器吗? Q3: HOVER 能否在真实世界的硬件上实现多功能多模态控制?

与专家策略的对比

该团队在不同控制模式下比较了 HOVER 和相应专家策略的表现。以 ExBody 模式为例,研究团队加入了固定的掩码,让 HOVER 和整个数据集 Q 中的 ExBody 模式可比。

让机器人拥有人一样潜意识,英伟达1.5M小模型就能实现通用控制了

如表 III 和图 3 所示,HOVER 展现出了优越的泛化能力。在每一种指令模式中,HOVER 在至少 7 个指标上超越了之前的专家控制器(表 III 中用粗体值突出显示)。同时,这也意味着即使只关注单一控制模式,从专家策略中提取的策略也比通过强化学习训练出的专家更强。

让机器人拥有人一样潜意识,英伟达1.5M小模型就能实现通用控制了

与通用训练方法的对比

研究团队在八种不同的模式下测量了 HOVER 在跟踪局部和全身位置方面的表现。他们用最大误差(Emax)减去当前误差(E (.)),再除以最大误差(Emax)和最小误差(Emin)之间的差值来计算误差。雷达网图更大,代表模型的跟踪性能更好。实验结果显示,HOVER 在所有 32 个指标和模式中的误差都很低。

让机器人拥有人一样潜意识,英伟达1.5M小模型就能实现通用控制了

在真实世界中的测评

为了测试 HOVER 策略在真实世界中的表现,研究团队设计了定量的跟踪实验和定性的多模态控制实验。

站立时的动作评估

该团队通过跟踪 20 种不同的站立动作来评估 HOVER 的性能,表 V 中的定量指标显示,HOVER 在 12 个指标中的 11 个上超越了专家策略。HOVER 成功跟踪了关节俯仰运动与全身运动,特别是高度动态的跑步动作也能搞定。

让机器人拥有人一样潜意识,英伟达1.5M小模型就能实现通用控制了

机器人的关节可以在 - 0.5 到 0.5 的俯仰角度之间变化

让机器人拥有人一样潜意识,英伟达1.5M小模型就能实现通用控制了

多模态评估

该团队还模拟了真实的生活场景,测试了在突然切换命令时 HOVER 对运动的泛化能力。HOVER 成功地让机器人从 ExBody 模式切换到 H2O 模式,同时在向前行走。

让机器人拥有人一样潜意识,英伟达1.5M小模型就能实现通用控制了

从 ExBody 切换到 H2O 模式

从 HumanPlus 模式切换到 OmniH2O 模式,机器人也能同时执行转弯和向后行走。

让机器人拥有人一样潜意识,英伟达1.5M小模型就能实现通用控制了

从 HumanPlus 切换到 OmniH2O 模式

此外,他们还使用 Vision Pro 随机掩盖头部和手部的位置,进行了远程操作演示,可以看出,机器人的动作非常地丝滑流畅。

让机器人拥有人一样潜意识,英伟达1.5M小模型就能实现通用控制了

有时,它也会出错,比如只追踪了测试者的头部位置,忽略了挥手的动作。

让机器人拥有人一样潜意识,英伟达1.5M小模型就能实现通用控制了

结果表明,HOVER 能够平滑地在不同模式之间追踪动作,展示了其在真实世界场景中的鲁棒性。

以上内容为资讯信息快照,由td.fyun.cc爬虫进行采集并收录,本站未对信息做任何修改,信息内容不代表本站立场。

快照生成时间:2024-11-01 12:45:01

本站信息快照查询为非营利公共服务,如有侵权请联系我们进行删除。

信息原文地址:

波士顿动力电驱机器人进厂打工,全程自主无遥控,50万人在线围观
...走、保持平衡以及操纵四肢到达期望位置时,需要大量的潜意识处理。我们在HOVER中捕捉了这种“潜意识”,这是一个单一模型
2024-11-01 09:29:00
英伟达抛出年度AI杀器:史上最强芯片,还有机器人大模型
...力就高达720PFlops,几乎相当于一个超级计算机集群。发布机器人领域通用大模型 此次,英伟达将推出了一款用于机器人领域、名为GROOT的通用基础大模型。此外,英伟达还推出
2024-03-19 08:37:00
GTC对话黄仁勋:我眼中的GPU,和别人有很大差别
...Blackwell 平台;NIMS;NEMO 和 NVIDIA AI Foundry;Omniverse 和 ISAAC 机器人
2024-03-22 08:00:00
黄仁勋对话扎克伯格:下一波AI浪潮是机器人,开源大模型将赢得胜利?
...AI发展中的重要性。对话下半场,他们围AR/VR计算平台和机器人浪潮等展开了讨论,指出下一波AI浪潮是机器人,而AR眼镜未来或替代智能手机。炉边谈话接近尾声时,黄仁勋和扎克伯
2024-07-31 13:51:00
英伟达公布未来三年芯片路线图,AI工厂有了操作系统;黄仁勋:算力会继续增长,机器人时代已来
...力生成大量的Token,从而使用合成数据,这基本上是一种机器人式的方法。“AI这两种方法的结合给整个行业带来了巨大的计算挑战。”黄仁勋表示,每次访问ChatGPT时需要等待越
2025-03-19 08:13:00
从洗碗工到英伟达CEO,黄仁勋最新访谈自曝“爽文”人生
...于蛋白的药物,用于对抗癌症和哮喘等疾病。另外,人形机器人初创公司Figure推出的机器人Figure 01也是由英伟达的GPU驱动
2024-05-01 14:00:00
黄仁勋万字答问实录:AI的下一个浪潮是什么?
...题丰富多样,从英伟达的公司发展前景,到AI、云计算、机器人乃至量子计算机的未来,再到国际形势和全球供应链情况,各种问题都被投向了最近因其名声与热度而获得“科技界泰勒·斯威夫特
2024-03-23 11:10:00
水温80度:AI行业真假繁荣的临界点
...里和一个朋友辩论了几句这事。因为AI太复杂,所以我们潜意识会寻找权威,认为“大牛”会更正确。其实不是的,2010年以来的事实已经足够说明这一点。混沌的时候大家相对平等,愚者千
2024-06-05 17:09:00
AI将爆发哪些超级应用?
...人的机会。第一类是具身智能体路线,如自动驾驶、人形机器人:AI像人一样、拥有一个物理的躯体,能感知、能互动,能主动地进入到“真实世界”。第二类是超级AI软件,在辅助办公、作图
2024-11-03 16:20:00
更多关于科技的资讯:
中央音乐学院发布音乐脑机接口“央音一号”
中国青年报客户端讯(中青报·中青网记者 蒋肖斌)音乐脑机接口“央音一号”,近日在中央音乐学院发布。中央音乐学院音乐人工智能与音乐信息科技系主任李小兵表示
2025-11-03 16:52:00
11.11提前抢!三联家电折扣让利,家电焕新正当时
鲁网11月3日讯随着11.11购物节的脚步日益临近,全国家电消费市场热度持续攀升,山东地区更是提前进入 “焕新倒计时”
2025-11-03 15:52:00
安徽牧羊人可持续时尚工业园项目开工 致力打造羊毛针织行业的佼佼者
大皖新闻讯 11月3日,安徽牧羊人可持续时尚工业园项目开工奠基仪式举行。项目建成后,将形成年产1000万件成衣,7200吨纺纱
2025-11-03 16:11:00
“景德镇鸡排哥”用一碗香辣鸡排撬动全网关注,这座千年瓷都再次被推上流量风口。草根摊主的日常片段在网络掀起打卡热潮,小众街巷因一条短视频迎来客流井喷
2025-11-03 12:25:00
乘AI之势,筑电子产业之基,CPCA Show Plus 2025 圆满闭幕,2026再相见!
2025年10月28日-30日,电子半导体产业创新发展大会暨国际电子电路(大湾区)展览会(以下简称:CPCA Show Plus)在深圳国际会展中心(宝安)盛大举办
2025-11-03 12:43:00
培育钻值得购买吗?超全选购攻略一篇搞定,附头部品牌深度测评
当越来越多的年轻人开始琢磨“如何高性价比的结个婚”,培育钻石凭借着价格优势、环保理念,正成为暗潮涌动的钻戒市场的新宠。据统计
2025-11-03 12:45:00
未来,AI有望打造口感逼真的植物蛋白
大河网讯 “人工智能(AI)正以前所未有的速度加速食品创新,它不仅能打造口感逼真的植物蛋白、通过文本生成全新食品配方,还能辅助设计个性化营养食品
2025-11-03 13:10:00
2025 年,Facebook 依托 Meta 生态的 29.8 亿全球月活用户(Statista 数据),仍是企业海外拓客的关键阵地
2025-11-03 12:46:00
彰显国际范科技范 第十七届厦门国际动漫节圆满落幕
角色扮演者在金海豚动漫游戏嘉年华现场打卡。厦门游戏企业展台带来多样互动活动。游路演活动现场,企业展开对接。(动漫节组委会 供图) 厦门网讯(文/厦门日报记者 林露虹 通讯员 洪慧敏 图/厦门日报记者 林铭鸿 除署名外)昨日傍晚
2025-11-03 08:55:00
报告:亲身体验“在地风物”成年轻人出行新理由
近日,中国旅游研究院(文化和旅游部数据中心)与马蜂窝联合召开“旅游目的地探索系列报告发布会”,发布该系列最新研究成果——《中国风物报告》
2025-11-03 09:28:00
几何之厦落子广州白云机场T3,以“文化坪效”重塑机场商业价值
(2025年10月30日,广州电) 今日,广州白云国际机场T3航站楼正式通航,与这座未来年客流量超千万级航空枢纽一同启幕的
2025-11-03 09:59:00
固安:“共享工厂”赋能特色产业集群高质量发展
河北新闻网讯(万倩、王智钢)走进汉旗电子科技(固安)有限公司的生产车间,企业新升级的智能化生产线正在高效运转。这里不仅是企业自身的生产基地
2025-11-03 10:00:00
梦启未来!2025年“兴火·燎原”创新马拉松公开赛火热报名中
创新驱动发展澎湃潮涌,“数字中国”建设如火如荼。年年相约,再启新程,2025年“兴火·燎原”创新马拉松公开赛正式开放报名
2025-11-03 10:29:00
阿宽食品以品类创新引领发展:从红油面皮到土豆泥泥面、魔芋系列
10月27日至28日,四川省预制食品产业高质量发展推进会在眉山市召开。当天,阿宽食品作为代表企业设展,重点展示了包括红油面皮
2025-11-03 10:29:00
浪潮计算机生态发展大会圆满举办
10月31日,以“潮涌水城 链动未来”为主题的浪潮计算机生态发展大会圆满举办。浪潮集团党委副书记、总经理刘继永,聊城市委副书记
2025-11-03 10:56:00