• 我的订阅
  • 科技

国内创业者和投资人如何看待 Figure 01 机器人:距离具身智能还有多远?

类别:科技 发布时间:2024-03-17 19:11:00 来源:36氪

3 月 13 日,Figure 发布了和 OpenAI 合作后的首个机器人 Figure 01 的演示:视频中,Figure 的人形机器人,可以完全与人类流畅对话,理解人类的意图,同时还能理解人的自然语言指令进行抓取和放置,并解释自己为什么这么做。

Figure 01 具体采用了什么技术,和 Sora 有关吗?

相比过去的机器人技术有什么质的飞跃?以及这对于国内机器人创业者有什么新的启发?

针对以上问题,我们采访了国内大模型和机器人行业的创业者、投资人,以下回答经 Founder Park 整理编辑。

大模型+机器人,OpenAI 又「截胡」了 Google李志飞:出门问问创始人&CEO。 原理:Figure 类似 PaLM-E + RT-1,而非端到端的 RT-2

原理上,机器人 Figure 看起来类似于 Google 在 2023 年 3 月发布的 PaLM-E 和 RT-1 的 pipeline 组合,而不是Google 于 2023 年 7 月发布的端到端模型 RT-2。

我们知道,如果机器人要与人进行自然语言交互(比如,人说「把桌子上的苹果拿给主人」),可以大致分为以下两个步骤。

一是机器理解自然语言,并把自然语言转换成机器的抽象计划(所谓 high-level planning),这个抽象的计划可能是一系列的简单自然语言指令(比说「拿起苹果」、「把苹果移到人手上方」、「放开苹果」)。

二是把这个抽象计划转换成底层具体的操控(所谓 low-level 执行),既把简单的自然语言指令转换成一系列的具体动作(比如旋转、移动、抓取、放开等基本动作)。

简单来说,RT-1 仅是一个能听懂简单指令的机械臂,完成上面说的第二个步骤,模型中没有思维链,也不具备推理能力。PaLM-E 让机器人有了聪明的大脑,可以将复杂自然语言指令分解为简单指令,完成上面说的第一个步骤,然后再去调用 RT-1 执行动作。

所以,PaLM-E 所做的只是自然语言理解以及 Planning 部分的工作,并不涉及机器人动作本身,它是一个 VLM(Vision-Language Model)模型。

RT-2 则是把以上环节端到端地集成到了一起,它能够用复杂文本指令直接操控机械臂,中间不再需要将其转化成简单指令,通过自然语言就可得到最终的 Action,它是一个 VLA(Vision-Language-Action Model)模型。

国内创业者和投资人如何看待 Figure 01 机器人:距离具身智能还有多远?

1

端到端的好处,是通用、能自动适应环境的各种变化,但问题是决策速度慢,很难做到 Figure 这种 200hz 的决策速度,比如 RT-2 论文里提到的决策频率是 1 到 5hz,具体取决于语言模型的参数规模。

亮点:既能用到大语言模型的常识和 COT,又能达到人一般的操控速度

Figure 视频的亮点是它既利用了大语言模型的常识和思维链 COT的能力,又实现了快速的底层操控,几乎接近人的速度。

比如在视频中,当人说「我饿了」,Figure 思考了 2-3 秒后,小心翼翼地伸手抓住苹果,并迅速给人递过来。

因为 Figure 基于大语言模型的常识,明白苹果是它面前唯一可以「吃」的事物,在人类没有任何提示和说明的前提下,即可以接近于人类的反应速度,与人自然交互。

另外,也用上了大语言模型的长上下文的理解能力,比如「你能把它们放到那里吗」,谁是「它们」,「那里」是哪里?这些只有大语言模型才有能力精准抓取长上下文里的指代关系。

Figure 是否用到了 Sora?

肯定的是,Figure 与 Sora 一点关系都没有,因为 Sora 现阶段主要是生成,不是理解,就算未来 Sora 既能理解也能生成,是否能端到端做到 200hz 的决策速度也是一个很大的问题。

Figure 是否用到了远程操控?

有人觉得视频是远程操控(所谓 Teleop)录制的,但 Figure 创始人 Brett Adcock 强调了视频不是 Teleop,录制速度也是 1 倍原速度,所以视频中能看到回答问题的明显延迟(因为语音识别、大语言模型、TTS 是通过 pipeline 方式连起来的,都需要计算时间)。

Figure 是端到端模型吗?

Figure 创始人 Brett Adcock 上面这个 Post 提到是端到端的神经网络,个人觉得这可能是口误吧。

从他们技术负责人的 Twitter post 里可以看出,至少用了两个神经网络模型,一是 OpenAI 的 GPT4V(类似于 Google 的 PaLM-E);另外一个是机器人操控的模型(类似于 RT-1)。

所以 Figure 不是类似于 RT-2 的「端到端」模型,而是一个 pipeline 系统。

总结一下

我们可以理解为 Figure 的机器人模型是:GPT4V + 操控模型 ≈ Google 的 PaLM-E + RT-1

再次感叹,OpenAI 的「远见卓识」,在机器人与大模型结合的领域,又让隔壁的 Google 起了大早,赶了晚集。一如既往,OpenAI 超越 Google 的方式不是在技术原理,而是在于产品定义以及宣传方式。比如,与 RT-2 用一个机械臂演示不一样,他们用了一个真实的人形机器人来演示。

此外,他们通过展示机器人的操控速度和自然度来吸引观众的眼球。这些都比 Google 那种纯工程师演示的方式倍加有吸引力。

Figure 联合创始人兼首席执行官 Bred Adcock 表示,「我们的目标是训练一个世界模型,以操作十亿单位级别的仿人机器人。」这些机器人,可以消除对不安全和不理想工作的需求,最终让人类拥有更有意义的生活,这也与 OpenAI 的「超级对齐」愿景不谋而合。

计算机是虚拟世界的通用平台,机器人是物理世界的通用平台。

从特斯拉的 Optimus 到今天的 Figure,未来的模型能力和机器人硬件会如何平衡,从广告噱头到量产应用还有多远?人形机器人百家争鸣的春秋时代已拉开序幕。

李志飞,出门问问创始人兼CEO,美国约翰霍普金斯大学计算机系博士,自然语言处理及人工智能专家,前Google总部科学家,中国大模型创业者,持续探索AGI及商业化落地。

首次向公众呈现了当下具身智能创业的核心方向韩峰涛:千寻 SpiritAI CEO,已投入具身智能行业创业。

1、Figure 的宣传视频首次以通俗易懂的方式向公众展示了这一波具身智能创业机会的核心,即 AI 系统自主的以接近自然的方式释放机器人硬件的性能。

2、任务理解、拆分和自然语言对话属于现有 VLM 能力范围内,动作丝滑远超以往。

3、证明在单一任务内,VLM+具身动作规划模型+遥操微调+RL 路线可行度最高,以及微调数据质量高低对任务动作生成效果有直观影响。

4、精细操作、涉及力交互场景以及 LongHorizon 任务的效果待观察。

5、强 AI 大脑与好机器人身体执行缺一不可,目前国内这样的团队还是偏少。

单点技术的快速发展会带来今年机器人的「大突破」陈润泽:源码资本执行董事。

基本和我年初的预测一致,2024 年,我们会不断看到机器人领域有一些令人兴奋的进展出来,相信 Figure 的 demo 只是其中之一,而且肯定不是其中最具突破性的。

为什么有这个预测?因为机器人整个技术栈里的单点技术都在快速进展,它们排列组合一下就会有一些很具「视觉冲击力」的成果出来。

但是,有必要给看到 Figure 视频过于兴奋的人泼点冷水。先说结论:我没有在 Figure 的 demo 中看到非常新的技术能力,目前 demo 的性质更像是我们去年常说的 GPT-wrapper 的状态。换句话说,要达到这个 demo 的状态并没有很多 secrets。当然这里 wrapper 没有负面的意思,硬件产品需要很好的 wrapper。在这一点上,必须承认 Figure 做的还不错。

简单聊聊这个 demo 里的细节。

关于整体架构

国内创业者和投资人如何看待 Figure 01 机器人:距离具身智能还有多远?

2

Figure 的工程师 Corey Lynch 在 x 上公开了架构图,整个算法分为三层:

上层:OpenAI model。

这也就是我们常说的 High-level policy 部分,也被称为「大脑」,这部分负责处理语言和视觉输入,人机交互,并生成动作决策。这个决策的内涵就是「选择能执行目标动作的模型」。Lynch 的原话是:「deciding which learned, closed-loop behavior to run on the robot to fulfill a given command, loading particular neural network weights onto the GPU and executing a policy.」这句话其实暗含了一个信息,就是他们的 Low-level policy 包括多个模型,这些模型是通过 learning 的方式得到的,但这些子模型的封装程度/抽象程度没有披露(是比较细颗粒度的元动作库,还是比较粗粒度的任务库)。

中层:Neural Network Policies(NNP)。

这就是 Low-level policy 部分。Lynch 强调了:「All policies are learned, (not teleoperated)」。这个很关键,所有的动作都是用 learning 的方式来做的,但没有强调是什么 learning 方法。

下层:Whole body controller(WBC)。

这部分就是对应人的小脑。这部分公开的细节不多,猜测 NNP 输出的是全身 24 关节的角度控制信号和灵巧手的控制信号(200Hz),然后在下层会根据一些安全约束对 24DoF 的关节控制信号进行修正和插值(1000Hz)。当然,也不排除 NNP 这部分只 focus 在 manipulation 相关的控制。可以看下面这段视频,在手部动作时,Figure 01 的全身动作是比较协调的(比如在放杯子时,做出了轻微的下蹲动作);当然这个在此前 Figure 发的煮咖啡视频中,已经看到了这个能力。

关于 OpenAI、大模型和机器人的结合

在 High-level Policy 这一层,demo 目前展现出来的感知理解能力、推理能力、对话能力等其实都是多模态大模型能力的直接体现,只是经过「具身化」之后给人比较强的感官冲击。早在去年 PaLM-E(Corey Lynch 也是 PaLM-E 工作的参与者之一)的时候,这些能力就已经初步展现出来,只是 GPT-4/GPT-4V 的感知理解和推理能力又往前进了一步。

PaLM-E 当时接的下层控制 RT-1 也一个 transformer-based policy model,采用了 learning from demonstration 的方法,只是 Figure 01 用了更复杂的灵巧手,其控制要更复杂精巧,但不一定有方法论层面的本质突破。

比较有意思的是 High-level policy 和 NNP 这层的接口是怎么做的,在 demo 的复杂度上,这些接口都是可以「手搓」的(LLM 本身就提供了一些灵活性),但要真正希望把 LLM 的泛化能力充分发挥出来,这层接口怎么做,我猜测并不简单。不过,最近跟圈内朋友交流下来,应该已经在部分任务上可以实现了,在更广泛的操作任务上实现,也不是完全不可能的事情了。

文章转载自作者公众号「工具与意志」。

长期关注能找到具身智能 Scaling Law 的团队崔轲迪:BV百度风投 高级投资经理。

Figure 的展示非常丝滑,能看出来在模仿学习和遥操作的技术积累是比较久了。

我们后面会长期关注哪些团队可以找到具身智能操作层面的 Scaling Law。在基础模型和 Scaling Law 的支持下,当未来数据量达到一定阈值时,我们期待看到遥操作这样酷炫的机器人可以更为通用。

基座大模型+负责操作的神经网络会成为通用机器人的关键范式曹巍:蓝驰创投合伙人。

Figure 01 此次呈现的亮点颇为丰富:

首先,产品的整体质感与工程设计表现出色,外观精致,有独特的设计语言。同时,人机交互的音色经过调优,沟通体验更加和谐。

再者,机器人依托于底层强大的模型,对场景和任务的理解与推理能力表现卓越,加之其流畅的全身控制,使得操作响应迅速且精准。尽管本次展示未能涵盖机器人的移动能力和执行复杂任务的能力,但这并不减损其整体的卓越表现。

可以预见,结合视觉推理、语言理解和任务编排等功能的基座大模型,与负责提升机器人操作敏捷性的神经网络系统,将成为未来通用机器人的关键架构范式。在未来 5 至 10 年内,人形机器人技术将迎来其发展的黄金时期。我们相信国内的机器人研发团队将很快推出更多令人瞩目的产品。

基于这轮从底层架构上的创新,蓝驰从 21 年起就开始了布局具身机器人相关的创新项目,目前已经投资了智元机器人、银河通用机器人、万勋科技等一系列具身智能本体团队,同时在底层大模型领域也投资了月之暗面、西湖心辰。具身机器人领域的创新刚刚起步,蓝驰未来还会在仿真训练平台、关键传感器、机器人核心模组等方面持续寻找优秀创业团队。

以上内容为资讯信息快照,由td.fyun.cc爬虫进行采集并收录,本站未对信息做任何修改,信息内容不代表本站立场。

快照生成时间:2024-03-17 20:45:08

本站信息快照查询为非营利公共服务,如有侵权请联系我们进行删除。

信息原文地址:

半年冒出近百家新公司,「具身智能」也有春天 | 36氪新风向
...,一家具身机器人公司CEO告诉《智能涌现》,近来找他的投资人都大排队。一位通用机器人公司的联创调研了一圈市场后惊讶发现——最近半年时间,国内冒出了小一百家机器人公司,甚至很多
2024-06-13 13:50:00
谈谈“机器人创业”圈子里的鄙视链丨焦点分析
...器人 “现在搞硬件的公司,就是视频拍摄公司!”多位投资人、行业人士向智能涌现表示。今年以来,许多机器人厂商在demo里展示的场景足够酷炫:比如机器人可以在汽车工厂搬东西,帮忙
2024-11-27 07:24:00
创业名师进校园!助力湖南打造青年创新创业高地
...长沙举行。此次,湖南精心遴选了百名企业家、科学家、投资人等,组成了创业导师天团,他们将分享各自丰富的经验,为青年们创业点亮明灯,让学生少走弯路。活动现场,三一集团董事长向文波
2025-03-21 10:02:00
...都早于A轮。关于原生AI应用是否会是大模型的有效对抗,投资人仍有颇多争议。更多形成共识的是,那些掌握垂直领域数据、场景以及积累了很多客户资源的企业服务公司将独具优势。而对后者
2023-11-27 15:12:00
AI如何变革机器人?|甲子引力
...尤其是雷总,可以谈一谈三年前你们公司在融资的时候,投资人问的是什么问题,今年再来聊的时候,他关注的是什么问题?焦儒:我认为资本具有周期性,随着行业的发展,投资者的关注点也会有
2023-12-11 16:26:00
对话千寻智能高阳:科学家创业不太“靠谱”,但创业就像一场游戏
...去弥补”。 高阳将创业比喻为“一种游戏”,而那些与投资人、客户的交流,都是游戏里升级打怪的过程。他见过上百位投资人,开始的时候由于技术讲解得太晦涩,“把人讲睡着了”,但高阳
2025-08-09 08:22:00
AI应用超级风口出现,华为、英伟达都入局了
...清华SeeFund基金,以及中国互联网投资基金等海内外知名投资人、科研机构、产业战略投资人都参与其中,并少见的集齐了北、上、深、港四地的政府投资平台。资料显示,银河通用是由斯
2024-11-27 16:48:00
中国AI下一条“小龙”在哪里?总台《赢在AI+》重磅开播
...院副教授、知名学者蒋昌建等院士专家、行业领袖、知名投资人组成“AI智库团”,为创业者提供专业指导。由20多家投资机构代表、全国各地的AI爱好者组成的观众团,也将共同踏上“寻龙
2025-05-02 11:05:00
90 后华人 CMU 校友回国创业,自研具身智能机器人
...了降本量产的优势:硬件技术创新、成本控制是当前国内投资人形机器人赛道的核心逻辑,中国拥有成熟的制造业产业链,中国制造是降低成本的主要方式之一。人形机器人无疑成为了国内近两年热
2024-03-12 23:00:00
更多关于科技的资讯:
近年来,人工智能技术的快速发展正深刻改变各行各业的工作方式。在企业员工队伍建设方面,数字化、智能化转型已成为提升核心竞争力的关键路径
2025-11-04 18:10:00
喜良观经济|饿了么将改名?阿里在下什么棋?
11月4日,“饿了么APP更名为淘宝闪购”话题冲上热搜,网友称饿了么APP最新内测版本(12.0.1)已更名为“淘宝闪购”
2025-11-04 19:32:00
从全运赛场到千家万户:美的空调赛级标准成就大众的选择
第十五届全国运动会即将在粤港澳大湾区盛大启幕,笔者走进焕然一新的广东奥林匹克体育中心,现代化设施与科技感扑面而来——而在这座国家级主场的背后
2025-11-04 19:33:00
11月3日消息,第二十一届中国国际煤炭采矿技术交流及设备展览会日前在北京闭幕。中北高新区企业山西浩博瑞新材料有限公司推出的本安型低温系列新品
2025-11-04 19:06:00
论文变产品 智源成资源——西咸新区校地合作“开花结果”
华商网讯(记者 董旭叶)实验室里的尖端论文,如何能变成生产线上的畅销产品?高校的科研成果,又如何能化作服务产业、惠及民生的实物
2025-11-04 19:13:00
三联家电&云闪付消费补贴券,单件至高立减2000元
鲁网11月4日讯买家电怎样最划算?正值双十一家电消费旺季,这个疑问困扰着每一个需要家电换新的消费者。看不懂各平台复杂的满减机制
2025-11-04 17:37:00
2025年玛咖(玛卡)品牌综合评测:如何找到适合自己体质的调理方案?
在个性化健康日益成为主流的今天,男性对保健品的需求已从“大众配方”转向“个体化方案”。玛咖作为广受关注的植物补充剂,其功效虽获认可
2025-11-04 15:47:00
可梦AI开放测试获首批企业盛赞!“短剧男频标杆”的蜜糖网络实力入驻,共启AI短剧工业化新篇
短剧行业全流程智能平台可梦AI正式开启企业测试通道,凭借“真AI驱动全链路、需求响应极速、企业服务定制化”的核心优势,迅速赢得首批入驻企业的高度认可
2025-11-04 13:50:00
CFCA安心诉存证服务,融资租赁行业的电子证据守护者
目前,融资租赁行业正在快速向数字化转型迈进,行业内线上业务的繁荣发展,使得电子数据在交易出现司法纠纷时所起到的作用愈发重要
2025-11-04 13:51:00
当年轻人开始在夏天“进补”,巨量星图如何用一场计划“养”出多个品牌破圈增长
当养生成为这届年轻人的日常,一边熬夜一边搜索“祛湿攻略”,左手冰美式右手胶原蛋白,已成为他们的生活常态。对于大健康品牌来说
2025-11-04 13:52:00
平台化协同·场景为先--中叉网对话安庆联动属具公司的高质量跃迁
2025年8月上旬,“合力改变物流搬运方式--合力•中叉网 | 2025中国叉车和移动机器人高质量发展万里行”再次走进安徽叉车集团旗下的安庆联动属具股份有限公司
2025-11-04 13:52:00
智造能力的跃升,正在成为中国品牌突破创新的底气
智造能力的跃升,正在从结构上打破「高端化」市场格局。以厨电市场为例,以往在单价8万元/㎡以上住宅项目中,进口厨电占比高达78%
2025-11-04 08:12:00
畅通京津冀算力“高速路”!河北大力推进京津冀三地网络协同、服务协同、算力资源协同
河北大力推进京津冀三地网络协同、服务协同、算力资源协同畅通京津冀算力“高速路”10月17日,在2025中国国际数字经济博览会上
2025-11-04 08:12:00
厦门网讯(厦门日报记者 李晓平)近日,省工信厅公布省级人工智能硬件优质产品名单,全省18个入选产品中,厦门独占8席,包括瑞为
2025-11-04 08:38:00
在生成式AI重构流量分配格局的2025年,中国GEO服务商市场已形成清晰的三大梯队。据《2025中国生成式AI搜索生态白皮书》数据显示
2025-11-04 08:49:00