看 Figure 03 进入家庭,最容易走偏的判断是:只要机器人能洗碗、叠衣服、整理房间,就说明家庭人形机器人已经接近成熟。
我不这样看。Figure 的家庭 demo 真正有价值的地方,不是提前证明“家用机器人马上普及”,而是把家庭场景里最难被工业 KPI 收住的几类系统瓶颈暴露出来了:长尾物体、柔性物、共享空间、用户语言、失败恢复、安全接触、隐私和连续运行。
所以这篇不是公司新闻,也不是替 Figure 做发布会解读。我们只问一个工程问题:如果一个团队想让人形机器人从 BMW 工位、物流分拣走进真实家庭,Figure 03 和 Helix 02 的公开资料告诉我们哪些问题已经开始被验证,哪些地方今天还不能下结论?
先给结论:家庭不是“更温和的工厂”,而是更难收边界的系统测试场
工厂和物流场景的优势,是任务边界可以被压窄。物料类型、工位位置、节拍、验收口径、人工介入点,都可以提前写成比较硬的合同。
家庭相反。餐具会堆得乱,衣服会皱、会缠、会遮住抓点,客厅里家具和玩具每天都变,卧室整理还会牵涉两台机器人在同一个空间里协作。用户一句“把房间收一下”,背后不是一个动作,而是一串会不断改变现场状态的决策。
Figure 03 的价值,正是在这里变得清楚:它不是简单把 Figure 02 换个软外壳搬进家里,而是围绕家庭场景补了几类接口:更低延迟和更宽视野的视觉系统、掌心相机、指尖触觉、软包覆、语音硬件、无线充电、无线数据回传,以及为量产准备的制造链路。这些改动说明 Figure 自己也知道,家庭场景不是靠一个更聪明的模型就能解决。
Figure 03 真正押注的是:让 Helix 在混乱近场里还能闭环
Figure 官方介绍 Figure 03 时,把它放在三个目标下:Helix、home、mass manufacturing。这里最关键的是 Helix。Figure 03 的相机、手、触觉和数据回传,不是孤立硬件规格,而是给 Helix 提供更密的近场观测和更可靠的接触反馈。
家庭任务里,主视角相机经常会被手、柜门、餐具、衣服、身体姿态或狭窄空间挡住。只靠头部相机,很容易出现“看见过目标,但抓取时目标已经不可见”的问题。Figure 03 在手掌里放相机,本质是在补一个近场闭环:抓之前、抓的过程中、遮挡发生后,手附近到底还看不看得到关键证据。
指尖触觉也是同一件事。家庭物体不只要求“抓起来”,还要求不要夹碎、不要滑落、不要把软物越抓越乱。Figure 官方说 Figure 03 指尖传感器可检测小到 3 克的压力,这个指标真正要服务的不是炫技,而是让系统区分:现在是稳定接触、即将打滑、夹得太重,还是根本没抓住。
洗碗 demo 的重点不是洗碗,而是厘米级容差和错误恢复
Figure 把 Helix 用在 dishwasher loading / unloading 上,这类任务表面很日常,但工程上很硬。盘子、杯子和碗并不是随便放进机器就算成功。它们要被分离、重定向、双手交接、避开碰撞,再放进 rack 的合适位置。官方资料也提到,洗碗机 rack 给出的容差只有厘米级。
这里最该看的不是机器人有没有把一个杯子放进去,而是四件事:
- 它能不能从杂乱起点里把目标物单独分出来;
- 它能不能在手里重定向,而不是每次都回到桌面重新抓;
- 它碰到误抓、碰撞、遮挡后,是不是能恢复,而不是靠剪掉失败片段;
- 它是否能把 rack 位置、物体姿态和双手协同压到可重复的验收口径。
如果这些证据没有被拆出来,一个“洗碗成功”的视频只能说明这个 episode 可看,不能说明这个家庭能力已经可部署。
叠衣服难在没有固定几何,不难在“看见毛巾”
Figure 的 laundry folding 资料更适合提醒读者:柔性物不是普通抓取任务的延伸。
毛巾、衣服、被子没有固定姿态,也没有稳定的 6D pose。它们会皱,会塌,会缠在一起,会因为一次拉扯改变后续所有接触条件。用传统刚体抓取那套思路看柔性物,很容易把问题误判成“识别不准”或“抓点不好”。
真正第一轮要看的是:
- 机器人有没有先找到边、角、折线或可操作的局部结构;
- 一次拉扯后,系统是否更新了布料状态,而不是继续执行旧计划;
- 多拿、缠绕、滑落时,是否能把多余物放回或重新展开;
- 成功标准是“看起来像折了”,还是有清楚的边界、层数和最终尺寸要求。
这就是为什么我不把叠衣服 demo 看成一个单独技能,而把它看成家庭场景里的柔性物基准测试。
客厅和卧室整理,难在任务会互相改变现场
Figure 后续展示了 living room tidy 和 bedroom tidy。相比洗碗、叠衣服,这类任务更接近真实家庭,因为它们不再是单物体、单台面、单容器的闭环,而是整个房间状态的连续改变。
客厅整理里,机器人要用喷壶和毛巾清洁表面,要拿箱子收玩具,要把枕头扔回沙发,要在茶几和沙发之间侧身通过。卧室整理里,两台机器人要开门、挂衣服、收垃圾、推椅子、合书,还要一起整理被子。
这类任务的核心难点不是动作列表变长,而是每一步都会改写后面的世界状态:椅子被推进去后通道变了,毛巾甩到肩上后手空出来了,被子一拉之后另一台机器人看到的形状变了。系统如果没有可靠的状态更新、任务记忆和失败回退,很容易在前半段看起来流畅,后半段开始靠运气。
| 家庭 demo 先看到什么 | 先判哪层 | 第一组证据 | 今天先别下什么结论 |
|---|---|---|---|
| 洗碗能跑一段,但餐具摆放稍乱就卡 | 近场视觉 / 姿态重估 / rack 容差 | 抓取前后掌心相机画面、物体姿态变化、放入 rack 的误差分布、误抓和碰撞回放 | 不要把一次完整 episode 直接说成“厨房任务已成熟” |
| 毛巾或衣服能折,但换形态后结果飘 | 柔性物状态表示 / 接触更新 | 边角识别、拉扯后状态更新、缠绕恢复、多拿放回记录、最终折叠验收标准 | 不要把“同一条毛巾折过”外推成“衣物整理可泛化” |
| 客厅整理动作很多,但后半段越来越依赖巧合 | 房间状态记忆 / 长任务回退 | 每一步后世界状态是否刷新、任务队列是否重排、失败后是否能退回安全中间态 | 不要只按动作数量夸 long-horizon,先看状态证据链 |
| 两台机器人协作铺床,看起来很像人 | 多体协作 / 意图推断 / 共享物接触 | 两台机器人是否有共享 planner、是否通信、被子张力变化、互相遮挡和避让失败片段 | 不要把同步动作直接等同于稳定多人协作系统 |
| 软包覆、语音、无线充电都补上了 | 家庭可用性 / 安全 / 连续运行 | 碰撞力限制、误唤醒和语音歧义、充电 dock 成功率、数据上传边界、长期运行故障率 | 不要把“更像家电”直接等同于“能长期独自在家运行” |
Figure 03 家庭路线最该保留的怀疑:演示任务和可运营任务之间还差一层
Figure 的公开资料已经比普通 demo 有更多工程信息,尤其是 Helix 02 把 walking、manipulation、balance 放到一个连续系统里,以及 Figure 03 为近场视觉、触觉、无线充电和数据回传补硬件接口。这些都值得重视。
但家庭可运营任务还需要另一层证据:
- 同一个任务连续跑多少次,失败分布是否稳定;
- 换家庭、换物体、换用户表达后,性能掉到哪里;
- 失败后是自己恢复、请求确认、远程接管,还是只能重置;
- 家庭隐私数据如何采、如何脱敏、如何回流训练;
- 机器人和儿童、宠物、老人、狭窄家具长期共处时,安全边界怎么验证。
这些问题不解决,家庭 demo 再顺,也只能说明“某一类 episode 进入了可展示阶段”,不能说明它已经进入可交付阶段。
| 任务类型 | 真正卡点 | 可验证信号 | 不能直接外推什么 |
|---|---|---|---|
| 洗碗 / 餐具整理 | 杂乱分离、易碎接触、厘米级放置、双手交接 | 误抓率、碰撞率、rack 放置误差、恢复次数、不同餐具覆盖范围 | 不能外推成整个厨房任务都已跑通 |
| 叠衣服 / 毛巾 | 柔性物状态、边角追踪、滑落和缠绕恢复 | 换初始形态后的成功率、失败桶、最终折叠标准、人工介入点 | 不能外推成所有布料和衣物都可处理 |
| 客厅整理 | 房间级状态更新、工具使用、窄空间移动、动作重排 | 每步状态记录、任务重排日志、卡住后的安全退回、连续 episode 成功率 | 不能只凭动作丰富度判断 long-horizon 成熟 |
| 卧室协作 | 多机器人互相推断、共享柔性物、遮挡和空间冲突 | 是否通信、互相避让失败、共享物张力变化、协作中断恢复 | 不能把双机器人视频直接等同于通用协作能力 |
| 家庭长期驻场 | 安全、隐私、充电、维护、用户指令歧义 | dock 成功率、隐私边界、异常接管率、误操作记录、长期故障和清洁维护成本 | 不能把短视频 episode 当成家用产品验证 |
对做机器人团队的启发:别先学 Figure 的叙事,先学它暴露的问题
如果你是小团队或研究团队,不建议一上来模仿 Figure 的完整家庭路线。Figure 03 背后有自研硬件、Helix、数据回传、制造设施和真实部署反馈,小团队没有这些条件时,照着做家庭 demo 很容易变成剪辑驱动。
更值得学的是它的测试拆法:
- 先把一个家庭任务拆成可观测子问题:近场视觉、接触、状态记忆、恢复、接管;
- 每个子问题都写出第一证据,不要只存视频;
- 先在窄任务里证明失败能归桶,再扩大到房间级任务;
- 柔性物、易碎物、多机器人协作不要混在同一轮里验证;
- 把家庭安全和隐私当系统接口,不要等产品化时再补。
这也是我认为 Figure 家庭线值得继续跟的原因。它不是因为“哪个公司更领先”才重要,而是因为它正在把人形机器人从单点 demo 推到系统瓶颈前面。对读者真正有用的,不是押注 Figure 会不会赢,而是学会看清:一个家庭 humanoid demo 到底证明了哪一层,还没有证明哪一层。
接下来最该看什么
后续如果继续看 Figure 03 家庭路线,我会优先盯四个信号:
- 是否公布跨家庭、跨物体、跨用户表达的成功率,而不是只给单段视频;
- 是否说明失败恢复、人工确认、远程接管和数据回流的机制;
- 是否把家庭隐私、安全接触、无线充电和长期维护变成可复核指标;
- 是否能把 BMW / logistics 那类硬 KPI 迁移到家庭任务,而不是只用“自然、流畅、通用”这类软词。
到那一步,Figure 03 才不只是一个漂亮的家庭机器人平台,而会开始接近真正可评估的家庭系统。
来源与延伸阅读
- Figure 官方:Introducing Figure 03
- Figure 官方:Introducing Helix 02: Full-Body Autonomy
- Figure 官方:Helix: A Vision-Language-Action Model for Generalist Humanoid Control
- Figure 官方:Helix Loads the Dishwasher
- Figure 官方:Helix Learns to Fold Laundry
- Figure 官方:Helix 02 Living Room Tidy
- Figure 官方:Helix-02 Bedroom Tidy