看 Figure AI 的工业和物流 demo,最容易犯的错,是把“在一个场景里跑通”直接外推成“已经能去所有真实世界场景”。
我更愿意反过来看:Figure 在 BMW 和物流场景里真正有价值的地方,不是它证明了人形机器人已经通用,而是它把人形机器人落地时最该被量化的几件事摆出来了——任务边界、节拍、精度、人工介入、硬件失效点、数据回流和下一代设计修正。
所以这篇不按公司新闻写。我们只问一个问题:如果一个团队想判断人形机器人是否真的进入了可部署阶段,Figure 的 BMW / logistics 公开资料到底提供了哪些工程证据,又有哪些结论今天还不能下?
先给结论:BMW 验证的是“窄任务部署闭环”,不是通用能力
Figure 官方披露,Figure 02 在 BMW Group Plant Spartanburg 做过 11 个月部署,任务是 sheet-metal loading:把钣金件从料架或料箱取出,放到焊接夹具上,再由六轴工业机器人继续完成后续焊接流程。
这不是一个随意开放的“什么都能干”场景。它更像一个边界相对清楚的工业 pick-and-place 任务:物体类型有限,工位固定,流程可描述,成功失败也可以被 KPI 压住。
Figure 官方给出的数据包括:
- 11 个月 BMW 部署;
- 10 小时班次,周一到周五运行;
- 90,000+ parts loaded;
- 1,250+ hours runtime;
- 参与 30,000+ X3 vehicles 生产;
- 约 1.2M+ robot steps / 200+ miles。
这些数据值得认真看,但它们的正确解释不是“Figure 已经能替代所有工厂工人”。更准确的解释是:Figure 在一个明确工位、明确物体、明确节拍和明确验收口径的任务里,开始形成了可复盘的部署闭环。
BMW 场景最重要的不是机器人像人,而是 KPI 写得够硬
Figure 官方在 BMW 任务里列了三个关键 KPI:cycle time、placement accuracy 和 interventions。
这比大多数 demo 视频更有信息量。因为真实部署不会只问“动作是不是流畅”,而会问:
- 一个 cycle 到底要多久?
- 装件位置误差是否在工位允许范围内?
- 一班里需要人暂停、重置、救场几次?
- 机器人失败时,是任务问题、感知问题、手眼问题、硬件问题,还是恢复链问题?
Figure 官方给出的 BMW 口径里,cycle time 要求是 total 84 秒,其中 load time 37 秒;placement accuracy 目标是每班 >99%;intervention 目标是每班 0 次。它还提到这个任务的难点,是在约 2 秒内把钣金件放入 5mm tolerance 的位置。
对读者来说,这里最值得学的不是某个参数,而是部署判断的顺序:先把任务边界和 KPI 写死,再讨论机器人能力。没有这一层,任何“能干活”的视频都很容易被说大。
现场 first-look 表:看工业部署 demo,先压回哪一层
以后看到 Figure 或其他公司发布工厂 / 物流 demo,可以先用这张表收口。不要先问“它是不是已经通用”,先问证据落在哪一层。
| 先看到什么 | 第一怀疑层 | 先找什么证据 | 今天先别推出什么 |
|---|---|---|---|
| 机器人在工位上连续搬运 | 任务是否被强结构化 | 工位范围、物体种类、起止姿态、夹具容差、是否允许环境改造。 | 别直接推断它能进非结构化现场。 |
| 官方给出运行小时和产量 | 数据口径 / 任务覆盖层 | 运行天数、班次、停机时间、有效 cycle、失败是否计入统计。 | 别把累计小时直接当可靠性证明。 |
| 节拍接近人工或产线要求 | cycle time / 瓶颈层 | 总 cycle、机器人 load time、等待时间、人工准备和现场缓冲。 | 别只看机器人动作片段速度。 |
| 放置精度看起来很高 | 手眼标定 / 工位校准层 | 容差、校准频率、跨机器人一致性、夹具变化后的表现。 | 别把单工位精度推成全场景泛化。 |
| 官方称人工介入下降 | 恢复链 / intervention 语义层 | 介入定义、reset 次数、远程确认、失败后是否能自动回退。 | 别把“没人出现在镜头里”当无人化。 |
BMW 部署真正暴露的,是 Figure 02 的硬件学习
Figure 这次 BMW 资料里,最像工程现场的一点,是它公开提到 Figure 02 的 forearm 是主要 hardware failure point。
这比“机器人工作了多少小时”更值得看。因为一台人形机器人进现场以后,真正先暴露的通常不是宏大智能问题,而是某个很具体的子系统:腕部线缆、手指机构、散热、电气连接、减速器、传感器固定、标定漂移、维护可达性。
Figure 官方说,Figure 02 的前臂封装很紧,里面有三自由度 dexterity、热约束、通信分发板和动态线缆;这些经验被带入 Figure 03,后者重新架构 wrist electronics,减少 distribution board 和 dynamic cabling。
这就是窄任务部署的价值:它不只是拿来做宣传,也会把“哪一层先坏”暴露出来。对做人形机器人项目的人来说,这比一次漂亮演示更有参考意义。因为现场告诉你的,往往不是“模型再大一点就好”,而是“这个腕部结构、线束、散热和可维护性撑不住下一轮部署”。
物流场景验证的是另一类边界:物体长尾和吞吐量
Figure 的 logistics 资料则把问题从固定工位搬运,推到小包裹分拣。官方称 Helix 在三个月内处理了更复杂包裹类型:rigid boxes、poly bags、flat envelopes 等;handling time 从约 5.0 秒降到 4.05 秒;barcode orientation success 从约 70% 提升到约 95%。
这类场景和 BMW 不一样。BMW 的难点更偏工位精度、节拍和可靠性;物流包裹的难点更偏物体外形变化、软袋变形、标签朝向、抓取策略和连续吞吐。
Figure 官方把改进归因到两个方向:一是 demonstration data 从 10 小时扩到 60 小时,二是加入 temporal memory 和 force feedback。这里值得注意的是,Figure 没有只说“模型更大”,而是把进步拆成数据规模、视觉记忆、状态历史和触觉 / 力反馈。
这对小团队也有启发:如果包裹、衣物、餐具、工具这类物体开始长尾化,问题通常不是单纯“识别模型不够强”。你还要问:系统有没有记住前几帧?有没有知道刚才摸到了什么?有没有把物体变形和标签朝向写进动作策略?失败后有没有回放证据?
BMW 和物流不是同一个“落地场景”
很多报道会把工厂、物流、家庭都放进“真实世界应用”这个大筐里。但对工程判断来说,这样太粗。
| 场景 | 真正验证什么 | 第一风险 | 不要外推成什么 |
|---|---|---|---|
| BMW 钣金上料 | 固定工位、固定物体、固定节拍下的搬运 / 放置闭环。 | 手眼标定、现场校准、腕部可靠性、intervention 控制。 | 不要外推成所有制造任务都可替代。 |
| 物流包裹分拣 | 多形态包裹、标签朝向、吞吐量和策略自适应。 | 软物变形、标签遮挡、抓取失败恢复、队列吞吐。 | 不要外推成所有仓库流程已经无人化。 |
| 家庭洗碗 / 整理 | 长任务、场景理解、移动操作、用户目标和失败恢复。 | 起始状态长尾、隐私、安全接触、跨家庭复现。 | 不要用工业或物流成功直接证明家庭可用。 |
这个区分很重要。一个机器人在 BMW 工位跑得好,说明它在结构化工业任务里有价值;在物流包裹上进步,说明它开始处理更强的物体变化;但家庭任务会把用户语言、空间混乱、隐私、安全、软物和长尾状态一起放大。三者之间有关联,但不能互相替代。
对自己做人形机器人,Figure 这两条线最值得学什么
如果你在做自己的 humanoid 原型,不需要照搬 Figure 的公司路线,但可以照搬它在这两类场景里暴露出来的判断纪律。
第一,先把任务写窄。 不要一上来就说“机器人要进工厂”。先写清楚:哪个工位、哪个物体、哪段距离、什么容差、什么节拍、失败后谁接管。
第二,KPI 要能抓住失败。 只看成功率不够。至少要有 cycle time、位置误差、intervention 次数、失败桶、硬件故障点和恢复时间。
第三,把硬件失效当成部署反馈,不要当成个例。 Figure 02 的 forearm 学习说明,现场最早告诉你的常常是结构、线束、热、电和维护问题。不要把每次坏掉都只归因于“样机还不稳定”。
第四,物流式长尾要靠状态记忆和接触证据。 软袋、信封、盒子、标签朝向这类问题,不是多收一点图片就一定能解决。动作历史、force / tactile feedback、失败回放和策略恢复同样关键。
第五,不要用一个场景证明所有场景。 工厂成功、物流进步、家庭 demo,分别证明不同层的能力。把它们混在一起,只会让路线判断失真。
目前还要继续追的证据
Figure 的 BMW 和物流资料已经比普通 demo 更有价值,但还远不到“无需怀疑”的程度。后续我会重点看这些信号:
- BMW 或其他客户是否公开更多长期运行数据,而不只是 Figure 自己披露。
- intervention 的定义是否更清楚:暂停、远程确认、reset、人工搬离,是否分开统计。
- Figure 03 接替 Figure 02 后,腕部、手部、线缆、热管理和可维护性是否真的改善。
- 物流任务是否能从小包裹分拣扩到更复杂 SKU、破损件、拥堵队列和异常包裹。
- 这些工业 / 物流经验是否真的能回流到 Helix、Figure 03 和家庭任务,而不是停在单点部署。
如果用一句话收口:BMW 和物流场景证明 Figure 正在从“会演示”进入“能被 KPI 逼问”的阶段。但它们证明的是窄任务部署和物体处理能力正在变强,不是通用人形机器人已经完成。真正有价值的读法,是盯住任务边界、失败分布和下一代设计修正。
继续读 Figure 专题
- Figure AI 是什么:从 Figure 01、Figure 02 到 Figure 03,看一家人形机器人公司的系统路线
- Figure 01、Figure 02、Figure 03 有什么不同:人形机器人从工厂走向家庭要改哪些东西
- Figure Helix 是什么:VLA、全身控制和家务机器人的工程拆解