Figure AI 在 BMW 和物流场景里到底验证了什么

看 Figure AI 的工业和物流 demo，最容易犯的错，是把“在一个场景里跑通”直接外推成“已经能去所有真实世界场景”。

我更愿意反过来看：Figure 在 BMW 和物流场景里真正有价值的地方，不是它证明了人形机器人已经通用，而是它把人形机器人落地时最该被量化的几件事摆出来了——任务边界、节拍、精度、人工介入、硬件失效点、数据回流和下一代设计修正。

所以这篇不按公司新闻写。我们只问一个问题：如果一个团队想判断人形机器人是否真的进入了可部署阶段，Figure 的 BMW / logistics 公开资料到底提供了哪些工程证据，又有哪些结论今天还不能下？

先给结论：BMW 验证的是“窄任务部署闭环”，不是通用能力

Figure 官方披露，Figure 02 在 BMW Group Plant Spartanburg 做过 11 个月部署，任务是 sheet-metal loading：把钣金件从料架或料箱取出，放到焊接夹具上，再由六轴工业机器人继续完成后续焊接流程。

这不是一个随意开放的“什么都能干”场景。它更像一个边界相对清楚的工业 pick-and-place 任务：物体类型有限，工位固定，流程可描述，成功失败也可以被 KPI 压住。

Figure 官方给出的数据包括：

11 个月 BMW 部署；
10 小时班次，周一到周五运行；
90,000+ parts loaded；
1,250+ hours runtime；
参与 30,000+ X3 vehicles 生产；
约 1.2M+ robot steps / 200+ miles。

这些数据值得认真看，但它们的正确解释不是“Figure 已经能替代所有工厂工人”。更准确的解释是：Figure 在一个明确工位、明确物体、明确节拍和明确验收口径的任务里，开始形成了可复盘的部署闭环。

BMW 场景最重要的不是机器人像人，而是 KPI 写得够硬

Figure 官方在 BMW 任务里列了三个关键 KPI：cycle time、placement accuracy 和 interventions。

这比大多数 demo 视频更有信息量。因为真实部署不会只问“动作是不是流畅”，而会问：

一个 cycle 到底要多久？
装件位置误差是否在工位允许范围内？
一班里需要人暂停、重置、救场几次？
机器人失败时，是任务问题、感知问题、手眼问题、硬件问题，还是恢复链问题？

Figure 官方给出的 BMW 口径里，cycle time 要求是 total 84 秒，其中 load time 37 秒；placement accuracy 目标是每班 >99%；intervention 目标是每班 0 次。它还提到这个任务的难点，是在约 2 秒内把钣金件放入 5mm tolerance 的位置。

对读者来说，这里最值得学的不是某个参数，而是部署判断的顺序：先把任务边界和 KPI 写死，再讨论机器人能力。没有这一层，任何“能干活”的视频都很容易被说大。

现场 first-look 表：看工业部署 demo，先压回哪一层

以后看到 Figure 或其他公司发布工厂 / 物流 demo，可以先用这张表收口。不要先问“它是不是已经通用”，先问证据落在哪一层。

先看到什么	第一怀疑层	先找什么证据	今天先别推出什么
机器人在工位上连续搬运	任务是否被强结构化	工位范围、物体种类、起止姿态、夹具容差、是否允许环境改造。	别直接推断它能进非结构化现场。
官方给出运行小时和产量	数据口径 / 任务覆盖层	运行天数、班次、停机时间、有效 cycle、失败是否计入统计。	别把累计小时直接当可靠性证明。
节拍接近人工或产线要求	cycle time / 瓶颈层	总 cycle、机器人 load time、等待时间、人工准备和现场缓冲。	别只看机器人动作片段速度。
放置精度看起来很高	手眼标定 / 工位校准层	容差、校准频率、跨机器人一致性、夹具变化后的表现。	别把单工位精度推成全场景泛化。
官方称人工介入下降	恢复链 / intervention 语义层	介入定义、reset 次数、远程确认、失败后是否能自动回退。	别把“没人出现在镜头里”当无人化。

BMW 部署真正暴露的，是 Figure 02 的硬件学习

Figure 这次 BMW 资料里，最像工程现场的一点，是它公开提到 Figure 02 的 forearm 是主要 hardware failure point。

这比“机器人工作了多少小时”更值得看。因为一台人形机器人进现场以后，真正先暴露的通常不是宏大智能问题，而是某个很具体的子系统：腕部线缆、手指机构、散热、电气连接、减速器、传感器固定、标定漂移、维护可达性。

Figure 官方说，Figure 02 的前臂封装很紧，里面有三自由度 dexterity、热约束、通信分发板和动态线缆；这些经验被带入 Figure 03，后者重新架构 wrist electronics，减少 distribution board 和 dynamic cabling。

这就是窄任务部署的价值：它不只是拿来做宣传，也会把“哪一层先坏”暴露出来。对做人形机器人项目的人来说，这比一次漂亮演示更有参考意义。因为现场告诉你的，往往不是“模型再大一点就好”，而是“这个腕部结构、线束、散热和可维护性撑不住下一轮部署”。

物流场景验证的是另一类边界：物体长尾和吞吐量

Figure 的 logistics 资料则把问题从固定工位搬运，推到小包裹分拣。官方称 Helix 在三个月内处理了更复杂包裹类型：rigid boxes、poly bags、flat envelopes 等；handling time 从约 5.0 秒降到 4.05 秒；barcode orientation success 从约 70% 提升到约 95%。

这类场景和 BMW 不一样。BMW 的难点更偏工位精度、节拍和可靠性；物流包裹的难点更偏物体外形变化、软袋变形、标签朝向、抓取策略和连续吞吐。

Figure 官方把改进归因到两个方向：一是 demonstration data 从 10 小时扩到 60 小时，二是加入 temporal memory 和 force feedback。这里值得注意的是，Figure 没有只说“模型更大”，而是把进步拆成数据规模、视觉记忆、状态历史和触觉 / 力反馈。

这对小团队也有启发：如果包裹、衣物、餐具、工具这类物体开始长尾化，问题通常不是单纯“识别模型不够强”。你还要问：系统有没有记住前几帧？有没有知道刚才摸到了什么？有没有把物体变形和标签朝向写进动作策略？失败后有没有回放证据？

BMW 和物流不是同一个“落地场景”

很多报道会把工厂、物流、家庭都放进“真实世界应用”这个大筐里。但对工程判断来说，这样太粗。

场景	真正验证什么	第一风险	不要外推成什么
BMW 钣金上料	固定工位、固定物体、固定节拍下的搬运 / 放置闭环。	手眼标定、现场校准、腕部可靠性、intervention 控制。	不要外推成所有制造任务都可替代。
物流包裹分拣	多形态包裹、标签朝向、吞吐量和策略自适应。	软物变形、标签遮挡、抓取失败恢复、队列吞吐。	不要外推成所有仓库流程已经无人化。
家庭洗碗 / 整理	长任务、场景理解、移动操作、用户目标和失败恢复。	起始状态长尾、隐私、安全接触、跨家庭复现。	不要用工业或物流成功直接证明家庭可用。

这个区分很重要。一个机器人在 BMW 工位跑得好，说明它在结构化工业任务里有价值；在物流包裹上进步，说明它开始处理更强的物体变化；但家庭任务会把用户语言、空间混乱、隐私、安全、软物和长尾状态一起放大。三者之间有关联，但不能互相替代。

对自己做人形机器人，Figure 这两条线最值得学什么

如果你在做自己的 humanoid 原型，不需要照搬 Figure 的公司路线，但可以照搬它在这两类场景里暴露出来的判断纪律。

第一，先把任务写窄。 不要一上来就说“机器人要进工厂”。先写清楚：哪个工位、哪个物体、哪段距离、什么容差、什么节拍、失败后谁接管。

第二，KPI 要能抓住失败。 只看成功率不够。至少要有 cycle time、位置误差、intervention 次数、失败桶、硬件故障点和恢复时间。

第三，把硬件失效当成部署反馈，不要当成个例。 Figure 02 的 forearm 学习说明，现场最早告诉你的常常是结构、线束、热、电和维护问题。不要把每次坏掉都只归因于“样机还不稳定”。

第四，物流式长尾要靠状态记忆和接触证据。 软袋、信封、盒子、标签朝向这类问题，不是多收一点图片就一定能解决。动作历史、force / tactile feedback、失败回放和策略恢复同样关键。

第五，不要用一个场景证明所有场景。 工厂成功、物流进步、家庭 demo，分别证明不同层的能力。把它们混在一起，只会让路线判断失真。

目前还要继续追的证据

Figure 的 BMW 和物流资料已经比普通 demo 更有价值，但还远不到“无需怀疑”的程度。后续我会重点看这些信号：

BMW 或其他客户是否公开更多长期运行数据，而不只是 Figure 自己披露。
intervention 的定义是否更清楚：暂停、远程确认、reset、人工搬离，是否分开统计。
Figure 03 接替 Figure 02 后，腕部、手部、线缆、热管理和可维护性是否真的改善。
物流任务是否能从小包裹分拣扩到更复杂 SKU、破损件、拥堵队列和异常包裹。
这些工业 / 物流经验是否真的能回流到 Helix、Figure 03 和家庭任务，而不是停在单点部署。

如果用一句话收口：BMW 和物流场景证明 Figure 正在从“会演示”进入“能被 KPI 逼问”的阶段。但它们证明的是窄任务部署和物体处理能力正在变强，不是通用人形机器人已经完成。真正有价值的读法，是盯住任务边界、失败分布和下一代设计修正。

Figure AI 在 BMW 和物流场景里到底验证了什么：任务边界、KPI 与部署证据

先给结论：BMW 验证的是“窄任务部署闭环”，不是通用能力

BMW 场景最重要的不是机器人像人，而是 KPI 写得够硬

现场 first-look 表：看工业部署 demo，先压回哪一层

BMW 部署真正暴露的，是 Figure 02 的硬件学习

物流场景验证的是另一类边界：物体长尾和吞吐量

BMW 和物流不是同一个“落地场景”

对自己做人形机器人，Figure 这两条线最值得学什么

目前还要继续追的证据

继续读 Figure 专题

来源 / 进一步阅读

More posts

Figure 03 感知和触觉说明了什么：人形机器人不是多装几个传感器就会抓东西

Figure 03 电池说明了什么：人形机器人续航、安全和快充不是一个参数问题

Figure 和 Catalyst Brands 合作说明了什么：人形机器人进入物流不是先看部署数量

Project Go-Big 说明了什么：人类视频预训练不是机器人数据的免费替代品