Figure AI 在 BMW 和物流场景里到底验证了什么:任务边界、KPI 与部署证据

看 Figure AI 的工业和物流 demo,最容易犯的错,是把“在一个场景里跑通”直接外推成“已经能去所有真实世界场景”。

我更愿意反过来看:Figure 在 BMW 和物流场景里真正有价值的地方,不是它证明了人形机器人已经通用,而是它把人形机器人落地时最该被量化的几件事摆出来了——任务边界、节拍、精度、人工介入、硬件失效点、数据回流和下一代设计修正。

所以这篇不按公司新闻写。我们只问一个问题:如果一个团队想判断人形机器人是否真的进入了可部署阶段,Figure 的 BMW / logistics 公开资料到底提供了哪些工程证据,又有哪些结论今天还不能下?

先给结论:BMW 验证的是“窄任务部署闭环”,不是通用能力

Figure 官方披露,Figure 02 在 BMW Group Plant Spartanburg 做过 11 个月部署,任务是 sheet-metal loading:把钣金件从料架或料箱取出,放到焊接夹具上,再由六轴工业机器人继续完成后续焊接流程。

这不是一个随意开放的“什么都能干”场景。它更像一个边界相对清楚的工业 pick-and-place 任务:物体类型有限,工位固定,流程可描述,成功失败也可以被 KPI 压住。

Figure 官方给出的数据包括:

  • 11 个月 BMW 部署;
  • 10 小时班次,周一到周五运行;
  • 90,000+ parts loaded;
  • 1,250+ hours runtime;
  • 参与 30,000+ X3 vehicles 生产;
  • 约 1.2M+ robot steps / 200+ miles。

这些数据值得认真看,但它们的正确解释不是“Figure 已经能替代所有工厂工人”。更准确的解释是:Figure 在一个明确工位、明确物体、明确节拍和明确验收口径的任务里,开始形成了可复盘的部署闭环。

BMW 场景最重要的不是机器人像人,而是 KPI 写得够硬

Figure 官方在 BMW 任务里列了三个关键 KPI:cycle time、placement accuracy 和 interventions。

这比大多数 demo 视频更有信息量。因为真实部署不会只问“动作是不是流畅”,而会问:

  • 一个 cycle 到底要多久?
  • 装件位置误差是否在工位允许范围内?
  • 一班里需要人暂停、重置、救场几次?
  • 机器人失败时,是任务问题、感知问题、手眼问题、硬件问题,还是恢复链问题?

Figure 官方给出的 BMW 口径里,cycle time 要求是 total 84 秒,其中 load time 37 秒;placement accuracy 目标是每班 >99%;intervention 目标是每班 0 次。它还提到这个任务的难点,是在约 2 秒内把钣金件放入 5mm tolerance 的位置。

对读者来说,这里最值得学的不是某个参数,而是部署判断的顺序:先把任务边界和 KPI 写死,再讨论机器人能力。没有这一层,任何“能干活”的视频都很容易被说大。

现场 first-look 表:看工业部署 demo,先压回哪一层

以后看到 Figure 或其他公司发布工厂 / 物流 demo,可以先用这张表收口。不要先问“它是不是已经通用”,先问证据落在哪一层。

先看到什么第一怀疑层先找什么证据今天先别推出什么
机器人在工位上连续搬运任务是否被强结构化工位范围、物体种类、起止姿态、夹具容差、是否允许环境改造。别直接推断它能进非结构化现场。
官方给出运行小时和产量数据口径 / 任务覆盖层运行天数、班次、停机时间、有效 cycle、失败是否计入统计。别把累计小时直接当可靠性证明。
节拍接近人工或产线要求cycle time / 瓶颈层总 cycle、机器人 load time、等待时间、人工准备和现场缓冲。别只看机器人动作片段速度。
放置精度看起来很高手眼标定 / 工位校准层容差、校准频率、跨机器人一致性、夹具变化后的表现。别把单工位精度推成全场景泛化。
官方称人工介入下降恢复链 / intervention 语义层介入定义、reset 次数、远程确认、失败后是否能自动回退。别把“没人出现在镜头里”当无人化。

BMW 部署真正暴露的,是 Figure 02 的硬件学习

Figure 这次 BMW 资料里,最像工程现场的一点,是它公开提到 Figure 02 的 forearm 是主要 hardware failure point。

这比“机器人工作了多少小时”更值得看。因为一台人形机器人进现场以后,真正先暴露的通常不是宏大智能问题,而是某个很具体的子系统:腕部线缆、手指机构、散热、电气连接、减速器、传感器固定、标定漂移、维护可达性。

Figure 官方说,Figure 02 的前臂封装很紧,里面有三自由度 dexterity、热约束、通信分发板和动态线缆;这些经验被带入 Figure 03,后者重新架构 wrist electronics,减少 distribution board 和 dynamic cabling。

这就是窄任务部署的价值:它不只是拿来做宣传,也会把“哪一层先坏”暴露出来。对做人形机器人项目的人来说,这比一次漂亮演示更有参考意义。因为现场告诉你的,往往不是“模型再大一点就好”,而是“这个腕部结构、线束、散热和可维护性撑不住下一轮部署”。

物流场景验证的是另一类边界:物体长尾和吞吐量

Figure 的 logistics 资料则把问题从固定工位搬运,推到小包裹分拣。官方称 Helix 在三个月内处理了更复杂包裹类型:rigid boxes、poly bags、flat envelopes 等;handling time 从约 5.0 秒降到 4.05 秒;barcode orientation success 从约 70% 提升到约 95%。

这类场景和 BMW 不一样。BMW 的难点更偏工位精度、节拍和可靠性;物流包裹的难点更偏物体外形变化、软袋变形、标签朝向、抓取策略和连续吞吐。

Figure 官方把改进归因到两个方向:一是 demonstration data 从 10 小时扩到 60 小时,二是加入 temporal memory 和 force feedback。这里值得注意的是,Figure 没有只说“模型更大”,而是把进步拆成数据规模、视觉记忆、状态历史和触觉 / 力反馈。

这对小团队也有启发:如果包裹、衣物、餐具、工具这类物体开始长尾化,问题通常不是单纯“识别模型不够强”。你还要问:系统有没有记住前几帧?有没有知道刚才摸到了什么?有没有把物体变形和标签朝向写进动作策略?失败后有没有回放证据?

BMW 和物流不是同一个“落地场景”

很多报道会把工厂、物流、家庭都放进“真实世界应用”这个大筐里。但对工程判断来说,这样太粗。

场景真正验证什么第一风险不要外推成什么
BMW 钣金上料固定工位、固定物体、固定节拍下的搬运 / 放置闭环。手眼标定、现场校准、腕部可靠性、intervention 控制。不要外推成所有制造任务都可替代。
物流包裹分拣多形态包裹、标签朝向、吞吐量和策略自适应。软物变形、标签遮挡、抓取失败恢复、队列吞吐。不要外推成所有仓库流程已经无人化。
家庭洗碗 / 整理长任务、场景理解、移动操作、用户目标和失败恢复。起始状态长尾、隐私、安全接触、跨家庭复现。不要用工业或物流成功直接证明家庭可用。

这个区分很重要。一个机器人在 BMW 工位跑得好,说明它在结构化工业任务里有价值;在物流包裹上进步,说明它开始处理更强的物体变化;但家庭任务会把用户语言、空间混乱、隐私、安全、软物和长尾状态一起放大。三者之间有关联,但不能互相替代。

对自己做人形机器人,Figure 这两条线最值得学什么

如果你在做自己的 humanoid 原型,不需要照搬 Figure 的公司路线,但可以照搬它在这两类场景里暴露出来的判断纪律。

第一,先把任务写窄。 不要一上来就说“机器人要进工厂”。先写清楚:哪个工位、哪个物体、哪段距离、什么容差、什么节拍、失败后谁接管。

第二,KPI 要能抓住失败。 只看成功率不够。至少要有 cycle time、位置误差、intervention 次数、失败桶、硬件故障点和恢复时间。

第三,把硬件失效当成部署反馈,不要当成个例。 Figure 02 的 forearm 学习说明,现场最早告诉你的常常是结构、线束、热、电和维护问题。不要把每次坏掉都只归因于“样机还不稳定”。

第四,物流式长尾要靠状态记忆和接触证据。 软袋、信封、盒子、标签朝向这类问题,不是多收一点图片就一定能解决。动作历史、force / tactile feedback、失败回放和策略恢复同样关键。

第五,不要用一个场景证明所有场景。 工厂成功、物流进步、家庭 demo,分别证明不同层的能力。把它们混在一起,只会让路线判断失真。

目前还要继续追的证据

Figure 的 BMW 和物流资料已经比普通 demo 更有价值,但还远不到“无需怀疑”的程度。后续我会重点看这些信号:

  • BMW 或其他客户是否公开更多长期运行数据,而不只是 Figure 自己披露。
  • intervention 的定义是否更清楚:暂停、远程确认、reset、人工搬离,是否分开统计。
  • Figure 03 接替 Figure 02 后,腕部、手部、线缆、热管理和可维护性是否真的改善。
  • 物流任务是否能从小包裹分拣扩到更复杂 SKU、破损件、拥堵队列和异常包裹。
  • 这些工业 / 物流经验是否真的能回流到 Helix、Figure 03 和家庭任务,而不是停在单点部署。

如果用一句话收口:BMW 和物流场景证明 Figure 正在从“会演示”进入“能被 KPI 逼问”的阶段。但它们证明的是窄任务部署和物体处理能力正在变强,不是通用人形机器人已经完成。真正有价值的读法,是盯住任务边界、失败分布和下一代设计修正。

继续读 Figure 专题

来源 / 进一步阅读

Share this article

Send it to someone following humanoid robotics, embodied AI, or deployment trends.