Figure Helix 是什么:VLA、全身控制和家务机器人的工程拆解

看 Figure AI,最容易被 demo 带跑的一层,是 Helix。

因为 Helix 的说法听起来很像一个万能答案:Vision-Language-Action,能听懂语言、看懂场景、直接控制人形机器人,甚至从上半身扩展到全身移动和操作。但如果把它只理解成“Figure 的大模型”,就会错过真正关键的问题:Helix 要解决的不是一句话生成动作,而是把语言、视觉、触觉、关节、本体状态、平衡、接触和失败恢复接成一条可以在真实机器人上跑的控制链。

所以这篇不把 Helix 写成 AI 新闻。更稳的读法是:把 Helix 当作 Figure 03 这代硬件、家庭任务和 fleet data 路线的中枢接口。它现在最值得看的,不是宣传里说“会做家务”,而是它把哪些层拆开了、哪些层合在一起了、哪些证据还不够。

先给结论:Helix 的重点不是“懂语言”,而是把语义接进身体闭环

Figure 官方在 Helix 文章里把它定义为 generalist Vision-Language-Action model,目标是统一 perception、language understanding 和 learned control。原始 Helix 主要展示的是上半身控制:手腕、躯干、头部和手指;Helix 02 则把叙事推进到 full-body autonomy / loco-manipulation,也就是边走、边保持平衡、边操作物体。

这件事对人形机器人很重要,但不能被一句 VLA 盖过去。真正难的是接口:

  • 语言目标要先变成可执行的任务边界,而不是一句模糊愿望。
  • 视觉要能给出物体、空间、遮挡、目标状态和失败线索,而不是只识别“这是什么”。
  • 手部近场信息、触觉、关节状态和整机姿态要能一起进入动作决策。
  • 动作输出不能只控制手臂,还要和躯干、腿、重心、接触和安全边界兼容。
  • 失败后必须知道是看错了、抓滑了、脚步没站稳、任务目标错了,还是恢复链没写死。

换句话说,Helix 真正要证明的是:语义智能能不能稳定接入一个重 61kg、带双腿、双臂、触觉、掌心相机和真实接触风险的人形机器人身体。只要这条链断一层,demo 仍然可能好看,但工程上不能算闭环。

Helix 的三层结构:S2 想目标,S1 出动作,S0 守住身体

按 Figure 官方披露,原始 Helix 使用一个 System 1 / System 2 架构。S2 是 7B 级 VLM,以 7-9Hz 处理场景理解和语言理解;S1 是约 80M 参数的 visuomotor policy,以 200Hz 把语义表示转成连续动作。到 Helix 02,Figure 又加入 System 0:whole-body controller,以 1kHz 处理 balance、contact 和 full-body coordination。

这套分层值得认真看,因为它没有假装一个大模型直接替代所有控制层。人形机器人不可能只靠“慢思考”控制接触和稳定。语言理解可以慢一点,手眼动作要快得多,平衡、接触和关节级响应更快。Helix 的工程价值,恰恰在于它承认这些层的时间尺度不一样。

层级官方披露的角色真正承担什么接口不能过早推出什么
S2VLM,约 7-9Hz,负责场景理解和语言理解。把用户语言、物体语义、目标状态压成任务意图和高层上下文。不要把“听懂一句话”直接等同于任务可可靠完成。
S1visuomotor policy,约 200Hz,负责连续动作输出。把视觉、触觉、本体状态和语义目标转成手、臂、躯干等动作。不要把一次抓取成功当成跨物体、跨遮挡、跨环境泛化。
S0Helix 02 新增 whole-body controller,约 1kHz,处理平衡、接触和全身协调。在走路、转身、弯腰、伸手、搬运时守住重心、接触、关节和恢复余量。不要把“全身控制接入”直接等同于复杂家庭任务稳定。

这张表也解释了为什么 Figure 03 的硬件改动和 Helix 是绑在一起的。掌心相机、触觉传感器、低延迟视觉、无线充电、数据回传,不是漂亮配置,而是给 S1 / S0 提供更密、更近、更可回放的输入输出接口。

Helix 01 到 Helix 02:真正跃迁是从上半身操作到 loco-manipulation

原始 Helix 的核心样本,是让机器人用上半身完成更泛化的家居物体操作。Figure 官方强调一套网络权重可以处理不同小物体、自然语言提示和多机器人协作。这一层的价值在于,它试图减少“每个物体、每个任务都要单独写脚本”的传统机器人开发负担。

但上半身操作仍然只是人形机器人路线的一半。真正进入家庭或长任务时,机器人不能只站在固定位置伸手。它要走到橱柜前,转身,蹲下,避开障碍,伸手拿东西,拿完还要带着物体移动。此时腿、躯干、手臂和手部不再是独立模块,而是在同一个接触系统里互相影响。

Helix 02 的关键说法就是把这一层推进到 full-body autonomy。官方展示的核心样本,是一个 4 分钟 dishwasher unload / reload 任务:机器人在厨房里移动、打开或处理洗碗机相关动作、搬运餐具、放进柜子或重新装载,并称全程使用 onboard sensors、无人工介入、无 reset。官方还称 Helix 02 扩展为 all sensors in / all joints out,接入头部相机、掌心相机、指尖触觉和全身本体状态,输出到腿、躯干、头、手臂、手腕和手指。

这个进展值得关注,但它的正确读法不是“家务机器人已经来了”。更稳的读法是:Figure 开始把 manipulation 和 locomotion 从两个顺序模块,往一个连续全身行为里压。这里最容易出问题的,不是单次动作,而是过渡:走到位以后姿态是否还稳,伸手时重心是否被破坏,抓取失败后是否知道先退回哪一层,拿着物体转身时是否还保留恢复余量。

Figure 03 为什么要为 Helix 重做手、视觉和触觉

Figure 03 官方页面给出的基础规格很直观:5’8″、61kg、20kg payload、5h runtime、1.2m/s、电驱系统。但如果只看这些参数,很容易把问题看浅。Helix 真正需要的不是一组好看的整机指标,而是一组能让模型闭环的感知和接触接口。

Figure 官方介绍 Figure 03 时,重点提到新视觉系统的帧率提升、延迟降低、单相机视场增大;手部加入掌心相机;fingertips 更软、更自适应;自研 tactile sensors 可检测很小压力;同时有 10Gbps mmWave data offload。放到 Helix 里看,这些变化都在服务一个问题:机器人在真实家庭或工位里,能不能在遮挡、近场、滑移、接触变化和失败恢复里持续拿到证据。

比如,主相机看得到桌面,不代表手伸进柜子时还能看清接触点;视觉识别出杯子,不代表指尖已经稳定夹住;离线看起来动作对,不代表一旦物体滑动、重心变化、脚下姿态改变,系统还能安全收住。掌心相机和触觉的价值,就是把这些“最后 10 厘米”的不确定性往闭环里补。

所以 Figure 03 不应该被简单理解成 Figure 02 的家用版本。更准确的说法是:它是为 Helix 这类 VLA / whole-body control 路线重新补输入、接触和数据接口的一代硬件平台。

看 Helix demo,先用这张 first-look 表收口

Helix 这类系统最容易制造“看起来已经通用”的错觉。公开视频能说明能力边界正在推进,但不能替代工程验收。以后再看到 Figure 发布 Helix 相关视频、任务声明或新规格,先不要急着问“是不是 AGI 机器人”。更应该先压回下面几层。

先看到什么第一怀疑层先找什么证据今天先别推出什么
机器人听懂自然语言并开始做事任务边界 / 指令解释层任务是否固定、失败时是否追问、目标状态是否可验证、是否有人类暗示。别把听懂口令等同于自主完成长任务。
能抓很多未见过的小物体近场视觉 / 触觉 / 抓取恢复层遮挡、反光、软物、滑移、失败重试、不同材质和不同摆放姿态表现。别把小物体抓取推成通用家务操作。
能边走边拿东西全身协调 / 接触稳定层步态速度、转身、负载变化、手臂动作对重心影响、保护触发和恢复余量。别把一次 loco-manipulation 演示推成家庭移动操作成熟。
4 分钟厨房或洗碗机任务长任务恢复 / 初始条件层起始状态、物体种类、重试次数、是否 reset、是否跨厨房复现、失败样本是否公开。别把单场景长演示等同于跨家庭能力。
官方称 all sensors in / all joints out系统集成 / 安全边界层传感器丢失时如何降级、触觉和视觉冲突怎么处理、谁有最后停止权。别把统一模型等同于安全责任链闭合。

这张表的重点不是怀疑 Figure,而是把证据放回正确层级。对人形机器人来说,最危险的阅读方式,是把一个场景里的漂亮结果直接外推到所有场景。Figure 的 Helix 越值得看,越应该用更硬的证据层去看。

对自己做人形机器人,Helix 最值得学的不是模型名,而是接口纪律

如果你不是 Figure 这样的公司,而是在做小团队样机、课程项目或开源平台,Helix 仍然有参考价值。但参考点不是“也去做一个 VLA 大模型”。更现实的启发是接口纪律。

第一,不要让语言层绕过任务边界。用户说“把厨房收拾一下”,工程系统不能直接把它当成可执行动作。它必须被拆成目标状态、允许动作、禁止动作、失败退出和人工确认。

第二,不要让视觉层只停在识别。做人形机器人,视觉输出至少要能支持动作:物体在哪里、姿态如何、是否被遮挡、下一步是否还需要近场确认、失败后保留什么证据。

第三,不要把手臂、手和腿割裂得太干净。只要机器人要移动中操作,手臂动作、负载、足底接触、躯干姿态和恢复链就会互相影响。越早把这些接口写清楚,后面越不容易被 demo 误导。

第四,不要把数据回传当成“以后再说”。Figure 03 的 mmWave data offload、BotQ、fleet、EOL 和 field service 叙事提醒我们:真实机器人进场后,失败证据和回放链不是附属品,而是迭代能力本身。

目前仍要谨慎的地方

Helix 是 Figure 路线里最值得继续追的一层,但现在仍有几类证据不能跳过。

  • 跨家庭、跨厨房、跨物品摆放、跨用户语言习惯的复现能力,还需要更多长期样本。
  • 4 分钟长任务很强,但更关键的是失败分布、恢复方式、人工介入、任务重试和坏样本。
  • all sensors in / all joints out 的统一模型路线,仍需要看传感器异常、接触意外和安全停机时的责任链。
  • Helix 与 Figure 03 硬件的绑定程度很高,因此模型能力不能脱离手部、触觉、视觉、算力、热、电和数据链单独评价。
  • 官方披露的数据是重要线索,但仍需要客户侧、第三方或长期部署数据来确认稳定性。

所以,Helix 的正确位置不是“已经证明通用家庭机器人完成了”,也不是“只是一个 AI buzzword”。它更像 Figure 当前路线里的系统中枢:上接语言和任务,下接手、腿、触觉、视觉、平衡和真实数据。它能不能成立,最终不取决于 demo 有多像人,而取决于这些接口在真实长任务里能不能稳定收住。

继续读 Figure 专题

来源 / 进一步阅读

Share this article

Send it to someone following humanoid robotics, embodied AI, or deployment trends.