Figure Helix 是什么：VLA、全身控制和家务机器人工程拆解

看 Figure AI，最容易被 demo 带跑的一层，是 Helix。

因为 Helix 的说法听起来很像一个万能答案：Vision-Language-Action，能听懂语言、看懂场景、直接控制人形机器人，甚至从上半身扩展到全身移动和操作。但如果把它只理解成“Figure 的大模型”，就会错过真正关键的问题：Helix 要解决的不是一句话生成动作，而是把语言、视觉、触觉、关节、本体状态、平衡、接触和失败恢复接成一条可以在真实机器人上跑的控制链。

所以这篇不把 Helix 写成 AI 新闻。更稳的读法是：把 Helix 当作 Figure 03 这代硬件、家庭任务和 fleet data 路线的中枢接口。它现在最值得看的，不是宣传里说“会做家务”，而是它把哪些层拆开了、哪些层合在一起了、哪些证据还不够。

先给结论：Helix 的重点不是“懂语言”，而是把语义接进身体闭环

Figure 官方在 Helix 文章里把它定义为 generalist Vision-Language-Action model，目标是统一 perception、language understanding 和 learned control。原始 Helix 主要展示的是上半身控制：手腕、躯干、头部和手指；Helix 02 则把叙事推进到 full-body autonomy / loco-manipulation，也就是边走、边保持平衡、边操作物体。

这件事对人形机器人很重要，但不能被一句 VLA 盖过去。真正难的是接口：

语言目标要先变成可执行的任务边界，而不是一句模糊愿望。
视觉要能给出物体、空间、遮挡、目标状态和失败线索，而不是只识别“这是什么”。
手部近场信息、触觉、关节状态和整机姿态要能一起进入动作决策。
动作输出不能只控制手臂，还要和躯干、腿、重心、接触和安全边界兼容。
失败后必须知道是看错了、抓滑了、脚步没站稳、任务目标错了，还是恢复链没写死。

换句话说，Helix 真正要证明的是：语义智能能不能稳定接入一个重 61kg、带双腿、双臂、触觉、掌心相机和真实接触风险的人形机器人身体。只要这条链断一层，demo 仍然可能好看，但工程上不能算闭环。

Helix 的三层结构：S2 想目标，S1 出动作，S0 守住身体

按 Figure 官方披露，原始 Helix 使用一个 System 1 / System 2 架构。S2 是 7B 级 VLM，以 7-9Hz 处理场景理解和语言理解；S1 是约 80M 参数的 visuomotor policy，以 200Hz 把语义表示转成连续动作。到 Helix 02，Figure 又加入 System 0：whole-body controller，以 1kHz 处理 balance、contact 和 full-body coordination。

这套分层值得认真看，因为它没有假装一个大模型直接替代所有控制层。人形机器人不可能只靠“慢思考”控制接触和稳定。语言理解可以慢一点，手眼动作要快得多，平衡、接触和关节级响应更快。Helix 的工程价值，恰恰在于它承认这些层的时间尺度不一样。

层级	官方披露的角色	真正承担什么接口	不能过早推出什么
S2	VLM，约 7-9Hz，负责场景理解和语言理解。	把用户语言、物体语义、目标状态压成任务意图和高层上下文。	不要把“听懂一句话”直接等同于任务可可靠完成。
S1	visuomotor policy，约 200Hz，负责连续动作输出。	把视觉、触觉、本体状态和语义目标转成手、臂、躯干等动作。	不要把一次抓取成功当成跨物体、跨遮挡、跨环境泛化。
S0	Helix 02 新增 whole-body controller，约 1kHz，处理平衡、接触和全身协调。	在走路、转身、弯腰、伸手、搬运时守住重心、接触、关节和恢复余量。	不要把“全身控制接入”直接等同于复杂家庭任务稳定。

这张表也解释了为什么 Figure 03 的硬件改动和 Helix 是绑在一起的。掌心相机、触觉传感器、低延迟视觉、无线充电、数据回传，不是漂亮配置，而是给 S1 / S0 提供更密、更近、更可回放的输入输出接口。

Helix 01 到 Helix 02：真正跃迁是从上半身操作到 loco-manipulation

原始 Helix 的核心样本，是让机器人用上半身完成更泛化的家居物体操作。Figure 官方强调一套网络权重可以处理不同小物体、自然语言提示和多机器人协作。这一层的价值在于，它试图减少“每个物体、每个任务都要单独写脚本”的传统机器人开发负担。

但上半身操作仍然只是人形机器人路线的一半。真正进入家庭或长任务时，机器人不能只站在固定位置伸手。它要走到橱柜前，转身，蹲下，避开障碍，伸手拿东西，拿完还要带着物体移动。此时腿、躯干、手臂和手部不再是独立模块，而是在同一个接触系统里互相影响。

Helix 02 的关键说法就是把这一层推进到 full-body autonomy。官方展示的核心样本，是一个 4 分钟 dishwasher unload / reload 任务：机器人在厨房里移动、打开或处理洗碗机相关动作、搬运餐具、放进柜子或重新装载，并称全程使用 onboard sensors、无人工介入、无 reset。官方还称 Helix 02 扩展为 all sensors in / all joints out，接入头部相机、掌心相机、指尖触觉和全身本体状态，输出到腿、躯干、头、手臂、手腕和手指。

这个进展值得关注，但它的正确读法不是“家务机器人已经来了”。更稳的读法是：Figure 开始把 manipulation 和 locomotion 从两个顺序模块，往一个连续全身行为里压。这里最容易出问题的，不是单次动作，而是过渡：走到位以后姿态是否还稳，伸手时重心是否被破坏，抓取失败后是否知道先退回哪一层，拿着物体转身时是否还保留恢复余量。

Figure 03 为什么要为 Helix 重做手、视觉和触觉

Figure 03 官方页面给出的基础规格很直观：5’8″、61kg、20kg payload、5h runtime、1.2m/s、电驱系统。但如果只看这些参数，很容易把问题看浅。Helix 真正需要的不是一组好看的整机指标，而是一组能让模型闭环的感知和接触接口。

Figure 官方介绍 Figure 03 时，重点提到新视觉系统的帧率提升、延迟降低、单相机视场增大；手部加入掌心相机；fingertips 更软、更自适应；自研 tactile sensors 可检测很小压力；同时有 10Gbps mmWave data offload。放到 Helix 里看，这些变化都在服务一个问题：机器人在真实家庭或工位里，能不能在遮挡、近场、滑移、接触变化和失败恢复里持续拿到证据。

比如，主相机看得到桌面，不代表手伸进柜子时还能看清接触点；视觉识别出杯子，不代表指尖已经稳定夹住；离线看起来动作对，不代表一旦物体滑动、重心变化、脚下姿态改变，系统还能安全收住。掌心相机和触觉的价值，就是把这些“最后 10 厘米”的不确定性往闭环里补。

所以 Figure 03 不应该被简单理解成 Figure 02 的家用版本。更准确的说法是：它是为 Helix 这类 VLA / whole-body control 路线重新补输入、接触和数据接口的一代硬件平台。

看 Helix demo，先用这张 first-look 表收口

Helix 这类系统最容易制造“看起来已经通用”的错觉。公开视频能说明能力边界正在推进，但不能替代工程验收。以后再看到 Figure 发布 Helix 相关视频、任务声明或新规格，先不要急着问“是不是 AGI 机器人”。更应该先压回下面几层。

先看到什么	第一怀疑层	先找什么证据	今天先别推出什么
机器人听懂自然语言并开始做事	任务边界 / 指令解释层	任务是否固定、失败时是否追问、目标状态是否可验证、是否有人类暗示。	别把听懂口令等同于自主完成长任务。
能抓很多未见过的小物体	近场视觉 / 触觉 / 抓取恢复层	遮挡、反光、软物、滑移、失败重试、不同材质和不同摆放姿态表现。	别把小物体抓取推成通用家务操作。
能边走边拿东西	全身协调 / 接触稳定层	步态速度、转身、负载变化、手臂动作对重心影响、保护触发和恢复余量。	别把一次 loco-manipulation 演示推成家庭移动操作成熟。
4 分钟厨房或洗碗机任务	长任务恢复 / 初始条件层	起始状态、物体种类、重试次数、是否 reset、是否跨厨房复现、失败样本是否公开。	别把单场景长演示等同于跨家庭能力。
官方称 all sensors in / all joints out	系统集成 / 安全边界层	传感器丢失时如何降级、触觉和视觉冲突怎么处理、谁有最后停止权。	别把统一模型等同于安全责任链闭合。

这张表的重点不是怀疑 Figure，而是把证据放回正确层级。对人形机器人来说，最危险的阅读方式，是把一个场景里的漂亮结果直接外推到所有场景。Figure 的 Helix 越值得看，越应该用更硬的证据层去看。

对自己做人形机器人，Helix 最值得学的不是模型名，而是接口纪律

如果你不是 Figure 这样的公司，而是在做小团队样机、课程项目或开源平台，Helix 仍然有参考价值。但参考点不是“也去做一个 VLA 大模型”。更现实的启发是接口纪律。

第一，不要让语言层绕过任务边界。用户说“把厨房收拾一下”，工程系统不能直接把它当成可执行动作。它必须被拆成目标状态、允许动作、禁止动作、失败退出和人工确认。

第二，不要让视觉层只停在识别。做人形机器人，视觉输出至少要能支持动作：物体在哪里、姿态如何、是否被遮挡、下一步是否还需要近场确认、失败后保留什么证据。

第三，不要把手臂、手和腿割裂得太干净。只要机器人要移动中操作，手臂动作、负载、足底接触、躯干姿态和恢复链就会互相影响。越早把这些接口写清楚，后面越不容易被 demo 误导。

第四，不要把数据回传当成“以后再说”。Figure 03 的 mmWave data offload、BotQ、fleet、EOL 和 field service 叙事提醒我们：真实机器人进场后，失败证据和回放链不是附属品，而是迭代能力本身。

目前仍要谨慎的地方

Helix 是 Figure 路线里最值得继续追的一层，但现在仍有几类证据不能跳过。

跨家庭、跨厨房、跨物品摆放、跨用户语言习惯的复现能力，还需要更多长期样本。
4 分钟长任务很强，但更关键的是失败分布、恢复方式、人工介入、任务重试和坏样本。
all sensors in / all joints out 的统一模型路线，仍需要看传感器异常、接触意外和安全停机时的责任链。
Helix 与 Figure 03 硬件的绑定程度很高，因此模型能力不能脱离手部、触觉、视觉、算力、热、电和数据链单独评价。
官方披露的数据是重要线索，但仍需要客户侧、第三方或长期部署数据来确认稳定性。

所以，Helix 的正确位置不是“已经证明通用家庭机器人完成了”，也不是“只是一个 AI buzzword”。它更像 Figure 当前路线里的系统中枢：上接语言和任务，下接手、腿、触觉、视觉、平衡和真实数据。它能不能成立，最终不取决于 demo 有多像人，而取决于这些接口在真实长任务里能不能稳定收住。

Figure Helix 是什么：VLA、全身控制和家务机器人的工程拆解

先给结论：Helix 的重点不是“懂语言”，而是把语义接进身体闭环

Helix 的三层结构：S2 想目标，S1 出动作，S0 守住身体

Helix 01 到 Helix 02：真正跃迁是从上半身操作到 loco-manipulation

Figure 03 为什么要为 Helix 重做手、视觉和触觉

看 Helix demo，先用这张 first-look 表收口

对自己做人形机器人，Helix 最值得学的不是模型名，而是接口纪律

目前仍要谨慎的地方

继续读 Figure 专题

来源 / 进一步阅读

More posts

Figure 03 感知和触觉说明了什么：人形机器人不是多装几个传感器就会抓东西

Figure 03 电池说明了什么：人形机器人续航、安全和快充不是一个参数问题

Figure 和 Catalyst Brands 合作说明了什么：人形机器人进入物流不是先看部署数量

Project Go-Big 说明了什么：人类视频预训练不是机器人数据的免费替代品