Project Go-Big 最值得看的,不是 Figure 又讲了一个更大的 AI 故事,而是它把家庭机器人最难补的一层摊到了台面上:真实人类环境里的行为数据从哪里来,怎么变成 humanoid 可用的预训练底座。
Figure 的说法很激进:他们要用 Brookfield 覆盖的住宅、办公和物流空间,建立大规模 humanoid pretraining dataset;Helix 已经用 100% 第一视角人类视频训练出从语言到导航的 zero-shot human video-to-robot transfer。这个说法如果只按新闻读,很容易变成“机器人学会看人类视频了”。但工程上更该先追问:
人类视频不是机器人数据的免费替代品。它只有在目标、视角、状态、动作接口和失败证据都能对齐时,才可能变成真正有用的机器人预训练资产。
所以这篇不把 Project Go-Big 写成大模型口号。我们只借它拆一件事:用互联网规模的人类视频训练人形机器人时,第一轮到底该看哪些闸门。
先给结论:Go-Big 的核心不是“数据更多”,而是“数据能不能对齐到机器人身体”
Figure 在 Project Go-Big 页面里把问题说得很清楚:视觉、语言和视频模型有 ImageNet、Wikipedia、YouTube 这类大规模预训练来源,但机器人没有一个天然的 “YouTube for robot behaviors”。传统机器人技能学习依赖昂贵示教、手写程序或高度布置过的环境,很难覆盖家庭真实长尾。
Figure 的押注是:人形机器人和人类有相似的观察视角与运动结构,所以第一视角人类视频可以成为 humanoid 学习导航和任务行为的预训练来源。Brookfield 的价值也在这里:它不是普通品牌合作,而是给 Figure 提供大量住宅、办公、物流空间里的真实人类目标行为。
但这件事不能被读成“拍更多人类视频就够了”。对做人形机器人系统的人来说,Project Go-Big 真正暴露了五个工程问题:
- 人类视频里的目标,能不能变成机器人可执行的任务条件?
- 第一视角视频里的空间判断,能不能落到机器人自己的相机、地图和速度控制上?
- 人的动作和机器人的运动边界不同,迁移时哪些东西必须被重新解释?
- 如果没有机器人示教,怎么证明模型不是只学到了“看起来像会走”?
- 数据规模上来后,隐私、标注、回放和失败归因能不能跟上?
现场 first-look 表:看人类视频预训练,不要先看数据规模
| 先看到什么信号 | 先判哪一层 | 第一组证据 | 今天先别下什么结论 |
|---|---|---|---|
| 数据来自大量真实住宅、办公、物流空间 | 环境覆盖 / 任务分布 | 房型、动线、家具密度、任务类别、采集时长、重复场景比例 | 不要把空间数量直接等同于行为覆盖 |
| 只用第一视角人类视频训练 | 视角迁移 / embodiment gap | 人眼视角与机器人相机高度、FOV、延迟、遮挡、身体占位的差异 | 不要把人类视频当成机器人实机数据的完整替代 |
| 语言命令可以让机器人走到目标位置 | 语言到导航目标接口 | 目标识别、路径选择、局部避障、终点判定、失败时是否停下 | 不要把 speech-to-nav 直接外推成完整家务能力 |
| 单一 Helix 网络同时输出操作和导航 | 统一模型 / 控制接口 | 输出频率、SE(2) 速度命令、手臂动作接口、任务切换守门条件 | 不要把“统一模型”当成所有子系统边界已经消失 |
| zero-shot human-to-robot transfer 很亮眼 | 验证边界 / 泛化证据 | 测试家庭数量、是否见过同类环境、失败案例、人工介入、重试和 reset 规则 | 不要把单组 demo 直接当成跨家庭可部署能力 |
这张表的用法很简单:以后看到 “human video pretraining”“internet-scale embodied data” 这类说法,不要先争是不是 AGI。先压回任务分布、视角迁移、语言接口、控制输出和验证边界。任何一层不清楚,数据规模都会先放大误判。
第一层:人类视频能提供目标行为,但不能自动提供机器人验收
Figure 把 Project Go-Big 对标到 ImageNet、Wikipedia 和 YouTube 这类预训练资源,这个类比有启发,但也容易误导。视觉模型看图,语言模型读文本,视频模型学视觉动态;机器人则必须把输入落到身体动作、接触、安全和失败恢复上。
人类视频最有价值的部分,是它能覆盖真实环境里的目标行为:人怎么绕过椅子,怎么从客厅走到冰箱,怎么根据障碍重新选路,怎么在家庭空间里把语言目标转成行动路线。这些行为如果全靠机器人实机采集,成本会很高,覆盖也慢。
但人类视频缺的也很明显:
- 它没有机器人关节、电机、电池、足底接触和安全限制。
- 它不天然带有机器人能执行的动作标签。
- 它看不到机器人身体在空间里占了多少位置。
- 它无法直接告诉你失败时该减速、停下、求助还是重规划。
所以 Go-Big 的工程价值不在“视频多”,而在 Figure 是否能把人类目标行为压成可被 Helix 消化的中间表示:目标、场景、路径、局部约束、终止条件,以及失败时的保守动作。
第二层:Brookfield 不是渠道新闻,它是数据分布问题
Figure 和 Brookfield 的合作披露了几个关键数字:Brookfield 有超过 100,000 个住宅单元、超过 5 亿平方英尺商业办公空间和 1.6 亿平方英尺物流空间。Figure 说这些环境会帮助 Project Go-Big 获取大规模、多样化的人类目标行为数据,并支持 Helix 的训练。
这比普通“战略合作”更值得写,因为家庭机器人最缺的不是漂亮 demo 场景,而是分布真实的场景。一个厨房 demo 只能说明机器人在那个厨房、那些物体、那条动线上跑通了一次;但真实家庭会有不同厨房布局、不同光线、不同宠物、不同地毯、不同门槛、不同杂物密度。
Brookfield 给 Figure 的潜在价值,是它可能提供更接近真实部署分布的数据入口。但这里也有一个硬边界:场景多,不等于数据自动可用。真正要看的不是“100,000 个住宅”这个数字,而是:
- 采集协议是否一致,还是每个环境都像独立素材库;
- 任务是否有清楚起止条件,还是只有长视频;
- 是否能标出目标、障碍、终点、失败和人为绕行;
- 是否能保护住隐私、权限和数据出口;
- 是否有办法把数据回放到机器人测试里,而不是只用于离线训练。
第三层:speech-to-nav 是重要进展,但别把它外推成完整家务
Figure 披露的最强 claim,是 Helix 使用 100% 第一视角人类视频训练后,可以根据 “Walk to the kitchen table”“Go water the plants” 这类自然语言,在杂乱真实家庭环境里生成闭环导航控制。Figure 还强调这是从图像和语言到低层 SE(2) 速度命令的 zero-shot human-to-robot transfer,没有使用 robot-specific data。
这个结果值得重视,因为家庭 humanoid 如果连“听懂目标并走到正确位置”都做不好,后面的洗碗、叠衣服、整理卧室都会被卡住。导航不是低级能力,它是家务任务的入口能力。
但 speech-to-nav 还不是完整家务。它证明的主要是目标理解、空间语义、局部路径和移动控制之间出现了可迁移接口;还没有直接证明:
- 机器人到了位置后能稳定操作物体;
- 遇到人、宠物、门、地毯、反光、狭窄通道时有一致的安全策略;
- 跨家庭、跨楼层、跨任务的失败恢复已经成熟;
- 长时间运行中的定位漂移、热、电、脚底接触和维护成本已经被压住。
更稳的读法是:Project Go-Big 把 Helix 从“只看上肢操作 demo”往“移动到任务现场”推进了一层。它是家庭任务链路里的入口闸门,不是终点。
第四层:统一模型很诱人,但系统边界不能消失
Figure 还说,一个 Helix 网络现在可以同时输出高频灵巧操作和导航命令,不再需要为不同任务或数据源建立分开的系统。这个方向很有吸引力,因为家务机器人不可能永远靠一堆脆弱的 task-specific 模型拼起来。
但统一模型不等于边界可以不写。恰恰相反,越是统一,越需要更硬的系统守门:
- 什么时候模型只允许输出导航速度,不允许动手?
- 什么时候进入近场操作,必须切到掌心相机和触觉证据?
- 导航不确定时,是减速、停下、还是请求人工确认?
- 手臂动作会不会破坏行走平衡和安全距离?
- 模型输出和底层安全壳冲突时,谁拥有最终否决权?
这些问题不适合被 “end-to-end” 四个字盖过去。对 humanoid 来说,end-to-end 可以减少手写接口,但不能取消验收、回放、安全和降级策略。
给小团队的启发:先别学 Go-Big,先学它的问题定义
大多数团队不可能有 Brookfield 这种环境入口,也不可能马上做互联网规模预训练。但 Project Go-Big 仍然有借鉴价值:它把数据问题从“采更多素材”改成了“采能迁移到机器人身体的目标行为”。
| 你现在的阶段 | 先做什么 | 验收看什么 | 先不要做什么 |
|---|---|---|---|
| 还没有稳定开发环境 | 先把仿真、日志、回放和版本基线跑通 | 同一任务能重复运行、失败能回放、版本能回退 | 不要先堆视频数据,也不要急着训练大模型 |
| 开始采家庭任务视频 | 先固定 3–5 个任务脚本和起止条件 | 每条视频能说清目标、环境、动作、失败和人工介入 | 不要把长视频数量当进展 |
| 想做导航学习 | 先把目标点、局部障碍和终点判定标清 | 机器人能在小范围内按语言目标稳定到位并安全停下 | 不要直接扩到完整家务链 |
| 已有 manipulation demo | 把移动到工位、对齐、再操作拆开验证 | 导航失败、对齐失败、抓取失败能分桶 | 不要把失败都混成“模型还不够强” |
| 准备扩大采集 | 先写隐私、权限、数据出口和删除流程 | 每条数据来源、用途、保留期限和访问权限可查 | 不要把家庭原始数据直接丢进通用数据湖 |
小团队真正该学的不是 Figure 的规模,而是它的问题顺序:先定义机器人要从人类行为里学什么,再决定采什么数据;先证明数据能转成动作,再扩大采集;先写清失败和隐私边界,再谈长期家庭场景。
结尾:Project Go-Big 是重要信号,但还不是最终证明
Project Go-Big 是 Figure 系列里很关键的一块。它解释了为什么 Figure 要从 Figure 03、Helix、Brookfield、家庭任务和 BotQ 这些线同时推进:家庭 humanoid 不只是硬件问题,也不是单次 demo 问题,而是数据、模型、身体、部署和制造一起闭环的问题。
但最稳的判断仍然是保守的:Project Go-Big 证明 Figure 正在认真解决数据分布和 human-to-robot transfer 问题;它还没有证明家庭 humanoid 已经能在大量真实家庭里长期可靠执行完整家务。
以后继续看 Figure,不要只看它又采了多少数据、又演示了哪个任务。更该看三件事:
- 人类视频能否持续转成机器人可验证、可回放、可复现的行为提升;
- Helix 在不同家庭和任务里是否能保持失败可控,而不是只在精选 demo 里流畅;
- 数据规模扩大后,隐私、标注、回放、部署和现场服务成本有没有一起被压住。
如果这三件事成立,Go-Big 才不只是一个大数据项目,而会成为 Figure 家庭机器人路线的真正地基。