Project Go-Big 说明了什么：人类视频预训练与人形机器人数据迁移

Project Go-Big 最值得看的，不是 Figure 又讲了一个更大的 AI 故事，而是它把家庭机器人最难补的一层摊到了台面上：真实人类环境里的行为数据从哪里来，怎么变成 humanoid 可用的预训练底座。

Figure 的说法很激进：他们要用 Brookfield 覆盖的住宅、办公和物流空间，建立大规模 humanoid pretraining dataset；Helix 已经用 100% 第一视角人类视频训练出从语言到导航的 zero-shot human video-to-robot transfer。这个说法如果只按新闻读，很容易变成“机器人学会看人类视频了”。但工程上更该先追问：

人类视频不是机器人数据的免费替代品。它只有在目标、视角、状态、动作接口和失败证据都能对齐时，才可能变成真正有用的机器人预训练资产。

所以这篇不把 Project Go-Big 写成大模型口号。我们只借它拆一件事：用互联网规模的人类视频训练人形机器人时，第一轮到底该看哪些闸门。

先给结论：Go-Big 的核心不是“数据更多”，而是“数据能不能对齐到机器人身体”

Figure 在 Project Go-Big 页面里把问题说得很清楚：视觉、语言和视频模型有 ImageNet、Wikipedia、YouTube 这类大规模预训练来源，但机器人没有一个天然的 “YouTube for robot behaviors”。传统机器人技能学习依赖昂贵示教、手写程序或高度布置过的环境，很难覆盖家庭真实长尾。

Figure 的押注是：人形机器人和人类有相似的观察视角与运动结构，所以第一视角人类视频可以成为 humanoid 学习导航和任务行为的预训练来源。Brookfield 的价值也在这里：它不是普通品牌合作，而是给 Figure 提供大量住宅、办公、物流空间里的真实人类目标行为。

但这件事不能被读成“拍更多人类视频就够了”。对做人形机器人系统的人来说，Project Go-Big 真正暴露了五个工程问题：

人类视频里的目标，能不能变成机器人可执行的任务条件？
第一视角视频里的空间判断，能不能落到机器人自己的相机、地图和速度控制上？
人的动作和机器人的运动边界不同，迁移时哪些东西必须被重新解释？
如果没有机器人示教，怎么证明模型不是只学到了“看起来像会走”？
数据规模上来后，隐私、标注、回放和失败归因能不能跟上？

现场 first-look 表：看人类视频预训练，不要先看数据规模

先看到什么信号	先判哪一层	第一组证据	今天先别下什么结论
数据来自大量真实住宅、办公、物流空间	环境覆盖 / 任务分布	房型、动线、家具密度、任务类别、采集时长、重复场景比例	不要把空间数量直接等同于行为覆盖
只用第一视角人类视频训练	视角迁移 / embodiment gap	人眼视角与机器人相机高度、FOV、延迟、遮挡、身体占位的差异	不要把人类视频当成机器人实机数据的完整替代
语言命令可以让机器人走到目标位置	语言到导航目标接口	目标识别、路径选择、局部避障、终点判定、失败时是否停下	不要把 speech-to-nav 直接外推成完整家务能力
单一 Helix 网络同时输出操作和导航	统一模型 / 控制接口	输出频率、SE(2) 速度命令、手臂动作接口、任务切换守门条件	不要把“统一模型”当成所有子系统边界已经消失
zero-shot human-to-robot transfer 很亮眼	验证边界 / 泛化证据	测试家庭数量、是否见过同类环境、失败案例、人工介入、重试和 reset 规则	不要把单组 demo 直接当成跨家庭可部署能力

这张表的用法很简单：以后看到 “human video pretraining”“internet-scale embodied data” 这类说法，不要先争是不是 AGI。先压回任务分布、视角迁移、语言接口、控制输出和验证边界。任何一层不清楚，数据规模都会先放大误判。

第一层：人类视频能提供目标行为，但不能自动提供机器人验收

Figure 把 Project Go-Big 对标到 ImageNet、Wikipedia 和 YouTube 这类预训练资源，这个类比有启发，但也容易误导。视觉模型看图，语言模型读文本，视频模型学视觉动态；机器人则必须把输入落到身体动作、接触、安全和失败恢复上。

人类视频最有价值的部分，是它能覆盖真实环境里的目标行为：人怎么绕过椅子，怎么从客厅走到冰箱，怎么根据障碍重新选路，怎么在家庭空间里把语言目标转成行动路线。这些行为如果全靠机器人实机采集，成本会很高，覆盖也慢。

但人类视频缺的也很明显：

它没有机器人关节、电机、电池、足底接触和安全限制。
它不天然带有机器人能执行的动作标签。
它看不到机器人身体在空间里占了多少位置。
它无法直接告诉你失败时该减速、停下、求助还是重规划。

所以 Go-Big 的工程价值不在“视频多”，而在 Figure 是否能把人类目标行为压成可被 Helix 消化的中间表示：目标、场景、路径、局部约束、终止条件，以及失败时的保守动作。

第二层：Brookfield 不是渠道新闻，它是数据分布问题

Figure 和 Brookfield 的合作披露了几个关键数字：Brookfield 有超过 100,000 个住宅单元、超过 5 亿平方英尺商业办公空间和 1.6 亿平方英尺物流空间。Figure 说这些环境会帮助 Project Go-Big 获取大规模、多样化的人类目标行为数据，并支持 Helix 的训练。

这比普通“战略合作”更值得写，因为家庭机器人最缺的不是漂亮 demo 场景，而是分布真实的场景。一个厨房 demo 只能说明机器人在那个厨房、那些物体、那条动线上跑通了一次；但真实家庭会有不同厨房布局、不同光线、不同宠物、不同地毯、不同门槛、不同杂物密度。

Brookfield 给 Figure 的潜在价值，是它可能提供更接近真实部署分布的数据入口。但这里也有一个硬边界：场景多，不等于数据自动可用。真正要看的不是“100,000 个住宅”这个数字，而是：

采集协议是否一致，还是每个环境都像独立素材库；
任务是否有清楚起止条件，还是只有长视频；
是否能标出目标、障碍、终点、失败和人为绕行；
是否能保护住隐私、权限和数据出口；
是否有办法把数据回放到机器人测试里，而不是只用于离线训练。

第三层：speech-to-nav 是重要进展，但别把它外推成完整家务

Figure 披露的最强 claim，是 Helix 使用 100% 第一视角人类视频训练后，可以根据 “Walk to the kitchen table”“Go water the plants” 这类自然语言，在杂乱真实家庭环境里生成闭环导航控制。Figure 还强调这是从图像和语言到低层 SE(2) 速度命令的 zero-shot human-to-robot transfer，没有使用 robot-specific data。

这个结果值得重视，因为家庭 humanoid 如果连“听懂目标并走到正确位置”都做不好，后面的洗碗、叠衣服、整理卧室都会被卡住。导航不是低级能力，它是家务任务的入口能力。

但 speech-to-nav 还不是完整家务。它证明的主要是目标理解、空间语义、局部路径和移动控制之间出现了可迁移接口；还没有直接证明：

机器人到了位置后能稳定操作物体；
遇到人、宠物、门、地毯、反光、狭窄通道时有一致的安全策略；
跨家庭、跨楼层、跨任务的失败恢复已经成熟；
长时间运行中的定位漂移、热、电、脚底接触和维护成本已经被压住。

更稳的读法是：Project Go-Big 把 Helix 从“只看上肢操作 demo”往“移动到任务现场”推进了一层。它是家庭任务链路里的入口闸门，不是终点。

第四层：统一模型很诱人，但系统边界不能消失

Figure 还说，一个 Helix 网络现在可以同时输出高频灵巧操作和导航命令，不再需要为不同任务或数据源建立分开的系统。这个方向很有吸引力，因为家务机器人不可能永远靠一堆脆弱的 task-specific 模型拼起来。

但统一模型不等于边界可以不写。恰恰相反，越是统一，越需要更硬的系统守门：

什么时候模型只允许输出导航速度，不允许动手？
什么时候进入近场操作，必须切到掌心相机和触觉证据？
导航不确定时，是减速、停下、还是请求人工确认？
手臂动作会不会破坏行走平衡和安全距离？
模型输出和底层安全壳冲突时，谁拥有最终否决权？

这些问题不适合被 “end-to-end” 四个字盖过去。对 humanoid 来说，end-to-end 可以减少手写接口，但不能取消验收、回放、安全和降级策略。

给小团队的启发：先别学 Go-Big，先学它的问题定义

大多数团队不可能有 Brookfield 这种环境入口，也不可能马上做互联网规模预训练。但 Project Go-Big 仍然有借鉴价值：它把数据问题从“采更多素材”改成了“采能迁移到机器人身体的目标行为”。

你现在的阶段	先做什么	验收看什么	先不要做什么
还没有稳定开发环境	先把仿真、日志、回放和版本基线跑通	同一任务能重复运行、失败能回放、版本能回退	不要先堆视频数据，也不要急着训练大模型
开始采家庭任务视频	先固定 3–5 个任务脚本和起止条件	每条视频能说清目标、环境、动作、失败和人工介入	不要把长视频数量当进展
想做导航学习	先把目标点、局部障碍和终点判定标清	机器人能在小范围内按语言目标稳定到位并安全停下	不要直接扩到完整家务链
已有 manipulation demo	把移动到工位、对齐、再操作拆开验证	导航失败、对齐失败、抓取失败能分桶	不要把失败都混成“模型还不够强”
准备扩大采集	先写隐私、权限、数据出口和删除流程	每条数据来源、用途、保留期限和访问权限可查	不要把家庭原始数据直接丢进通用数据湖

小团队真正该学的不是 Figure 的规模，而是它的问题顺序：先定义机器人要从人类行为里学什么，再决定采什么数据；先证明数据能转成动作，再扩大采集；先写清失败和隐私边界，再谈长期家庭场景。

结尾：Project Go-Big 是重要信号，但还不是最终证明

Project Go-Big 是 Figure 系列里很关键的一块。它解释了为什么 Figure 要从 Figure 03、Helix、Brookfield、家庭任务和 BotQ 这些线同时推进：家庭 humanoid 不只是硬件问题，也不是单次 demo 问题，而是数据、模型、身体、部署和制造一起闭环的问题。

但最稳的判断仍然是保守的：Project Go-Big 证明 Figure 正在认真解决数据分布和 human-to-robot transfer 问题；它还没有证明家庭 humanoid 已经能在大量真实家庭里长期可靠执行完整家务。

以后继续看 Figure，不要只看它又采了多少数据、又演示了哪个任务。更该看三件事：

人类视频能否持续转成机器人可验证、可回放、可复现的行为提升；
Helix 在不同家庭和任务里是否能保持失败可控，而不是只在精选 demo 里流畅；
数据规模扩大后，隐私、标注、回放、部署和现场服务成本有没有一起被压住。

如果这三件事成立，Go-Big 才不只是一个大数据项目，而会成为 Figure 家庭机器人路线的真正地基。

Project Go-Big 说明了什么：人类视频预训练不是机器人数据的免费替代品

先给结论：Go-Big 的核心不是“数据更多”，而是“数据能不能对齐到机器人身体”

现场 first-look 表：看人类视频预训练，不要先看数据规模

第一层：人类视频能提供目标行为，但不能自动提供机器人验收

第二层：Brookfield 不是渠道新闻，它是数据分布问题

第三层：speech-to-nav 是重要进展，但别把它外推成完整家务

第四层：统一模型很诱人，但系统边界不能消失

给小团队的启发：先别学 Go-Big，先学它的问题定义

结尾：Project Go-Big 是重要信号，但还不是最终证明

Sources / Further Reading

More posts

Figure 03 电池说明了什么：人形机器人续航、安全和快充不是一个参数问题

Figure 和 Catalyst Brands 合作说明了什么：人形机器人进入物流不是先看部署数量

Project Go-Big 说明了什么：人类视频预训练不是机器人数据的免费替代品

BotQ 说明了什么：人形机器人量产不是把样机复制一万遍