这篇文章要解决的问题是:当你的人形机器人已经不只是实验室里能跑一次的样机,而是准备进入试点交付、现场运行和持续迭代阶段时,团队到底该先把哪些“产品化硬骨头”啃下来,才能避免机器人一出实验室就变成返修机器。它适合已经做出原型、正准备交付首批客户样机、或正在把研发平台推进成可维护硬件产品的团队。最关键的工程判断是:人形机器人从来不是“先把机器做出来,再慢慢补运维”,而是要从版本冻结、兼容性、校准追溯、日志回放、OTA 回滚和备件维护一开始就一起设计。
这篇适合谁
- 已经有 humanoid 原型,准备做首批试点交付或现场验证的团队
- 发现样机在实验室表现不错,但一到多台并行、长时间运行或异地部署就开始失控的团队
- 正在搭建硬件版本管理、校准流程、日志体系和远程升级体系的人
- 想把“机器人公司”做成真正硬件产品公司,而不是长期停留在演示工程状态的人
先纠正几个很常见的误区
- 误区一:只要能量产几台,就算产品化。 真正的产品化不是装出多台机器,而是每台机器的版本、参数、校准、故障和维护路径都能被追踪。
- 误区二:先把硬件发出去,运维系统以后补。 没有日志、回滚、版本兼容和序列号追踪,现场每一次升级都可能把问题放大。
- 误区三:产品化主要是供应链和成本问题。 成本当然重要,但更先卡住你的往往是兼容性失控、校准不可复现、返修困难和升级不敢发。
- 误区四:软件 OTA 是云产品思路,机器人没必要太早做。 对人形机器人来说,固件、控制参数、感知模型和上层任务逻辑会一起变化,不做灰度和回滚,现场调试只会越来越危险。
如果你的团队还做不到“给定一台机器人序列号,就能查到它的 BOM 版本、固件版本、控制参数、零位校准结果、测试记录、最近升级记录和现场故障日志”,那它还没有进入真正可交付的硬件产品阶段,只是更贵、更复杂的研发样机。
第一步:先冻结兼容性边界,不要只冻结外形
很多团队说自己开始产品化,第一反应是冻结 CAD。但人形机器人真正要先冻结的,是兼容性边界。至少要把下面几层分清楚:
- 机械兼容边界:关节安装孔位、减速器接口、线束走向、外壳拆装路径能不能跨小版本复用。
- 电气兼容边界:电池、电源母线、连接器、保险、编码器和传感器接口是不是稳定。
- 控制兼容边界:驱动器命令/状态接口、关节命名、限位逻辑和故障码有没有版本合同。
- 运维兼容边界:升级包能发给哪一批机器,失败后能不能退回上一个稳定版本。
你要避免的不是“不能改设计”,而是避免一边改结构、一边改驱动协议、一边改校准格式,最后现场根本不知道哪台机器人属于哪个宇宙。
ROS 2 的 ros2_control 文档里把硬件组件和控制器生命周期拆得很清楚,核心启发不是一定要照搬框架,而是要把“已配置”“已激活”“可控制”这些状态做成明确边界。人形机器人产品化最怕的,就是硬件接口和控制状态全靠默认启动、默认激活、默认兼容。
第二步:把 BOM、装配、校准和 release log 绑成一条链
真正会拖死团队的,往往不是某个单点设计错误,而是你根本不知道这台机器和上一台到底差了什么。更稳妥的做法是从一开始就把下面四份东西绑在一起:
- BOM,说明这台机器到底用了哪些零件、替代件和批次。
- 装配记录,说明关键部位怎么装、哪些步骤影响零位和刚度。
- 校准结果,说明电机方向、编码器偏置、IMU 安装偏差、传感器状态是否通过。
- release log,说明这一版到底改了什么,现场问题应优先怀疑哪里。
Berkeley Humanoid Lite 的公开文档很值得拿来当参照,不是因为它是量产产品,而是因为它把 BOM、CAD、线束、校准、固件配置和 release 更新记录分开维护,甚至会把轴承描述错误、接线说明补充、校准流程修订单独写进版本记录。这个习惯非常重要。因为一旦你开始交付多台机器,最值钱的不是“工程师大概记得改过什么”,而是文档能不能把差异说清楚。
第三步:把校准和 EOL 测试做成出厂合同,不要再靠师傅手感
人形机器人一旦进入可交付阶段,校准就不再是实验室调试动作,而是出厂合同的一部分。最低限度,你应该让每台机器出厂前都留下三类记录:
- 单关节记录:零位、方向、空载电流、温升基线、编码器噪声。
- 整机记录:标准动作脚本、站立/行走/抓取等基线任务下的日志。
- 保护记录:掉压、过流、过温、急停、通信丢失时能否进入预期降级状态。
如果你的 EOL 还停留在“能通电、能抬手、能站住”,那现场遇到性能漂移时几乎没有回溯依据。更实际的做法,是把 EOL 分成三层:
- 能动:方向、限位、急停、通信全部正确。
- 能稳:固定脚本连续运行 10 到 20 分钟,温度、电压和误差没有穿阈值。
- 能追责:测试结果与机器人序列号、关键总成序列号、软件版本、校准文件一一绑定。
只有这样,后面才谈得上批量比较、异常分桶和返修复验。
第四步:升级体系要先按“能回滚”设计,再按“能更新”设计
很多机器人团队一提 OTA,就先想远程更新很酷。但真正成熟的思路是先问,更新失败怎么办。Mender 的官方文档里有两个点特别值得借鉴:
- 升级包必须绑定设备兼容性,避免把不兼容的软件刷进错误硬件。
- 操作系统升级要支持 rollback,即使升级中断、电源丢失或安装失败,也要能回到一致状态。
对 humanoid 来说,这个思路应该扩展到整条升级链:
- 系统层:OS、驱动、容器基础镜像。
- 控制层:驱动器固件、关节参数、控制器配置。
- 任务层:感知模型、任务策略、站点适配逻辑。
你完全可以不是一开始就做全自动 OTA 平台,但至少要做到:升级包有版本号,有目标机型范围,有预检查,有失败回退,有升级后验证脚本。否则每次现场更新都像在赌。
第五步:日志不是为了事后复盘,而是为了减少现场盲修
机器人产品化过程中,日志体系经常被拖到很后面,结果就是现场工程师只能靠拍视频和口头描述报障。这个代价非常高,因为 humanoid 的问题往往跨越控制、供电、感知和任务层,不是单看一段视频能判断的。
MCAP 的设计思路很适合这里借鉴,它强调把多路异构时间戳数据放进同一个自包含文件里,支持结构化消息、索引、附件和中断恢复。落到 humanoid 现场,你至少应该把下面几类东西记录到同一条证据链里:
- 关节状态、电流、电压、温度、故障码
- 关键控制命令和模式切换
- 相机/深度/触觉等关键传感器摘要
- 任务状态机、异常升级、人工接管事件
- 本次运行的软件版本和配置快照
这样现场问题回来以后,不是“好像抬臂时卡了一下”,而是可以明确看到先掉压、先限流,还是先进入了错误控制模式。
第六步:把维护性当作研发效率问题,而不只是售后问题
很多团队在样机阶段默认可以大拆大修,但进入交付阶段以后,如果更换一个髋关节执行器需要拆半台机身、换一块控制板需要重走全部线束、换完后还要人工重做全机校准,那研发节奏和现场成本都会一起崩。
更合理的设计原则是:
- 高故障率模块优先做成可快速拆换单元
- 更换后尽量只做局部复验,而不是全机重标
- 左右对称件和常见耗材尽量共用
- 关键线束和连接器能快速定位,不要埋成一次性结构
- 备件、替代件和兼容范围要写进文档,不要靠微信群口头传承
你真正该追求的,不是“这台机器人能不能做出一次漂亮演示”,而是“这台机器人能不能被制造、被校准、被升级、被维护、被持续运行”。只盯单次演示成功,通常会把后面的返修、升级和现场支持成本全部推迟爆炸。
第七步:试点交付不要只交机器,要交“可维护运行包”
首批客户样机最容易犯的错,是把交付理解成把机器人送到现场。更稳妥的交付单元应该至少包括:
- 机器人本体:序列号、版本号、备件清单明确。
- 基线软件:稳定版本、升级路径、回滚路径明确。
- 现场 runbook:开机、关机、充电、急停、恢复、日志导出、人工接管流程明确。
- 验收脚本:现场跑哪些动作、采哪些日志、过哪些阈值算通过明确。
- 故障升级路径:什么问题现场可处理,什么问题必须返厂,什么问题只能锁版本观察明确。
如果这些都没有,所谓“交付”实际上只是把研发风险转移到现场。
最容易翻车的地方
- 冻结了外形,但没有冻结接口、校准文件和故障码语义
- BOM 有版本号,校准结果和测试日志却没有和序列号绑定
- 更新能发,但没有机型兼容检查,也没有回滚预案
- 现场故障只留视频,不留多模态日志和版本快照
- 高频返修模块拆装路径太深,导致一修就是半天
- 首批交付没有 runbook,靠工程师口头带客户
- 每次现场问题都靠“这版先别动了”硬冻结,结果问题越积越多
怎么验证你真的进入了“可交付硬件产品”阶段
我建议你用下面这 6 个问题做自测:
- 随机抽一台机器人,能否在 5 分钟内查到它的 BOM、软件版本和最近一次校准结果。
- 同一版本连续交付 3 到 5 台,基线动作和功耗/温升表现是否落在可接受区间。
- 升级一个控制或任务版本后,能否只灰度到少量机器,并在失败时快速回退。
- 现场报障回来时,能否基于日志而不是口述判断问题属于硬件、控制、感知还是任务层。
- 常见故障件更换后,能否在有限步骤内完成复验并重新投入运行。
- 客户现场是否已经有清楚的操作、恢复和升级边界,而不是一出问题就找研发远程接管。
只要这几项里有两三项答不上来,你做的仍然更像研发样机,而不是可持续交付的硬件产品。
下一步怎么做
- 先补序列号追踪,把 BOM、校准、测试和日志绑起来。
- 再补升级分层,把系统层、控制层、任务层版本拆开管理。
- 然后补现场 runbook、验收脚本和最小备件体系。
- 最后再谈更大批量的供应链优化和成本压缩。
顺序不要反。因为没有追溯、回滚和维护闭环,出货越多,问题只会越难收拾。
延伸阅读与参考来源
- Berkeley Humanoid Lite Docs, Releases,可参考其把 BOM、接线、校准和 release 变更拆开记录的方式。
- ros2_control Controller Manager Docs,可参考硬件接口与控制器生命周期的边界定义。
- Mender Docs, Deploy an Operating System update,可参考设备兼容检查和 rollback 思路。
- MCAP Guides,可参考如何把异构日志做成单一可回放证据文件。