如果你正在搭一台真正能落地的人形机器人,这篇文章要解决的不是“行业会不会形成供应链”这种空话,而是第一版系统栈到底该怎么选,哪些器件该优先锁定,哪些层可以后补。最关键的工程判断只有一个:不要按“最先进零件清单”来堆机器,而要按任务闭环来反推传感、计算、网络、电机控制和供电边界,先让整机稳定跑起来,再追求局部极限。
这篇适合谁
- 正在做人形机器人原型机,准备从零搭一版系统栈的团队。
- 已经有机械结构,但传感器、边缘计算、总线网络和驱动器还没定型的项目。
- 想做 BOM 冻结、样机 bring-up、可维护性设计和后续量产预研的人。
先纠正几个很常见的误区
- 误区 1:先选最强算力平台,再让整机去适配它。 实际上,算力平台要服从实时控制周期、热设计、供电峰值和维护方式,而不是反过来。
- 误区 2:传感器越多越安全。 传感器堆太多会带来时间同步、标定漂移、带宽占用和故障定位复杂度,最后反而更难稳定。
- 误区 3:电机控制器是后端细节,晚点再定也行。 控制器接口、编码器兼容性、制动逻辑和故障报码,会直接决定你后面能不能高效调试。
- 误区 4:先把单个模块做到极致,再考虑整机集成。 人形机器人更常见的失败,不是某个零件不够强,而是模块之间的时序、供电、散热和诊断链没打通。
关键实现判断
对大多数第一代人形机器人样机,我更建议把系统栈拆成五层,然后逐层做取舍,而不是一次性追求全栈最优:
- 任务层:先定义机器人要做的是巡检、搬运、上下料,还是双臂装配,不同任务决定感知和控制优先级。
- 实时控制层:关节环、状态估计、接触判断、急停和模式切换必须留在确定性更高的本体侧。
- 感知与推理层:视觉、多模态理解、目标定位、语义判断可以放在边缘计算层,但要给出延迟和失效降级边界。
- 供电与热管理层:电池、电源分配、制动、保险、风道和散热件不是辅助设计,而是整机是否能连续工作的底盘能力。
- 诊断与运维层:没有统一日志、版本标记、报码和替换规范,再好的器件组合也很快会变成不可维护黑盒。
换句话说,先决定哪些能力必须实时、哪些能力允许延迟、哪些故障必须本地兜底,供应链选型才不会跑偏。
分步实践指南
第一步:先用任务闭环反推系统栈,而不是直接列器件清单
先把目标任务写成一张工程表:输入是什么,成功输出是什么,循环周期是多少,允许的误差、延迟和人工接管点在哪里。比如做双臂搬运,优先级通常是抓取稳定、位姿重复性、碰撞保护和异常停机;做公共空间交互,则更看重导航、感知覆盖、状态提示和接管效率。只有任务闭环写清楚,后面的传感器和计算平台才有明确边界。
第二步:优先锁定“必须本体实时”的器件
我会先定三样东西:关节执行链、低层控制总线、状态估计最小传感集合。原因很简单,这三者一旦后面再换,会牵连线束、驱动接口、控制频率、机身布置和安全逻辑。
- 执行链:先明确每个关节用一体化伺服、分体式驱动加电机,还是带减速器的一体关节。关键不是宣传扭矩,而是持续输出、温升、背隙、制动器、可维修性。
- 控制总线:如果项目目标是真机连续调试,优先考虑诊断成熟、时序稳定、线束成本可控的总线,不要只看峰值带宽。
- 最小传感集合:IMU、关节编码器、足底接触或力信息,通常是第一版状态闭环的底座。没有这套最小组合,就不要急着堆更多高阶视觉模块。
第三步:边缘计算平台只买“刚好够用且能测”的
很多团队最容易在这里花冤枉钱。边缘计算平台要按三个约束选:
- 推理负载是否真实存在。 如果当前还没有成熟的多相机感知、视觉语言动作或复杂语义规划链,先别上过重平台。
- 热设计能不能闭环。 算力板卡一热降频,整机调试会变成随机问题。机身里能否稳定排热,比峰值 TOPS 更重要。
- 接口与时间同步是否好做。 相机、深度传感器、网口、时钟同步和日志回收是否省心,往往比跑分更影响开发效率。
实际做法上,我更建议把“高频实时控制计算”和“高负载感知推理计算”分层,不要让一块板同时承担所有责任。这样后续无论是升级模型、替换相机还是调功耗,都不会把整机一起拖垮。
第四步:把传感器选型收敛到能服务决策的最小组合
第一版人形机器人最常见的错误,是把相机、深度、雷达、触觉、麦克风、外部定位全都往上堆,最后同步没做好、标定没固化、排障更困难。更稳妥的顺序是:
- 先确定安全感知和操作感知是不是同一套,如果不是,就分开设计边界。
- 先确定需要解决的是导航避障、抓取定位、人体检测,还是工位识别,不同任务的最佳传感组合完全不同。
- 先把时间同步、坐标系标定、安装刚性和防护结构做扎实,再谈多传感器融合。
对多数原型机来说,能稳定复现的两到三路关键传感,比纸面上功能很全的一大堆输入更有价值。
第五步:BOM 冻结前先把“坏了怎么修”写出来
真正影响样机迭代速度的,往往不是采购价格,而是坏了以后多久能定位、多久能更换、换完要不要重新标定。建议在 BOM 冻结前就为关键件补上这几列:
- 替代料是否存在,交期差多少。
- 拆装是否需要拆半个机身。
- 换件后需不需要重新标定或重刷参数。
- 驱动器、传感器和计算板是否有统一序列号和版本记录。
- 现场能否通过报码、日志和示波/总线工具快速判断故障点。
如果一个器件性能很好,但没有替代来源、没有诊断接口、坏了要拆整机,那它在原型阶段通常不是好器件。
第六步:按 bring-up 顺序建测试,不要整机一次点亮
更靠谱的 bring-up 顺序通常是:
- 先做电源分区、急停、保险和空载热测试。
- 再逐条总线确认通信、时钟和报码链路。
- 再逐个关节做空载、负载、温升和失效保护测试。
- 然后才接状态估计、基础姿态控制和低速动作。
- 最后才接高层感知、规划和复杂任务。
如果一开始就追求“整机站起来”,调试现场只会变成多故障叠加,很难知道是供电、通信、控制参数还是感知延迟导致的问题。
最容易翻车的地方
- 峰值性能写进 PPT,持续工况没人测。 连续 20 分钟后温升、降频和电流余量,往往比单次峰值更决定能不能落地。
- 接口文档不统一。 同一台机器人上如果电机、驱动器、编码器、急停和日志格式各写各的,后面联调会非常痛苦。
- 忽略线束与连接器。 实机问题里,接插件松动、弯折损伤、屏蔽和接地不良,比算法 bug 常见得多。
- 没有降级模式。 某路相机掉线、某块计算板过热、某个关节报码异常时,如果系统没有退化运行策略,就只能全机停摆。
怎么验证你真的搭对了
- 同一套任务连续重复运行时,关键感知和控制延迟是否稳定,而不是偶尔成功。
- 在高温、低电量、网络拥塞或单路传感器失效时,系统是否仍能安全降级。
- 任意一个关键模块更换后,团队是否能在可接受时间内恢复标定、回放日志并复现问题。
- BOM 上每个关键件是否都能回答三件事:为什么选它、坏了怎么判、未来怎么换。
如果这几项答不上来,说明系统栈还只是“能跑 demo”,还没到“能被团队持续维护”的阶段。
下一步怎么做
如果你已经完成第一版系统栈选型,下一步不要急着继续加模块。我更建议先补三件事:一是统一诊断与日志规范,二是建立关键器件替换和回归测试流程,三是把供电、散热、线束和防护结构做一次面向连续运行的复盘。这样你后面无论接灵巧手、视觉大模型还是双臂协同,整机都会稳很多。
延伸阅读方向
- 人形机器人参考设计与模块边界冻结。
- 低成本实验平台的计算分层与可复现实验流程。
- 全身控制、状态估计与故障回放系统的联调方法。