【方案了解】Helix: A Vision-Language-Action Model for Generalist Humanoid Control-程序员充电站

@[TOC]【方案了解】Helix: A Vision-Language-Action Model for Generalist Humanoid Control

1 项目背景

团队：由机器人初创公司 Figure AI 研发。

提出时间：2025年2月20日（根据官方新闻发布日期）。

2 核心挑战

核心挑战：传统的机器人学习方式（如模仿学习或启发式编程）难以扩展到复杂的家庭环境。家庭场景充满不可预测性（物体种类繁多、形状各异），为每种新行为手动编程或收集数千次演示成本过高。

愿景：Figure AI 旨在打破这一僵局，利用大语言模型（VLM）丰富的语义知识，将其直接转化为机器人动作。使机器人能够通过自然语言指令，对从未见过的物体执行任务，实现“即时泛化”。

3 解决方法

Helix 采用了“系统 1 + 系统 2”（System 1, System 2）的架构设计，平衡了泛化能力与执行速度。

3.1 模型设计

双系统架构：

系统 2 (S2 - 慢思考/决策层)：基于一个 7B 参数的开源预训练 VLM（视觉语言模型）。它以 7-9 Hz 的频率运行，负责理解场景、接收自然语言指令，并将语义信息压缩成一个连续的隐向量（Latent Vector）。

系统 1 (S1 - 快反应/控制层)：一个 80M 参数的交叉注意力编码器-解码器 Transformer。它以 200 Hz 的高频率运行，接收 S2 传来的隐向量，并将其转化为精确的、连续的机器人动作。

全上半身控制：Helix 是首个直接输出 humanoid 全上半身（包括手腕、躯干、头部和 10 根手指）高维动作空间的 VLA 模型。

板载推理：模型运行在机器人内置的双低功耗 GPU 上，实现了商业化的板载部署。

3.2 Loss 设计

标准回归损失（Standard Regression Loss）：Helix 采用端到端训练方式。

端到端优化：梯度通过 S1 与 S2 之间的隐向量进行反向传播，从而对整个系统进行联合优化。

辅助任务：在动作空间中增加了一个合成的“任务完成百分比”动作，用于预测任务终止状态。

3.3 数据分布

数据规模：约 500 小时的高质量、多机器人、多操作员的遥操作数据集。

3.3.1 自动标注

使用 VLM 对视频片段进行“后验指令”自动标注（提问 VLM：“要实现视频中的动作，应该给机器人什么指令？”）。

为什么需要自动标注？
- 在开发视觉-语言-动作（VLA）模型时，传统的标注方式存在以下痛点：
  - 人工标注昂贵且低效：Helix 使用了 500 小时的遥操作（Teleop）数据。如果依靠人工观看视频并手动输入“把仙人掌放入篮子”等指令，成本极高且容易出错。
  - 语义对齐困难：人类在描述动作时，往往抓不住模型需要的“关键视觉特征”。
  - 指令多样性不足：人工标注往往倾向于简洁，而自动标注可以生成多种表达方式（如“收拾桌子”和“把那个绿色的东西拿走”指代同一动作），增加模型的鲁棒性。
  - 规模化障碍：要实现“通用机器人”，需要海量的数据。只有通过自动化的方式，才能将数千小时的原始视频转化为可供机器学习的“指令-动作”对。
自动标注的输入和输出Helix 利用一个高性能的、离线的 VLM（视觉语言模型）作为“老师”，对原始数据进行标注：
- 输入 (Input)：原始视频序列：机器人执行某个任务的完整视频（由板载摄像头拍摄）。
- 后验提示词 (Hindsight Prompts)：这是一个精心设计的 Prompt，引导 VLM 观察视频结果。
  - 例如：“观察这段机器人移动物体的视频。如果你是操作员，你会下达什么简短的自然语言指令来触发这个动作？”
- 输出 (Output)：自然语言标签 (Natural Language Labels)：与视频内容精确匹配的文本指令（如：“将黑色马克杯移到右侧水槽边缘”）。
核心机制：后验标注 (Hindsight Labeling)这种方法之所以被称为“后验”，是因为它是在动作发生之后去追溯其意图。逻辑反转：传统训练是“指令→\rightarrow→动作”，而标注过程是“动作视频→\rightarrow→指令”。
消除歧义：在动作开始前，意图往往是模糊的；但在动作结束后，VLM 可以清晰地看到机器人抓住了哪个物体、放在了什么位置，从而给出极度精确的描述。