数据不够"乱",策略就学不会——领域随机化如何决定人形机器人扩散策略的成败
解读论文:Oleg Kaidanov, Firas Al-Hafez et al.,The Role of Domain Randomization in Training Diffusion Policies for Whole-Body Humanoid Control, CoRL 2024 Workshop on Whole-Body Control and Bimanual Manipulation.
摘要
扩散策略(Diffusion Policy, DP)在机械臂操作任务中表现惊艳,但在人形机器人全身控制(Locomotion + 手臂协调)中的表现却鲜有深入探索。来自TU Darmstadt和DFKI的研究团队以Unitree H1人形机器人为平台,系统研究了数据集多样性(Domain Randomization, DR)和规模如何影响扩散策略的训练效果。核心发现令人警醒:即使数据集规模达到800万条转换,没有充分的领域随机化,扩散策略连稳定行走都无法实现。而在机械臂操作中,几十条专家轨迹就能完成任务——全身控制的难度呈数量级跃升。本文从工程实践视角,拆解实验设计、量化各随机化策略的贡献权重,并讨论其对人形机器人策略学习的工程启示。
关键词:扩散策略;人形机器人;全身控制;领域随机化;AMP;模仿学习;Sim-to-Real
目录
- 研究背景:为什么扩散策略在人形机器人上"水土不服"
- 技术框架:AMP教师 + DP学生的双阶段训练
- 实验设计:8种随机化策略 × 3种数据规模的消融战场
- 核心发现一:领域随机化不是"锦上添花",是"入场门票"
- 核心发现二:不是所有随机化都同等重要
- 核心发现三:数据规模无法弥补多样性不足
- 工程启发:做人形机器人策略训练,钱要花在刀刃上
- 局限与展望
- 结语
1. 研究背景:为什么扩散策略在人形机器人上"水土不服"
1.1 扩散策略在操作任务中的成功
2023年,Chi等人提出的Diffusion Policy在机械臂操作任务上一炮而红——通过将动作生成建模为条件去噪过程,扩散策略天然擅长捕捉多模态动作分布,输出平滑、稳定的轨迹。在"