【PNP解读】灵巧手操作:微软ETH等提出一种超越传统视觉-语言-动作模型(VLA)的新型机器人控制范式VAM
原创 PNP机器人 PnP机器人2026年1月1日 08:31加拿大
灵巧手操作:微软ETH等提出 一种超越传统视觉-语言-动作模型(VLA)的新型机器人控制范式 VAM
论文 mimic-video: Video-Action Models for Generalizable Robot Control Beyond VLAs 提出了一种超越传统视觉-语言-动作模型(VLA)的新型机器人控制范式——Video-Action Model(VAM)。该方法不再仅依赖静态视觉或语言语义,而是引入大规模预训练视频生成模型作为核心先验,直接利用视频中蕴含的时序动态与物理演化规律来指导机器人动作生成。通过将“视频层面的动态规划”与“动作层面的逆动力学映射”解耦,mimic-video 显著提升了样本效率与训练稳定性。在模拟与真实机器人实验中,该方法在仅需少量机器人数据的情况下,即可在复杂操作任务上取得优于 VLA 与扩散策略基线的表现。该工作表明,视频模型是连接感知与行动、推动通用具身智能的重要桥梁。
PnP机器人
PART 01
提要与研究动机
近年来,机器人操作领域涌现出大量基于视觉与语言的控制模型(Vision-Language-Action Models, VLAs),通过将视觉观察与语言指令融合输入机器人策略网络,实现端到端指令到动作的映射。VLA 这类模型通常依托于大规模静态视觉-语言预训练骨干(如联合训练的图像与文本模型),在零样本语义理解与多任务泛化方面表现出显著改进。然而,这类模型存在一个本质限制:静态的视觉-语言预训练并未捕捉 物理动态与因果关系 ,机器人策略仍需从零开始仅通过机器人轨迹数据隐式学习复杂的物理运动规律与时间依赖性。这造成了极高的动作数据需求,并且对动态推理能力有限。
论文提出 mimic-video ——一种全新的Video-Action Model (VAM) 架构,它通过将机器人策略直接建立在大规模预训练的视频生成模型之上,利用视频对时序动态与物理变化的直观编码,将控制问题从从零学习物理动态转化为利用视频中固有的运动先验来“解读视觉计划再映射到动作”。这种范式显著提高数据效率与学习速度,并对复杂操作任务展现出更强泛化能力。
PART 02
VLA 模型的局限与视频先验的价值
传统 VLA 模型的核心是一个视觉-语言大模型(Vision-Language Model, VLM)作为骨干,它通过联合图像与文本预训练习得语义表示。但是这种静态视觉语义并不能自然包含时序动态和因果物理运动:例如抓取过程中的接触力变化、物体移动路径等核心动态信息都不在静态图像或语言解释中,这使得机器人策略网络必须通过大量机器人轨迹去逼近这些动态规律。结果是依赖大规模专家演示数据才能获得鲁棒控制策略,这对于训练成本与可扩展性都是巨大瓶颈。
论文指出, 视频本身作为“动态视觉序列”能够同时包含语义信息与时序物理变化 ,因此如果控制策略能够直接从视频中学习世界演化规律,机器人策略就不必再从头去学习物理动态,而只需专注于将视觉计划有效转化为低级动作。也就是说,视频预训练自带的动态先验可分担机器人策略学习中的动力学与时序理解负担,从而提高效率与泛化能力。
PART 03
mimic-video 框架与模型设计
为了实现 video-grounded control,论文提出了 Video-Action Model (VAM) 架构,其核心由两个主要组件构成:
预训练视频生成模型 使用如 Nvidia Cosmos-Predict2 这样的大规模视频生成模型作为动态视觉先验的编码器,该模型在互联网规模的视频上预训练,学习到丰富的动态场景变化与因果视觉提示。通过扩散与流匹配机制,模型可以生成或预测视频帧序列,形成对未来状态的视觉计划。
动作解码器(Action Decoder) 在视频生成模型提取的中间latent 表征上条件化一个较小的动作解码模块,它实现典型的 inverse dynamics(逆动力学)映射 :给定当前机器人态势(如关节位置、速度等)和视频 latent,它输出对应的机器人动作序列。动作解码器使用 flow-matching 方式训练,使其能从隐变量的视觉计划中恢复出动作信号。
关键设计理念是使视频生成和动作生成在不同的流(flow)时间表上独立优化,避免在大网络上进行联合反向传播破坏预训练动力学知识。这种 “先视频再动作” 的分离范式,使得视觉动态建模和运动控制问题可以分而治之,显著提升训练稳定性与效率。
PART 04
实验设置与评估指标
论文在多个模拟与真实操作任务中对 mimic-video 进行了广泛评估:
模拟平台 在 SIMPLER 和 LIBERO 等公开操控基准上测试模型的样本效率、成功率与收敛速度。与标准 VLA 基线相比,mimic-video 在相同实验条件下显著减少了对机器人轨迹数据的需求,并在少样本 regime 中保持优异性能。
真实机器人评估 在真实机器人平台(如 Franka机械臂 ( 咨询PNP机器人 ) 搭载高自由度仿人手臂)上开展了两个复杂任务:包裹分拣和卷尺放置。实验证明,即便在只有单摄像头(单视角)和极少示例的条件下,mimic-video 仍能完成任务,且成功率远超基线控制器。
对比基线 主要与传统的 Diffusion Policy(DP)和 VLA Baseline 进行对比,后者习惯性地从视频或图像-语言预训练中学习,但缺乏动态视觉先验。
评估指标涵盖: 样本效率(达到特定成功率所需数据量)、训练收敛速度、最终任务成功率和真实机器人控制鲁棒性 。这些指标全面反映了控制策略在不同维度的泛化与实用性。
PART 05
主要实验结果与消融分析
实验结果显示,mimic-video 在样本效率和收敛速度上均显著优于传统 VLA 架构:
样本效率提升约 10× :在相同任务和基准上,mimic-video 仅需原来约 10% 的机器人动作数据即能匹配甚至超过 VLA 基线性能,说明视频先验极大减少了对机器人示例数据的依赖。
训练收敛速度提升约 2× :模型在动作解码模块训练时收敛更快,表现出更稳定的学习曲线。
更深入的消融实验还表明,当使用真实专家视频对应的中间潜变量作为动作解码条件时,策略表现极其接近完美,说明动作策略学习的核心障碍在于“视觉动态预测质量”,而非逆动力学映射本身。这一现象明确指出:如果视频模型足够好,则控制问题几乎被简化为视觉预测问题。
此外,论文探讨了利用不同噪声水平(partial denoising)提取中间 latent 的影响。实验发现, 中等噪声水平的隐变量比完全还原的高清表示更适合动作生成 ,可能是因为过于精细的视觉细节对控制策略并非必要且可能引入噪声。
PART 06
实用价值、局限性与未来方向
PnP机器人
,赞2
从实用角度看,mimic-video 架构具有显著优势:
更高数据效率 :大大降低了机器人示例采集成本,这对于需要大量演示的真实机器人学习至关重要。
更好的泛化性 :凭借视频中的动态知识,对不同任务与环境展现出较高鲁棒性。
结构直观易用 :动作解码器相对轻量,视频先验可通过 LoRA 等方式在少量任务视频上微调,便于集成到现有机器人系统。
然而,当前系统仍存在若干局限:
视角限制 :论文主要基于单视角视频,对于多视角空间推理的适用性尚未充分验证。
跨机器人泛化 :当前实验集中在特定平台和任务上,跨不同机器人形态和体态的一致表现尚待验证。
视频模型质量依赖 :性能明显依赖于视频模型本身的动态精度,如果视频生成质量不足,控制策略仍会受限。
未来研究方向包括扩展多视角视频先验、增强跨体态泛化、以及将此范式与语言或强化学习组合以处理更长时程任务。
PART 07
结论
mimic-video 提出了一种划时代的机器人控制学习范式,它将强大的视频生成模型作为物理动态先验,重新定义机器人策略学习的基本路径。相较传统 VLA 模型,这一方法显著提升样本效率、加速训练收敛、增强泛化能力,并在真实复杂操作任务中表现出色。这项工作不仅为高效机器人学习提供了新思路,也揭示了视频作为物理世界动态桥梁在具身智能中的核心价值。随着视频模型与动态控制研究的进一步发展,基于 VAM 的控制系统有望推动通用机器人策略向更高效、更泛化、更真实环境适应能力迈进。