news 2026/5/7 0:34:46

DreamZeroGR00T N2前戏:World Action Models are Zero-shot Policies

作者头像

张小明

前端开发工程师

1.2k 24
文章封面图
DreamZeroGR00T N2前戏:World Action Models are Zero-shot Policies

DreamZero&GR00T N2前戏:World Action Models are Zero-shot Policies

DreamZero,这是一种基于预训练视频扩散模型主干的世界动作模型 (WAM)。与 VLA 不同,WAM 通过预测未来世界状态和行为来学习物理动力学,并使用视频作为世界如何演变的密集表示。

至关重要的是,通过模型和系统优化,使 14B 自回归视频扩散模型能够以 7Hz 执行实时闭环控制。

WAM 由基于网络规模视频数据训练的视频扩散模型初始化,利用丰富的时空先验来共同生成以语言指令和观察为条件的未来帧和动作。这将动作学习从密集的状态动作模仿转变为逆动态——使运动命令与预测的视觉未来保持一致。

本文解决两个问题:①传统VLA物理感知能力不足,导致的泛化性差 ②视频生成速度慢,本文引入了各种工程方法来提高生成视频的速度

在推理的时候采用自回归架构并利用闭环设置:执行每个动作块后,我们用 KV 缓存中的真实观测值替换预测帧,消除复合错误,同时通过 KV 缓存实现高效推理,并保留本机帧速率以实现精确的模态对齐(参见图 4 右侧)。

特别是,DreamZero 经过训练可以自回归预测视频帧和相应的动作。自回归生成具有以下优点:(1)它通过利用 KV 缓存实现更快的推理速度,(2)策略模型可以利用视觉观察历史作为下一代的指导,(3)它避免了双向模型固有的模态对齐挑战(视频、动作和语言对齐)。具体来说,双向扩散通常需要处理固定长度的序列,这通常需要视频子采样,这会扭曲原生 FPS,可能会损害视频动作对齐。另一方面,自回归生成利用 KV 缓存来支持单个前向传递中的任意长上下文。这保留了原始帧速率,确保视频帧和机器人动作之间的精确对齐。

对于②还有个比较巧妙的设计点,提出了DreamZero-Flash:

DreamZero(蓝色)将耦合噪声用于视频和动作(均统一)。 DreamZero-Flash(红色)通过 Beta 分布将视频偏向高噪声状态,同时保持动作噪声均匀,训练模型从嘈杂的视觉环境中预测干净的动作。

原版 coupled 训练的问题 如果 video 和 action 总是共享同一个 t,那模型训练时看到的总是: noisy video + noisy action 或较干净 video + 较干净 action 也就是两者噪声水平同步。

但在快速推理,尤其是few-step / single-step inference时,现实情况更像是:当前 chunk 的 video 还比较 noisy 但 action 这边需要赶紧尽快变“可执行的干净动作” 这时模型就会遇到没怎么训练过的情况:“我要在视觉上下文还很脏的时候,先把动作预测准。”

DreamZero-Flash 的想法所以作者故意把 video 训练成“经常很脏”,但 action 仍然正常均匀采样。 这样模型会更常见到这样的样本:noisy video context但 action 需要被预测出来论文原话就是:“this exposes the model to configurations where it must predict clean actions from noisy visual context”,也就是让模型学会“从噪声很大的视觉条件里,也能把动作弄干净”

对于双向WAMs,现实任务长度不固定,但双向WAMs模型窗口往往是固定的。 它更像是在一个固定 clip 内做联合去噪、联合建模。论文正文直接说,bidirectional diffusion typically requires processing fixed-length sequences。 给定一条长任务语言标注,模型必须学会“这句指令对应的是视频里的哪一段时间区间”。问题在于,如果用双向架构、又不做视频抽帧,那模型常常只能生成这个任务区间里的一小部分视频。结果就是:语言说的是完整任务视频只覆盖了其中一截语言描述的动作,可能在当前视频帧里根本还没发生这就会出现language-video mismatch。 那为什么双向 WAM 要“抽帧”?为了缓解上面这个错位,一个自然想法就是:既然一句语言覆盖的是整段任务,那我就把整段任务的视频抽稀,压缩到固定长度窗口里。这就是图中Video Subsampling的意思。 作者原文就说:为了让视频和任务 caption 覆盖同一个时间区间,双向方法往往需要subsample the video to match the task caption interval。举个简单例子:原始视频是 5 FPS,整段任务 6 秒,共 30 帧但双向模型这次只能处理 6 帧那就只能从 30 帧里抽 6 帧出来这样做的好处是: 这 6 帧大致覆盖了整段任务,所以跟语言表面上更“对应”了。 坏处是:原本连续的时间轴被压缩了。

所以上面到图片说的这些就是在说明自回归的好。

伪代码写的非常清晰

实验的话比较常规了。然后一些pytorch和cuda的加速就比较偏向工程化/硬件了,比较常规了。

版权声明: 本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若内容造成侵权/违法违规/事实不符,请联系邮箱:809451989@qq.com进行投诉反馈,一经查实,立即删除!
网站建设 2026/4/15 17:35:44

XUnity.AutoTranslator:打破语言壁垒的Unity游戏翻译解决方案

XUnity.AutoTranslator:打破语言壁垒的Unity游戏翻译解决方案 【免费下载链接】XUnity.AutoTranslator 项目地址: https://gitcode.com/gh_mirrors/xu/XUnity.AutoTranslator 你是否曾因为语言障碍而错过优秀的海外游戏作品?XUnity.AutoTranslat…

作者头像 李华
网站建设 2026/4/15 17:34:23

从AST到LLVM IR:一个Java程序员的编译器实验手记(含完整类设计)

从AST到LLVM IR:一个Java程序员的编译器实验手记 当第一次在IDE里按下"Run"按钮时,你可能从未想过那些优雅的高级语言代码是如何变成机器能理解的0和1。作为Java开发者,我们习惯了JVM带来的便利,但编译器背后的魔法依然…

作者头像 李华
网站建设 2026/4/15 17:34:20

Ostrakon-VL-8B快速部署教程:3步完成GPU环境配置与模型调用

Ostrakon-VL-8B快速部署教程:3步完成GPU环境配置与模型调用 想试试那个能看懂图片还能跟你聊天的AI模型吗?Ostrakon-VL-8B最近挺火的,它是个多模态模型,简单说就是既能理解图片内容,又能根据你的问题生成文字回答。听…

作者头像 李华
网站建设 2026/4/15 17:32:36

优化RealSense相机性能的10个实用技巧

1. 分辨率设置:平衡精度与性能 RealSense相机的分辨率直接影响深度感知的精度。以D435为例,默认848x480分辨率下,每个像素能捕获更多细节,左右图像的匹配精度更高。但实际项目中,我经常看到开发者盲目降低分辨率来节省…

作者头像 李华
网站建设 2026/5/3 5:43:17

DeepSeek助力学术审稿:高效处理审稿意见的实用提示词指南

1. 学术审稿的痛点与AI解决方案 学术论文发表过程中最让人头疼的环节莫过于审稿意见反馈阶段。记得我第一次收到三位审稿人合计27条修改意见时,整整三天都处于"我是谁、我在哪"的迷茫状态。传统处理方式需要反复查阅文献、逐条撰写回复,往往耗…

作者头像 李华