news 2026/6/10 14:46:38

【ICLR26-鲁继文团队-清华大学】Astra:具有自回归去噪功能的通用交互式世界模型

作者头像

张小明

前端开发工程师

1.2k 24
文章封面图
【ICLR26-鲁继文团队-清华大学】Astra:具有自回归去噪功能的通用交互式世界模型

文章:ASTRA: GENERAL INTERACTIVE WORLD MODEL WITH AUTOREGRESSIVE DENOISING

代码:https://github.com/EternalEvan/Astra

单位:清华大学、快手科技


一、问题背景

当下扩散Transformer技术让视频生成模型能产出高质量短片,但真正能落地的“世界模型”仍有明显短板:现有模型要么只能生成独立短片段,无法响应相机运动、机器人操作等实时动作输入;要么在长时预测中难以平衡时序连贯性与动作响应性,容易出现误差累积、视觉漂移;同时,面对相机控制、机器人姿态、键盘指令等异质动作模态,通用性不足,难以适配自动驾驶、机器人操作等复杂真实场景。构建兼具交互性、长时一致性与多场景适配能力的通用世界模型,成为行业亟待突破的核心需求。

二、方法创新

ASTRA以“自回归去噪”为核心框架,用三大关键设计破解行业痛点:

  1. 动作感知适配器(ACT-Adapter):在预训练视频扩散模型基础上,通过轻量线性层将动作信号直接注入 latent 空间,搭配“无动作引导(AFG)”机制,既保留高保真生成能力,又实现对动作指令的精准响应。

  2. 噪声增强历史记忆:采用“噪声掩码”策略,训练时对历史帧注入随机噪声,避免模型过度依赖过往视觉信息(即“视觉惯性”),巧妙平衡长时时序一致性与动作响应灵敏度。

  3. 动作专家混合体(MoAE):通过模态投影、动态路由与专家聚合,将相机姿态、机器人动作、键盘指令等异质动作统一编码,让模型灵活适配多场景交互需求。

三、实验结果

ASTRA在多数据集与自建Astra-Bench基准上表现亮眼:

  • 定量指标全面领先:在指令遵循度、主体/背景一致性、运动流畅度等6项核心指标上,显著超越Wan-2.1、MatrixGame、YUME等SOTA模型,旋转误差低至1.23、平移误差4.86,指令遵循度达0.669。

  • 长时预测稳定可靠:能生成8-10秒高连贯视频,避免了同类模型常见的长序列误差累积问题。

  • 跨场景泛化能力强:不仅在自动驾驶、机器人操作、相机控制等目标场景表现优异,还能适配室内环境、动漫风格、Minecraft游戏等未训练场景,动作响应精准度保持稳定。

四、优势与局限

核心优势
  1. 交互性突出:可实时响应多模态动作输入,生成结果与指令高度对齐,打破传统视频生成的“被动输出”局限。

  2. 通用性极强:通过MoAE统一异质动作模态,无缝适配探索、机器人、自动驾驶等多类场景。

  3. 参数高效:仅新增366.8M可训练参数,远少于同类模型,无需重训大模型即可实现功能升级。

现存局限

推理效率不足是主要短板:基于扩散生成与自回归迭代机制,每帧需多步去噪处理,难以满足实时交互场景(如在线控制、交互式机器人)的低延迟需求。

五、一句话总结

ASTRA通过自回归去噪框架+三大创新设计,打造出兼具高保真、强交互、长时一致的通用世界模型,为自动驾驶、机器人操作等真实场景的模拟与探索提供了高效解决方案,同时也为轻量化实时世界模型的研发指明了方向。

版权声明: 本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若内容造成侵权/违法违规/事实不符,请联系邮箱:809451989@qq.com进行投诉反馈,一经查实,立即删除!
网站建设 2026/6/10 11:26:15

终极解决Koikatsu Sunshine语言障碍!KKS-HF_Patch三步安装指南

终极解决Koikatsu Sunshine语言障碍!KKS-HF_Patch三步安装指南 【免费下载链接】KKS-HF_Patch Automatically translate, uncensor and update Koikatsu Sunshine! 项目地址: https://gitcode.com/gh_mirrors/kk/KKS-HF_Patch 还在为日文界面抓瞎&#xff1f…

作者头像 李华
网站建设 2026/6/10 11:28:23

Dify应用部署卡顿难题终结者(2024企业级低代码调优白皮书首发)

第一章:Dify低代码平台性能瓶颈全景透视Dify作为面向AI应用开发的低代码平台,在快速构建LLM驱动应用的同时,其运行时性能表现常受多维度因素制约。深入剖析这些瓶颈,是保障推理响应、工作流调度与多租户隔离稳定性的前提。核心性能…

作者头像 李华
网站建设 2026/6/10 11:28:30

Uniapp集成七鱼智能客服实战指南:从接入到性能优化

背景痛点:三端差异带来的“小惊喜” 在 Uniapp 项目里接入七鱼智能客服,最大的拦路虎不是功能本身,而是“跨平台”三个字。 同样一段初始化代码,在 H5 端跑得飞快,到 Android 9 却直接白屏;iOS 15 上客服窗…

作者头像 李华
网站建设 2026/6/10 10:57:26

【CC2530开发实战】光敏与热敏传感器的智能环境监测系统设计

1. 项目背景与核心功能 在智能家居和工业物联网快速发展的今天,环境监测系统的需求日益增长。基于CC2530单片机设计的光敏与热敏传感器监测系统,能够实时采集环境中的光照强度和温度数据,为自动化控制提供可靠依据。这个项目特别适合刚接触嵌…

作者头像 李华
网站建设 2026/5/29 23:17:21

零成本PDF全功能管理:技术民主化时代的文档处理解决方案

零成本PDF全功能管理:技术民主化时代的文档处理解决方案 【免费下载链接】pdfarranger Small python-gtk application, which helps the user to merge or split PDF documents and rotate, crop and rearrange their pages using an interactive and intuitive gra…

作者头像 李华
网站建设 2026/6/9 22:20:17

5种内容资源获取访问技巧:提升信息获取效率的实用方案

5种内容资源获取访问技巧:提升信息获取效率的实用方案 【免费下载链接】bypass-paywalls-chrome-clean 项目地址: https://gitcode.com/GitHub_Trending/by/bypass-paywalls-chrome-clean 一、需求分析:内容访问中的核心痛点 在信息获取过程中&…

作者头像 李华