news 2026/6/10 15:49:01

【论文自动阅读】ReWorld:具身世界模型的多维度奖励建模

作者头像

张小明

前端开发工程师

1.2k 24
文章封面图
【论文自动阅读】ReWorld:具身世界模型的多维度奖励建模

快速了解部分

基础信息(英文):

1.题目: ReWorld: Multi-Dimensional Reward Modeling for Embodied World Models
2.时间: 2025.xx (arXiv预印本)
3.机构: Eastern Institute of Technology, Ningbo; Georgia Institute of Technology; Shanghai Jiao Tong University; Tsinghua University; University of Science and Technology of China; Peking University
4.3个英文关键词: Embodied World Models, Multi-Dimensional Reward, Reinforcement Learning

1句话通俗总结本文干了什么事情

本文提出了一种名为ReWorld的框架,利用分层奖励模型和强化学习,解决了视频生成模型在物理真实性、动作合理性和任务逻辑上与视觉效果脱节的问题。

研究痛点:现有研究不足 / 要解决的具体问题

当前基于视频的世界模型主要关注视觉生成质量,忽略了物理保真度、动态一致性和任务逻辑(即“物理恐怖谷”问题)。现有的单维度奖励模型无法同时评估低级物理(如碰撞)和高级语义(如任务完成),且基于流匹配(Flow Matching)的模型难以直接应用标准的强化学习算法(如PPO)进行优化。

核心方法:关键技术、模型或研究设计(简要)

提出了ReWorld框架,包含两部分核心创新:一是HERO(分层奖励模型),通过多头架构分别评估物理真实性、具身合理性、任务完成度和视觉质量;二是HERO-FPO(HERO引导的流策略优化),提出了一种CFM-似然代理方法,使流模型能通过PPO算法进行高效强化学习。

深入了解部分

相比前人创新在哪里

  1. 多维奖励解耦:不同于以往单一的美学或整体评分,ReWorld将奖励分解为四个正交维度(物理、具身、任务、视觉),并映射到视觉主干网络的不同特征层级。
  2. 流模型RLHF算法:首次解决了流匹配(Flow Matching)类生成模型无法直接计算对数似然(log-likelihood)从而难以应用PPO的难题,提出了CFM-Likelihood Proxy,将PPO更新的复杂度从O(d²)降低到O(d)。

解决方法/算法的通俗解释

想象你在教一个只会画画的AI学会“物理常识”。以前的方法是给画打一个总分,AI不知道是画得不像(视觉),还是东西飘在天上(物理)。

  1. HERO模型:相当于给AI配了四个专家评委,一个专门看东西有没有穿模(物理),一个看机器人动作顺不顺(具身),一个看有没有做对事(任务),一个看画得细不细(视觉)。这四个评委打分互不干扰。
  2. HERO-FPO算法:相当于找到了一种捷径,不用去算极其复杂的数学公式,就能用简单的计算告诉AI:“根据你刚才生成视频的‘去噪难度’,这次生成的好坏程度大概是这样”,从而让AI能快速学习改进。

解决方法的具体做法

  1. 构建数据集:利用GPT-4o作为标注员,构建了一个包含约23.5万个样本的4D具身偏好数据集,每个样本都有四个维度的评分。
  2. 训练HERO:基于InternVideo2,设计四个解耦的奖励头,通过特定的损失函数(维度特异性损失+整体偏好正则化)训练模型。
  3. 微调策略:使用Cosmos作为基础世界模型,通过HERO-FPO算法,利用HERO提供的多维奖励信号,通过PPO算法对模型进行后训练优化。

基于前人的哪些方法

  1. 基础生成模型采用了Cosmos(基于流匹配的视频生成模型)。
  2. 奖励模型构建参考了Bradley-Terry偏好学习模型。
  3. 强化学习框架基于PPO(近端策略优化),但对其进行了针对流模型的理论改造。

实验设置、数据、评估方式、结论

  1. 数据:使用RH20T数据集进行偏好数据生成和评估,Bridge V2数据集进行模型微调。
  2. 评估:提出了ReWorldBench基准,包含物理推理、逻辑规划、运动学执行和生成保真度四个维度。同时使用FVD、SSIM等视觉指标。
  3. 结论:ReWorld在ReWorldBench的四个维度上比基线模型(Cosmos-SFT)提升了15-25%,人类偏好评级超过85%。证明了该方法能有效解决“物理恐怖谷”问题,且不牺牲视觉质量。

提到的同类工作

  1. Cosmos:大规模视频生成模型,ReWorld的基础模型和主要对比对象。
  2. CogVideoX / Wan2.1:其他SOTA的文本到视频生成模型,用于对比评估。
  3. RLHF (InstructGPT等):在大语言模型中应用人类反馈强化学习的先驱工作,ReWorld将其思想迁移至视频生成领域。
  4. Direct Preference Optimization (DPO):用于对比说明流模型与扩散模型在优化目标上的不同。

和本文相关性最高的3个文献

  1. **Cosmos **:本文直接基于该模型进行改进,是本文的基础架构。
  2. **InternVideo2 **:本文提出的HERO奖励模型的视觉主干网络,是实现多维特征提取的关键。
  3. **Flow Matching / CFM理论工作 **:本文算法理论推导的基础,特别是HERO-FPO中的CFM-Likelihood Proxy建立在这些工作的数学定义之上。

我的

视频生成工作,用的cosmos-transfer1,flow-based模型。提出了RL算法,可以训这类模型。

版权声明: 本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若内容造成侵权/违法违规/事实不符,请联系邮箱:809451989@qq.com进行投诉反馈,一经查实,立即删除!
网站建设 2026/6/10 9:24:42

<span class=“js_title_inner“>jQuery 4.0 突发!沉寂十年,这位“前端祖师爷”终于跟 IE 说了再见</span>

2026 年 1 月 17 日,在距离初代版本发布整整 20 年后,jQuery 团队正式发布了 jQuery 4.0.0。这是一次跨越十年的大版本更新。对于许多新生代前端开发者来说,$ 符号可能只是教科书里的历史遗迹;但对于经历过“浏览器兼容性地狱”的…

作者头像 李华
网站建设 2026/6/10 9:40:27

<span class=“js_title_inner“>不负春日不负卿,24年Q1总结</span>

有些事情,经历过才懂难得。有些朋友,遇见了才识真情。有些决定,拍板了才知对错。那么在没有经历时如何了然懂事,在不识真情时如何相知相交,在不辨对错时如何勇于决策?我没有答案。我们总是在教育和被教育中…

作者头像 李华
网站建设 2026/6/9 23:30:19

企业需要这位AI生产力总监而非首席AI官

关于谁应该负责确保企业充分利用生成式AI,存在很多争议。一些专家认为CIO应该监督这一关键角色,而其他人则认为这一责任应该由首席数据官承担。除了这些现有角色之外,其他专家支持首席AI官(CAIO)这一C级高管新成员&…

作者头像 李华
网站建设 2026/6/10 9:38:38

<span class=“js_title_inner“>iMeta | 2025年优秀青年编委</span>

iMeta 2025年优秀青年编委 自创刊以来,iMeta 期刊致力于打造全球综合领域顶尖交流平台。2025年6月影响因子33.2,中科院分区生物学1区Top,位列全球SCI期刊前千分之三(65/22249)。这一成绩的取得,离不开广大编委,特别是青…

作者头像 李华
网站建设 2026/6/10 9:39:07

RPA 架构下的企微非官方 API:外部群主动调用的技术实现与优化

QiWe开放平台 个人名片 API驱动企微自动化,让开发更高效 核心能力:为开发者提供标准化接口、快速集成工具,助力产品高效拓展功能场景 官方站点:https://www.qiweapi.com 团队定位:专注企微API生态的技术服务团队 对接…

作者头像 李华