【论文自动阅读】Wow, wo, val! A Comprehensive Embodied World Model Evaluation Turing Test-程序员充电站

快速了解部分

基础信息（英文）：

题目: Wow, wo, val! A Comprehensive Embodied World Model Evaluation Turing Test
时间年月: 2025年（文档ID: 2601.04137，通常代表2026年1月提交，内容基于2025年研究）
机构名: Peking University (State Key Laboratory of Multimedia Information Processing), Beijing Innovation Center of Humanoid Robotics, The Hong Kong University of Science and Technology
3个英文关键词: Embodied AI, World Model, Turing Test

1句话通俗总结本文干了什么事情

本文建立了一个名为WoW-World-Eval的全面测试基准（图灵测试），用来评估视频生成模型是否具备像人类一样理解物理世界、进行规划并指导机器人行动的能力。

研究痛点：现有研究不足 / 要解决的具体问题

现有的视频生成基准主要关注视觉美感（如清晰度），忽略了机器人领域最需要的物理常识、逻辑规划和可执行性。这导致模型虽然生成的视频“看起来很真”，但物理上是错误的，无法指导真实机器人操作。

核心方法：关键技术、模型或研究设计（简要）

设计了一个多维度的评估基准WoW-World-Eval，包含22项指标，从感知、规划、预测、执行和泛化五个方面考核模型。同时提出了两种“图灵测试”：一种是人类图灵测试（看视频是否能骗过人类），另一种是逆动力学模型（IDM）图灵测试（看生成的视频能否被转换为真实机器人可执行的动作）。

深入了解部分

相比前人创新在哪里

维度更全：首次将**规划（Planning）和执行（Execution）**纳入评估体系，而不仅仅是视觉质量。
评估更准：引入了基于人类偏好的评分体系（与人类评分相关性高达0.93），并提出了机器视角的IDM图灵测试来验证物理可执行性。
数据更精：构建了包含609个高质量机器人操作样本的数据集，涵盖长视界规划和物理交互。

解决方法/算法的通俗解释

想象你要考驾照，现在的基准只看你画的“行车记录画”漂不漂亮（视觉基准）。本文的方法是：不仅要看你画的画像不像（视觉质量），还要考官（人类）判断这画是否符合物理常识（比如车会不会飞），最后还要看你画的路线能不能让真的车开起来（IDM测试）。

解决方法的具体做法

构建基准：收集609个机器人操作视频，人工标注关键点和指令。
多维打分：
- 视觉质量：用PSNR, FVD等指标。
- 指令理解：用GPT-4o判断视频是否符合文字指令。
- 物理法则：用微调过的Qwen-2.5-VL模型打分，检查物理常识（如重力、碰撞）。
- 规划推理：用有向无环图（DAG）对比模型生成的动作顺序是否正确。
双重图灵测试：
- 人类测试：让人分辨真假视频，计算欺骗成功率。
- 机器测试（IDM）：用训练好的逆动力学模型去“解读”生成的视频，看能否输出真实机器人能执行的控制指令。

基于前人的哪些方法

数据处理：参考了RoboBench的规划评估指标（DAG方法）。
物理评估：基于VideoPhy等物理常识评估思路，但进行了扩展。
执行测试：基于WoW论文中的 Gripper-Centric Inverse Dynamics Model (GC-IDM) 来验证真实世界的成功率。

实验设置、数据、评估方式、结论

实验设置：评估了闭源模型（Kling, Hailuo）和开源模型（CogVideoX, Wan2.1, Cosmos-Predict系列）以及具身世界模型（WoW系列）。
数据：609个机器人操作样本，包含In-Distribution和Out-of-Distribution数据。
评估方式：22项指标综合打分，以及人类和IDM图灵测试。
结论：
- 商业模型（如Hailuo）在视觉和指令理解上较好，但物理规划弱。
- 规划是当前所有模型的瓶颈，得分普遍极低。
- 大多数模型在IDM图灵测试中失败（成功率接近0%），说明生成的视频虽然好看但“做不了”。
- WoW-cosmos2在开源模型中表现最好，但在真实执行上仍有巨大差距。

提到的同类工作

Physics-10 / PhyGenBench：侧重物理诊断，但缺乏规划和执行评估。
T2V-CompBench / VBench-2.0：侧重通用视频生成的组成性和物理常识，非机器人具身场景。
WorldModelBench / EWMBench：虽然评估世界模型，但未涵盖规划和执行维度。

和本文相关性最高的3个文献

**RoboBench **：本文直接引用其规划评估指标（DAG），是本文评估逻辑推理的核心基础。
**WoW **：本文提出的IDM图灵测试直接基于该论文的GC-IDM模型，且WoW系列模型是本文的核心被评测对象之一。
**VideoPhy **：本文在物理常识评估部分直接引用了该工作的指标设计，是本文物理评估维度的重要参考。

我的

相比一般的video generation benchmark，加了一个planning和Execution的评测。planning：用MLLM拆分多个阶段，然后比。这种还是有缺陷，比如系鞋带、叠衣服等难拆分的任务没法评。
execution：用生成video，Inverse dynamic model得到action，然后执行。自己训的IDM。在真机上执行，没说几个真机。有多个任务。可信度存疑。