快速了解部分
基础信息(英文):
- 题目: Wow, wo, val! A Comprehensive Embodied World Model Evaluation Turing Test
- 时间年月: 2025年(文档ID: 2601.04137,通常代表2026年1月提交,内容基于2025年研究)
- 机构名: Peking University (State Key Laboratory of Multimedia Information Processing), Beijing Innovation Center of Humanoid Robotics, The Hong Kong University of Science and Technology
- 3个英文关键词: Embodied AI, World Model, Turing Test
1句话通俗总结本文干了什么事情
本文建立了一个名为WoW-World-Eval的全面测试基准(图灵测试),用来评估视频生成模型是否具备像人类一样理解物理世界、进行规划并指导机器人行动的能力。
研究痛点:现有研究不足 / 要解决的具体问题
现有的视频生成基准主要关注视觉美感(如清晰度),忽略了机器人领域最需要的物理常识、逻辑规划和可执行性。这导致模型虽然生成的视频“看起来很真”,但物理上是错误的,无法指导真实机器人操作。
核心方法:关键技术、模型或研究设计(简要)
设计了一个多维度的评估基准WoW-World-Eval,包含22项指标,从感知、规划、预测、执行和泛化五个方面考核模型。同时提出了两种“图灵测试”:一种是人类图灵测试(看视频是否能骗过人类),另一种是逆动力学模型(IDM)图灵测试(看生成的视频能否被转换为真实机器人可执行的动作)。
深入了解部分
相比前人创新在哪里
- 维度更全:首次将**规划(Planning)和执行(Execution)**纳入评估体系,而不仅仅是视觉质量。
- 评估更准:引入了基于人类偏好的评分体系(与人类评分相关性高达0.93),并提出了机器视角的IDM图灵测试来验证物理可执行性。
- 数据更精:构建了包含609个高质量机器人操作样本的数据集,涵盖长视界规划和物理交互。
解决方法/算法的通俗解释
想象你要考驾照,现在的基准只看你画的“行车记录画”漂不漂亮(视觉基准)。本文的方法是:不仅要看你画的画像不像(视觉质量),还要考官(人类)判断这画是否符合物理常识(比如车会不会飞),最后还要看你画的路线能不能让真的车开起来(IDM测试)。
解决方法的具体做法
- 构建基准:收集609个机器人操作视频,人工标注关键点和指令。
- 多维打分:
- 视觉质量:用PSNR, FVD等指标。
- 指令理解:用GPT-4o判断视频是否符合文字指令。
- 物理法则:用微调过的Qwen-2.5-VL模型打分,检查物理常识(如重力、碰撞)。
- 规划推理:用有向无环图(DAG)对比模型生成的动作顺序是否正确。
- 双重图灵测试:
- 人类测试:让人分辨真假视频,计算欺骗成功率。
- 机器测试(IDM):用训练好的逆动力学模型去“解读”生成的视频,看能否输出真实机器人能执行的控制指令。
基于前人的哪些方法
- 数据处理:参考了RoboBench的规划评估指标(DAG方法)。
- 物理评估:基于VideoPhy等物理常识评估思路,但进行了扩展。
- 执行测试:基于WoW论文中的 Gripper-Centric Inverse Dynamics Model (GC-IDM) 来验证真实世界的成功率。
实验设置、数据、评估方式、结论
- 实验设置:评估了闭源模型(Kling, Hailuo)和开源模型(CogVideoX, Wan2.1, Cosmos-Predict系列)以及具身世界模型(WoW系列)。
- 数据:609个机器人操作样本,包含In-Distribution和Out-of-Distribution数据。
- 评估方式:22项指标综合打分,以及人类和IDM图灵测试。
- 结论:
- 商业模型(如Hailuo)在视觉和指令理解上较好,但物理规划弱。
- 规划是当前所有模型的瓶颈,得分普遍极低。
- 大多数模型在IDM图灵测试中失败(成功率接近0%),说明生成的视频虽然好看但“做不了”。
- WoW-cosmos2在开源模型中表现最好,但在真实执行上仍有巨大差距。
提到的同类工作
- Physics-10 / PhyGenBench:侧重物理诊断,但缺乏规划和执行评估。
- T2V-CompBench / VBench-2.0:侧重通用视频生成的组成性和物理常识,非机器人具身场景。
- WorldModelBench / EWMBench:虽然评估世界模型,但未涵盖规划和执行维度。
和本文相关性最高的3个文献
- **RoboBench **:本文直接引用其规划评估指标(DAG),是本文评估逻辑推理的核心基础。
- **WoW **:本文提出的IDM图灵测试直接基于该论文的GC-IDM模型,且WoW系列模型是本文的核心被评测对象之一。
- **VideoPhy **:本文在物理常识评估部分直接引用了该工作的指标设计,是本文物理评估维度的重要参考。
我的
- 相比一般的video generation benchmark,加了一个planning和Execution的评测。planning:用MLLM拆分多个阶段,然后比。这种还是有缺陷,比如系鞋带、叠衣服等难拆分的任务没法评。
- execution:用生成video,Inverse dynamic model得到action,然后执行。自己训的IDM。在真机上执行,没说几个真机。有多个任务。可信度存疑。