澳门大学WorldDrive：统一视觉与运动表征，让世界模型直接服务自动驾驶规划-程序员充电站

点击下方卡片，关注“自动驾驶之心”公众号

戳我->领取自动驾驶近30个方向学习路线

作者 | Xingtai Gui等
编辑 | 自动驾驶之心
本文只做学术分享，如有侵权，联系删文

>>自动驾驶前沿信息获取→自动驾驶之心知识星球

近年来，自动驾驶领域对 Driving World Model 的关注持续升温。相比传统仅围绕感知、预测与规划进行模块化优化的方法，世界模型试图进一步回答一个更本质的问题：如果模型能够理解并预测驾驶场景未来的演化，它是否也能更好地指导当前的驾驶决策？

图 1. WorldDrive规划与生成结果

这一方向之所以吸引人，原因并不复杂。自动驾驶本质上不是一个静态识别任务，而是一个持续与环境交互、不断面向未来做选择的决策问题。一个真正优秀的系统，不只是要看清“现在发生了什么”，更要知道“接下来可能发生什么，以及我应该如何行动”。

基于此，澳门大学&千里科技的团队提出了WorldDrive。

图 2. 不同world model for planning示意图

这项工作的核心主张非常明确：

能够生成未来的表征，也应该能够直接用于决定未来。

整体上看，WorldDrive 是一个围绕“统一视觉与运动表征”构建的完整框架。它并不是简单地把一个 driving world model 和一个 planner 机械拼接起来，而是把二者放在同一条表示学习链路中进行设计。论文整体框架分为两个衔接的阶段：第一阶段做场景生成，第二阶段做运动规划。在第一阶段中学到的视觉编码器和运动编码器，会被冻结并直接继承到下游规划器中使用；随后，模型再通过一个轻量的未来奖励模块，把世界模型中的“前瞻能力”转化为规划时的实时轨迹筛选能力。

图 3. WorldDrive框架示意图

论文标题：Bridging Scene Generation and Planning: Driving with World Model via Unifying Vision and Motion Representation
作者：Xingtai Gui, Meijie Zhang, Tianyi Yan, Wencheng Han, Jiahao Gong, Feiyang Tan, Cheng-zhong Xu, Jianbing Shen
论文链接：https://arxiv.org/abs/2603.14948
开源地址：https://github.com/TabGuigui/WorldDrive

更具体地说，WorldDrive 主要由三个核心部分组成：

Trajectory-aware Driving World Model：让世界模型真正“懂运动”

首先，作者提出了 Trajectory-aware Driving World Model（TA-DWM）。这一模块显式引入了轨迹词表（trajectory vocabulary），用一组预定义运动锚点来表示驾驶行为，再通过残差建模补充更细粒度的运动信息。这样一来，运动条件直接参与到场景生成表征空间的构建中。模型学习到的不仅是“未来看起来像什么”，更是“未来为什么会这样变化”，也就是视觉动态与运动意图之间的耦合关系。

从结果上看，这种设计带来了两个直接收益。一方面，TA-DWM 能够生成与输入轨迹高度一致的未来场景；另一方面，它所学到的运动表征不再只服务于生成，而是可以进一步被下游规划器继承使用。论文中也专门强调，这种设计的目标是让世界模型里的运动知识具备 planner-shared and inheritable 的性质，而不是停留在“只对生成有用”的层面。

Representation Inheritance + Multi-modal Planner：把世界模型学到的表征直接交给规划器

第二个关键点，是作者提出的表示继承（representation inheritance）思路。简单来说，既然 TA-DWM 已经通过未来场景生成学习到了成熟的视觉与运动表示，那么下游规划器就没有必要从零开始重新学习一套表征。为此，WorldDrive 将 TA-DWM 中训练好的视觉编码器和轨迹编码器冻结并继承到规划阶段，在此基础上构建轻量的 Multi-modal Planner 来输出多模态轨迹候选。

这一点非常重要。过去很多工作虽然也使用世界模型，WorldDrive 的不同之处在于：它让规划器直接工作在由场景生成任务预对齐过的特征空间中。这意味着规划器看到的，不再是纯粹为了回归轨迹而学习出的局部特征，而是已经在“未来演化”任务上被优化过的时空动态表示。论文中的消融实验也验证了这一点：仅使用通用场景进行的VAE预训练已经能带来明显性能提升，而进一步继承 TA-DWM 的视觉和运动表示后，规划性能还能继续提升，说明这种统一表示确实对下游决策有帮助。

Future-aware Rewarder：不用显式生成未来视频，也能利用世界模型前瞻能力

如果说前两个模块解决的是“生成与规划为什么能共用同一表示空间”，那么第三个模块解决的则是“世界模型如何在推理阶段真正帮助规划，同时又不牺牲效率”。

为此，作者提出了 Future-aware Rewarder（FAR）。

直观上说，世界模型最有价值的一点在于它能“看到未来”。但如果每次规划时都把所有候选轨迹逐一送入生成模型，真的去采样未来视频，那推理成本会非常高，几乎不适合实时自动驾驶。WorldDrive 的做法是：在训练阶段，让 FAR 从冻结的 TA-DWM 中蒸馏出规划相关的未来潜表示；到了推理阶段，就不再显式进行未来视频生成，而是直接用轻量模块对候选轨迹进行未来感知式打分。

它保留了世界模型“有前瞻性”的本质优势，却绕开了显式生成带来的高延迟问题。论文报告的结果显示，WorldDrive 在推理阶段不需要进行未来场景生成，整条规划链路延迟约为 53ms，同时还能取得更强的规划性能。也就是说，FAR 让世界模型从“离线分析工具”真正变成了“可在线部署的规划辅助模块”。

图 4. WorldDrive框架示意图

在 NAVSIM navtest 上，WorldDrive 取得了非常有竞争力的结果。论文显示，WorldDrive 在单目相机+ WM-based设定下取得 88.1 PDMS，达到文中 vision-only 方法中的领先水平；在 full navtrain 训练设置下，进一步提升到 89.0 PDMS。更值得注意的是，WorldDrive 虽然只用单目输入，但已经能够与多视角、多模态方法直接竞争。

如果进一步看 best-of-6 oracle 结果，WorldDrive 的上界达到 93.6 PDMS。这说明模型本身生成的多模态轨迹候选集质量很高，候选空间里确实包含更优行为，只是需要合适的轨迹筛选策略把它挑出来。而 FAR 的引入，正是在朝这个方向做高效近似。

在更具挑战性的 NAVSIM-v2 navhard 上，WorldDrive 依然展现出很强的竞争力。论文中报告，优于对比的多视角基线。并且，提升并不只出现在单一指标上，而是在多项 compliance 和 safety 相关子指标上都具有一致收益。在更复杂的 pseudo closed-loop 与 reactive traffic 设定下，规划模型不仅要“拟合专家轨迹”，更要在动态交互场景里维持安全与合规。WorldDrive 在这种条件下依然保持优势，表明其统一表征并不是只适用于静态或简单场景，而是对真实决策过程中的交互式未来建模同样有效。

论文还在 nuScenes 上补充了 open-loop 规划与生成能力的评估。在 open-loop 规划上，WorldDrive同样具备很强竞争力；而在未来场景生成上，WorldDrive 达到了同样具有竞争力的表现，在表中的多种 driving video generation 方法中表现突出。

这组结果其实非常关键，因为它说明 WorldDrive 不是“为了规划而牺牲生成质量”，也不是“为了生成而牺牲规划性能”。相反，它在两个方向上都取得了较强表现，这恰恰支持了论文最核心的论点：统一视觉与运动表征并不是折中方案，而是有机会同时提升场景生成与轨迹规划两项能力。

图 5. WorldDrive 推理耗时图 5. WorldDrive 推理耗时

图 6. WorldDrive生成结果

总结

总的来看，WorldDrive直面了一个长期存在却很少被真正解决的问题：为什么世界模型已经能较好地生成未来，却还没有真正把这种“未来理解能力”转化为高质量、低延迟的规划能力？

为回答这个问题，作者提出了从 Trajectory-aware Driving World Model、到 representation inheritance、再到 Future-aware Rewarder 的完整链路，让世界模型学到的视觉与运动知识不再停留在生成端，而是被真正带入规划端，并在实时推理中发挥作用。最终，WorldDrive 在 NAVSIM、NAVSIM-v2 和 nuScenes 上同时验证了其在规划与生成两方面的有效性，展示出“统一视觉与运动表征”这一思路的现实潜力。

对于自动驾驶领域而言，这项工作最值得关注的，也许不是某一个具体数字，而是它传达出的更深一层信号：世界模型的意义，不只是为了更真实地“生成未来”，更是为了更可靠地“决定未来”。

自动驾驶之心

求点赞

求分享

求喜欢

澳门大学WorldDrive：统一视觉与运动表征，让世界模型直接服务自动驾驶规划

总结

如何快速掌握TQVaultAE：泰坦之旅玩家的终极装备管理神器

突破限速：用Python脚本获取百度网盘真实下载地址实现30倍加速

保姆级教程：从零开始，用Stable Diffusion WebUI在Windows上跑通你的第一张AI图（含常见报错解决）

Hitboxer：解决游戏按键冲突的专业级SOCD工具，让你的操作更精准

开源阅读鸿蒙版：构建个人数字图书馆的3大核心场景与5步部署指南

告别App！用Chrome浏览器直接连接蓝牙打印机，5分钟搞定WebBluetooth打印配置