点击下方卡片,关注“自动驾驶之心”公众号
戳我->领取自动驾驶近30个方向学习路线
作者 | Xingtai Gui等
编辑 | 自动驾驶之心
本文只做学术分享,如有侵权,联系删文
>>自动驾驶前沿信息获取→自动驾驶之心知识星球
近年来,自动驾驶领域对 Driving World Model 的关注持续升温。相比传统仅围绕感知、预测与规划进行模块化优化的方法,世界模型试图进一步回答一个更本质的问题:如果模型能够理解并预测驾驶场景未来的演化,它是否也能更好地指导当前的驾驶决策?
这一方向之所以吸引人,原因并不复杂。自动驾驶本质上不是一个静态识别任务,而是一个持续与环境交互、不断面向未来做选择的决策问题。一个真正优秀的系统,不只是要看清“现在发生了什么”,更要知道“接下来可能发生什么,以及我应该如何行动”。
基于此,澳门大学&千里科技的团队提出了WorldDrive。
这项工作的核心主张非常明确:
能够生成未来的表征,也应该能够直接用于决定未来。
整体上看,WorldDrive 是一个围绕“统一视觉与运动表征”构建的完整框架。它并不是简单地把一个 driving world model 和一个 planner 机械拼接起来,而是把二者放在同一条表示学习链路中进行设计。论文整体框架分为两个衔接的阶段:第一阶段做场景生成,第二阶段做运动规划。在第一阶段中学到的视觉编码器和运动编码器,会被冻结并直接继承到下游规划器中使用;随后,模型再通过一个轻量的未来奖励模块,把世界模型中的“前瞻能力”转化为规划时的实时轨迹筛选能力。
论文标题:Bridging Scene Generation and Planning: Driving with World Model via Unifying Vision and Motion Representation
作者:Xingtai Gui, Meijie Zhang, Tianyi Yan, Wencheng Han, Jiahao Gong, Feiyang Tan, Cheng-zhong Xu, Jianbing Shen
论文链接:https://arxiv.org/abs/2603.14948
开源地址:https://github.com/TabGuigui/WorldDrive
更具体地说,WorldDrive 主要由三个核心部分组成:
Trajectory-aware Driving World Model:让世界模型真正“懂运动”
首先,作者提出了 Trajectory-aware Driving World Model(TA-DWM)。 这一模块显式引入了轨迹词表(trajectory vocabulary),用一组预定义运动锚点来表示驾驶行为,再通过残差建模补充更细粒度的运动信息。这样一来,运动条件直接参与到场景生成表征空间的构建中。模型学习到的不仅是“未来看起来像什么”,更是“未来为什么会这样变化”,也就是视觉动态与运动意图之间的耦合关系。
从结果上看,这种设计带来了两个直接收益。 一方面,TA-DWM 能够生成与输入轨迹高度一致的未来场景;另一方面,它所学到的运动表征不再只服务于生成,而是可以进一步被下游规划器继承使用。论文中也专门强调,这种设计的目标是让世界模型里的运动知识具备 planner-shared and inheritable 的性质,而不是停留在“只对生成有用”的层面。
Representation Inheritance + Multi-modal Planner:把世界模型学到的表征直接交给规划器
第二个关键点,是作者提出的表示继承(representation inheritance)思路。 简单来说,既然 TA-DWM 已经通过未来场景生成学习到了成熟的视觉与运动表示,那么下游规划器就没有必要从零开始重新学习一套表征。为此,WorldDrive 将 TA-DWM 中训练好的视觉编码器和轨迹编码器冻结并继承到规划阶段,在此基础上构建轻量的 Multi-modal Planner 来输出多模态轨迹候选。
这一点非常重要。过去很多工作虽然也使用世界模型,WorldDrive 的不同之处在于:它让规划器直接工作在由场景生成任务预对齐过的特征空间中。这意味着规划器看到的,不再是纯粹为了回归轨迹而学习出的局部特征,而是已经在“未来演化”任务上被优化过的时空动态表示。论文中的消融实验也验证了这一点:仅使用通用场景进行的VAE预训练已经能带来明显性能提升,而进一步继承 TA-DWM 的视觉和运动表示后,规划性能还能继续提升,说明这种统一表示确实对下游决策有帮助。
Future-aware Rewarder:不用显式生成未来视频,也能利用世界模型前瞻能力
如果说前两个模块解决的是“生成与规划为什么能共用同一表示空间”,那么第三个模块解决的则是“世界模型如何在推理阶段真正帮助规划,同时又不牺牲效率”。
为此,作者提出了 Future-aware Rewarder(FAR)。
直观上说,世界模型最有价值的一点在于它能“看到未来”。但如果每次规划时都把所有候选轨迹逐一送入生成模型,真的去采样未来视频,那推理成本会非常高,几乎不适合实时自动驾驶。WorldDrive 的做法是:在训练阶段,让 FAR 从冻结的 TA-DWM 中蒸馏出规划相关的未来潜表示;到了推理阶段,就不再显式进行未来视频生成,而是直接用轻量模块对候选轨迹进行未来感知式打分。
它保留了世界模型“有前瞻性”的本质优势,却绕开了显式生成带来的高延迟问题。论文报告的结果显示,WorldDrive 在推理阶段不需要进行未来场景生成,整条规划链路延迟约为 53ms,同时还能取得更强的规划性能。也就是说,FAR 让世界模型从“离线分析工具”真正变成了“可在线部署的规划辅助模块”。
在 NAVSIM navtest 上,WorldDrive 取得了非常有竞争力的结果。论文显示,WorldDrive 在单目相机+ WM-based设定下取得 88.1 PDMS,达到文中 vision-only 方法中的领先水平;在 full navtrain 训练设置下,进一步提升到 89.0 PDMS。更值得注意的是,WorldDrive 虽然只用单目输入,但已经能够与多视角、多模态方法直接竞争。
如果进一步看 best-of-6 oracle 结果,WorldDrive 的上界达到 93.6 PDMS。这说明模型本身生成的多模态轨迹候选集质量很高,候选空间里确实包含更优行为,只是需要合适的轨迹筛选策略把它挑出来。而 FAR 的引入,正是在朝这个方向做高效近似。
在更具挑战性的 NAVSIM-v2 navhard 上,WorldDrive 依然展现出很强的竞争力。论文中报告,优于对比的多视角基线。并且,提升并不只出现在单一指标上,而是在多项 compliance 和 safety 相关子指标上都具有一致收益。在更复杂的 pseudo closed-loop 与 reactive traffic 设定下,规划模型不仅要“拟合专家轨迹”,更要在动态交互场景里维持安全与合规。WorldDrive 在这种条件下依然保持优势,表明其统一表征并不是只适用于静态或简单场景,而是对真实决策过程中的交互式未来建模同样有效。
论文还在 nuScenes 上补充了 open-loop 规划与生成能力的评估。 在 open-loop 规划上,WorldDrive同样具备很强竞争力;而在未来场景生成上,WorldDrive 达到了同样具有竞争力的表现,在表中的多种 driving video generation 方法中表现突出。
这组结果其实非常关键,因为它说明 WorldDrive 不是“为了规划而牺牲生成质量”,也不是“为了生成而牺牲规划性能”。相反,它在两个方向上都取得了较强表现,这恰恰支持了论文最核心的论点:统一视觉与运动表征并不是折中方案,而是有机会同时提升场景生成与轨迹规划两项能力。
总结
总的来看,WorldDrive直面了一个长期存在却很少被真正解决的问题:为什么世界模型已经能较好地生成未来,却还没有真正把这种“未来理解能力”转化为高质量、低延迟的规划能力?
为回答这个问题,作者提出了从 Trajectory-aware Driving World Model、到 representation inheritance、再到 Future-aware Rewarder 的完整链路,让世界模型学到的视觉与运动知识不再停留在生成端,而是被真正带入规划端,并在实时推理中发挥作用。最终,WorldDrive 在 NAVSIM、NAVSIM-v2 和 nuScenes 上同时验证了其在规划与生成两方面的有效性,展示出“统一视觉与运动表征”这一思路的现实潜力。
对于自动驾驶领域而言,这项工作最值得关注的,也许不是某一个具体数字,而是它传达出的更深一层信号: 世界模型的意义,不只是为了更真实地“生成未来”,更是为了更可靠地“决定未来”。
自动驾驶之心
求点赞
求分享
求喜欢