自动驾驶VLA新SOTA：复旦联合团队提出WAM-Diff重塑端到端自动驾驶-程序员充电站

复旦大学与引望智能科技联合提出自动驾驶WAM-Diff框架。

WAM-Diff的全新端到端自动驾驶框架，在NAVSIM-v1榜单上取得了91.0 PDMS（预测驾驶得分）的惊人成绩，一举超越了现有的自回归和扩散基线模型。

它通过掩码扩散模型（Masked Diffusion）、稀疏混合专家（MoE）架构以及在线强化学习（GSPO），解决自动驾驶中多模态轨迹生成的难题。

掩码扩散模型重构轨迹生成范式

端到端自动驾驶系统正处于从模块化管道向视觉-语言-动作（VLA，Vision-Language-Action）统一架构转变的关键时期。

这类模型的目标很明确：输入多传感器数据和自然语言指令，直接输出规划和控制信号。

目前的VLA主要分为两大流派：一类是基于自回归的大语言模型，它们像生成文本一样逐个token地生成动作序列；另一类是连续扩散策略，通过去噪过程迭代优化动作预测。

自回归模型受限于从左到右的因果生成顺序，这在处理需要全局规划的驾驶任务时略显僵化。

连续扩散模型虽然能捕捉多模态分布，但在逻辑推理和离散决策上往往不如离散模型灵活。

WAM-Diff选择了一条少有人走的路：离散掩码扩散（Discrete Masked Diffusion）。

传统的自回归模型是在做完形填空的最后一题，必须按顺序写；而掩码扩散模型则像是在做一张全卷的填空题，它可以先填确定的部分，再根据上下文回头修改不确定的部分，甚至可以先确定终点，再反推路径。

该框架将未来的车辆轨迹视为一个离散的序列。

在训练阶段，模型会随机掩盖掉一部分轨迹点，让网络去预测这些缺失的信息。

在推理阶段，模型从一个完全被掩盖（全Mask）的序列开始，通过迭代的方式，逐步将Mask替换为具体的数值或语义token。

这种机制带来了前所未有的灵活性。

它支持并行解码，不需要像自回归那样排队等前一个结果，大大提高了生成效率。

更重要的是，它打破了时间顺序的枷锁，允许引入非因果的解码策略。

例如，在某些场景下，我们可以先确定车辆几秒后的位置（意图），再反过来推导当前应该做什么动作，这种以终为始的思维对于长时程规划至关重要。

混合词表与稀疏专家模型的架构创新

要实现上述的掩码扩散，首先需要解决语言和物理世界的对齐问题。

WAM-Diff设计了一套混合离散动作分词（Hybrid Discrete Action Tokenization）方案。

自动驾驶的轨迹是由连续的数值（如坐标、速度）组成的，而语言模型处理的是离散的语义符号。

为了让两者在同一个模型里对话，研究团队构建了一个统一的词表。

对于连续变量，例如轨迹的路点（Waypoint），模型将其在[-100, 100]的区间内进行均匀量化，分辨率设为0.01。

这意味着产生了20,001个不同的数值token。每一个二维路点被表示为一对有序的标量token <x, y>。

在解码时，取每个量化区间的中心值，最大绝对误差仅为0.005，这在保证精度的同时实现了离散化。

对于语义控制命令（如保持车道、让行）和驾驶理由，直接使用文本token。

这20,001个数值token被合并到现有的文本词表中，并在训练过程中端到端地优化它们的嵌入投影。

这种混合方式让模型既能理解向左转这样的高层指令，又能精准输出坐标(12.5, 4.3)这样的底层控制信号，实现了双向条件调节。

有了统一的表达，下一步是扩充模型的容量。

处理复杂的驾驶场景需要庞大的知识库，但如果单纯增加模型参数，推理成本会变得不可接受。

WAM-Diff引入了稀疏混合专家（MoE，Mixture of Experts）架构，具体采用了LoRA（Low-Rank Adaptation）形式的MoE。

模型的基础是一个预训练的SigLIP-2视觉编码器和LLaMA架构的文本解码器。

视觉部分将1920×1080的图像切分为15个384×384的补丁，加上整图缩放后的补丁，共16个视角，编码出2185个视觉token。文本编码器则处理指令和历史状态。

核心的掩码扩散主干网络中，研究者在前馈网络（FFN）层集成了64个LoRA专家。对于每一个输入，不是所有专家都参与计算，而是通过一个路由门控机制（Router），动态选择最相关的几个专家来处理。

这种设计让模型学会了术业有专攻。

有的专家可能擅长处理十字路口，有的专家擅长高速跟车。

在保持推理计算量主要由基础模型和少量活跃专家承担的同时，极大地丰富了模型应对长尾场景的能力。

为了训练这个庞然大物，团队采用了多任务学习策略。

不仅仅是模仿人类驾驶员的轨迹（Motion Prediction），还加入了驾驶导向的视觉问答（VQA）。

这迫使模型不仅要知其然（输出轨迹），还要知其所以然（理解场景逻辑，如识别红绿灯、避让行人）。

实验表明，这种联合训练比单纯的轨迹模仿显著提升了规划性能。

在线强化学习注入人类价值观

监督学习（Supervised Learning）教会了模型模仿人类驾驶员的平均行为，但这还不够。

人类驾驶员偶尔也会犯错，而且单纯的模仿很难应对分布外（Out-of-Distribution）的极端情况。

为了让模型开得更安全、更舒适，WAM-Diff引入了在线强化学习（Online Reinforcement Learning）。

具体采用的是组序列策略优化（GSPO，Group Sequence Policy Optimization）算法。

传统的强化学习往往针对每一步动作进行反馈，但这在长序列生成中会导致信用分配（Credit Assignment）难题：到底是哪一步做对了才避免了碰撞？

GSPO则不同，它关注的是整个动作序列的优劣。

系统定义了一个多维度的奖励函数，包含：

无碰撞（No Collisions）：这是底线。
可行驶区域合规（Drivable Area Compliance）：不能开到人行道或逆行。
碰撞时间（TTC，Time-To-Collision）：不仅不撞，还要保持安全距离。
舒适度（Comfort）：避免急刹车和急转弯。
自身进度（Ego Progress）：不能为了安全就停在原地不动，要向目标前进。

相比于传统的PPO或GRPO，GSPO更适合掩码扩散模型，因为它避免了对每个token进行细粒度的信用分配，直接针对最终结果——是否开得好进行优化。

这使得模型能够跳出模仿数据的局限，学会处理那些训练集中未曾见过、但符合安全逻辑的复杂场景。

实验数据性能分析

WAM-Diff在NAVSIM-v1和v2基准测试上进行了全面评估。

NAVSIM是一个基于真实世界数据的大规模自动驾驶评测平台，它不仅看预测的轨迹是否接近人类（L2误差），更通过模拟器回放来验证闭环驾驶的安全性。

NAVSIM-v1上，PDMS（预测驾驶得分）91.0。这是目前的最高分。

相比之下，著名的UniAD得分为83.4，TransFuser为84.0，DiffusionDrive为88.1。WAM-Diff的优势非常明显。

在细分指标上，NC（无碰撞率）达到99.1%，DAC（可行驶区域合规率）达到98.3%。这说明模型不仅开得像人，而且极其守规矩、安全。

WAM-Diff在安全指标（NC, DAC, TTC）上全面领先，同时在保证舒适度（Comf.）接近满分的情况下，取得了不错的行进效率（EP）。

NAVSIM-v2上，EPDMS（扩展预测性驾驶模型评分）89.7，也是SOTA水平。

尽管WAM-Diff取得了令人瞩目的成绩，但论文也坦诚地指出了当前的不足。

首先是感知视野受限。

目前的模型仅输入前视摄像头的图像。虽然对于大多数直线和跟车场景足够，但在路口博弈或侧向来车时，缺乏侧后方视野可能导致感知盲区，进而引发规划失败。

图中的失败案例分析就展示了当重要障碍物处于视野之外时，模型可能做出误判。

其次是缺乏时序历史信息。

模型目前只处理当前帧的图像，没有利用视频流的时间维度的历史信息。这意味着它很难准确推断其他车辆的速度和意图（例如，旁边的车是在加速还是减速？）。这在动态复杂的交通流中是一个潜在的安全隐患。

未来的工作方向将聚焦于引入环视（3D）视觉编码器，以覆盖全方位的感知盲区；同时开发更高效的时序模型架构，将历史帧信息纳入考量，从而提升对动态环境的推理能力。

WAM-Diff证明了离散掩码扩散模型在自动驾驶领域的巨大潜力。

它不仅打破了自回归生成的思维定势，通过灵活的解码策略适应不同驾驶场景，更巧妙地结合了MoE的扩展能力和RL的价值对齐能力，为端到端自动驾驶提供了一个强有力的新选择。

参考资料：

https://arxiv.org/pdf/2512.11872

https://github.com/fudan-generative-vision/WAM-Diff

自动驾驶VLA新SOTA：复旦联合团队提出WAM-Diff重塑端到端自动驾驶

掩码扩散模型重构轨迹生成范式

混合词表与稀疏专家模型的架构创新

在线强化学习注入人类价值观

实验数据性能分析

2026最新软件测试面试题(一)

金融风控模型的鲁棒性验证：软件测试从业者的实践指南

13、Vue2 与 Vue3 Diff 算法深度解析

padding不生效

Floorp Browser(基于Firefox火狐浏览器)

海川半导体SM5206单节锂电池线性充电芯片：技术解析与应用指南