CVPR 2026：无需训练，让 Rectified Flow 生成模型推理加速 2 到 3 倍-程序员充电站

我们的 CVPR 2026 工作 VDE：无需训练，让 Rectified Flow 生成模型推理加速 2 到 3 倍

论文：VDE: Training-Free Accelerating Rectified Flow Model via Velocity Decomposition and Estimation

会议：CVPR 2026

作者：Junwen Tan, Jinglin Liang, Hongyuan Chen, Shuangping Huang

单位：South China University of Technology

项目地址：https://github.com/Tan-Junwen/VDE

论文地址：CVF Open Access / arXiv

大家好，分享一下我们被CVPR 2026接收的一项工作：VDE。

这项工作的目标很直接：在不重新训练模型、不蒸馏模型、不改模型权重的情况下，加速当前主流的Rectified Flow视觉生成模型推理。VDE 可以用于图像生成、视频生成和编辑场景，目前已经支持FLUX.1-dev、Qwen-Image、Z-Image、Wan2.1等模型。

一句话概括：VDE 不再简单地缓存并复用旧的模型输出，而是把速度场分解成更可预测的几何分量，并对后续步的速度进行解析估计，从而减少昂贵的模型前向次数。

为什么要做这件事

近两年，Rectified Flow 及其相关生成模型在图像、视频和多模态生成任务中表现非常强。以 FLUX、Qwen-Image、Wan2.1 等模型为代表，生成质量已经很高，但实际部署时仍然有一个非常现实的问题：推理慢。

对于扩散模型或 Rectified Flow 模型来说，一次生成通常需要多步迭代。每一步都要调用大模型进行前向计算，尤其在高分辨率图像和视频生成中，计算代价非常可观。

已有的一类训练免费加速方法通常采用cache-and-reuse思路：把某些时间步的计算结果缓存下来，并在后续时间步复用。这个思路简单有效，但也存在一个问题：生成过程中的输入状态一直在变化，静态缓存值和当前输入之间会逐渐产生 mismatch，导致质量下降。

我们在 VDE 中尝试回答一个问题：

如果不直接复用旧输出，而是理解速度场在生成轨迹中的变化结构，能不能更准确地估计后续速度？

VDE 的核心思想

VDE 的全称是Velocity Decomposition and Estimation，即速度分解与估计。

在 Rectified Flow 模型中，模型每一步输出的是一个 velocity。VDE 的关键观察是：这个 velocity 可以相对于当前输入分解成两个部分：

平行于输入的分量
正交于输入的分量

这样做的好处是，原本复杂的速度场变化会被拆成更容易建模的结构：

平行和正交分量的系数在时间维度上具有较强的可预测性；同时，正交方向本身在局部时间段内也具有一定稳定性。因此，VDE 不需要每一步都调用原始生成模型，而是周期性地使用真实模型输出作为 anchor，再在后续若干步中通过分解后的几何结构来估计 velocity。

和传统缓存方法相比，VDE 的重点不是“把旧值拿来继续用”，而是“把旧状态作为锚点，对当前输入自适应地估计”。这使得它在加速的同时能更好地保持生成质量。

方法特点

VDE 有几个比较实用的特点：

Training-Free：无需重新训练或蒸馏模型，可以直接作用于已有 Rectified Flow 模型。
Input-Adaptive：估计过程依赖当前输入状态，不是简单复用静态缓存。
Model-Agnostic：可以迁移到多种图像和视频生成模型。
Plug-and-Play：适合和现有推理框架、ComfyUI、Diffusers 等生态继续集成。
质量损失小：相比单纯减少采样步数或直接缓存，VDE 在 SSIM、PSNR、LPIPS 等指标上保持更好的结果。

实验结果

在多个主流生成模型上，VDE 都取得了比较稳定的加速效果。

FLUX.1-dev 文生图

基线设置为 50 步采样，延迟为8.20s。

|:–😐:–😐:–😐:–😐:–😐:–😐:–😐:–😐:–😐

| VDE-fast | 3.01x | 2.72s | 16 | 0.8267 | 23.19 | 0.1997 | 0.3109 | 0.969 |

| VDE-medium | 2.70x | 3.04s | 18 | 0.8499 | 24.02 | 0.1679 | 0.3102 | 0.973 |

| VDE-slow | 2.21x | 3.70s | 22 | 0.8877 | 25.81 | 0.1243 | 0.3095 | 0.978 |

Qwen-Image 文生图

基线设置为 50 步采样，延迟为12.53s。

|:–😐:–😐:–😐:–😐:–😐:–😐:–😐:–😐:–😐

| VDE-fast | 2.70x | 4.64s | 18 | 0.8967 | 25.46 | 0.1096 | 0.3163 | 1.287 |

| VDE-slow | 2.04x | 6.14s | 24 | 0.9362 | 28.58 | 0.0691 | 0.3159 | 1.295 |

Wan2.1 文生视频

基线设置为 50 步采样，生成81 帧、832x480视频，延迟为175.35s。

|:–😐:–😐:–😐:–😐:–😐:–😐:–😐:–😐

| VDE-fast | 2.50x | 70.11s | 20 | 0.8658 | 24.69 | 0.0754 | 80.43 |

| VDE-slow | 2.08x | 84.18s | 24 | 0.8902 | 25.92 | 0.0554 | 80.32 |

整体来看，VDE 在图像和视频生成任务中都能实现约2.04x 到 3.22x的推理加速，同时保持较小的视觉质量损失。在图像生成实验中，相比较强的 cache-based baseline，VDE 在 SSIM 上提升19.5%，PSNR 提升30.3%，LPIPS 降低55.4%。

当前支持的模型

目前 VDE 已经覆盖了图像生成、视频生成和编辑任务中的多个模型：

图像生成：FLUX.1-dev、Qwen-Image、Z-Image
视频生成：Wan2.1
后续计划：ComfyUI 节点、Hugging Face Diffusers 集成，以及更多图像、视频、3D 生成模型支持

我们也希望这项工作能成为一个比较通用的 Rectified Flow 推理加速工具，而不仅仅服务于某一个具体模型。

为什么我觉得这个方向值得关注

大模型生成能力越来越强之后，推理效率会成为一个越来越关键的问题。

一方面，用户希望更快地得到结果；另一方面，实际部署中 GPU 成本、显存占用、并发吞吐都会直接影响产品可用性。对于图像生成来说，几秒钟的差距会影响交互体验；对于视频生成来说，几十秒到几分钟的差距会直接决定它能否进入真实工作流。

VDE 的意义在于，它提供了一种相对轻量、无需训练、可迁移的加速路线。它不是通过额外训练一个小模型去逼近原模型，也不是简单砍掉采样步数，而是利用 Rectified Flow 速度场本身的几何结构来做估计。

这也是我们认为它适合开源社区继续扩展的原因：如果一种加速方法能够以插件形式接入不同生成模型和推理框架，它的应用空间会非常大。

开源与使用

代码已经开源，欢迎大家 star、试用和提 issue：

https://github.com/Tan-Junwen/VDE

项目目前包含不同模型的 VDE 适配版本：

VDE4FLUX
VDE4QwenImage
VDE4Wan2.1
VDE4Z-Image

论文和项目链接：

GitHub：https://github.com/Tan-Junwen/VDE
CVF：https://openaccess.thecvf.com/content/CVPR2026/html/Tan_VDE_Training-Free_Accelerating_Rectified_Flow_Model_via_Velocity_Decomposition_and_CVPR_2026_paper.html
arXiv：https://arxiv.org/pdf/2605.23381

Citation

如果这项工作对你的研究或应用有帮助，欢迎引用：

@inproceedings{tan2026vde, title={VDE: Training-Free Accelerating Rectified Flow Model via Velocity Decomposition and Estimation}, author={Tan, Junwen and Liang, Jinglin and Chen, Hongyuan and Huang, Shuangping}, booktitle={Proceedings of the IEEE/CVF Conference on Computer Vision and Pattern Recognition}, pages={37918--37928}, year={2026} }

最后也欢迎大家交流 Rectified Flow、生成模型推理加速、图像/视频生成部署相关问题。感谢关注！