news 2026/6/12 3:03:52

CVPR 2026:无需训练,让 Rectified Flow 生成模型推理加速 2 到 3 倍

作者头像

张小明

前端开发工程师

1.2k 24
文章封面图
CVPR 2026:无需训练,让 Rectified Flow 生成模型推理加速 2 到 3 倍

我们的 CVPR 2026 工作 VDE:无需训练,让 Rectified Flow 生成模型推理加速 2 到 3 倍

论文:VDE: Training-Free Accelerating Rectified Flow Model via Velocity Decomposition and Estimation

会议:CVPR 2026

作者:Junwen Tan, Jinglin Liang, Hongyuan Chen, Shuangping Huang

单位:South China University of Technology

项目地址:https://github.com/Tan-Junwen/VDE

论文地址:CVF Open Access / arXiv

大家好,分享一下我们被CVPR 2026接收的一项工作:VDE

这项工作的目标很直接:在不重新训练模型、不蒸馏模型、不改模型权重的情况下,加速当前主流的Rectified Flow视觉生成模型推理。VDE 可以用于图像生成、视频生成和编辑场景,目前已经支持FLUX.1-dev、Qwen-Image、Z-Image、Wan2.1等模型。

一句话概括:VDE 不再简单地缓存并复用旧的模型输出,而是把速度场分解成更可预测的几何分量,并对后续步的速度进行解析估计,从而减少昂贵的模型前向次数。

为什么要做这件事

近两年,Rectified Flow 及其相关生成模型在图像、视频和多模态生成任务中表现非常强。以 FLUX、Qwen-Image、Wan2.1 等模型为代表,生成质量已经很高,但实际部署时仍然有一个非常现实的问题:推理慢

对于扩散模型或 Rectified Flow 模型来说,一次生成通常需要多步迭代。每一步都要调用大模型进行前向计算,尤其在高分辨率图像和视频生成中,计算代价非常可观。

已有的一类训练免费加速方法通常采用cache-and-reuse思路:把某些时间步的计算结果缓存下来,并在后续时间步复用。这个思路简单有效,但也存在一个问题:生成过程中的输入状态一直在变化,静态缓存值和当前输入之间会逐渐产生 mismatch,导致质量下降。

我们在 VDE 中尝试回答一个问题:

如果不直接复用旧输出,而是理解速度场在生成轨迹中的变化结构,能不能更准确地估计后续速度?

VDE 的核心思想

VDE 的全称是Velocity Decomposition and Estimation,即速度分解与估计。

在 Rectified Flow 模型中,模型每一步输出的是一个 velocity。VDE 的关键观察是:这个 velocity 可以相对于当前输入分解成两个部分:

  1. 平行于输入的分量

  2. 正交于输入的分量

这样做的好处是,原本复杂的速度场变化会被拆成更容易建模的结构:

平行和正交分量的系数在时间维度上具有较强的可预测性;同时,正交方向本身在局部时间段内也具有一定稳定性。因此,VDE 不需要每一步都调用原始生成模型,而是周期性地使用真实模型输出作为 anchor,再在后续若干步中通过分解后的几何结构来估计 velocity。

和传统缓存方法相比,VDE 的重点不是“把旧值拿来继续用”,而是“把旧状态作为锚点,对当前输入自适应地估计”。这使得它在加速的同时能更好地保持生成质量。

方法特点

VDE 有几个比较实用的特点:

  • Training-Free:无需重新训练或蒸馏模型,可以直接作用于已有 Rectified Flow 模型。

  • Input-Adaptive:估计过程依赖当前输入状态,不是简单复用静态缓存。

  • Model-Agnostic:可以迁移到多种图像和视频生成模型。

  • Plug-and-Play:适合和现有推理框架、ComfyUI、Diffusers 等生态继续集成。

  • 质量损失小:相比单纯减少采样步数或直接缓存,VDE 在 SSIM、PSNR、LPIPS 等指标上保持更好的结果。

实验结果

在多个主流生成模型上,VDE 都取得了比较稳定的加速效果。

FLUX.1-dev 文生图

基线设置为 50 步采样,延迟为8.20s

| Method | Speedup | Latency | Steps | SSIM | PSNR | LPIPS | CLIP | ImageReward |

|:–😐:–😐:–😐:–😐:–😐:–😐:–😐:–😐:–😐

| VDE-fast | 3.01x | 2.72s | 16 | 0.8267 | 23.19 | 0.1997 | 0.3109 | 0.969 |

| VDE-medium | 2.70x | 3.04s | 18 | 0.8499 | 24.02 | 0.1679 | 0.3102 | 0.973 |

| VDE-slow | 2.21x | 3.70s | 22 | 0.8877 | 25.81 | 0.1243 | 0.3095 | 0.978 |

Qwen-Image 文生图

基线设置为 50 步采样,延迟为12.53s

| Method | Speedup | Latency | Steps | SSIM | PSNR | LPIPS | CLIP | ImageReward |

|:–😐:–😐:–😐:–😐:–😐:–😐:–😐:–😐:–😐

| VDE-fast | 2.70x | 4.64s | 18 | 0.8967 | 25.46 | 0.1096 | 0.3163 | 1.287 |

| VDE-slow | 2.04x | 6.14s | 24 | 0.9362 | 28.58 | 0.0691 | 0.3159 | 1.295 |

Wan2.1 文生视频

基线设置为 50 步采样,生成81 帧、832x480视频,延迟为175.35s

| Method | Speedup | Latency | Steps | SSIM | PSNR | LPIPS | VBench |

|:–😐:–😐:–😐:–😐:–😐:–😐:–😐:–😐

| VDE-fast | 2.50x | 70.11s | 20 | 0.8658 | 24.69 | 0.0754 | 80.43 |

| VDE-slow | 2.08x | 84.18s | 24 | 0.8902 | 25.92 | 0.0554 | 80.32 |

整体来看,VDE 在图像和视频生成任务中都能实现约2.04x 到 3.22x的推理加速,同时保持较小的视觉质量损失。在图像生成实验中,相比较强的 cache-based baseline,VDE 在 SSIM 上提升19.5%,PSNR 提升30.3%,LPIPS 降低55.4%

当前支持的模型

目前 VDE 已经覆盖了图像生成、视频生成和编辑任务中的多个模型:

  • 图像生成:FLUX.1-dev、Qwen-Image、Z-Image

  • 视频生成:Wan2.1

  • 后续计划:ComfyUI 节点、Hugging Face Diffusers 集成,以及更多图像、视频、3D 生成模型支持

我们也希望这项工作能成为一个比较通用的 Rectified Flow 推理加速工具,而不仅仅服务于某一个具体模型。

为什么我觉得这个方向值得关注

大模型生成能力越来越强之后,推理效率会成为一个越来越关键的问题。

一方面,用户希望更快地得到结果;另一方面,实际部署中 GPU 成本、显存占用、并发吞吐都会直接影响产品可用性。对于图像生成来说,几秒钟的差距会影响交互体验;对于视频生成来说,几十秒到几分钟的差距会直接决定它能否进入真实工作流。

VDE 的意义在于,它提供了一种相对轻量、无需训练、可迁移的加速路线。它不是通过额外训练一个小模型去逼近原模型,也不是简单砍掉采样步数,而是利用 Rectified Flow 速度场本身的几何结构来做估计。

这也是我们认为它适合开源社区继续扩展的原因:如果一种加速方法能够以插件形式接入不同生成模型和推理框架,它的应用空间会非常大。

开源与使用

代码已经开源,欢迎大家 star、试用和提 issue:

https://github.com/Tan-Junwen/VDE

项目目前包含不同模型的 VDE 适配版本:

  • VDE4FLUX

  • VDE4QwenImage

  • VDE4Wan2.1

  • VDE4Z-Image

论文和项目链接:

  • GitHub:https://github.com/Tan-Junwen/VDE

  • CVF:https://openaccess.thecvf.com/content/CVPR2026/html/Tan_VDE_Training-Free_Accelerating_Rectified_Flow_Model_via_Velocity_Decomposition_and_CVPR_2026_paper.html

  • arXiv:https://arxiv.org/pdf/2605.23381

Citation

如果这项工作对你的研究或应用有帮助,欢迎引用:

@inproceedings{tan2026vde, title={VDE: Training-Free Accelerating Rectified Flow Model via Velocity Decomposition and Estimation}, author={Tan, Junwen and Liang, Jinglin and Chen, Hongyuan and Huang, Shuangping}, booktitle={Proceedings of the IEEE/CVF Conference on Computer Vision and Pattern Recognition}, pages={37918--37928}, year={2026} }

最后也欢迎大家交流 Rectified Flow、生成模型推理加速、图像/视频生成部署相关问题。感谢关注!


版权声明: 本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若内容造成侵权/违法违规/事实不符,请联系邮箱:809451989@qq.com进行投诉反馈,一经查实,立即删除!
网站建设 2026/6/12 3:03:52

水表、燃气表维护福音:实测80K固件差分包仅3K的OTA升级方案选型指南

水表燃气表智能升级实战:3K差分包的OTA技术选型与优化策略 清晨六点,某水务公司的运维工程师收到系统告警——分布在城市角落的2000台智能水表出现计量偏差。传统解决方案需要派出检修团队逐台更换设备,而借助差分OTA技术,工程师在…

作者头像 李华
网站建设 2026/6/12 3:03:52

计算机毕业设计之django校园兼职平台设计

随着经济的发展,互联网络时代也在飞速进步,每个行业都在努力发展现在先进技术,通过这些先进的技术来提高自己的水平和优势。本文将讲述设计开发一个校园兼职平台设计,这个校园兼职平台设计包括三个部分:管理员、企业与…

作者头像 李华
网站建设 2026/6/12 3:03:52

计算机毕业设计之django校园失物招领管理系统

本文首先实现了校园失物招领管理系统的发展随后依照传统的软件开发流程,最先为系统挑选适用的言语和软件开发平台,依据需求分析开展控制模块制做和数据库查询构造设计,随后依据系统整体功能模块的设计,制作系统的功能模块图、E-R图…

作者头像 李华
网站建设 2026/6/12 3:03:52

如何用洛雪音乐助手解决多平台音乐搜索的痛点

如何用洛雪音乐助手解决多平台音乐搜索的痛点 【免费下载链接】lx-music-desktop 一个基于 Electron 的音乐软件 项目地址: https://gitcode.com/GitHub_Trending/lx/lx-music-desktop 在音乐流媒体平台林立的时代,你是否经常为了寻找一首歌曲而不得不在多个…

作者头像 李华
网站建设 2026/6/12 3:02:51

光学字符识别:解决多语言文档数字化难题的智能解决方案

光学字符识别:解决多语言文档数字化难题的智能解决方案 【免费下载链接】tesseract Tesseract Open Source OCR Engine (main repository) 项目地址: https://gitcode.com/gh_mirrors/tes/tesseract 在数字化转型的浪潮中,文档处理成为众多企业和…

作者头像 李华
网站建设 2026/6/12 3:00:55

Pinokio:一站式开源项目启动器终极指南

Pinokio:一站式开源项目启动器终极指南 【免费下载链接】pinokio AI Browser 项目地址: https://gitcode.com/gh_mirrors/pi/pinokio Pinokio是一款革命性的开源项目启动器,将命令行的高效与图形界面的便捷完美结合,让开发者能够轻松管…

作者头像 李华