从 DDPM 到 Flow Matching：生成模型的范式革命-程序员充电站

本文将彻底解答你关于 Flow Matching 的所有困惑：FM 有没有加噪去噪过程？t 到底起什么作用？为什么采样需要多步？target 和 DDPM 有什么本质区别？积分到底是什么？为什么 FM 效果更好？所有结论均严格对应原始论文，附可直接运行的代码示例。

前言

如果你正在学习生成模型，一定听过这样的说法："Flow Matching 是下一代生成模型，比扩散模型更快更好"。但当你深入研究时，会发现无数让人困惑的问题：

为什么 FM 的训练代码和 DDPM 几乎一模一样，只是换了个 target？
都说 FM 没有加噪去噪，那它的中间状态是怎么来的？
既然是 ODE 积分，为什么不能一步生成，还要多步采样？
边缘概率路径和条件概率路径到底是什么关系？
积分没有解析解到底是什么意思？

本文将从 DDPM 的本质出发，一步步带你走进 Flow Matching 的世界，用最通俗的语言、最直观的类比、最严谨的数学，把所有核心概念讲透。读完这篇，你将彻底理解 Flow Matching 为什么能成为生成模型的新范式。

一、先破后立：DDPM 的本质与痛点

在讲 Flow Matching 之前，我们必须先搞清楚 DDPM 到底在做什么，以及它的根本缺陷在哪里。

1.1 DDPM 的核心：加噪 - 去噪范式

DDPM 的整个框架建立在一个固定的前向马尔可夫加噪链之上：

x0：干净的真实数据 /latent
t：离散的加噪步数（通常是 1000 步）
ϵ：我们自己随机采样的高斯噪声

训练过程：

随机采样一个步数 t
随机采样一个噪声ϵ
用上面的公式生成带噪图片xt
让模型从xt中预测出我们当初添加的噪声ϵ
用 MSE 损失优化模型

采样过程：从纯噪声xT开始，逐步减去模型预测的噪声，最终还原出干净数据x0。

1.2 DDPM 的三个根本痛点

这三个痛点是扩散模型与生俱来的，无论怎么优化噪声调度、怎么蒸馏，都无法从根本上解决：

（1）严重的时间偏好问题

DDPM 预测的噪声ϵ的方差随时间剧烈变化：

当t→0（接近干净数据）：，所以ϵ→0，target 几乎全是 0
当t→1（接近纯噪声）：，所以ϵ是标准高斯噪声

这导致模型会把 90% 以上的能力用在拟合t接近 1 的时刻，而对生成质量影响最大的t接近 0 的时刻，模型几乎没有学到东西。这就是为什么扩散模型需要精心设计复杂的噪声调度（β schedule），本质上就是在试图 "拉平" 不同时刻的学习难度，但永远不可能完全解决。

（2）target 和采样过程间接对应

DDPM 训练时预测的是噪声ϵ，但采样时如果想用更高效的 ODE 采样，必须把它转换成速度向量：

这个转换过程会引入额外的误差，特别是当σt很小时（t 接近 0），误差会被无限放大。

（3）采样效率低下

由于上述两个问题，扩散模型通常需要 100~1000 步采样才能得到高质量的结果，即使经过蒸馏，也很难做到 10 步以内的高质量生成。

二、Flow Matching 核心思想：抛弃加噪，直接学流

Flow Matching（FM）的出现，彻底抛弃了 DDPM"先加噪再去噪" 的繁琐范式，提出了一种更简单、更直接、更高效的生成建模方法。

2.1 基础概念：连续归一化流（CNFs）与向量场

连续归一化流（CNFs）是一种确定性生成模型，它的核心思想是：

用一个连续的向量场，把简单的噪声分布 "流" 成复杂的数据分布。

向量场是整个 CNFs 和 FM 的灵魂，你可以把它理解成一个 "导航系统"：

输入：当前时刻 t + 当前位置 x
输出：x 在 t 时刻应该移动的速度向量（方向 + 大小）
Shape：和输入 x 完全相同（比如输入是 [B,3,32,32]，输出也是 [B,3,32,32]）

数学上，向量场定义了一个常微分方程（ODE）：

只要我们学会了这个向量场vt(x)，就能从任意初始噪声x1（t=1）开始，通过解这个 ODE，得到最终的干净数据x0（t=0）。

2.2 Flow Matching 的目标：学习边缘向量场

FM 的最终目标是学习一个边缘向量场ut(x)，这个向量场能把标准高斯噪声分布，平滑地转换成真实数据分布。

但这里有一个核心难题：边缘向量场根本算不出来。

边缘向量场的定义是所有样本条件向量场的加权平均：

这个积分是高维、难解、无法直接计算的 —— 你不可能把所有训练样本都拿出来，对每个 x 都算一遍加权平均。

2.3 天才解决思路：Conditional Flow Matching（CFM）

FM 论文的定理 2是整个框架的灵魂，它证明了一个反直觉的结论：

如果你对每个样本x0，都让模型学会它的条件向量场ut(x∣x0)（也就是从噪声到x0的那条单独路径的流速），那么在期望意义下，模型自动就学会了边缘向量场ut(x)。

换句话说：

我们不需要直接算那个难解的积分
我们只需要每次随机抽一个样本x0，教模型学会 " 怎么从噪声流到这个x0"
当你教过足够多不同的x0之后，模型自然就学会了 " 怎么从噪声流到任意符合分布的x0"

2.4 OT 路径：最简单、最高效的条件路径

CFM 可以使用任意的条件概率路径，而最优传输（OT）路径是其中最简单、最高效的一种。

OT 路径定义的条件概率路径是：

其中：

αt=1−(1−σmin)t（数据的权重，随 t 增大而减小）
σt=t（噪声的权重，随 t 增大而增大）
σmin≈1e−4（一个很小的常数）

对这条路径关于 t 求导，就得到了我们的训练 target：

注意：这不是加噪！

DDPM 的加噪是 "在干净数据上逐步叠加噪声"，是一个破坏过程
FM 的xt是 "干净数据和纯噪声的线性插值"，是一个平滑过渡过程
你可以直接生成 t=0.5 的xt，不需要先生成 t=0.1、t=0.2… 的状态

2.5 FM 的完整训练流程

现在，我们可以写出 FM-OT 的完整训练流程，你会发现它和 DDPM 惊人地相似：

for x0 in dataloader: # 1. 随机采样一个时刻 t ~ U[0,1]（连续的，不是离散的步数！） t = torch.rand(B, device=x0.device) # 2. 随机采样一个纯噪声 x1 ~ N(0,I) x1 = torch.randn_like(x0) # 3. 用OT路径公式，一步生成t时刻的中间状态 x_t sigma_min = 1e-4 alpha_t = 1 - (1 - sigma_min) * t.view(-1, 1, 1, 1) sigma_t = t.view(-1, 1, 1, 1) x_t = alpha_t * x0 + sigma_t * x1 # 4. 计算OT路径的目标向量场（标准答案） u_target = (1 - sigma_min) * x0 - x1 # 5. 模型预测向量场 v_pred = model(x_t, t) # 同一个U-Net，输出shape和x_t完全一样 # 6. MSE损失 loss = F.mse_loss(v_pred, u_target) # 7. 反向传播 loss.backward() optimizer.step()

三、最容易混淆的概念：一次性讲透

这部分是容易踩坑的地方，我会用最直白的语言把它们讲清楚。

3.1 边缘概率路径 vs 条件概率路径

条件概率路径：每一条单独的小溪。对每个真实样本x0，我们单独定义一条从噪声x1流向x0的路径。
边缘概率路径：所有小溪汇成的大河。把所有样本的条件路径 "混合" 在一起，得到的就是整个数据分布的演化路径。

重要提醒：OT 路径的 "直线" 是条件路径的直线，不是边缘路径的直线。边缘路径是所有这些直线的混合，边缘向量场是高度非线性的。

3.2 解析解 vs 数值解

解析解：可以用一个明确的、有限的数学公式直接计算出来的精确解。比如。
数值解：当没有解析解时，用近似方法计算出来的近似解。比如没有解析解，只能用梯形法近似计算。

3.3 为什么积分没有解析解？为什么要多步采样？

FM 的生成过程需要计算的积分是：

这个积分没有解析解，因为vt(x)是一个由数百万参数组成的深度神经网络，没有任何初等函数可以表示这个积分的结果。

多步采样的本质：用多个离散的小步长来近似连续的积分过程。就像你跟着导航从家走到公司，不能一步跨过去，只能一步一步走。步数越多，近似越精确，生成质量越好；步数越少，速度越快，但误差越大。

3.4 DDPM 的采样器也有积分吗？

是的！DDPM 的确定性采样器（DDIM、概率流 ODE）本质上就是数值积分，和 FM 的采样完全一样。

Song 等人在 2020 年的论文中严格证明了：任何扩散 SDE 都对应一个唯一的确定性 ODE（概率流 ODE），这个 ODE 的解和原 SDE 的边缘分布完全相同。

所以：

DDIM 采样 = 用欧拉法解概率流 ODE
概率流 ODE 采样 = 和 FM 完全一样的数值积分
它们的区别仅仅在于向量场vt(x)的参数化方式不同

四、为什么 FM 比 DDPM 效果好？三个根本原因

FM 和 DDPM 的训练代码看起来几乎一模一样，只是把 target 从噪声换成了向量场，但效果却天差地别。这背后有三个根本原因：

4.1 target 全局均匀，无时间偏好

FM 的 target 是，无论 t 取什么值，这个 target 的分布都是完全相同的。这意味着：

模型在所有时刻的学习难度完全一致
模型的能力会均匀地分布在整个时间区间 [0,1] 上
不需要任何噪声调度，不需要调任何超参数，训练极其稳定

4.2 target 是物理上连续、平滑的

FM 的向量场是一个连续的物理量，对于任意固定的 x，vt(x)是 t 的连续函数；对于任意固定的 t，vt(x)是 x 的连续函数。这意味着：

模型需要学习的是一个平滑的函数，拟合难度大大降低
模型在一个时刻学到的知识，可以泛化到相邻的时刻
训练收敛速度会快得多

论文实验数据：FM-OT 在 ImageNet 128×128 上只需要 500k 次迭代就能达到 SOTA，而 DDPM 需要 4.36M 次迭代，是 FM 的 8.7 倍。

4.3 target 直接对应采样过程

FM 训练时预测的就是速度向量vt(x)，采样时直接用它进行 ODE 积分，不需要任何转换，没有任何中间步骤，没有任何转换误差。

这就是为什么 FM-OT 只需要 10~40 步采样就能达到扩散模型 100~1000 步的质量 —— 因为它的预测目标就是采样时直接使用的物理量，没有任何信息损失。

五、常见误区与终极问答

这里整理了大家最常问的问题，一次性给你明确的答案：

Q1：Flow Matching 有加噪去噪过程吗？

没有。FM 没有固定的前向加噪过程，也没有反向去噪过程。它的中间状态是干净数据和噪声的线性插值，是一个平滑过渡过程，不是破坏过程。

Q2：为什么采样不能一步到位？

因为积分∫10vt(xt)dt没有解析解，只能用数值方法近似。一步采样会把整个路径上的所有速度变化都忽略掉，误差会极其巨大。

Q3：OT 路径是直线，为什么还要多步采样？

OT 路径的 "直线" 是条件路径的直线，不是边缘路径的直线。边缘向量场是所有条件向量场的加权平均，是高度非线性的，不可能用一个固定的速度向量一步走完。

Q4：CFM 和 FM 有 gap 吗？

没有。论文的定理 2 是严格的数学等价，不是近似。训练 CFM 就是在训练 FM，没有任何 gap。

Q5：为什么 FM 的训练代码和 DDPM 几乎一模一样？

因为它们都属于 "基于条件高斯概率路径的生成模型"，都用了 "采样 t→采样噪声→生成 x_t→预测目标→MSE 损失" 的训练范式。但它们的 target 本质完全不同，这也是 FM 效果更好的根本原因。

六、总结与展望

Flow Matching 的出现，标志着生成模型从 "加噪 - 去噪范式" 向 "流范式" 的转变。它用更简单、更直接、更高效的方式，解决了扩散模型的根本痛点：

训练更稳定，不需要复杂的噪声调度
收敛更快，训练迭代次数减少一个数量级
采样更高效，只需要 10~40 步就能达到高质量
更容易蒸馏，可以轻松压缩到 2~4 步甚至一步生成

未来，Flow Matching 将在视频生成、3D 生成、语音生成等领域发挥越来越重要的作用，成为下一代生成模型的基础框架。

如果你觉得这篇文章对你有帮助，欢迎点赞、收藏、关注，我会持续分享更多 AI 生成模型的深度技术文章。

从 DDPM 到 Flow Matching：生成模型的范式革命

前言

一、先破后立：DDPM 的本质与痛点

1.1 DDPM 的核心：加噪 - 去噪范式

1.2 DDPM 的三个根本痛点

（1）严重的时间偏好问题

（2）target 和采样过程间接对应

（3）采样效率低下

二、Flow Matching 核心思想：抛弃加噪，直接学流

2.1 基础概念：连续归一化流（CNFs）与向量场

2.2 Flow Matching 的目标：学习边缘向量场

2.3 天才解决思路：Conditional Flow Matching（CFM）

2.4 OT 路径：最简单、最高效的条件路径

2.5 FM 的完整训练流程

三、最容易混淆的概念：一次性讲透

3.1 边缘概率路径 vs 条件概率路径

3.2 解析解 vs 数值解

3.3 为什么积分没有解析解？为什么要多步采样？

3.4 DDPM 的采样器也有积分吗？

四、为什么 FM 比 DDPM 效果好？三个根本原因

4.1 target 全局均匀，无时间偏好

4.2 target 是物理上连续、平滑的

4.3 target 直接对应采样过程

五、常见误区与终极问答

Q1：Flow Matching 有加噪去噪过程吗？

Q2：为什么采样不能一步到位？

Q3：OT 路径是直线，为什么还要多步采样？

Q4：CFM 和 FM 有 gap 吗？

Q5：为什么 FM 的训练代码和 DDPM 几乎一模一样？

六、总结与展望

如何快速配置Cursor Free VIP：面向开发者的完整指南

[深入理解指针2]：万字解析、数组与指针、指针数组与数组指针

AI Agent技能扩展实战：OneSkill打通OpenSkills生态，实现AI编程助手能力即插即用

基于深度学习的YOLO11+yolov10+yolov8+yolov5安全报警系统项目计算机视觉技术应用安全区域警报系统

VoXtream2：实时流式语音合成与动态语速控制技术解析

动态场景三维重建：高斯溅射与聚类优化实践

前言

一、先破后立：DDPM 的本质与痛点

1.1 DDPM 的核心：加噪 - 去噪范式

1.2 DDPM 的三个根本痛点

（1）严重的时间偏好问题

（2）target 和采样过程间接对应

（3）采样效率低下

二、Flow Matching 核心思想：抛弃加噪，直接学流

2.1 基础概念：连续归一化流（CNFs）与向量场

2.2 Flow Matching 的目标：学习边缘向量场

2.3 天才解决思路：Conditional Flow Matching（CFM）

2.4 OT 路径：最简单、最高效的条件路径

2.5 FM 的完整训练流程

三、最容易混淆的概念：一次性讲透

3.1 边缘概率路径 vs 条件概率路径

3.2 解析解 vs 数值解

3.3 为什么积分没有解析解？为什么要多步采样？

3.4 DDPM 的采样器也有积分吗？

四、为什么 FM 比 DDPM 效果好？三个根本原因

4.1 target 全局均匀，无时间偏好

4.2 target 是物理上连续、平滑的

4.3 target 直接对应采样过程

五、常见误区与终极问答

Q1：Flow Matching 有加噪去噪过程吗？

Q2：为什么采样不能一步到位？

Q3：OT 路径是直线，为什么还要多步采样？

Q4：CFM 和 FM 有 gap 吗？

Q5：为什么 FM 的训练代码和 DDPM 几乎一模一样？

六、总结与展望

如何快速配置Cursor Free VIP：面向开发者的完整指南

[深入理解指针2]：万字解析、数组与指针、指针数组与数组指针

AI Agent技能扩展实战：OneSkill打通OpenSkills生态，实现AI编程助手能力即插即用

基于深度学习的YOLO11+yolov10+yolov8+yolov5安全报警系统项目 计算机视觉技术应用 安全区域警报系统

VoXtream2：实时流式语音合成与动态语速控制技术解析

动态场景三维重建：高斯溅射与聚类优化实践

基于深度学习的YOLO11+yolov10+yolov8+yolov5安全报警系统项目计算机视觉技术应用安全区域警报系统