百度新作Video4Edit: 将图像编辑视为退化的时间过程-程序员充电站

点击下方卡片，关注“CVer”公众号

AI/CV重磅干货，第一时间送达

点击进入—>【顶会/顶刊】投稿交流群

添加微信号：CVer2233，小助手拉你进群！

扫描下方二维码，加入CVer学术星球！可以获得最新顶会/顶刊上的论文idea和CV从入门到精通资料及应用！发论文/搞科研/涨薪，强烈推荐！

Viewing Image Editing as a Degenerate Temporal Process

作者团队 | Baidu Inc.

论文：https://arxiv.org/abs/2511.18131

研究背景

近日，百度研究团队提出了一种全新的数据高效图像编辑框架 Video4Edit。该工作创新性地将图像编辑重新定义为「退化的时间过程」，通过利用视频模型预训练的时序先验，仅用约1%的监督数据即可达到主流编辑模型的性能。

核心贡献：

1. 时间过程视角：创新性地将图像编辑视为退化的时间演化过程——如果视频生成是完整的时间过程，那么图像编辑就是从源图像到目标图像的短暂演化。

2. 教师-学生蒸馏框架：设计了结合 DiT 块级蒸馏与尾帧监督的训练方案，将教师网络的时序演化轨迹有效迁移到学生网络。

3. 极致数据效率：仅使用约1%的主流监督数据（<10k样本），即可在 GEdit-Bench-EN 和 ImgEdit-Bench 上达到或超越强开源基线。

实验表明，Video4Edit 在多个编辑基准上达到领先水平，证明了视频预训练先验对于图像编辑任务的巨大价值。

图1. Video4Edit 将图像编辑视为退化的时间过程。我们将编辑分为两类：时间演化（状态随时间变化但空间布局基本不变）和空间演化（结构重配置）。视频预训练模型可零样本执行时间演化编辑，而空间演化编辑仍具挑战性。轻量微调后可处理两类编辑。

1. 简介

指令驱动的图像编辑随着扩散/流模型的发展取得了快速进展，但最先进的流程仍然数据饥渴：训练通常依赖于通过合成或人工标注流程策划的大规模 {指令, 源图, 编辑图} 三元组数据。

我们通过时间建模的视角重新审视这一挑战：如果视频生成可以被视为完整的时间过程，那么图像编辑可以被视为从源图像到目标图像的短暂、退化的演化过程。

这种视角使我们能够从视频预训练中迁移单帧演化先验，实现高度数据高效的微调方案。实验表明，我们的方法仅使用主流编辑模型所需监督数据的约百分之一，即可匹配领先开源基线的性能。

2. 相关工作

2.1 指令驱动的扩散/流编辑

早期的指令驱动编辑系统通常依赖松散耦合的「语言到扩散」流程：如 InstructPix2Pix 和 MagicBrush 首先通过大语言模型或人工标注合成配对数据，然后调用扩散模型进行局部重新合成。

2.2 以数据为中心的编辑语料库

随着指令复杂度和多轮交互的增加，数据集构建已从纯人工标注演进为混合合成-真实流程。UltraEdit 包含约400万样本，SEED-Data-Edit 达到约370万样本，而 LightBagel 使用了约4500万语料。这激发了对低数据、高泛化替代方案的研究。

3. 方法

Video4Edit 采用教师-学生设计，利用强大的视频生成器作为时序教师，提供从源图像到编辑图像的演化过程来监督学生进行数据高效学习。

图2. Video4Edit 整体流程。教师（Wan2.1 FLF2V-14B）接收源图像作为首帧、编辑图像作为末帧，由离线演化提示引导生成时序连贯的中间状态。学生（Wan2.1 I2V-14B-720P）仅接收源图像和指令，学习教师信号后可在推理时快速生成编辑结果。

3.1 FLF2V 教师模型

我们使用 Wan2.1 FLF2V-14B 作为教师模型。对于每个训练三元组 {指令, 源图像, 编辑图像}，我们将源图像作为首帧，编辑图像作为末帧，并使用离线构建的演化提示来描述与指令一致的逐步转换过程。教师模型生成中间帧，定义时序连贯的编辑轨迹。

3.2 I2V 学生模型

我们使用 Wan2.1 I2V-14B-720P 作为学生模型。学生仅接收源图像作为首帧和原始指令作为文本输入。训练时教师保持冻结，仅更新学生参数，学习跟随教师的时序信号同时生成最终编辑结果。

3.3 演化提示 (Evolution Prompt)

为弥合简洁的静态图像指令与时序模型期望的逐步引导之间的差距，我们离线运行指令到描述生成器 (ICG)。ICG 规范化实体引用，识别任务类型，将指令分解为因果有序的原子编辑，并生成强调转换过程的短演化描述。

例如，「删除物体」变为「物体逐渐消失，其他一切保持静止」；「将背景改为森林」变为「背景缓慢转变为茂密森林，其他元素保持不变」。

3.4 训练目标

我们优化包含两个损失的紧凑目标：

• DiT 块级蒸馏：在 DiT 骨干网络上的逐块隐藏状态蒸馏（选定块的 L2 损失）

• 尾帧潜在监督：通过流域反演和 3D-VAE 编码计算尾帧监督，驱动编辑区域收敛和非编辑区域与源图像的一致性

4. 实验结果

4.1 GEdit-Bench-EN 结果

在真实用户编辑任务上，Video4Edit 通过强指令对齐（SC 7.37）与优秀感知质量（PQ 7.44）的结合，达到 Overall 6.71 的高分：

模型	SC↑	PQ↑	Overall↑
GPT-4o	7.85	7.62	7.53
Step1X-Edit	7.09	6.76	6.70
BAGEL	7.36	6.83	6.52
LightBagel	6.34	7.31	6.06
Video4Edit (Ours)	7.37	7.44	6.71

4.2 ImgEdit-Bench 结果

在九类任务评估套件上，Video4Edit 在大多数任务族中保持领先或接近最优，特别是在 Replace、Remove 和 Hybrid 任务上表现突出，Overall 达到 4.02：

模型	Add↑	Replace↑	Remove↑	Hybrid↑	Style↑	Overall↑
GPT-4o	4.61	4.35	3.66	3.96	4.93	4.20
Step1X-Edit	3.88	3.40	2.83	2.52	6.63	3.06
LightBagel	4.21	4.55	3.80	3.93	4.66	3.77
Video4Edit	4.35	4.60	3.85	3.95	4.85	4.02

4.3 可视化比较

图3. 与开源和商业系统的定性对比。开源基线包括 OmniGen2、BAGEL、ICEdit、LightBagel 和 UniPic；商业系统包括 GPT-4o 和 Gemini-2.0-flash。我们的方法更好地保留非编辑区域，在复杂指令下提供更忠实的局部编辑。

Video4Edit 相比其他方法的优势：

• 更好地保留非编辑区域的一致性

• 在复杂指令下提供更忠实的局部编辑

• 保持强大的感知质量

图4. 多任务支持。我们的方法可处理多种编辑任务，包括主体添加、删除、替换、背景更换、颜色修改和风格迁移，展示了时序演化框架的多功能性。

4.4 消融研究

变体	GEdit	ImgEdit
Video4Edit (完整)	6.71	4.02
w/o 蒸馏	6.05	3.62
w/o 尾帧监督	6.28	3.78
教师 w/o ICG	6.45	3.92

关键发现：

1. DiT 块级蒸馏：移除蒸馏导致最大性能下降（GEdit 6.71→6.05），表明迁移时序先验对于稳定学生的短程展开和保持编辑局部性至关重要。

2. 尾帧监督：舍弃尾帧监督也会降低性能（GEdit 6.71→6.28）。没有通过流域反演和 3D-VAE 编码锚定最终状态，学生会出现后期漂移和更弱的身份/背景一致性。

3. 演化描述 (ICG)：使用原始指令而非演化描述喂给教师会带来较小但一致的性能下降（GEdit 6.71→6.45），ICG 提供的时序连续性线索使教师能生成更平滑的中间状态。

5. 结论

Video4Edit 将指令驱动的图像编辑重新思考为退化的时间过程，利用视频预训练的教师-学生流程将时序先验迁移到轻量级学生编辑器。DiT 块级蒸馏与尾帧监督的结合实现了忠实的编辑，同时仅使用主流系统约1%的监督数据，在野外和任务结构化基准上均取得强劲结果。

核心优势：仅用约1%的监督数据，匹配或超越使用数百万样本训练的主流编辑模型。

局限性：

• 模型参数量和流匹配推理需要多步限制了部署和推理速度

• 未来工作将聚焦于模型压缩和更快的推理算法

6. 论文与资源

论文 | Xiaofan Li, Yanpeng Sun, Chenming Wu, et al. "Video4Edit: Viewing Image Editing as a Degenerate Temporal Process". Arxiv 2025.

本文系学术转载，如有侵权，请联系CVer小助手删文

何恺明在MIT授课的课件PPT下载

在CVer公众号后台回复：何恺明，即可下载本课程的所有566页课件PPT！赶紧学起来！

ICCV 2025 论文和代码下载
在CVer公众号后台回复：ICCV2025，即可下载ICCV 2025论文和代码开源的论文合

CVPR 2025 论文和代码下载

在CVer公众号后台回复：CVPR2025，即可下载CVPR 2025论文和代码开源的论文合集

CV垂直方向和论文投稿交流群成立

扫描下方二维码，或者添加微信号：CVer2233，即可添加CVer小助手微信，便可申请加入CVer-垂直方向和论文投稿微信交流群。另外其他垂直方向已涵盖：目标检测、图像分割、目标跟踪、人脸检测&识别、OCR、姿态估计、超分辨率、SLAM、医疗影像、Re-ID、GAN、NAS、深度估计、自动驾驶、强化学习、车道线检测、模型剪枝&压缩、去噪、去雾、去雨、风格迁移、遥感图像、行为识别、视频理解、图像融合、图像检索、论文投稿&交流、PyTorch、TensorFlow和Transformer、NeRF、3DGS、Mamba等。 一定要备注：研究方向+地点+学校/公司+昵称（如Mamba、多模态学习或者论文投稿+上海+上交+卡卡），根据格式备注，可更快被通过且邀请进群

▲扫码或加微信号: CVer2233，进交流群 CVer计算机视觉（知识星球）人数破万！如果你想要了解最新最快最好的CV/DL/AI论文、实战项目、行业前沿、从入门到精通学习教程等资料，一定要扫描下方二维码，加入CVer知识星球！最强助力你的科研和工作！ ▲扫码加入星球学习

▲点击上方卡片，关注CVer公众号 整理不易，请点赞和在看

百度新作Video4Edit: 将图像编辑视为退化的时间过程