引入线性注意力！一起探索图像视频扩散模型的高效设计与加速-程序员充电站

青稞社区：https://qingkeai.online/
原文：https://mp.weixin.qq.com/s/eRhlfm7yLkRvDz3MoFE7LQ

随着 GenAI 视觉模型（如 Sora 2、Google Nano Banana）的爆炸式发展，其惊人的效果背后是庞大的计算资源消耗。图像和视频模型的推理 FLOPs 甚至远超 LLM，导致部署成本高昂，难以普及。

SANA系列模型作为高效生成式基础模型的前沿探索，通过引入线性注意力（Linear Attention）等创新架构，实现了在不牺牲质量的前提下，极大地提升了处理超长序列和高分辨率生成任务的能力。线性注意力是处理超长序列的关键，它将复杂度从（O(N2)O(N^2)O(N2)）降低到（O(N)O(N)O(N)）。

这不仅是一个数学上的优化，更是解锁大语言模型（LLMs）和长视频生成无限上下文长度的关键

SANA

论文：Sana: Efficient High-Resolution Image Synthesis with Linear Diffusion Transformer 链接：https://arxiv.org/abs/2410.10629 代码：https://github.com/NVlabs/Sana

SANA 是文本到图像（T2I）的框架。它的厉害之处在于能高效生成高达 4096 × 4096 的超高分辨率图像。Sana-0.6B 模型尺寸比一些大型扩散模型小 20 倍，但吞吐量却快了 100 多倍。该论文被收录为 ICLR’25 Oral。

它非常轻量，可以在 16GB 笔记本电脑 GPU 上部署，生成一张 1024 × 1024 的图像不到 1 秒。实现高分辨率靠的是深度压缩自编码器，将图像压缩倍数提高到 32 倍，以及用线性 DiT替换了所有传统注意力机制,。

SANA 1.5

[外链图片转存中…(img-kQpJKWqF-1765534255028)]

SANA-1.5 是一种面向高效扩展的线性扩散 Transformer（Linear Diffusion Transformer），用于文本到图像生成任务。论文已被ICML’25 收录。

论文：SANA 1.5: Efficient Scaling of Training-Time and Inference-Time Compute in Linear Diffusion Transformer 链接：https://arxiv.org/abs/2501.18427

在 SANA 的基础上，SANA-1.5 引入了三项关键创新：

第一，高效训练扩展（Efficient Training Scaling）：采用深度增长范式（depth-growth paradigm），将模型参数规模从 16 亿（1.6B）平滑扩展至 48 亿（4.8B），同时显著降低计算资源消耗；该方法结合了一种内存高效的 8 位优化器（8-bit optimizer），大幅减少显存占用，提升大规模训练的可行性。

第二，模型深度剪枝（Model Depth Pruning）：提出一种基于模块重要性分析（block importance analysis）的技术，可对模型进行高效压缩，支持任意目标尺寸的裁剪，且在压缩后仅需极少量微调即可恢复生成质量，几乎不损失图像保真度。

第三，推理时扩展（Inference-time Scaling）：通过重复采样策略，在推理阶段以增加计算量为代价换取等效的模型容量提升，使较小规模的模型在实际生成效果上逼近甚至媲美更大模型的表现。

[外链图片转存中…(img-MaNaJZMe-1765534255028)]

凭借上述策略，SANA-1.5 在 GenEval 基准上取得了 0.81 的文本-图像对齐分数；进一步结合推理时扩展技术，该分数可提升至 0.96，刷新了 GenEval 的当前最佳纪录（SoTA）。这些创新使得模型能够在不同计算预算下灵活缩放，同时保持高质量输出，从而让高性能图像生成技术更加普及和可及。

SANA-Sprint

SANA-Sprint 是一种高效的扩散模型，专为超高速文本到图像（Text-to-Image, T2I）生成而设计。该模型基于一个已预训练的基础模型，并通过混合蒸馏技术，将原本需要约 20 步的推理过程大幅压缩至仅需 1 到 4 步，从而在保持高质量图像输出的同时实现毫秒级生成速度。成果已被收录为 ICCV’25 Highlight。

论文：SANA-Sprint: One-Step Diffusion with Continuous-Time Consistency Distillation 链接：https://arxiv.org/abs/2503.09641

SANA-Sprint 的核心贡献包括以下三点：

第一，提出了一种无需额外训练的方法，可直接将预训练的流匹配（flow-matching）模型转化为适用于连续时间一致性蒸馏（sCM）的形式。这一方法避免了从头开始训练一致性模型所带来的高昂计算成本，显著提升了训练效率。

在此基础上，团队进一步引入了混合蒸馏策略：其中 sCM 负责确保学生模型与教师模型在整体分布上保持一致，而潜在对抗蒸馏（Latent Adversarial Distillation, LADD）则专门用于提升单步生成结果的细节保真度和视觉质量。

第二，SANA-Sprint 是一个统一的步数自适应模型。这意味着同一个模型可以在 1 步、2 步、4 步等不同推理配置下均实现高质量图像生成，而无需为每种步数单独训练专用模型。这种设计不仅简化了部署流程，也提高了模型在不同硬件和应用场景下的灵活性与实用性。

[外链图片转存中…(img-NgYYjgFa-1765534255029)]

第三，SANA-Sprint 成功集成了 ControlNet，支持实时交互式图像生成。用户可通过边缘图、姿态图、深度图等条件对生成过程进行精细控制，并在极短时间内获得反馈。在 NVIDIA H100 上，ControlNet 模式的生成延迟仅为 0.25 秒，充分满足了设计、创作等需要即时响应的交互场景需求。

[外链图片转存中…(img-tdaccIjo-1765534255029)]

在性能方面，SANA-Sprint 在仅使用 1 步推理的情况下，取得了 7.59 的 FID 分数和 0.74 的 GenEval 分数，优于当前最快的 FLUX-schnell 模型（FID 7.94，GenEval 0.71）。

更重要的是，SANA-Sprint 在 H100 上生成一张 1024×1024 图像仅需 0.1 秒，比 FLUX-schnell 快约 10 倍（后者需 1.1 秒）。在消费级显卡 RTX 4090 上，SANA-Sprint 的文生图延迟也仅为 0.31 秒，展现出其在 AI PC（AIPC）等终端设备上的强大应用潜力。

SANA-Video

SANA-Video，一种轻量级扩散模型，能够高效生成分辨率达 720×1280、时长可达一分钟的高质量视频。SANA-Video 在保持强文本-视频对齐能力的同时，以极快的速度合成高分辨率、长时长视频，并可在 RTX 5090 GPU 上部署。

论文：SANA-Video: Efficient Video Generation with Block Linear Diffusion Transformer 链接：https://arxiv.org/pdf/2509.24695

SANA-Video 的高效性与长视频生成能力源于两项核心设计：

第一，线性 DiT（Linear DiT）：我们采用线性注意力作为模型的核心运算单元。相较于传统自注意力机制，线性注意力在处理视频生成中海量 token 时具有显著更高的计算效率。

第二，面向块线性注意力的恒定内存 KV 缓存（Constant-Memory KV Cache）：设计了一种基于块的自回归生成方法，利用线性注意力的累积特性构建一个恒定内存占用的状态缓存。该 KV 缓存使 Linear DiT 能够在固定内存开销下获取全局上下文信息，无需传统 KV 缓存，从而高效支持分钟级长视频生成。

此外，还探索了有效的数据过滤策略与模型训练方案，将整体训练成本压缩至仅需 64 块 H100 GPU 训练 12 天，约为 MovieGen 训练成本的 1%。得益于这一极低的训练开销，SANA-Video 在性能上已可与当前先进的小型扩散视频模型（如 Wan 2.1-1.3B 和 SkyReel-V2-1.3B）相媲美，同时实测推理延迟降低 16 倍。

在推理端，SANA-Video 支持在 RTX 5090 GPU 上使用 NVFP4 精度运行，将生成一段 5 秒 720p 视频的时间从 71 秒缩短至 29 秒，实现 2.4 倍的加速。

12月16日（周二）晚8点，青稞Talk 第98期，香港大学MMLab博士生陈俊松，将直播分享《SANA-Series：探索图像视频扩散模型的高效设计与加速》。

本次分享将聚系统介绍 SANA（ICLR 2025 Oral Presentation）、SANA 1.5、SANA-Sprint和长视频生成（SANA-Video, LongSANA）一系列创新工作，为视觉生成模型的普及化提供可行方案。

分享嘉宾

陈俊松，香港大学MMLab博士生，导师为罗平老师。在英伟达研究院实习，由谢恩泽博士与韩松老师指导。研究方向为图像视频高效生成，共发表高水平学术论文十余篇，一作发表包括ICML，ICLR，ICCV，CVPR等业内顶级会议，开源项目GitHub获stars 10k+，谷歌学术引用2000+次，获得国家奖学金，KAUST AI新星等荣誉。