news 2026/6/10 16:59:18

引入线性注意力!一起探索图像视频扩散模型的高效设计与加速

作者头像

张小明

前端开发工程师

1.2k 24
文章封面图
引入线性注意力!一起探索图像视频扩散模型的高效设计与加速

青稞社区:https://qingkeai.online/
原文:https://mp.weixin.qq.com/s/eRhlfm7yLkRvDz3MoFE7LQ

随着 GenAI 视觉模型(如 Sora 2、Google Nano Banana)的爆炸式发展,其惊人的效果背后是庞大的计算资源消耗。图像和视频模型的推理 FLOPs 甚至远超 LLM,导致部署成本高昂,难以普及。

SANA系列模型作为高效生成式基础模型的前沿探索,通过引入线性注意力(Linear Attention)等创新架构,实现了在不牺牲质量的前提下,极大地提升了处理超长序列和高分辨率生成任务的能力。线性注意力是处理超长序列的关键,它将复杂度从 (O(N2)O(N^2)O(N2)) 降低到 (O(N)O(N)O(N))。

这不仅是一个数学上的优化,更是解锁大语言模型(LLMs)和长视频生成无限上下文长度的关键

SANA

论文:Sana: Efficient High-Resolution Image Synthesis with Linear Diffusion Transformer 链接:https://arxiv.org/abs/2410.10629 代码:https://github.com/NVlabs/Sana

SANA 是文本到图像(T2I)的框架。它的厉害之处在于能高效生成高达 4096 × 4096 的超高分辨率图像。Sana-0.6B 模型尺寸比一些大型扩散模型小 20 倍,但吞吐量却快了 100 多倍。该论文被收录为 ICLR’25 Oral。

它非常轻量,可以在 16GB 笔记本电脑 GPU 上部署,生成一张 1024 × 1024 的图像不到 1 秒。实现高分辨率靠的是深度压缩自编码器,将图像压缩倍数提高到 32 倍,以及用线性 DiT替换了所有传统注意力机制,。

SANA 1.5

[外链图片转存中…(img-kQpJKWqF-1765534255028)]

SANA-1.5 是一种面向高效扩展的线性扩散 Transformer(Linear Diffusion Transformer),用于文本到图像生成任务。论文已被ICML’25 收录。

论文:SANA 1.5: Efficient Scaling of Training-Time and Inference-Time Compute in Linear Diffusion Transformer 链接:https://arxiv.org/abs/2501.18427

在 SANA 的基础上,SANA-1.5 引入了三项关键创新:

第一,高效训练扩展(Efficient Training Scaling):采用深度增长范式(depth-growth paradigm),将模型参数规模从 16 亿(1.6B)平滑扩展至 48 亿(4.8B),同时显著降低计算资源消耗;该方法结合了一种内存高效的 8 位优化器(8-bit optimizer),大幅减少显存占用,提升大规模训练的可行性。

第二,模型深度剪枝(Model Depth Pruning):提出一种基于模块重要性分析(block importance analysis)的技术,可对模型进行高效压缩,支持任意目标尺寸的裁剪,且在压缩后仅需极少量微调即可恢复生成质量,几乎不损失图像保真度。

第三,推理时扩展(Inference-time Scaling):通过重复采样策略,在推理阶段以增加计算量为代价换取等效的模型容量提升,使较小规模的模型在实际生成效果上逼近甚至媲美更大模型的表现。

[外链图片转存中…(img-MaNaJZMe-1765534255028)]

凭借上述策略,SANA-1.5 在 GenEval 基准上取得了 0.81 的文本-图像对齐分数;进一步结合推理时扩展技术,该分数可提升至 0.96,刷新了 GenEval 的当前最佳纪录(SoTA)。这些创新使得模型能够在不同计算预算下灵活缩放,同时保持高质量输出,从而让高性能图像生成技术更加普及和可及。

SANA-Sprint

SANA-Sprint 是一种高效的扩散模型,专为超高速文本到图像(Text-to-Image, T2I)生成而设计。该模型基于一个已预训练的基础模型,并通过混合蒸馏技术,将原本需要约 20 步的推理过程大幅压缩至仅需 1 到 4 步,从而在保持高质量图像输出的同时实现毫秒级生成速度。成果已被收录为 ICCV’25 Highlight。

论文:SANA-Sprint: One-Step Diffusion with Continuous-Time Consistency Distillation 链接:https://arxiv.org/abs/2503.09641

SANA-Sprint 的核心贡献包括以下三点:

第一,提出了一种无需额外训练的方法,可直接将预训练的流匹配(flow-matching)模型转化为适用于连续时间一致性蒸馏(sCM)的形式。这一方法避免了从头开始训练一致性模型所带来的高昂计算成本,显著提升了训练效率。

在此基础上,团队进一步引入了混合蒸馏策略:其中 sCM 负责确保学生模型与教师模型在整体分布上保持一致,而潜在对抗蒸馏(Latent Adversarial Distillation, LADD)则专门用于提升单步生成结果的细节保真度和视觉质量。

第二,SANA-Sprint 是一个统一的步数自适应模型。这意味着同一个模型可以在 1 步、2 步、4 步等不同推理配置下均实现高质量图像生成,而无需为每种步数单独训练专用模型。这种设计不仅简化了部署流程,也提高了模型在不同硬件和应用场景下的灵活性与实用性。

[外链图片转存中…(img-NgYYjgFa-1765534255029)]

第三,SANA-Sprint 成功集成了 ControlNet,支持实时交互式图像生成。用户可通过边缘图、姿态图、深度图等条件对生成过程进行精细控制,并在极短时间内获得反馈。在 NVIDIA H100 上,ControlNet 模式的生成延迟仅为 0.25 秒,充分满足了设计、创作等需要即时响应的交互场景需求。

[外链图片转存中…(img-tdaccIjo-1765534255029)]

在性能方面,SANA-Sprint 在仅使用 1 步推理的情况下,取得了 7.59 的 FID 分数和 0.74 的 GenEval 分数,优于当前最快的 FLUX-schnell 模型(FID 7.94,GenEval 0.71)。

更重要的是,SANA-Sprint 在 H100 上生成一张 1024×1024 图像仅需 0.1 秒,比 FLUX-schnell 快约 10 倍(后者需 1.1 秒)。在消费级显卡 RTX 4090 上,SANA-Sprint 的文生图延迟也仅为 0.31 秒,展现出其在 AI PC(AIPC)等终端设备上的强大应用潜力。

SANA-Video

SANA-Video,一种轻量级扩散模型,能够高效生成分辨率达 720×1280、时长可达一分钟的高质量视频。SANA-Video 在保持强文本-视频对齐能力的同时,以极快的速度合成高分辨率、长时长视频,并可在 RTX 5090 GPU 上部署。

论文:SANA-Video: Efficient Video Generation with Block Linear Diffusion Transformer 链接:https://arxiv.org/pdf/2509.24695

SANA-Video 的高效性与长视频生成能力源于两项核心设计:

第一,线性 DiT(Linear DiT):我们采用线性注意力作为模型的核心运算单元。相较于传统自注意力机制,线性注意力在处理视频生成中海量 token 时具有显著更高的计算效率。

第二,面向块线性注意力的恒定内存 KV 缓存(Constant-Memory KV Cache):设计了一种基于块的自回归生成方法,利用线性注意力的累积特性构建一个恒定内存占用的状态缓存。该 KV 缓存使 Linear DiT 能够在固定内存开销下获取全局上下文信息,无需传统 KV 缓存,从而高效支持分钟级长视频生成。

此外,还探索了有效的数据过滤策略与模型训练方案,将整体训练成本压缩至仅需 64 块 H100 GPU 训练 12 天,约为 MovieGen 训练成本的 1%。得益于这一极低的训练开销,SANA-Video 在性能上已可与当前先进的小型扩散视频模型(如 Wan 2.1-1.3B 和 SkyReel-V2-1.3B)相媲美,同时实测推理延迟降低 16 倍。

在推理端,SANA-Video 支持在 RTX 5090 GPU 上使用 NVFP4 精度运行,将生成一段 5 秒 720p 视频的时间从 71 秒缩短至 29 秒,实现 2.4 倍的加速。


12月16日(周二)晚8点,青稞Talk 第98期,香港大学MMLab博士生陈俊松,将直播分享《SANA-Series:探索图像视频扩散模型的高效设计与加速》。

本次分享将聚系统介绍 SANA(ICLR 2025 Oral Presentation)、SANA 1.5、SANA-Sprint和长视频生成(SANA-Video, LongSANA)一系列创新工作,为视觉生成模型的普及化提供可行方案。

分享嘉宾

陈俊松,香港大学MMLab博士生,导师为罗平老师。在英伟达研究院实习,由谢恩泽博士与韩松老师指导。研究方向为图像视频高效生成,共发表高水平学术论文十余篇,一作发表包括ICML,ICLR,ICCV,CVPR等业内顶级会议,开源项目GitHub获stars 10k+,谷歌学术引用2000+次,获得国家奖学金,KAUST AI新星等荣誉。

主题提纲

SANA-Series:探索图像视频扩散模型的高效设计与加速

1、视觉生成模型的计算瓶颈,及其四大加速方向
2、高效图像生成:SANA & SANA-Sprint
- 高倍压缩、Linear Attention DiT与步数蒸馏
3、SANA-Video:AR 与 Diffusion 结合生成长视频
4、AMA (Ask Me Anything)环节

直播时间

12月16日(周二)20:00 - 21:00

如何观看

Talk 将在青稞社区【视频号:青稞AI、Bilibili:青稞AI】上进行进行直播,欢迎学习交流~~~

版权声明: 本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若内容造成侵权/违法违规/事实不符,请联系邮箱:809451989@qq.com进行投诉反馈,一经查实,立即删除!
网站建设 2026/6/10 9:22:30

React Native文件操作终极指南:RNFetchBlob完整解决方案

React Native文件操作终极指南:RNFetchBlob完整解决方案 【免费下载链接】rn-fetch-blob 项目地址: https://gitcode.com/gh_mirrors/rn/rn-fetch-blob 在移动应用开发中,文件操作是不可或缺的核心功能。无论是处理用户上传的图片、下载离线内容…

作者头像 李华
网站建设 2026/6/10 7:33:38

17、嵌入式网络协议与Linux内核构建全解析

嵌入式网络协议与Linux内核构建全解析 1. 其他应用层协议 HTTP、SMTP和POP3这三种协议在特定的嵌入式问题中十分有用。不过,还有许多其他应用层协议在不同场景下也能发挥重要作用。例如,简单网络管理协议(SNMP)已成为管理网络资源的事实上的标准机制。几乎每个连接到网络…

作者头像 李华
网站建设 2026/6/10 14:02:36

GSE宏编译器在魔兽世界经典版中的终极解决方案指南

GSE宏编译器在魔兽世界经典版中的终极解决方案指南 【免费下载链接】GSE-Advanced-Macro-Compiler GSE is an alternative advanced macro editor and engine for World of Warcraft. It uses Travis for UnitTests, Coveralls to report on test coverage and the Curse packa…

作者头像 李华
网站建设 2026/6/10 10:52:45

2015-2025年城市公共文化数字化采购数据

数据简介 在加快推进公共文化服务数字化、智能化的国家战略背景下,政府采购作为推动文化设施现代化转型的重要政策工具,正逐步从传统的设施建设与运营维护向数字化、网络化、智能化服务采购拓展。公共文化设施的数字化采购不仅提升了文化服务的覆盖范围…

作者头像 李华
网站建设 2026/6/9 14:42:04

64、并发版本系统(CVS)命令详解

并发版本系统(CVS)命令详解 1. 版本差异查看(diff) CVS 支持使用 GNU diff 程序,能全面支持行和组格式选项。以下是一个简单示例,展示了如何使用 cvs diff 查看 Makefile 当前版本与仓库版本之间的差异: $ cvs diff Makefile Index: Makefile =================…

作者头像 李华
网站建设 2026/6/9 22:08:20

高效管理Elasticsearch集群:es-client可视化操作实战指南

高效管理Elasticsearch集群:es-client可视化操作实战指南 【免费下载链接】es-client elasticsearch客户端,issue请前往码云:https://gitee.com/qiaoshengda/es-client 项目地址: https://gitcode.com/gh_mirrors/es/es-client 痛点解…

作者头像 李华