news 2026/4/17 23:50:46

MIT:LLM自适应量化策略

作者头像

张小明

前端开发工程师

1.2k 24
文章封面图
MIT:LLM自适应量化策略

📖标题:Four Over Six: More Accurate NVFP4 Quantization with Adaptive Block Scaling
🌐来源:arXiv, 2512.02010

🌟摘要

随着大型语言模型的增长,NVFP4 等低精度数值格式因其提供的速度和内存优势而变得越来越流行。然而,为了用NVFP4加速计算,前向传递中的所有矩阵乘法操作数-权重和激活,后向传递中的权重、激活和梯度必须量化为NVFP4,通常会导致训练过程中的发散和推理过程中的性能下降。为了解决这个问题,在这项工作中,我们介绍了Four Over Six ,这是对 NVFP4 量化算法的修改,该算法评估每个块的两个潜在比例因子。与整数格式不同,FP4 等浮点格式在每个块的接近最大值上具有最大的量化误差,我们发现这主要负责下游性能下降。我们发现,对于某些块,缩放到较小的 FP4 值会使可表示值的分布更加均匀,提高了接近最大值的表示。重要的是,4/6 可以在 NVIDIA Blackwell GPU 上实现,这使得在使用 NVFP4 训练 LLM 时可以使用是可行的。在 Transformer 和混合模型架构的预训练实验中,我们发现 4/6 在某些情况下可以防止分歧,与使用当前最先进的 NVFP4 训练配方训练的模型相比,将训练损失显着更接近 BF16。我们还发现 4/6 可以很容易地合并到许多不同的训练后量化方法中,并且通常可以提高下游精度。我们希望这激发了未来使用 NVFP4 训练模型和部署模型的工作。项目在https://github.com/mit-han-lab/fouroversix

🛎️文章简介

🔸研究问题:如何通过自适应块缩放来提高NVFP4量化的精度?
🔸主要贡献:论文提出了一种新的量化方法Four Over Six,通过自适应缩放实现了NVFP4量化的准确性提升,并减少了计算开销。

📝重点思路

🔸引入了Four Over Six方法,该方法在处理量化时允许块使用不同的缩放值(4或6),以更准确地表示几乎最大的值。
🔸在预训练和后训练量化过程中,采用了基于均方误差(MSE)的缩放选择规则,比较不同缩放条件下的量化效果,以选择最优缩放策略。
🔸利用NVIDIA Blackwell GPU的PTX指令高效实现Four Over Six,确保在保持高性能的同时,量化过程的开销在合理范围内。

🔎分析总结

🔸Four Over Six显著减少了大型值的量化误差,提高了多种模型架构的预训练性能,解决了目前NVFP4训练过程中出现的发散问题。
🔸在后训练量化中,Four Over Six与现有方法(如GPTQ、AWQ、SmoothQuant)结合使用,可广泛提升不同任务的模型性能,尤其在Word Perplexity指标上显示出较大改善。
🔸引入Four Over Six的模型在各类任务上表现出更接近于高精度模型的效果,尤其在处理具有极大值的块时,展现出更佳的量化精度。

💡个人观点

论文的创新点在于自适应量化策略,使得NVFP4量化在保留快速计算优势的同时,也能显著提升模型的准确性。

🧩附录


版权声明: 本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若内容造成侵权/违法违规/事实不符,请联系邮箱:809451989@qq.com进行投诉反馈,一经查实,立即删除!
网站建设 2026/4/18 2:03:21

12、网络安全工具深度剖析:Paros、hping2 与 Ettercap

网络安全工具深度剖析:Paros、hping2 与 Ettercap 在当今数字化时代,网络安全至关重要。各种网络安全工具层出不穷,它们既可以被安全专业人员用于维护网络安全,也可能被黑客利用来实施攻击。本文将深入介绍三款网络安全工具:Paros、hping2 和 Ettercap,探讨它们的功能、…

作者头像 李华
网站建设 2026/4/16 16:57:27

13、黑客工具与 /Proc 文件系统深度解析

黑客工具与 /Proc 文件系统深度解析 1. 黑客工具概述 在安全领域,有众多开源工具可用于执行各种黑客相关功能。不过,我们所提及的十大黑客工具列表并非涵盖所有。这些工具能让我们了解一些流行安全工具的潜在用途,以及它们的工作原理。 许多安全工具最初并非用于黑客攻击…

作者头像 李华
网站建设 2026/4/16 13:25:11

14、Linux系统文件分析与安全检查

Linux系统文件分析与安全检查 1. sysfs文件系统简介 在2.6内核中引入了sysfs文件系统,其主要目的是将原本存在于 /proc 层级下的非进程数据移出,放到挂载在 /sys 的单独虚拟文件系统中。在事件响应调查中, /sys 下的 modules 和 block 这两个子目录可能具有重要…

作者头像 李华
网站建设 2026/4/12 16:19:11

Qwen-Image-Lightning:8步极速文生图技术重塑AI创作效率边界

Qwen-Image-Lightning:8步极速文生图技术重塑AI创作效率边界 【免费下载链接】Qwen-Image-Lightning 项目地址: https://ai.gitcode.com/hf_mirrors/lightx2v/Qwen-Image-Lightning 在AIGC技术日新月异的当下,文生图模型正面临效率与质量的平衡挑…

作者头像 李华
网站建设 2026/4/16 11:12:59

14、系统管理:用户管理脚本详解

系统管理:用户管理脚本详解 在系统管理工作中,脚本的运用能够极大地提高效率,尤其是在处理用户管理相关任务时。本文将详细介绍几个重要的脚本,包括运行脚本、添加用户、暂停用户账户、删除用户账户以及验证用户环境等方面。 1. 运行脚本 在运行 mkslocatedb 脚本时,…

作者头像 李华
网站建设 2026/4/17 22:38:23

DuckDB Go客户端开发完全手册:从零构建高性能数据应用

还在为复杂的数据分析任务寻找轻量级解决方案吗?DuckDB作为嵌入式OLAP数据库管理系统,正以其卓越的性能和简洁的架构在数据领域掀起热潮。本文将带你深入探索如何通过Go语言客户端,充分发挥DuckDB的强大威力! 【免费下载链接】duc…

作者头像 李华