news 2026/4/18 2:01:23

PTQ 量化数值范围与优化

作者头像

张小明

前端开发工程师

1.2k 24
文章封面图
PTQ 量化数值范围与优化

一、PTQ 模型量化问题

1.1、模型问题

基于公版模型训练,没有对模型做范围做约束,weight_decay=1e-6, 训练出的 float 模型数值分布很大,如图 2,可以看到模型的后面几层数据分布范围很广,最大阈值超过了 8000,对我们量化来说并不友好。

1.2、算子问题

如图 2,基于全 int16 算子配置量化,当前版本 resize 算子有约束(请查阅工具链算子支持情况),只能支持 int8 量化,即使配置了 int16,但算子依旧退化到 int8,因此算子的 cosine 相似度也比较低,基于此阈值,max_qscale=6653/127=52.385,此 scale 过于大,并不能精细化量化模型,所以全 BPU 算子的整体精度都不高。

图 1 公版训练 float 模型

二、精度优化

2.1、cpu 高精度定位

resize 算子有限制,但对于回退 cpu 算子,就能实现 float 精度推理,配置如图 2,

图 2 配置 cpu 算子

配置了算子后,精度提升了,如图 3,可视化效果对比如图 4,整体量化精度可对齐,定位到了具体问题就是 resize 算子限制导致。

图 3 cpu 算子精度

图 4 cpu 算子可视化精度

2.2、添加 bn,加大 weight_decay

在最后的 conv 层后加上 bn 算子限制特征数据分布,同时 weight_decay 从 1e-6 调整到 1e-3,整体数据范围如图 5、图 6,模型的数据分布变小了,最后的 cosine 相似度精度也很高,非常利于 int8 量化,后期配置了 int8 量化,模型也可实现高精度量化。

图 5 全 int16 量化

图 6 部分 int16 量化

版权声明: 本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若内容造成侵权/违法违规/事实不符,请联系邮箱:809451989@qq.com进行投诉反馈,一经查实,立即删除!
网站建设 2026/4/18 0:20:03

论3款论文降AIGC工具实测,AI率从90%降到10%【2025年最新】

在论文、报告、内容创作越来越严格的时代,查AI率、检测AI率、降AI率 已经成为学生、写作者、博主的日常需求。很多同学因为 AI率过高被导师指出“AI痕迹太重”,甚至退回重写。本文今天一次性告诉你: 检测AI率应该注意什么 免费查AI率的网站有…

作者头像 李华
网站建设 2026/4/17 16:24:39

新手进阶Python:打造个人记账小工具,轻松管理收支

大家好!我是CSDN的Python新手博主~ 上一篇分享了「文件整理小工具」,很多小伙伴说跟着实操后收获满满,这次继续带来新手友好的实战项目——「个人记账小工具」! 日常记账总是记了就忘?Excel表格整理太麻烦…

作者头像 李华
网站建设 2026/4/17 20:47:34

HTTP网络巩固知识基础题(3)

1. HTTP 状态码 100 表示什么含义? A. 继续 B. 切换协议 C. 处理中 D. 早期提示 答案:A 解析: 100 Continue 是一个临时响应状态码,表示目前为止一切正常,客户端应该继续请求或忽略此响应。 2. HTTP 请求头中的 Connection: close 表示什么? A. 启用持久连接 B. 关闭…

作者头像 李华
网站建设 2026/4/16 21:04:07

智慧树学习助手:告别手动刷课的智能解决方案

你是否曾经计算过,为了完成智慧树平台上的视频课程,你需要花费多少时间在重复的机械操作上?每次点击播放、调整倍速、关闭声音、等待下一集...这些看似微小的动作,累计起来竟然能消耗掉你整个学期8-10小时的宝贵时间!更…

作者头像 李华
网站建设 2026/4/16 0:53:59

Zotero文献管理终极指南:智能去重插件完整教程

Zotero文献管理终极指南:智能去重插件完整教程 【免费下载链接】ZoteroDuplicatesMerger A zotero plugin to automatically merge duplicate items 项目地址: https://gitcode.com/gh_mirrors/zo/ZoteroDuplicatesMerger 还在为文献库中大量重复条目而烦恼吗…

作者头像 李华