news 2026/5/16 19:28:18

some 知识点 knowledge

作者头像

张小明

前端开发工程师

1.2k 24
文章封面图
some 知识点 knowledge

输出 查看模型结构 使用print(model) model.name_module() model.named_parameters()等方式查看层级结构

对于vit reanet yolox等常见架构 结合官方文档和源吗

确定可冻结/可训练的模块 在vit中 可以冻结 patch_embed 和前几层blocks 只微调后面几层+分类头

通过requires_grad控制梯度更新 冻结backbone 解冻特定层

微调的时候 不同模块用不同的学习率

还有的是在不同的epoch使用不同的学习率

学习率调度知识点:

按epoch变化 step decay 阶梯衰减 每隔固定epoch 学习率*一个衰减因子

多阶段衰减,在预设的epoch节点 衰减

linear warmup_decay 线性预热+衰减 前几个epoch线性增加 learning rate 之后按照step/cosine衰减

啥是cosine decay?余弦衰减 学习率就像余弦的图像一样衰减下来

关于早停机制、保存最佳模型、最终模型是否最优

在深度学习训练中,训练loss会持续下降,但是验证指标(比如准确率 mAp f1 )往往会线上升后下降 这就是过拟合

F1的计算就是:

不能只是保存最后的checkpoint 而是要监控验证指标,保存历史最佳

最好的标准是自己决定的:你所关心的指标达到最优就是 最好

早停机制 :当模型在验证集上不再变好时,提前终止训练, 在每个epoch 或者是n个step 在验证集上评估指标 如果连续 m个epoch没有提升,就停止训练

让我想起了一个叫做优化器的东西。

optimizer = torch.optim.AdamW(
model.parameters(),#model.parameters这些参数是需要被更新的
lr=5e-5,#学习率
weight_decay=0.05,#衰减
betas=(0.9, 0.98) # ViT 常用 beta1=0.9 当前梯度占0.1 过去梯度占0.9 beta2=0.98梯度平方的平滑,控制步长缩放,防止某些参数更新太猛

scheduler = get_cosine_schedule_with_warmup(
optimizer,
num_warmup_steps=500,#学习率这样持续500个step 注意step和epoch的区别 训练一次就能看出来了 epoch是多个step
num_training_steps=total_steps
)

版权声明: 本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若内容造成侵权/违法违规/事实不符,请联系邮箱:809451989@qq.com进行投诉反馈,一经查实,立即删除!
网站建设 2026/5/12 16:55:31

延迟渲染中的阴影难题,如何在复杂场景下保持144FPS不掉帧?

第一章:延迟渲染中的阴影难题,如何在复杂场景下保持144FPS不掉帧?在高帧率游戏和实时渲染应用中,延迟渲染(Deferred Rendering)因其高效的光照处理能力被广泛采用。然而,当引入动态阴影时&#…

作者头像 李华
网站建设 2026/5/13 12:51:00

加密算法性能优化全攻略(响应速度提升300%的秘密武器)

第一章:加密算法性能优化的核心挑战在现代信息安全体系中,加密算法的性能直接影响系统的响应速度、吞吐量和资源消耗。尽管高级加密标准(如AES、RSA和ECC)提供了强大的安全保障,但其计算密集型特性在高并发或资源受限环…

作者头像 李华
网站建设 2026/5/14 19:12:36

导入生成PPT综合对比,中文内容谁最好用?

📊 导入生成PPT工具核心能力对比 为了让您快速把握全局,下表从多个关键维度对比了市面上的主流工具。 评估维度ChatPPTGammaBeautiful.aiKimiPPTCanva讯飞星火PPT导入格式广度Word, PDF, Excel, XMind, Markdown等30种混合导入支持Notion/Google Docs链…

作者头像 李华
网站建设 2026/5/11 6:44:26

R qubit初始化性能优化(专家级调优策略首次公开)

第一章:R qubit初始化性能优化概述在量子计算系统中,R qubit的初始化是决定后续门操作精度和算法执行成功率的关键步骤。初始化性能直接影响量子态的保真度与系统整体稳定性,尤其在高噪声环境下,低效的初始化过程将显著增加错误率…

作者头像 李华
网站建设 2026/5/15 9:32:01

Qwen3-14B与Codex在代码生成任务上的对比分析

Qwen3-14B与Codex在代码生成任务上的对比分析 在现代软件开发节奏日益加快的背景下,AI驱动的代码生成技术正从“辅助工具”演变为“生产力核心”。无论是初创团队快速搭建原型,还是大型企业重构遗留系统,开发者都希望借助大模型提升编码效率、…

作者头像 李华
网站建设 2026/5/8 18:25:41

pytorch安装过程中兼容gpt-oss-20b的CUDA版本选择

PyTorch 安装中如何选择兼容 GPT-OSS-20B 的 CUDA 版本 在当前大语言模型快速演进的背景下,越来越多开发者开始尝试将高性能LLM部署到本地环境。尤其是像 GPT-OSS-20B 这类“轻量级巨无霸”——拥有210亿总参数却能在消费级GPU上运行的开源模型,正成为科…

作者头像 李华