news 2026/4/17 20:56:46

大模型微调(二)

作者头像

张小明

前端开发工程师

1.2k 24
文章封面图
大模型微调(二)

一.adapter Turning

1.1adapter Turning原理

adapter Turning原理和LoRA很像,和之前说的pre Turning以及P-Turning不同.

  • pre Turning以及P-Turning是通过和原数据拼接的方式来训练参数.这种方式的缺点是和原文本拼接会超出模型限制
  • adapter Turning是在网络层中加新的网络层来适配新的任务.

1.2adapter Turning执行流程

adapter Turning不会调整模型的参数.只会修改adapter Turning中的参数(高效微调)

在原本的网络层中加入了适配器,适配器类似于前馈神经网络层(两个线性层中间加了一个激活函数),区别于前馈神经网络,adapter Turning是先降维后升维

1.3adapter Turning的缺点

  • 因为大部分参数被冻结,adapter 的容量有限,对复杂任务或需要大规模参数调整的任务可能效果不如全量微调。
  • Adapter 的维度大小(瓶颈层大小)、插入位置等超参数对性能影响较大,调参复杂度较高。
  • PLM 基础上添加适配器层会引入额外的计算,带来推理延迟问题

因为adapter Turning的这些缺点,所以引入LoRA进行`高效微调

二.LoRA微调

2.1秩

作用:衡量矩阵中有多少线性无关的行和列

第一个矩阵秩为1,第二个矩阵的秩为2.

秩越大,独立信息越多.

2.2LoRA微调原理

我们先思考两个问题:为何用数千的样本就能将一个数十亿参数的模型微调得比较好?为何大模型表现出很好的few-shot能力?
Aghajanyan的研究 (《Intrinsic Dimensionality Explains the Effectiveness of Language ModelFine-Tuning》))表明:预训练模型拥有极小的内在维度(instrisic dimension),即存在一个极低维度的参数,微调它和在全参数空间中微调能起到相同的效果【大模型在预训练阶段已经学到了更多的“通用特征”,所以在微调时,只需要在一个更小的方向空间中“对齐"或"修正“即可】。

同时Aghajanyan发现在预训练后,越大的模型有越小的内在维度,这也解释了为何大模型都拥有很好的few-shot能力【因为它们已经覆盖了大部分语言知识,少量参数更新(甚至几条示例 in-context)就能把输出方向调整到目标任务】。

总的来说,大模型已经学到了大部分知识,只需要一些点播就可以很好的完成下游任务

LoRA微调使用两个低秩矩阵来代替原有的参数矩阵,极大的减少了参数的训练量.

2.3LoRA的使用

2.3.1基本原理

LoRA技术冻结预训练模型的权重,并在每个Transformer块中注入可训练层(称为秩分解矩阵),即在模型的Linear层的旁边增加一个“旁支”A和B。其中,A将数据从d维降到r维,这个r是LoRA的秩,是一个重要的超参数;B将数据从r维升到d维,B部分的参数初始为0。模型训练结束后,需要将A+B部分的参数与原大模型的参数合并在一起使用。

真正实现是在Linear层旁边加低秩矩阵.注意力机制的Linear层加三个低秩矩阵,前馈全连接层有两个线性层,默认加一个低秩矩阵就可以了

2.3.2具体实现

这个详细的展现了LoRA微调的细节.

主要是明白秩是怎么来的(这里秩是8,原始维度是768)

原始的参数量是768*768,现在是768*8+768*8,参数量不是一个级别,而且现在的大模型基本是4000左右的维度,这个影响还是相当大的 (LoRA微调本质就是两个低秩矩阵替代一个高维矩阵)

A模块的初始化方式是正态分布初始化,B模块使用的是全零初始化,这样初始化的原因是为了匹配原始维度,第二个方面是加快收敛.

2.4LoRA微调的优点

  • 只训练极少参数,相对全量微调的存储和训练成本低。
  • 效果接近全参数微调,且保留原模型能力。
  • 不同任务的 LoRA 模块可插拔,便于多任务部署(训练低秩矩阵模块,可以在不同的任务场景下放入训练好的低秩模块)。

2.5LoRA微调的缺点

LoRA微调的本质是更新权重矩阵,这些参数表达能力有限,在复杂任务上可能无法拟合

LoRA通常加载线性层上,不同任务可能对位置比较敏感,选择不好可能会影响性能.

三.QLoRA

LoRA在训练巨语言模型下达不到好的效果,QLoRA优化了LORA的缺陷.

3.1原理

通过对预训练语言模型(PLM)进行量化(通常是4-bitNormalFloat),并结合LoRA技术进行微调,从而在极低的内存消耗下,仍然能够高效地微调巨型语言模型,同时保持甚至超越全量16-bit LoRA的性能。

传统的量化可能会导致精度丢失,QLoRA使用的是NF4量化方式,通过正态分布的设计,保留模型的精度.同时支持可以把显存保存到cpu内存中降低显存消耗.

3.2优点

  • 极低的内存消耗。这是QLoRA 最显著的优势。可以将训练巨型模型的内存需求降低 3-4倍,使得在单张消费级 GPU 上(如 24GB VRAM 的 RTX 3090/4090) 微调 65B 甚至 70B参数的模型成为可能。
  • 性能优异尽管进行了 4-bit 量化,但由于 16-bit 的 LoRA 权重和优化器状态,QLoRA 在许多任务上能够保持与 16-bit LoRA 甚至全量微调相媲美的生能。
  • 训练速度快:由于只训练少量参数且内存效率高,训练速度非常快。

3.3缺点

  • 虽然NF4优化了精度,但极端任务或敏感任务可能仍受4-bit量化影响。
  • 由于量化和分页机制的存在,训练和问题调试会比标准LoRA更复杂。
版权声明: 本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若内容造成侵权/违法违规/事实不符,请联系邮箱:809451989@qq.com进行投诉反馈,一经查实,立即删除!
网站建设 2026/4/18 8:25:04

FSMN VAD部署疑问:音频采样率不匹配怎么解决?

FSMN VAD部署疑问:音频采样率不匹配怎么解决? 1. 问题背景与核心挑战 你是不是也遇到过这种情况:兴冲冲地把FSMN VAD模型跑起来,上传了一段音频准备检测语音片段,结果系统返回“检测不到语音”或者干脆报错&#xff…

作者头像 李华
网站建设 2026/4/18 7:57:33

YOLOv11与CenterNet对比:关键点检测评测

YOLOv11与CenterNet对比:关键点检测评测 1. YOLOv11 简介 YOLO(You Only Look Once)系列作为目标检测领域的标杆模型,一直以高速推理和良好精度著称。YOLOv11 是该系列的最新迭代版本,在保持实时性优势的同时&#x…

作者头像 李华
网站建设 2026/4/18 11:31:23

全球战略与管理咨询市场:从“智库”到“增长引擎”的千亿级转型

在全球经济波动加剧、企业数字化转型加速的背景下,战略与管理咨询已从“辅助决策”的配角,跃升为驱动企业增长的核心引擎。据QYResearch统计,2025年全球战略与管理咨询市场销售额达7008亿元,预计2032年将突破1.5万亿元&#xff0c…

作者头像 李华
网站建设 2026/4/18 13:52:33

IMU十年演进

结论:未来十年(2025–2035),IMU 将以更高性能的 MEMS 器件、端侧智能化(在线自校与健康监测)与多传感器融合为主线,市场规模与汽车、无人机与机器人需求同步快速增长;在北京场景应优…

作者头像 李华
网站建设 2026/4/18 10:18:43

从零排查到根治:Claude Desktop无法识别MCP Server路径全流程手册

第一章:Claude Desktop 无法识别自定义 mcp server 路径 当用户尝试在 Claude Desktop 客户端中配置自定义的 MCP(Model Control Plane)服务地址时,常遇到路径未被正确识别的问题。该问题通常表现为客户端仍连接默认后端&#xff…

作者头像 李华