LoRA是一种高效的大模型微调技术,通过冻结原始权重,仅训练低秩矩阵A和B,实现参数压缩比256:1以上的高效适配。其核心原理是将权重更新量ΔW分解为两个低秩矩阵的乘积(BA),在不增加推理延迟的前提下,聚焦任务特定特征。LoRA适用于Transformer的MHA/FFN层,可灵活应用于encoder、decoder等不同结构,是降低大模型应用门槛的关键技术。
在大模型参数规模已突破千亿的当下,全参数微调已然成为资源密集型任务的典型代表。单张GPU难以承受巨大的显存压力,而多卡训练所耗费的时间与资金成本,更让许多中小企业望而却步。
而LoRA(Low Rank Adaptation)技术以“冻结大模型、训练小参数”的核心思路,通过精妙的,矩阵变换,实现了“以小博大”的高效微调,成为大模型产业落地的关键支撑。
本文将从数学原理、矩阵变换、训练机制(含权重冻结细节)到跨层适配,全方位拆解这一主流PEFT技术的核心逻辑。
LoRA的核心原理:用低秩矩阵破解全量更新难题
01
LoRA的本质,是对大模型权重更新量的“降维打击”。其核心洞察,源于一个关键发现:大模型在适配特定任务时,权重矩阵的更新量ΔW,具有低内在秩(Low Intrinsic Rank)特性也就是任务适配无需调整所有参数,仅需聚焦于少数关键维度的更新方向。
1.数学原理:从全秩更新到低秩分解
在全参数微调中,模型权重更新公式为:
其中是
预训练模型的原始权重矩阵(d和k分别为输入输出维度),DeltaW是与W同维度的全秩更新矩阵,参数量高达dtimesk(以4096维度的Transformer层为例,单矩阵参数量约1680万)。
而LoRA通过低秩分解对DeltaW进行重构,将其表示为两个低秩矩阵的乘积:
其中,
参数压缩效果:以d=k=4096、r=8为例全秩更新需1680万参数,而LoRA仅需rx(d+k)=8x(4096+4096)=65536,参数压缩比达256:1。
2.前向计算逻辑:不增加推理延迟的关键
LoRA的前向计算并未改变原始模型的结构,仅在目标层添加低秩分支的输出:
其中x为输入向量,h 最终输出。因在训练时将W冻结仅对A和B进行更新,于是推理时能直接把并入原始权重W里,从而构成新权重W’=W+BA,此过程完全不会增添推理延迟——这就是LoRA相较于Adapter等技术的关键优势之一。
矩阵变换拆解:从维度压缩到特征融合的完整路径
02
LoRA的核心魔法,本质是通过两次低秩矩阵变换,用小参数模拟大矩阵的任务适配能力。以下结合Transformer核心层(MHA/FFN)的矩阵运算,逐步骤拆解LoRA的矩阵变换过程。
1.Transformer层的原始矩阵运算(统一符号定义)
以dmodel=4096(模型隐藏层维度)为例Transformer层的核心矩阵运算集中在MHA和FFN模块:
- MHA层(以Query矩阵为例)
Query向量由输入x与预训练权重矩阵x与预训练权重矩阵x与预训练权重矩阵WQ相乘得到:
Q = x . WQ
- FFN层(以第一层线性变换为例)
FFN第一层将特征维度从dmodel扩张到4dmodel:
FFNmid = x . Wffn1
2.LoRA的三步矩阵变换
LoRA通过“压缩–>映射–>融合”三步在原始矩阵运算中插入低秩分支:
- 第一步:低秩压缩(矩阵A的作用)
- 第二步:低秩映射(矩阵B的作用)
- 第三步:特征融合(与原始输出相加)
3.MHA与FFN层的LoRA矩阵变换对比
| 对比项 | MHA 层(以 Query 矩阵WQ)为例) | FFN 层(以第一层Wffn1为例) |
|---|---|---|
| 原始权重矩阵维度 | 4096 x 4096(约 1680 万参数) | 4096 x 16384(约 6710 万参数) |
| LoRA 矩阵A维度 | 8 x 4096(输入投影,压缩维度) | 8 x 4096(同左) |
| LoRA 矩阵B维度 | 4096 x 8(输出投影,还原至 4096 维) | 16384 x 8(还原至 16384 维) |
| LoRA 参数量(A+B) | 6.5 万(压缩比 256:1) | 16.4 万(压缩比 410:1) |
| 核心作用 | 修正 Query 的 “查询方向”,聚焦任务关键信息(如法律任务的 “法条关键词”) | 优化特征扩张能力,强化任务特异性映射(如医疗的 “病灶 - 症状” 关联) |
LoRA的训练机制:从权重冻结到A、B矩阵的优化全流程
03
LoRA训练的核心是冻结原始权重,仅优化A和B矩阵,最终通过两者的乘积得到DeltaW。这一过程的关键在于“如何冻结原始权重”以及“如何让A、B矩阵单独学习任务特征”,具体可拆解为四个步骤:
1.权重冻结:通过requires_grad控制参数可训练性
“冻结原始权重”,这是LoRA实现“小参数微调”的前提其技术本质在于借助深度学习框架的参数属性控制手段,使预训练模型的原始权重无需参与梯度的计算以及更新。
在PyTorch等框架中,每个参数都有requires_grad属性(布尔值):
当requires_grad=False时:参数在反向传播中不计算梯度,优化器也不会更新它即“冻结
当requires_grad=True时:参数会被计算梯度并被优化器更新(即“可训练")
实现代码示例(以Hugging Face模型为例):
from transformers import AutoModelForCausalLM# 1. 加载预训练模型model = AutoModelForCausalLM.from_pretrained("THUDM/chatglm3-6b")# 2. 冻结原始权重:遍历所有原始参数,设置requires_grad=Falsefor param in model.parameters(): param.requires_grad = False# 原始权重不再更新# 3. 插入LoRA的A、B矩阵(自动设为requires_grad=True)from peft import LoraConfig, get_peft_modellora_config = LoraConfig(target_modules=["query", "value"], r=8)model = get_peft_model(model, lora_config)# 验证:仅A、B矩阵可训练(占比通常<0.1%)model.print_trainable_parameters() # 输出示例:"trainable params: 65,536 || all params: 6,245,533,696 || trainable%: 0.00105"冻结的必要性:
保留预训练能力:原始权重,它包含着海量数据所学到的通用知识,(例如语言理解、逻辑推理等),将其冻结之后,便可避免被小任务数据“冲淡”;
降低计算成本:原始权重参数量,通常为数十亿级别的规模,在冻结之后,其梯度计算量减少了99%甚至更多,显存占用也降低了80%以上。
2.初始化:让LoRA分支“初始无影响”
为保证训练起点与预训练模型一致,A和B的初始化,遵循严格的规则:
A矩阵:用随机正态分布N(0, 0.01)初始化确保初始时仅引入微小扰动;
B矩阵:用零矩阵来进行初始化,在这个时候,
模型所输出的结果完全等同于预训练模型,这样就能避免初始时产生过大的扰动
3.前向计算与反向传播:仅A、B矩阵参与梯度更新
每一轮训练中,输入x同时经过原始分支和LoRA分支:
计算损失(如交叉熵)后执行反向传播(loss.backward()):
原始权重因requires_grad=False,不计算梯度(梯度始终为None
A、B矩阵因requires_grad=True,会被计算梯度
4.参数更新:优化器仅调整A、B矩阵
优化器仅接收A、B矩阵的参数(可训练参数),确保原始权重不被更新:
import torch.optim as optim# 仅传入可训练参数(A、B矩阵)optimizer = optim.AdamW(model.parameters(), lr=1e-4)# 训练循环for batch in train_dataloader: outputs = model(** batch) loss = outputs.loss loss.backward() # 仅A、B矩阵产生梯度 optimizer.step() # 仅更新A、B矩阵 optimizer.zero_grad() # 清空A、B矩阵的梯度随着迭代,A矩阵与B矩阵逐渐进行优化,DeltaW=B.A这一情况不断逼近“任务所需要的最为优的权重更新”,最终达成了模型的适配。
跨层与跨结构适配:LoRA在Transformer中的应用范围
04
LoRA的A、B矩阵对可灵活应用于Transformer的不同层和结构,核心是适配“含MHA和FFN的子层”,与模型是encoder、decoder还是encoder-decoder结构无关。
1.目标层选择:MHA优先,FFN为辅
- MHA层:最核心的目标层,尤其是Query(Q)和Value(V)矩阵
原因:Q矩阵决定了“注意力聚焦方向”,V矩阵决定了“提取的价值信息”,这两者直接影响着任务适配效果。(例如在生成任务中,Q需要关注输入关键词,而V需要编码与任务相关的语义
- FFN层:次选目标层,用于强化特征的非线性转换能力
适用场景:复杂任务,(例如多模态生成,以及领域知识密集型任务),需要补充并优化特征的扩张与压缩逻辑。
- 配置方式:通过target_modules参数指定,例如:
# 仅MHA的Q/V矩阵(推荐基础配置)LoraConfig(target_modules=("q_proj", "v_proj"), r=8)# MHA+FFN(复杂任务配置)LoraConfig(target_modules=("q_proj", "v_proj", "fc1"), r=16)2.跨结构适配:encoder与decoder均适用
Transformer的encoder和decoder均由“MHA, FFN”子层堆叠而成,LoRA可无缝适配:
- Encoder-only模型(如BERT):
应用于自注意力MHA的QKV矩阵,轻松愉快地优化输入文本的特征编码(例如在情感分类任务中,使模型更为专注于情感词)。
- Decoder-only模型(如GPT)
应用于因果自注意力MHA的Q/V矩阵,轻松愉快地优化生成逻辑(例如在对话任务中,使模型能更紧密地贴合上下文语境)。
- Encoder-decoder模型
这个时候应用于encoder的MHA(优化输入理解)和decoder的“编码器-解码器注意力”(优化输入-输出对齐),提升翻译、摘要等任务的精度。
总结:满满干货和建议
05
LoRA的核心价值在于以极低的参数成本实现大模型的高效适配,其技术逻辑可浓缩为三个关键点:
1.数学本质:通过低秩分解DeltaW=B.A,用两个小矩阵的乘积模拟全秩权重更新,参数压缩比达256:1以上;
2.训练核心:通过“requires_grad=False”来冻结原始权重(在保留通用能力的同时,降低成本),仅仅对A、B矩阵进行优化,从而使低秩子空间能够聚焦于任务特征;
3.应用灵活:适配Transformer的MHA/FFN层,无论是encoder,还是decoder,均可以应用。Q/V矩阵是最为理想的目标,既能顾及效果,又能兼顾效率。
未来随着动态秩调整、跨模型迁移等技术持续地发展,LoRA将从“单任务微调工具”,一步步地升级为“大模型能力组装平台”。对于开发者来说,牢牢地掌握LoRA的矩阵变换逻辑以及权重冻结机制,这乃是降低大模型使用门槛的关键之处。
AI时代,未来的就业机会在哪里?
答案就藏在大模型的浪潮里。从ChatGPT、DeepSeek等日常工具,到自然语言处理、计算机视觉、多模态等核心领域,技术普惠化、应用垂直化与生态开源化正催生Prompt工程师、自然语言处理、计算机视觉工程师、大模型算法工程师、AI应用产品经理等AI岗位。
掌握大模型技能,就是把握高薪未来。
那么,普通人如何抓住大模型风口?
AI技术的普及对个人能力提出了新的要求,在AI时代,持续学习和适应新技术变得尤为重要。无论是企业还是个人,都需要不断更新知识体系,提升与AI协作的能力,以适应不断变化的工作环境。
因此,这里给大家整理了一份《2025最新大模型全套学习资源》,包括2025最新大模型学习路线、大模型书籍、视频教程、项目实战、最新行业报告、面试题等,带你从零基础入门到精通,快速掌握大模型技术!
由于篇幅有限,有需要的小伙伴可以扫码获取!
1. 成长路线图&学习规划
要学习一门新的技术,作为新手一定要先学习成长路线图,方向不对,努力白费。这里,我们为新手和想要进一步提升的专业人士准备了一份详细的学习成长路线图和规划。
2. 大模型经典PDF书籍
书籍和学习文档资料是学习大模型过程中必不可少的,我们精选了一系列深入探讨大模型技术的书籍和学习文档,它们由领域内的顶尖专家撰写,内容全面、深入、详尽,为你学习大模型提供坚实的理论基础。(书籍含电子版PDF)
3. 大模型视频教程
对于很多自学或者没有基础的同学来说,书籍这些纯文字类的学习教材会觉得比较晦涩难以理解,因此,我们提供了丰富的大模型视频教程,以动态、形象的方式展示技术概念,帮助你更快、更轻松地掌握核心知识。
4. 大模型项目实战
学以致用,当你的理论知识积累到一定程度,就需要通过项目实战,在实际操作中检验和巩固你所学到的知识,同时为你找工作和职业发展打下坚实的基础。
5. 大模型行业报告
行业分析主要包括对不同行业的现状、趋势、问题、机会等进行系统地调研和评估,以了解哪些行业更适合引入大模型的技术和应用,以及在哪些方面可以发挥大模型的优势。
6. 大模型面试题
面试不仅是技术的较量,更需要充分的准备。
在你已经掌握了大模型技术之后,就需要开始准备面试,我们将提供精心整理的大模型面试题库,涵盖当前面试中可能遇到的各种技术问题,让你在面试中游刃有余。
为什么大家都在学AI大模型?
随着AI技术的发展,企业对人才的需求从“单一技术”转向 “AI+行业”双背景。企业对人才的需求从“单一技术”转向 “AI+行业”双背景。金融+AI、制造+AI、医疗+AI等跨界岗位薪资涨幅达30%-50%。
同时很多人面临优化裁员,近期科技巨头英特尔裁员2万人,传统岗位不断缩减,因此转行AI势在必行!
这些资料有用吗?
这份资料由我们和鲁为民博士(北京清华大学学士和美国加州理工学院博士)共同整理,现任上海殷泊信息科技CEO,其创立的MoPaaS云平台获Forrester全球’强劲表现者’认证,服务航天科工、国家电网等1000+企业,以第一作者在IEEE Transactions发表论文50+篇,获NASA JPL火星探测系统强化学习专利等35项中美专利。本套AI大模型课程由清华大学-加州理工双料博士、吴文俊人工智能奖得主鲁为民教授领衔研发。
资料内容涵盖了从入门到进阶的各类视频教程和实战项目,无论你是小白还是有些技术基础的技术人员,这份资料都绝对能帮助你提升薪资待遇,转行大模型岗位。
大模型全套学习资料已整理打包,有需要的小伙伴可以
微信扫描下方CSDN官方认证二维码,免费领取【保证100%免费】