一问:我们到底在聊什么?
最近几年,“大模型”这个词像当年的“互联网+”一样,成为了全民热词。GPT、Llama、Qwen这些名字接踵而至,仿佛你不懂点“大模型”,就彻底跟时代脱节了。
但是,你真的理解大模型是怎么变聪明的吗?为此,我将大模型的核心技术分为两大类:硬实力(模型架构与训练方法)和软实力(模型对齐与微调技术)。这篇文章将从宏观到微观,用通俗易懂的方式,为你拆解大模型的各个核心技术环节。
二、硬实力篇:“大力出奇迹”的底层逻辑
靠的不仅是参数堆砌,更是训练智慧。
2.1 基础大观:到底多大的模型才算“大”?
在AI的世界里,“大”主要体现在模型参数规模上。参数就像人脑中的突触连接,连接越多,模型能学习的内容就越复杂。GPT-3参数量达到1750亿,最新的模型更是达到了数千亿甚至万亿级别。
大模型的核心本领在于生成——它们不仅能做简单的分类(如判断某句话是正面还是负面评价),更能主动创作全新的内容,从回答问题到写代码、写诗,无所不包。这种生成过程的逻辑其实很简单:给它一段开头,它一个词一个词地往后预测。目前最主流的方式叫自回归生成,目标非常单纯——给定所有前面的内容,最大化预测下一个词的正确概率。
2.2 模型心脏:Transformer为何是不可撼动的王者?
2.2.1 大力出奇迹的数学配方
很多人只知道大模型厉害,却不知道其中隐藏着一条“数学真理”——Scaling Law(缩放定律)。2020年,OpenAI的科学家通过大量实验后发现了一个惊人的规律:模型的Loss(损失)会随着三个因素——模型参数量、训练数据量、计算算力的增长呈现幂律下降。翻译成人话就是:只要你有钱(算力)、有书(数据)、有脑子(模型),你往模型上“砸资源”,它的性能就会稳步提升。
更厉害的是,这个规律非常稳定。你可以先训练几个小模型(比如1000万、5000万、1亿参数的版本),测量它们的表现,然后在图上画出一条线,就能精准预测一个700亿参数超大模型训练后的效果。这使得研发大模型从一种“赌博”变成了一种“工程”——研发人员不需要真的花数千万美元,就能提前知道一个超大模型的水平上限在哪里。
2.2.2 训练的核心叙事
大模型从“文盲”到“学霸”,大致分为两大环节:预训练和后训练。
1. 预训练:大量读书
预训练阶段,模型疯狂吸收数据,完成“下一词预测”任务。Llama 3在这个阶段读了超过15万亿个token,也就是大约2.4万亿个单词,其数据量是Llama 2的7倍。Qwen系列同样不含糊,预训练数据达到了36万亿token。通过这种“海量阅读”,模型学会了语法、事实、推理能力和基本的文本生成能力。
2. 后训练:精心雕琢
读完海量互联网数据的模型,本领会很强,但同时也存在一个问题——它什么话都接、可能生成有毒或低质量内容,不懂人类的审美和礼仪。这就需要进入后训练阶段,精调模型,教它“好好说话”,让它的回答既有知识又有礼貌,符合人类预期。
2.2.3 注意力进化论
Transformer的“自注意力”机制适合并行训练、易于扩展到上千亿参数,是大模型的GPU最佳伴侣。但传统注意力机制存在两个致命问题:计算时间太长(每次都要两两配对比较所有词)、存储KV矩阵占用的显存过大。
于是,聪明的工程师们发明了GQA(分组查询注意力)。可以把GQA理解为把学校里的各年级学生分成班级——每个班级配置几名班主任(共享K、V)。这样既保留了不同学生群体之间的个性(表达能力没有大幅下降),又极大降低了学校的人力成本(显著节省了显存和计算资源)。目前,Llama 2及以上版本、Qwen系列等主流模型都采用了GQA机制。
三、软实力篇:把“大神模型”雕琢成“暖心助手”
海量投喂只是基本功,真正的魔力发生在精调之后。
3.1 思维链:让AI学会打草稿
在传统模式下,当你问大模型一个复杂的数学题,比如:“小明有5个苹果,给小红2个,又买3个,现在一共几个?” 模型可能会直接给出答案“6个”,至于它是靠蒙的、靠猜的还是凭感觉,你根本不知道。
思维链(CoT)技术改变了这一切。这项由Google Research在2022年提出的技术,要求模型把脑子里的“草稿”写出来。于是模型会生成:“第一步,给小红之后剩余:5-2=3。第二步,买了之后:3+3=6。所以最后答案是6个。”这不再是猜谜,而是步骤清晰的数学解题过程。
在更深层次的训练中,还有一种方法叫长思维链冷启动——强制模型在训练时就要学会对特别复杂的问题逐步推导。拒绝采样则利用已有的高质量模型自动生成答案,再从中筛选最好的那一个。
3.2 让AI“懂事”:RLHF(基于人类反馈的强化学习)
预训练完的大模型就像一个天才但缺乏教养的“神童”。它能当众把真相说得很难听,甚至模仿网上的恶言恶语。这就需要RLHF——根据人类反馈的强化学习来纠正它的行为。换句话说,RLHF的核心思路就是:利用人类的好恶作为标尺,通过训练告诉它什么能说、什么不能说。
InstructGPT的RLHF流程分为三个阶段:
- 第一步:老师先教一遍(SFT)。研究人员先在大量的“指令 - 完美回答”数据上进行监督学习。相当于给模型拜一个高情商导师,学说话规矩。
- 第二步:训练一个“奖罚裁判”(训练奖励模型RM)。研究人员让模型针对一个问题生成A、B、C三个回答,然后安排人类标注员给这些回答打分:“这个回答礼貌且有帮助,我们很喜欢;这个回答粗鲁说教,不太行。”利用这些资料专门训练一个裁判模型。
- 第三步:教练鞭策进步(强化学习RL)。用裁判模型为SFT模型每次的回答评分,高分则更强化这段参数,低分则弱化。循环往复多轮后,模型会变得越来越符合人类口味。
3.3 DPO:化繁为简的“直白改良”
RLHF虽然效果好,但步骤太复杂——需要先训练一个裁判模型,再走繁琐的PPO强化学习算法,对算力的消耗和训练的稳定性都是很大挑战。
2023年由斯坦福大学等机构提出的DPO(直接偏好优化)方案,则直接省去了裁判这一环,只用“好答案与差答案”的比对数据直接微调模型。这种一步到位的方式操作更简单、效果更稳定,训练速度更快,已经成为了业界新宠。
3.4 知识蒸馏:把大象塞进冰箱的技术
训练好的大模型动辄几千亿参数,体积庞大运行缓慢,要想把它塞进手机、汽车、嵌入式设备里,几乎是不可能的任务。怎么办?知识蒸馏就是解决方案。
逻辑很简单:找一个已经训练好的超大模型作为师博(教师模型),然后教一个身材瘦小的版本作为学生(学生模型)。训练师博模型时,不会让学生死记硬背答案(硬标签),而是让它学会消化那些概率分布(软标签),例如师博对一张“猫”的图片给出的概率分布是“0.8是猫,0.15是狗,0.05是鸟”。这个小模型获得的不再是“这张图是什么?”的单一结论,而是一个更细腻的理解,比如猫和狗长得很像这种相对关系的模糊认知。这就类似于艺术流派——学生模仿老师不仅是复制笔触,更要去感悟挥毫时的感觉和逻辑。例如电商场景里,GPT-3 1750亿参数的大模型,蒸馏后压缩到17亿参数,推理速度直接从800毫秒变成95毫秒(快了8倍多),再部署上线就一点也不吃力了。
四、具体聊聊:主流大模型的技术特色
纸上得来终觉浅,我们来看看市面上最有代表性的三个主流模型——GPT、Llama和Qwen,它们各自在训练和技术上有什么独特的打法。
4.1 GPT系列:从“小白”到“祖师爷”?
可以说,现在的所有主流大模型,都是给GPT这个“开山祖师爷”致敬的延续。GPT-1去掉了Transformer模型的编码器部分,仅保留解码器部分,成为纯自回归生成式模型。GPT-2改为Pre-LN结构稳定了梯度传输,而GPT-3把参数量从“亿级”拉到了1750亿,并首次使用的“局部带状稀疏注意力机制”极大改善了长序列任务的处理效率。
4.2 Llama系列(羊驼家族):开源社区之光
如果说GPT系列是闭源的“天花板”,那Llama系列就是开源阵营最亮眼的“中流砥柱”。
Llama系列最大的创新在于重新定义了性价比。谷歌等巨头的训法主张“把参数越做越大来堆智能”,而Llama系列的Meta团队换了一个思路:参数不用大到疯狂,但数据质量和数据体量必须拉满。结果证明,一个百亿级参数的模型,在精心训练后,效果能直接吊打当年千亿级的巨无霸初代GPT-3。Llama 3的预训练数据量达到15.6万亿token,数据量是Llama 2的7倍,代码数据是Llama 2的4倍。Llama 3.1最终发布的旗舰版本拥有4050亿参数,上下文长度扩充至128K,性能直追闭源最强模型。
4.3 Qwen系列(千问):阿里模式思考
阿里旗下的通义千问系列(Qwen系列)也在不断攻城略地。Qwen模型同样采用GQA + SwiGLU + RoPE + RMSNorm + Pre-LN等经典高效组件。Qwen3的后训练方法亮点在于长思维链冷启动 + 推理强化学习 + 思维模式融合。通俗点说,他们先逼着模型思考由浅入深做难题,然后做严格的强化学习,并将“长思考模式”和“短平快”模式彼此融合。最终大家看到的Qwen,既有深入思考的准确性,又有轻量快速对应的灵活性。
五、回顾与展望
我们在这篇文章里,为大家讲解了Scaling Law、Transformer框架、CoT和RLHF等核心概念。回顾一下文章中最有代表性的关键知识点:
- Scaling Law告诉我们:仅凭堆钱堆算力,模型的性能也能稳步提升。
- 思维链技术像帮AI打草稿,让复杂问题的解答不再是蒙答案,解构出严谨的推导步骤。
- 知识蒸馏像一个聪明的小学生偷师和模仿老师,让小体量模型拥有接近大模型的精巧能力。
- RLHF/DPO对比与演进:通过人类好恶或偏好对比,矫正模型的“言行举止”。
- Llama 训练细节:羊驼系列讲究小模型大样本暴力阅读,靠15.6万亿token的真实数据训练,冲上顶尖。
- Qwen (3) 后训练方法:思维长链强化学习和模式融合,让模型兼具高难度问题的推理能力与敏捷的简单问答。
我们正处在AI技术爆炸的开端,每一次新的研发思路被接纳,都意味着AI离我们想象中“理解并辅助人类”的智能更进一步。未来的AI不只靠参数堆积,而会更加精炼、更懂人心,也更能在日常生活、工作和科研场景中与我们水乳交融。