1. 为什么“训练-蒸馏”是大模型面试高频题?
1.1 蒸馏解决的不是“能不能训练”,而是“能不能低成本落地”
大模型越做越强,但真实落地时会遇到一个很现实的问题:大模型效果好,却不一定适合所有线上场景。它可能推理慢、显存占用高、调用成本贵,也不一定适合端侧部署或高并发服务。
知识蒸馏正是为这个矛盾而生:让一个更强的教师模型,把能力迁移给一个更小、更快、更便宜的学生模型。这样,线上服务可以用小模型承担大部分请求,既保留相当一部分能力,又降低成本和延迟。
1.2 面试官真正想听什么
这道题表面上问“什么是知识蒸馏”,实际上想看你是否理解四件事:第一,蒸馏为什么有效;第二,Teacher-Student 怎么训练;第三,大模型时代的蒸馏和传统分类蒸馏有什么不同;第四,像 Qwen3 这类模型如何把强模型能力迁移到轻量模型。
2. 什么是知识蒸馏?核心思想是什么?
2.1 用一句人话解释知识蒸馏
知识蒸馏,就是让一个能力更强的教师模型指导一个更小的学生模型训练。学生不只是学习训练集里的标准答案,还会学习教师模型的输出习惯、概率分布、推理过程,甚至工具调用策略。
如果用生活化比喻,就是“名师带徒弟”:徒弟不是只抄标准答案,而是观察老师为什么这么判断、哪些答案更接近、遇到复杂问题怎么拆解。
2.2 蒸馏为什么比普通监督训练多了一层信息
普通监督训练通常只有硬标签。比如一张图片是“猫”,标签就是猫,其他类别都是 0。这个标签只告诉模型最终答案,却没有告诉模型“狗和猫更像,汽车和猫完全不像”。
教师模型输出的软标签或 logits 则更丰富。它可能认为猫的概率最高,狗也有一点概率,狐狸更低,汽车几乎没有。这些相对关系就是“暗知识”,能够帮助学生学到更细的决策边界。
3. 蒸馏训练到底优化什么?
3.1 学真实答案,也学老师的判断分布
最常见的蒸馏训练,学生会同时学习两类信号。第一类是真实标签,让学生知道最终答案是什么;第二类是教师模型的输出分布,让学生知道老师如何看待不同候选答案之间的关系。
在大模型场景里,蒸馏信号还可以更丰富。例如老师生成完整回答,学生用 SFT 学习;老师给出每个 token 的 logits,学生做分布对齐;老师生成思维链和工具调用轨迹,学生学习复杂任务的解决路径。
3.2 Temperature 可以怎么理解
Temperature 可以理解成让老师的输出分布变“柔和”的旋钮。温度较高时,概率分布会更平滑,学生更容易看到非正确类别之间的相似关系;温度太低时,输出会过于尖锐,更像硬标签。
4. 常见蒸馏类型有哪些?
4.1 Response Distillation:最容易落地
Response Distillation 是大模型时代最常见的方式之一。教师模型先生成高质量回答,学生模型再用这些回答做监督微调。这种方式不一定需要拿到教师 logits,工程门槛较低,适合快速训练领域小模型。
4.2 Logit Distillation:信息更细,但成本更高
Logit Distillation 让学生对齐教师在每个 token 上的输出分布。它比只学习最终文本更细,因为学生能看到教师对很多候选 token 的偏好。但缺点是成本更高:需要访问教师 logits,训练和存储也更复杂。
4.3 Reasoning / Policy Distillation:大模型和 Agent 场景更常见
如果任务是数学、代码、复杂推理或 Agent 工具调用,只蒸馏最终答案可能不够。此时更需要蒸馏推理步骤、思维链、工具调用轨迹、状态转移和偏好策略,让学生不仅知道“答案是什么”,也知道“过程怎么走”。
5. 什么是弱-强蒸馏(Teacher-Student Distillation)?
5.1 先澄清一个容易混淆的说法
面试里有时会听到“弱-强蒸馏”“强弱蒸馏”“Teacher-Student Distillation”这些说法。严格来说,模型压缩和大模型小型化里最常见的是 Strong-to-Weak Distillation,也就是强模型做 Teacher,弱模型或小模型做 Student。
如果题目明确写 Teacher-Student,通常就按“强师弱生”来理解最稳:强教师提供更高质量的监督信号,学生模型学习后获得更强能力,同时保持低成本推理优势。
5.2 Teacher-Student 蒸馏的核心流程
第一步,选教师。教师可以是大模型、模型集成,或者经过完整后训练的强模型。第二步,构造任务数据,让教师在这些任务上生成监督信号。第三步,过滤和清洗教师输出,避免把错误知识传给学生。第四步,用学生模型学习教师输出。第五步,评估学生是否在目标场景里达到了“效果够用、成本更低”的目标。
6. 大模型蒸馏数据怎么构建?
6.1 数据质量决定蒸馏上限
很多人以为蒸馏就是让大模型生成一批答案,然后小模型照着学。实际上,这只是最粗糙的版本。高质量蒸馏数据至少要考虑任务覆盖、难度分布、领域比例、语言风格、格式规范和边界场景。
如果数据只覆盖简单问答,学生就很难学会复杂推理;如果数据只来自某一个领域,学生就容易偏科;如果教师输出里有错误、重复、风格漂移,学生也会照单全收。
6.2 蒸馏数据的典型构建流程
比较稳的流程是:先构建任务池,再让教师生成答案或 logits,然后做自动过滤和人工抽检,再进行样本平衡,最后送入学生训练。对于数学、代码等可验证任务,还可以用测试用例或标准答案做自动校验。
7. Qwen3 强弱蒸馏的流程是什么?
7.1 Qwen3 为什么需要强到弱蒸馏
Qwen3 系列包含不同规模的 Dense 和 MoE 模型。对于旗舰模型,可以走完整的后训练流程,包括长思维链冷启动、推理强化学习、思考模式融合和通用强化学习。但如果每个小模型都完整跑一遍类似流程,训练成本和开发成本都会非常高。
因此,Qwen3 技术报告里强调了 Strong-to-Weak Distillation:用大模型的知识提升轻量模型,目标是简化小模型后训练流程,同时让小模型也具备更好的思考 / 非思考模式控制能力。
7.2 可以把 Qwen3 强到弱蒸馏理解成“两阶段捷径”
第一阶段是 Off-policy Distillation。可以理解成学生先不自己探索,而是直接学习教师已经生成好的高质量输出。例如教师在 thinking 与 non-thinking 两种模式下生成样本,学生先通过这些样本学会基本能力和模式切换。
第二阶段是 On-policy Distillation。可以理解成学生开始在自己的输出分布上生成样本,然后再对齐教师模型给出的更细粒度信号,比如 logits 分布。这样做的好处是,训练数据更贴近学生自己真实会生成的轨迹,而不是完全依赖教师预生成样本。
7.3 为什么这个流程比直接给小模型做完整后训练更划算
对小模型来说,完整后训练非常贵,而且不一定稳定。强到弱蒸馏等于让大模型先走复杂训练路线,再把结果传给小模型。学生不用从零探索所有能力,而是沿着教师已经验证过的方向学习,因此更省 GPU、更省开发时间,也更容易得到稳定收益。
8. 蒸馏效果怎么评估?
8.1 不能只看“学生像不像老师”
蒸馏成功不等于学生完全复制老师。真正要看的是:学生是否比原来的小模型更强,是否明显比教师模型更快更便宜,是否在目标业务场景里稳定可用。
所以评估至少要看四类指标:质量、效率、稳定性和安全。质量包括准确率、Pass@1、代码通过率、人类偏好胜率;效率包括延时、吞吐、显存和单次成本;稳定性包括多轮一致性和格式遵循率;安全包括幻觉率、拒答边界和有害内容过滤。
9. 面试高频追问,建议这样回答
9.1 什么是知识蒸馏?核心思想是什么?
答:知识蒸馏就是用一个能力更强的教师模型指导一个更小的学生模型训练。学生不仅学习真实标签,还学习教师输出的软标签、logits、完整回答、推理过程或策略偏好,从而在更低成本下获得接近教师的能力。
9.2 什么是 Teacher-Student Distillation?
答:Teacher-Student 是最典型的蒸馏框架。Teacher 通常更大更强,Student 更小更快。Teacher 提供监督信号,Student 学习后用于低成本部署。
9.3 什么是强到弱蒸馏?和弱到强有什么区别?
答:强到弱蒸馏是强模型教弱模型,常用于模型压缩和小模型增强;弱到强则是另一类语境,可能指用弱监督或弱模型信号引导更强模型。面试里如果和 Teacher-Student 同时出现,通常按强到弱理解更稳。
9.4 Qwen3 强弱蒸馏流程怎么讲?
答:Qwen3 中,强到弱蒸馏用于优化轻量模型后训练。强教师模型先经过完整训练流程,学生模型再通过两阶段蒸馏获得能力:第一阶段 off-policy,学习教师预生成的 thinking / non-thinking 输出;第二阶段 on-policy,学生自己生成样本,再对齐教师 logits 或分布,让学生在自身轨迹上继续提升。
9.5 蒸馏有什么风险?
答:风险包括教师错误被学生继承、学生过拟合教师风格、数据覆盖不足导致泛化差、logit 蒸馏成本高、评估只看平均分忽视边界场景。工程上要通过数据过滤、任务覆盖、离线评测、线上反馈和安全校验来控制风险。
10. 总结:蒸馏的本质,是把“高成本能力”变成“低成本能力”
如果把这组题浓缩成一句话,那就是:知识蒸馏不是简单复制答案,而是让学生模型学习教师模型的概率分布、推理习惯、回答风格和策略偏好,从而用更小的模型获得更接近大模型的效果。
在传统深度学习里,蒸馏更多强调 soft labels 和 logits;在大模型时代,蒸馏扩展到了完整回答、思维链、工具轨迹、偏好策略和 on-policy 数据。Qwen3 强到弱蒸馏就是一个典型例子:强模型走完整训练路线,小模型通过 off-policy 和 on-policy 蒸馏快速继承能力。
真正高质量的面试回答,不是只说“教师模型教学生模型”,而是要讲清蒸馏信号是什么、数据怎么构建、训练怎么做、效果怎么评估、风险怎么控制。只要这条线讲顺,训练-蒸馏这组题就会显得非常扎实。
附:30 秒面试快答模板
“知识蒸馏就是用强教师模型指导小学生模型训练,让学生在更低成本下接近教师能力。学生不只学硬标签,还会学教师的软标签、logits、完整回答、推理过程或策略偏好。Teacher-Student 蒸馏通常是强到弱,用大模型提升小模型。Qwen3 的强到弱蒸馏用于轻量模型后训练,先通过 off-policy 学习教师在 thinking / non-thinking 模式下的输出,再通过 on-policy 让学生在自己的生成轨迹上对齐教师分布。评估时不能只看分数,还要看延时、成本、稳定性和安全。”