【10 道 RAG 高频面试题】从基础到高级，面试官最爱问的都在这-程序员充电站

【10 道 RAG 高频面试题】从基础到高级，面试官最爱问的都在这

写在前面（2026.05.04 首发）：RAG（检索增强生成）是 2024-2026 年 AI 工程领域最火热的技术方向之一，几乎所有大厂面试都会问。但很多人对 RAG 的理解停留在"向量检索 + 拼接 Prompt"的层面，面试官一追问底层原理就露馅。Chunk 怎么切才能不丢语义？Rerank 到底解决什么问题？Self-RAG 和 CRAG 有什么区别？Graph RAG 为什么比传统 RAG 强？生产级 RAG 系统怎么做评估？
这篇文章整理了10 道最高频的 RAG 面试题，每道题都配有标准答案、加分点和避坑指南。
我之前写过上下文工程、Skill 本质是上下文工程、RAG 依旧是最适合 Agent 落地的、大模型蒸馏详解——这篇文章聚焦面试场景，帮你把 RAG 从"会用"提升到"能讲清楚"。

📑 文章目录

📌 Q1：什么是 RAG？它解决了大模型的哪些痛点？
📌 Q2：RAG 和微调（Fine-tuning）有什么区别？什么时候用哪个？
📌 Q3：RAG 的完整工作流程是什么？
📌 Q4：Chunk 策略怎么选？不同策略的 trade-off 是什么？
📌 Q5：如何提升 RAG 的检索准确率？
📌 Q6：如何评估 RAG 系统的质量？
📌 Q7：RAG 常见问题有哪些？怎么解决？
📌 Q8：Self-RAG 和 CRAG 是什么？和传统 RAG 有什么区别？
📌 Q9：Graph RAG 和传统 RAG 有什么区别？
📌 Q10：如何构建生产级 RAG 系统？
🎁 总结速查卡

📌 Q1：什么是 RAG？它解决了大模型的哪些痛点？

标准答案

RAG 全称Retrieval-Augmented Generation（检索增强生成），是一种将"检索"与"生成"相结合的 AI 架构。它的核心流程是：在让大模型生成答案之前，先从外部知识库中检索相关信息，然后把检索到的内容和问题一起提供给大模型，让它基于真实资料来生成回答。

RAG 解决了大模型的三大核心痛点：

痛点一：知识时效性问题。大模型的训练数据有明确的截止日期，无法回答之后发生的新事件。比如 GPT-4 的训练数据截止到 2023 年，它不可能知道 2025 年的产品价格或 2026 年的政策变化。RAG 通过检索外部知识库，为模型提供"实时"的知识补充，使得模型可以回答训练数据之外的问题。这种增量更新知识的方式，比重新训练模型成本低几个数量级。

痛点二：幻觉问题。大模型容易"一本正经地胡说八道"，生成看似合理但实际错误的内容。这在企业应用中是致命的——一个法律咨询系统如果给出错误的法律条文，后果不堪设想。RAG 通过检索真实资料，让答案有依据、可溯源，强制模型的回答基于检索到的事实，从而大幅降低幻觉率。实验数据显示，引入 RAG 后幻觉率可以从 30% 以上降低到 5% 以下。

痛点三：私有数据访问问题。企业内部的文档、客户数据、商业机密无法被公开的大模型直接访问——既因为训练数据不包含这些信息，也因为企业不允许将私有数据发送到第三方 API。RAG 可以安全地连接私有数据源，数据始终存储在企业内部，只在推理时检索相关片段提供给模型，实现定制化问答的同时保障数据安全。

加分点

能说出 RAG 的演进历程：Naive RAG → Advanced RAG（引入 Rerank、Query Rewrite）→ Modular RAG → Graph RAG → Agentic RAG。这表明你不只知道 RAG 是什么，还了解它的发展脉络和未来方向。

避坑提示

不要只回答"检索 + 生成"四个字。面试官要的是深度——需要解释清楚检索什么、怎么检索、为什么能解决幻觉。很多候选人只说了 RAG 的定义，但无法解释为什么检索外部知识就能减少幻觉，这会让面试官觉得你只是背了概念，没有真正理解。

📌 Q2：RAG 和微调（Fine-tuning）有什么区别？什么时候用哪个？

标准答案

RAG 和 SFT 是两条完全不同的技术路线，核心区别在于知识存储的位置：

对比维度	RAG	微调（SFT）
原理	模型参数不动，知识存外部，推理时检索	用标注数据训练，让模型"记住"知识
知识更新	更新知识库即可，无需重训练	重新训练，成本高（几天 + 多张 GPU）
幻觉控制	答案来源于真实文档，可追溯	模型"凭记忆"回答，难以追溯
延迟	多一次检索，延迟较高	推理直接，延迟低
成本	低（无需训练）	高（需要训练）
私有数据	数据不出企业，安全可控	训练数据需上传，有泄露风险
风格适配	不改变模型风格	可以改变模型风格和语气

选型建议：

优先用 RAG 的场景：知识频繁更新（新闻、股价、政策）、需要引用来源（法律、医疗、金融）、私有数据访问（企业知识库）、幻觉零容忍（合规场景）。这些场景的共同特点是：知识的准确性和可追溯性比推理速度更重要。

优先用微调的场景：需要改变模型风格（品牌语气、特定写作风格）、领域适配（医学问答的特定格式）、特定任务优化（代码生成、SQL 生成）。这些场景的共同特点是：你需要模型"内化"某种能力，而不仅仅是"查到"某种知识。

最佳实践：RAG + 微调组合。先用微调让模型适配领域风格和任务格式，再用 RAG 提供实时知识。很多生产系统都是这种组合方案——微调解决"怎么答"，RAG 解决"答什么"。

加分点

能说出知识的三种注入方式：In-Context Learning（上下文学习）、RAG（检索增强）、Fine-tuning（微调），并解释它们的成本-效果 trade-off。In-Context 最灵活但 Token 消耗大，RAG 平衡了灵活性和成本，微调成本最高但推理最快。

避坑提示

不要说"RAG 一定比微调好"或"微调一定比 RAG 好"。面试官想看的是你能否根据具体场景做 trade-off，而不是非黑即白的判断。

📌 Q3：RAG 的完整工作流程是什么？

标准答案

RAG 的工作流程分为两个阶段：索引阶段（离线）和检索生成阶段（在线）。

索引阶段（离线）：

文档加载：从 PDF、Word、Markdown、HTML 等格式加载原始文档。不同格式的解析质量直接影响后续效果，PDF 的表格和图片提取是常见难点。
文本分块（Chunking）：将长文档切分为适当大小的片段。Chunk 太大会引入噪声，太小会丢失上下文。通常选择 512-1024 tokens，Overlap 10-20%。
向量化（Embedding）：使用 Embedding 模型将每个 Chunk 转换为向量表示。模型选择直接影响检索质量，常用 BGE、GTE、text-embedding-3-large 等。
向量存储：将向量存入向量数据库（Milvus、Qdrant、Chroma、Weaviate 等）。同时存储元数据（来源、权限、时间戳）用于后续过滤。
元数据索引：建立来源、权限、时间戳等元数据索引，支持混合检索时的精确过滤。

检索生成阶段（在线）：

Query 处理：对用户查询进行预处理，包括 Query Rewrite（查询重写）、HyDE（假设文档嵌入）、Query Expansion（查询扩展）等。目的是将口语化的、模糊的用户查询转化为更适合检索的形式。
向量检索：将处理后的 Query 向量化，在向量数据库中检索 Top-K 最相似的 Chunk。通常 K=10-20，为后续 Rerank 留出余量。
Rerank（重排序）：使用 Cross-Encoder 模型对 Top-K 结果进行精排，选出最相关的 Top-5。Bi-Encoder 粗排 + Cross-Encoder 精排是业界标准做法。
Prompt 构建：将检索到的 Chunk 和用户问题组装成 Prompt。关键是要控制上下文长度、标注来源、设定回答约束（“只基于提供的资料回答”）。
LLM 生成：将构建好的 Prompt 发送给大模型，生成最终答案。生成时可以要求模型引用来源，提高可追溯性。

加分点

能说出每个步骤的trade-off：Chunk 大小的权衡、Embedding 模型的选择依据、Top-K 的 K 值如何确定、Rerank 的计算成本等。面试官最怕只会背流程但不理解背后设计决策的人。

避坑提示

不要只画流程图不解释。面试官想听的是你对每一步的理解，而不是你能不能背出五个步骤。重点讲清楚"为什么这样设计"和"每步的 trade-off 是什么"。

📌 Q4：Chunk 策略怎么选？不同策略的 trade-off 是什么？

标准答案

Chunk 策略是 RAG 效果的基础，选错了后面所有优化都白搭。常见的四种策略：

策略一：固定长度切分（Fixed Size）。按字符数或 Token 数切分，最简单最通用。通常 Chunk Size=512_{1024，Overlap=100}200。优点是实现简单、通用性强；缺点是可能在句子中间截断，破坏语义完整性。适合快速原型和通用场景。

策略二：递归字符分割（Recursive Splitting）。按分隔符优先级逐级切分：先按段落（\n\n），再按句子（\n），再按词。这是 LangChain 的默认策略，也是推荐的默认选择。优点是尽量保持语义完整性；缺点是对于没有明确分隔符的文本效果一般。

策略三：语义分割（Semantic Chunking）。基于 Embedding 相似度检测语义边界，在语义变化处切分。质量最高但计算成本也最高，需要额外调用 Embedding 模型。适合对检索质量要求极高的场景，如法律、医疗。

策略四：Parent-Child 分块。小 Chunk（如 128 tokens）用于检索，大 Chunk（如 1024 tokens）用于生成。检索时用小 Chunk 保证精度，生成时用大 Chunk 保证上下文完整。这是目前长文档问答的最佳实践，但实现复杂度较高。

选择建议：

场景	推荐策略	Chunk Size	Overlap
通用问答	递归分割	512-1024	10-20%
长文档问答	Parent-Child	检索128/生成1024	15%
高精度场景	语义分割	自适应	自适应
快速原型	固定长度	512	100

加分点

能说出Chunk Size 的 trade-off：大 Chunk 保留更多上下文但引入噪声、增加 Token 消耗；小 Chunk 检索精度高但可能丢失上下文。以及Overlap 的作用：防止关键信息被切分到两个 Chunk 的边界处而丢失。

避坑提示

不要只说"用 LangChain 的 RecursiveCharacterTextSplitter"。面试官想知道你理解不同策略的原理和适用场景，而不是你会调 API。

📌 Q5：如何提升 RAG 的检索准确率？

标准答案

这是面试中最常被追问的问题，至少要说出 3 种方法，5 种以上加分：

方法一：混合检索（Hybrid Search）。BM25 关键词检索 + 向量语义检索，取并集后融合排序。BM25 擅长精确匹配（人名、产品编号、专业术语），向量检索擅长语义匹配（“如何提升销量” ≈ “增长策略”）。混合检索可以将召回率从纯向量的 65% 提升到 82% 以上，是最基础也是最有效的优化手段。权重通常设为 0.5/0.5，但可以根据数据特性调整。

方法二：查询重写（Query Rewrite）。将口语化的用户查询转化为更适合检索的形式。例如"苹果股价"重写为"Apple Inc. 最新股票价格"，补全隐含信息。还可以做 Query Expansion，将一个查询扩展为多个子查询，分别检索后合并结果。查询重写可以显著提升短查询和模糊查询的检索效果。

方法三：重排序（Rerank）。先用 Bi-Encoder（双塔模型）做粗排取 Top-20，再用 Cross-Encoder（交叉编码器）做精排取 Top-5。Cross-Encoder 同时编码 Query 和 Document，能捕捉更细粒度的相关性信号，精度远高于 Bi-Encoder，但计算成本也高 10-100 倍。所以采用"粗排 + 精排"的两阶段策略，在精度和成本之间取得平衡。Rerank 是检索精度提升最显著的单项优化。

方法四：HyDE（Hypothetical Document Embedding）。先让 LLM 根据用户查询生成一个"假设答案"，然后用这个假设答案的 Embedding 去检索。假设答案比原始查询更接近目标文档的语义空间，因此检索效果更好。特别适合短查询和跨语言场景。缺点是增加了一次 LLM 调用，延迟和成本增加。

方法五：多路召回（Multi-Channel Retrieval）。关键词 + 向量 + 知识图谱三路并行检索，融合去重后 Rerank。知识图谱可以提供实体关系和结构化信息，弥补纯文本检索的不足。召回最全面，但实现复杂度最高。

方法六：自适应检索（Self-RAG / CRAG）。评估检索结果的质量，质量差时自动触发重写或重检。这是 2025-2026 年的前沿方向，详见 Q8。

加分点

能说出优化优先级：混合检索 > Rerank > 查询重写 > HyDE > 多路召回 > 自适应检索。前两项是性价比最高的优化，建议优先实施。

避坑提示

不要只列举方法名，要能解释每种方法的原理和适用场景。面试官可能会追问：“为什么混合检索比纯向量好？能举个纯向量检索失败的例子吗？”

📌 Q6：如何评估 RAG 系统的质量？

标准答案

RAG 评估是面试中的高频考点，也是生产系统最容易被忽视的环节。评估分三个维度：

维度一：检索阶段指标

Recall@K：Top-K 检索结果中包含正确答案的比例。这是最核心的检索指标，目标 > 90%。如果 Recall 不够，后面生成再好也没用——巧妇难为无米之炊。
MRR（Mean Reciprocal Rank）：正确答案在检索结果中的排位的倒数均值。MRR=1.0 表示正确答案总是排第一。
NDCG（Normalized Discounted Cumulative Gain）：考虑排序位置的相关性指标，排在前面的相关文档贡献更大。
Precision@K：Top-K 中相关文档的比例。

维度二：生成阶段指标（RAG Triad）

这是Ragas 框架提出的三个核心指标，用"LLM 监考"自动评分：

Faithfulness（忠实度）：生成答案是否忠实于检索到的上下文，有没有"编造"上下文中没有的信息。这是最关键的指标，目标 > 95%。低忠实度 = 幻觉。
Answer Relevancy（答案相关性）：生成答案是否真正回答了用户的问题，而不是答非所问。
Context Recall（上下文召回率）：检索到的上下文是否包含了回答问题所需的所有信息。低 Context Recall = 检索不全。

维度三：端到端指标

任务完成率：用户问题被正确解决的比例，目标 > 85%。
二次查询率：用户需要追问的比例，越低越好。
答案正确性：人工标注评估，最准确但成本最高。

加分点

能说出Ragas 的"LLM 监考"机制：用另一个 LLM 来评估生成答案的质量，自动生成评分，无需大量人工标注。这是 2025-2026 年 RAG 评估的主流方法。同时能说出Faithfulness 是最关键指标——因为幻觉是 RAG 系统最大的风险。

避坑提示

不要只说"用 Ragas 评估"。面试官想知道你理解每个指标的含义和目标值，以及为什么 Faithfulness 最重要。

📌 Q7：RAG 常见问题有哪些？怎么解决？

标准答案

RAG 在实际应用中会遇到五大类问题，每类都有对应的解决方案：

问题一：检索不到相关内容（低召回率）

原因分析：Query 表达与文档表述差异大、Embedding 模型不够好、Chunk 切分不合理、知识库覆盖不全。解决方案：查询重写（Query Rewrite）补全隐含信息、混合检索（BM25 + 向量）互补、升级 Embedding 模型（BGE-M3、GTE-large）、优化 Chunk 策略、补充知识库覆盖面。其中混合检索是性价比最高的解决方案，通常能将召回率提升 15-20 个百分点。

问题二：检索到但不相关（低精确率）

原因分析：向量检索的"语义漂移"、Top-K 太大引入噪声、缺乏 Rerank。解决方案：引入 Rerank（Cross-Encoder 精排）、降低 Top-K 值、设置相似度阈值过滤、元数据过滤（按来源/时间/权限）。Rerank 是解决低精确率最有效的方法，通常能将精确率提升 20-30 个百分点。

问题三：检索到了但生成时幻觉（低忠实度）

原因分析：Prompt 没有约束"只基于提供的资料回答"、检索结果太多模型"注意力分散"、模型本身幻觉倾向。解决方案：Prompt 加约束（“只基于以下资料回答，如果资料中没有相关信息，请回答’我没有找到相关信息’”）、减少检索结果数量（Top-5 而非 Top-20）、使用 Faithfulness 评估持续监控、选择幻觉率低的模型。

问题四：多跳推理失败（需要综合多个文档）

原因分析：传统 RAG 是单轮检索，无法处理需要跨文档推理的问题。例如"公司 A 和公司 B 哪个市值更高？"需要分别检索两家公司信息再比较。解决方案：Agentic RAG（多轮检索 + 推理）、Graph RAG（知识图谱多跳推理）、Query Decomposition（问题分解为子问题分别检索）。这是 2025-2026 年 RAG 领域最活跃的研究方向。

问题五：知识库更新延迟

原因分析：新文档入库后需要重新 Embedding 和索引，有延迟。解决方案：增量索引（只处理新增文档）、异步索引管道、实时 Embedding 缓存、文档变更监听自动触发索引更新。生产系统中索引更新延迟通常控制在 5 分钟以内。

加分点

能说出问题优先级：低召回率 > 低忠实度 > 低精确率 > 多跳推理 > 更新延迟。召回率是基础，忠实度是底线，精确率是优化，多跳是进阶。

避坑提示

不要只说问题不说解决方案。面试官想看的是你能否定位问题根因并给出可行的解决方案，而不是只会抱怨"RAG 效果不好"。

📌 Q8：Self-RAG 和 CRAG 是什么？和传统 RAG 有什么区别？

标准答案

Self-RAG 和 CRAG 是 2024-2025 年提出的两种"自我纠正"RAG 机制，核心思想是让模型自己评估检索和生成的质量，并在必要时进行纠正。

Self-RAG（Self-Reflective RAG）

Self-RAG 由 Asai 等人在 2023 年提出，核心创新是引入了三种"反思 Token"：

Retrieve Token：模型自己决定是否需要检索。对于"你好"这类闲聊问题，不需要检索，直接回答即可；对于事实性问题，才触发检索。这避免了不必要的检索开销和噪声引入。
IsRel Token（Is Relevant）：评估检索结果是否与问题相关。如果检索到的内容不相关，模型可以拒绝使用这些内容，避免被误导。
IsSup Token（Is Supported）：评估生成答案是否被检索到的内容所支持。如果答案无法被检索内容支撑，模型会重新生成或标注"不确定"。

Self-RAG 的流程是：问题 → 是否检索？→ 检索 → 结果相关？→ 生成 → 答案有支撑？→ 输出。每一步都有"自我检查"环节，形成闭环。这种机制使得 RAG 系统从"盲目检索"进化为"有判断力的检索"。

CRAG（Corrective RAG）

CRAG 由 Yan 等人在 2024 年提出，核心创新是引入了检索质量评估器和纠正机制：

检索质量评估：用一个小模型评估检索结果的相关性得分。如果得分高（> 阈值），直接使用；如果得分低（< 阈值），触发纠正。
纠正策略：当检索质量差时，CRAG 不会直接放弃，而是尝试Web Search作为补充检索源。这相当于给 RAG 系统加了一个"兜底方案"——内部知识库检索不到，就去互联网上找。
知识精炼：对检索到的文档进行"去噪"，只保留与问题最相关的部分，减少噪声干扰。

CRAG 的流程是：检索 → 质量评估 → 好？直接用 / 差？Web Search 补充 → 知识精炼 → 生成。关键区别在于它有一个外部纠正通道（Web Search），而 Self-RAG 的纠正更多是内部反思。

两者对比：

维度	Self-RAG	CRAG
纠正方式	内部反思（反思Token）	外部纠正（Web Search）
需要特殊训练	是（反思Token需训练）	否（即插即用）
适用场景	高精度、低延迟	高可靠性、可容忍延迟
实现难度	高（需训练反思能力）	中（需接入搜索API）

加分点

能说出共同本质：两者都是让 RAG 从"开环"变成"闭环"——传统 RAG 是"检索 → 生成"的单向流程，Self-RAG 和 CRAG 都加入了"评估 → 纠正"的反馈环。这和上下文工程中"遗忘与回忆"的哲学一脉相承：不是所有信息都值得加载，需要评估和筛选。

避坑提示

不要把 Self-RAG 和 CRAG 混为一谈。面试官想看的是你能否区分两者的纠正机制——内部反思 vs 外部纠正，以及各自的适用场景。

📌 Q9：Graph RAG 和传统 RAG 有什么区别？

标准答案

Graph RAG 是 2024-2025 年微软提出的一种新型 RAG 架构，核心区别在于知识表示方式：传统 RAG 用向量存储文本片段，Graph RAG 用知识图谱存储实体和关系。

传统 RAG 的局限：

传统 RAG 基于"文本片段 + 向量相似度"的检索模式，在处理需要多跳推理的问题时力不从心。例如："公司 A 的 CEO 之前在哪家公司工作？那家公司的市值是多少？"这需要两步推理——先找到 CEO 的前任公司，再查那家公司的市值。传统 RAG 可能检索到包含"公司 A 的 CEO"的片段，但很难同时检索到"前任公司"和"市值"的信息，因为这些信息可能分散在不同文档中。

Graph RAG 的核心创新：

知识图谱构建：从文档中抽取实体（人、组织、产品）和关系（就职于、收购了、市值），构建知识图谱。每个实体是节点，关系是边。
社区检测：对知识图谱做社区检测（如 Leiden 算法），将相关实体聚类成"社区"，每个社区生成一个摘要。
多跳检索：查询时，先定位相关实体，然后沿图谱边"跳转"到关联实体，实现多跳推理。例如从"公司 A 的 CEO"跳转到"前任公司"再跳转到"市值"。
全局摘要：社区摘要提供了文档的"高层视图"，适合回答需要全局理解的问题（“这篇报告的主要发现是什么？”）。

Graph RAG vs 传统 RAG 对比：

维度	传统 RAG	Graph RAG
知识表示	文本片段 + 向量	实体 + 关系 + 图谱
检索方式	向量相似度	图遍历 + 语义匹配
多跳推理	弱（需多轮检索）	强（天然支持）
全局理解	弱（只有局部片段）	强（社区摘要）
构建成本	低（只需 Embedding）	高（需实体抽取 + 图谱构建）
更新成本	低（增量 Embedding）	高（需更新图谱）
适用场景	事实性问答	关系推理 + 全局分析

什么时候该用 Graph RAG？

知识之间有丰富的实体关系（人物关系、组织架构、供应链）
需要多跳推理（“A 的 B 的 C 是什么？”）
需要全局理解（“这篇报告的核心观点是什么？”）
愿意承担更高的构建和维护成本

什么时候该用传统 RAG？

知识以独立文档为主，关系不复杂
主要是事实性问答
需要快速上线、低成本维护
知识库更新频繁

加分点

能说出Graph RAG 的最佳实践：传统 RAG + Graph RAG 混合方案。用传统 RAG 处理事实性问答，用 Graph RAG 处理关系推理，两者互补。很多生产系统已经采用这种混合架构。

避坑提示

不要说"Graph RAG 一定比传统 RAG 好"。Graph RAG 的构建成本远高于传统 RAG，只有在确实需要多跳推理和全局理解时才值得投入。

📌 Q10：如何构建生产级 RAG 系统？

标准答案

从 Demo 到生产级 RAG 系统，差距巨大。以下是生产级 RAG 系统必须考虑的 8 个维度：

1. 检索质量保障

生产系统的检索质量必须有量化指标和持续监控。建立三层评估体系：离线评估（标注测试集，计算 Recall/MRR）、在线评估（采样用户查询，自动评分 Faithfulness）、人工评估（定期抽检）。核心指标：Recall@10 > 90%、Faithfulness > 95%、Answer Relevancy > 90%。任何低于阈值的 case 都要进入 Bad Case 分析流程。

2. 幻觉防控

生产系统对幻觉零容忍。四道防线：Prompt 约束（“只基于提供的资料回答”）、Faithfulness 自动评估（低于阈值自动拦截）、来源引用（要求模型标注答案来源）、人工审核（高风险领域）。其中 Faithfulness 自动评估是最关键的——它可以在用户看到答案之前就拦截潜在的幻觉回答。

3. 权限控制

企业数据有权限边界，不同用户能看到的知识不同。实现方式：检索时按用户角色过滤（元数据过滤）、文档级别权限标签、查询时注入用户身份信息。权限过滤的准确率必须 > 99%，否则就是数据泄露。

4. 性能优化

生产系统的延迟和吞吐量有硬性要求。关键指标：P99 检索延迟 < 500ms、端到端延迟 < 3s、并发支持 > 100 QPS。优化手段：Embedding 缓存、Rerank 模型蒸馏（小模型精排）、异步检索管道、向量数据库分片。

5. 知识库管理

知识库不是建好就完事的，需要持续维护。包括：增量索引（新文档自动入库）、过期清理（旧文档自动下架）、质量巡检（定期检查 Embedding 质量）、版本管理（知识库回滚能力）。索引更新延迟控制在 5 分钟以内。

6. 可观测性

生产系统必须有完善的监控和告警。监控指标：检索延迟、检索质量、生成延迟、Faithfulness 分布、用户满意度。告警规则：Faithfulness < 90% 触发 P1 告警、检索延迟 > 1s 触发 P2 告警、Bad Case 率 > 5% 触发 P1 告警。

7. 降级策略

当 RAG 系统出现问题时，需要有降级方案。三级降级：一级降级（关闭 Rerank，降低延迟）、二级降级（切换到备选 Embedding 模型）、三级降级（关闭 RAG，直接用 LLM 回答 + 免责声明）。降级策略确保系统在极端情况下仍然可用。

8. 持续优化

RAG 系统不是一锤子买卖，需要持续迭代。建立反馈闭环：用户反馈 → Bad Case 分析 → 问题定位 → 优化方案 → A/B 测试 → 灰度发布。每季度做一次全面评估，对比核心指标趋势，确保系统持续改进而非退化。

加分点

能说出生产级 RAG 的成本估算：向量数据库（Milvus 集群 ~$500-2000/月）、Embedding 服务（~$0.1/1M tokens）、Rerank 服务（~$0.5/1M tokens）、LLM 推理（~$2-10/1M tokens）、工程人力（4-20 万美元初期投入）。以及最常见的生产事故：权限过滤遗漏导致数据泄露、Faithfulness 下降未及时发现、知识库更新后 Embedding 质量退化。

避坑提示

不要只说技术方案，要能说出工程考量：成本、可观测性、降级策略、持续优化。面试官想看的是你能否从"Demo 思维"切换到"生产思维"。

🎁 总结速查卡

10 道题核心答案速查

题号	问题	核心答案关键词
Q1	RAG 是什么？	检索+生成 / 知识时效 / 幻觉 / 私有数据
Q2	RAG vs 微调？	知识存外部 vs 内化 / 更新成本 / 幻觉控制 / 组合使用
Q3	完整流程？	索引阶段(5步) + 检索生成阶段(5步)
Q4	Chunk 策略？	固定/递归/语义/Parent-Child / trade-off
Q5	提升检索准确率？	混合检索/Rerank/查询重写/HyDE/多路召回/自适应
Q6	评估质量？	检索指标(Recall/MRR) + RAG Triad(Faithfulness!) + 端到端
Q7	常见问题？	低召回/低精确/幻觉/多跳/更新延迟
Q8	Self-RAG/CRAG？	反思Token vs Web纠正 / 开环→闭环
Q9	Graph RAG？	知识图谱/多跳推理/全局摘要 / 混合方案
Q10	生产级 RAG？	8维度：质量/幻觉/权限/性能/管理/观测/降级/迭代

面试答题框架

每道题按这个框架回答，逻辑清晰不丢分：

一句话定义：先给出最精炼的核心答案
展开解释：说清楚原理、流程、对比
举具体例子：用实际场景说明，避免纯理论
说 trade-off：没有银弹，每种方案都有取舍
给选择建议：根据场景给出明确推荐

优化优先级

混合检索 > Rerank > 查询重写 > HyDE > 多路召回 > 自适应检索

核心指标目标值

Recall@10 > 90% | Faithfulness > 95% | P99 < 500ms | 权限准确率 > 99%

系列文章：

深入浅出上下文工程：比 Prompt Engineering 更重要的下一代 AI 工程范式
Skill 本质还是上下文工程
RAG 已死？依旧是最适合 Agent 项目落地的
大模型蒸馏详解
Claude Code 到底强在哪？

参考链接：

RAG大厂面试题汇总：向量检索、混合检索、Rerank (知乎)
RAG夺命10连问 (博客园)
RAG面试通关秘籍：15个核心问题深度解析 (CSDN)
Self-RAG: Learning to Retrieve, Generate, and Critique through Self-Reflection (论文)
Corrective RAG (CRAG) (论文)
From Local to Global: A Graph RAG Approach to Query-Focused Summarization (微软)