【10 道 RAG 高频面试题】从基础到高级,面试官最爱问的都在这
写在前面(2026.05.04 首发):RAG(检索增强生成)是 2024-2026 年 AI 工程领域最火热的技术方向之一,几乎所有大厂面试都会问。但很多人对 RAG 的理解停留在"向量检索 + 拼接 Prompt"的层面,面试官一追问底层原理就露馅。Chunk 怎么切才能不丢语义?Rerank 到底解决什么问题?Self-RAG 和 CRAG 有什么区别?Graph RAG 为什么比传统 RAG 强?生产级 RAG 系统怎么做评估?
这篇文章整理了10 道最高频的 RAG 面试题,每道题都配有标准答案、加分点和避坑指南。
我之前写过上下文工程、Skill 本质是上下文工程、RAG 依旧是最适合 Agent 落地的、大模型蒸馏详解——这篇文章聚焦面试场景,帮你把 RAG 从"会用"提升到"能讲清楚"。
📑 文章目录
- 📌 Q1:什么是 RAG?它解决了大模型的哪些痛点?
- 📌 Q2:RAG 和微调(Fine-tuning)有什么区别?什么时候用哪个?
- 📌 Q3:RAG 的完整工作流程是什么?
- 📌 Q4:Chunk 策略怎么选?不同策略的 trade-off 是什么?
- 📌 Q5:如何提升 RAG 的检索准确率?
- 📌 Q6:如何评估 RAG 系统的质量?
- 📌 Q7:RAG 常见问题有哪些?怎么解决?
- 📌 Q8:Self-RAG 和 CRAG 是什么?和传统 RAG 有什么区别?
- 📌 Q9:Graph RAG 和传统 RAG 有什么区别?
- 📌 Q10:如何构建生产级 RAG 系统?
- 🎁 总结速查卡
📌 Q1:什么是 RAG?它解决了大模型的哪些痛点?
标准答案
RAG 全称Retrieval-Augmented Generation(检索增强生成),是一种将"检索"与"生成"相结合的 AI 架构。它的核心流程是:在让大模型生成答案之前,先从外部知识库中检索相关信息,然后把检索到的内容和问题一起提供给大模型,让它基于真实资料来生成回答。
RAG 解决了大模型的三大核心痛点:
痛点一:知识时效性问题。大模型的训练数据有明确的截止日期,无法回答之后发生的新事件。比如 GPT-4 的训练数据截止到 2023 年,它不可能知道 2025 年的产品价格或 2026 年的政策变化。RAG 通过检索外部知识库,为模型提供"实时"的知识补充,使得模型可以回答训练数据之外的问题。这种增量更新知识的方式,比重新训练模型成本低几个数量级。
痛点二:幻觉问题。大模型容易"一本正经地胡说八道",生成看似合理但实际错误的内容。这在企业应用中是致命的——一个法律咨询系统如果给出错误的法律条文,后果不堪设想。RAG 通过检索真实资料,让答案有依据、可溯源,强制模型的回答基于检索到的事实,从而大幅降低幻觉率。实验数据显示,引入 RAG 后幻觉率可以从 30% 以上降低到 5% 以下。
痛点三:私有数据访问问题。企业内部的文档、客户数据、商业机密无法被公开的大模型直接访问——既因为训练数据不包含这些信息,也因为企业不允许将私有数据发送到第三方 API。RAG 可以安全地连接私有数据源,数据始终存储在企业内部,只在推理时检索相关片段提供给模型,实现定制化问答的同时保障数据安全。
加分点
能说出 RAG 的演进历程:Naive RAG → Advanced RAG(引入 Rerank、Query Rewrite)→ Modular RAG → Graph RAG → Agentic RAG。这表明你不只知道 RAG 是什么,还了解它的发展脉络和未来方向。
避坑提示
不要只回答"检索 + 生成"四个字。面试官要的是深度——需要解释清楚检索什么、怎么检索、为什么能解决幻觉。很多候选人只说了 RAG 的定义,但无法解释为什么检索外部知识就能减少幻觉,这会让面试官觉得你只是背了概念,没有真正理解。
📌 Q2:RAG 和微调(Fine-tuning)有什么区别?什么时候用哪个?
标准答案
RAG 和 SFT 是两条完全不同的技术路线,核心区别在于知识存储的位置:
| 对比维度 | RAG | 微调(SFT) |
|---|---|---|
| 原理 | 模型参数不动,知识存外部,推理时检索 | 用标注数据训练,让模型"记住"知识 |
| 知识更新 | 更新知识库即可,无需重训练 | 重新训练,成本高(几天 + 多张 GPU) |
| 幻觉控制 | 答案来源于真实文档,可追溯 | 模型"凭记忆"回答,难以追溯 |
| 延迟 | 多一次检索,延迟较高 | 推理直接,延迟低 |
| 成本 | 低(无需训练) | 高(需要训练) |
| 私有数据 | 数据不出企业,安全可控 | 训练数据需上传,有泄露风险 |
| 风格适配 | 不改变模型风格 | 可以改变模型风格和语气 |
选型建议:
优先用 RAG 的场景:知识频繁更新(新闻、股价、政策)、需要引用来源(法律、医疗、金融)、私有数据访问(企业知识库)、幻觉零容忍(合规场景)。这些场景的共同特点是:知识的准确性和可追溯性比推理速度更重要。
优先用微调的场景:需要改变模型风格(品牌语气、特定写作风格)、领域适配(医学问答的特定格式)、特定任务优化(代码生成、SQL 生成)。这些场景的共同特点是:你需要模型"内化"某种能力,而不仅仅是"查到"某种知识。
最佳实践:RAG + 微调组合。先用微调让模型适配领域风格和任务格式,再用 RAG 提供实时知识。很多生产系统都是这种组合方案——微调解决"怎么答",RAG 解决"答什么"。
加分点
能说出知识的三种注入方式:In-Context Learning(上下文学习)、RAG(检索增强)、Fine-tuning(微调),并解释它们的成本-效果 trade-off。In-Context 最灵活但 Token 消耗大,RAG 平衡了灵活性和成本,微调成本最高但推理最快。
避坑提示
不要说"RAG 一定比微调好"或"微调一定比 RAG 好"。面试官想看的是你能否根据具体场景做 trade-off,而不是非黑即白的判断。
📌 Q3:RAG 的完整工作流程是什么?
标准答案
RAG 的工作流程分为两个阶段:索引阶段(离线)和检索生成阶段(在线)。
索引阶段(离线):
- 文档加载:从 PDF、Word、Markdown、HTML 等格式加载原始文档。不同格式的解析质量直接影响后续效果,PDF 的表格和图片提取是常见难点。
- 文本分块(Chunking):将长文档切分为适当大小的片段。Chunk 太大会引入噪声,太小会丢失上下文。通常选择 512-1024 tokens,Overlap 10-20%。
- 向量化(Embedding):使用 Embedding 模型将每个 Chunk 转换为向量表示。模型选择直接影响检索质量,常用 BGE、GTE、text-embedding-3-large 等。
- 向量存储:将向量存入向量数据库(Milvus、Qdrant、Chroma、Weaviate 等)。同时存储元数据(来源、权限、时间戳)用于后续过滤。
- 元数据索引:建立来源、权限、时间戳等元数据索引,支持混合检索时的精确过滤。
检索生成阶段(在线):
- Query 处理:对用户查询进行预处理,包括 Query Rewrite(查询重写)、HyDE(假设文档嵌入)、Query Expansion(查询扩展)等。目的是将口语化的、模糊的用户查询转化为更适合检索的形式。
- 向量检索:将处理后的 Query 向量化,在向量数据库中检索 Top-K 最相似的 Chunk。通常 K=10-20,为后续 Rerank 留出余量。
- Rerank(重排序):使用 Cross-Encoder 模型对 Top-K 结果进行精排,选出最相关的 Top-5。Bi-Encoder 粗排 + Cross-Encoder 精排是业界标准做法。
- Prompt 构建:将检索到的 Chunk 和用户问题组装成 Prompt。关键是要控制上下文长度、标注来源、设定回答约束(“只基于提供的资料回答”)。
- LLM 生成:将构建好的 Prompt 发送给大模型,生成最终答案。生成时可以要求模型引用来源,提高可追溯性。
加分点
能说出每个步骤的trade-off:Chunk 大小的权衡、Embedding 模型的选择依据、Top-K 的 K 值如何确定、Rerank 的计算成本等。面试官最怕只会背流程但不理解背后设计决策的人。
避坑提示
不要只画流程图不解释。面试官想听的是你对每一步的理解,而不是你能不能背出五个步骤。重点讲清楚"为什么这样设计"和"每步的 trade-off 是什么"。
📌 Q4:Chunk 策略怎么选?不同策略的 trade-off 是什么?
标准答案
Chunk 策略是 RAG 效果的基础,选错了后面所有优化都白搭。常见的四种策略:
策略一:固定长度切分(Fixed Size)。按字符数或 Token 数切分,最简单最通用。通常 Chunk Size=5121024,Overlap=100200。优点是实现简单、通用性强;缺点是可能在句子中间截断,破坏语义完整性。适合快速原型和通用场景。
策略二:递归字符分割(Recursive Splitting)。按分隔符优先级逐级切分:先按段落(\n\n),再按句子(\n),再按词。这是 LangChain 的默认策略,也是推荐的默认选择。优点是尽量保持语义完整性;缺点是对于没有明确分隔符的文本效果一般。
策略三:语义分割(Semantic Chunking)。基于 Embedding 相似度检测语义边界,在语义变化处切分。质量最高但计算成本也最高,需要额外调用 Embedding 模型。适合对检索质量要求极高的场景,如法律、医疗。
策略四:Parent-Child 分块。小 Chunk(如 128 tokens)用于检索,大 Chunk(如 1024 tokens)用于生成。检索时用小 Chunk 保证精度,生成时用大 Chunk 保证上下文完整。这是目前长文档问答的最佳实践,但实现复杂度较高。
选择建议:
| 场景 | 推荐策略 | Chunk Size | Overlap |
|---|---|---|---|
| 通用问答 | 递归分割 | 512-1024 | 10-20% |
| 长文档问答 | Parent-Child | 检索128/生成1024 | 15% |
| 高精度场景 | 语义分割 | 自适应 | 自适应 |
| 快速原型 | 固定长度 | 512 | 100 |
加分点
能说出Chunk Size 的 trade-off:大 Chunk 保留更多上下文但引入噪声、增加 Token 消耗;小 Chunk 检索精度高但可能丢失上下文。以及Overlap 的作用:防止关键信息被切分到两个 Chunk 的边界处而丢失。
避坑提示
不要只说"用 LangChain 的 RecursiveCharacterTextSplitter"。面试官想知道你理解不同策略的原理和适用场景,而不是你会调 API。
📌 Q5:如何提升 RAG 的检索准确率?
标准答案
这是面试中最常被追问的问题,至少要说出 3 种方法,5 种以上加分:
方法一:混合检索(Hybrid Search)。BM25 关键词检索 + 向量语义检索,取并集后融合排序。BM25 擅长精确匹配(人名、产品编号、专业术语),向量检索擅长语义匹配(“如何提升销量” ≈ “增长策略”)。混合检索可以将召回率从纯向量的 65% 提升到 82% 以上,是最基础也是最有效的优化手段。权重通常设为 0.5/0.5,但可以根据数据特性调整。
方法二:查询重写(Query Rewrite)。将口语化的用户查询转化为更适合检索的形式。例如"苹果股价"重写为"Apple Inc. 最新股票价格",补全隐含信息。还可以做 Query Expansion,将一个查询扩展为多个子查询,分别检索后合并结果。查询重写可以显著提升短查询和模糊查询的检索效果。
方法三:重排序(Rerank)。先用 Bi-Encoder(双塔模型)做粗排取 Top-20,再用 Cross-Encoder(交叉编码器)做精排取 Top-5。Cross-Encoder 同时编码 Query 和 Document,能捕捉更细粒度的相关性信号,精度远高于 Bi-Encoder,但计算成本也高 10-100 倍。所以采用"粗排 + 精排"的两阶段策略,在精度和成本之间取得平衡。Rerank 是检索精度提升最显著的单项优化。
方法四:HyDE(Hypothetical Document Embedding)。先让 LLM 根据用户查询生成一个"假设答案",然后用这个假设答案的 Embedding 去检索。假设答案比原始查询更接近目标文档的语义空间,因此检索效果更好。特别适合短查询和跨语言场景。缺点是增加了一次 LLM 调用,延迟和成本增加。
方法五:多路召回(Multi-Channel Retrieval)。关键词 + 向量 + 知识图谱三路并行检索,融合去重后 Rerank。知识图谱可以提供实体关系和结构化信息,弥补纯文本检索的不足。召回最全面,但实现复杂度最高。
方法六:自适应检索(Self-RAG / CRAG)。评估检索结果的质量,质量差时自动触发重写或重检。这是 2025-2026 年的前沿方向,详见 Q8。
加分点
能说出优化优先级:混合检索 > Rerank > 查询重写 > HyDE > 多路召回 > 自适应检索。前两项是性价比最高的优化,建议优先实施。
避坑提示
不要只列举方法名,要能解释每种方法的原理和适用场景。面试官可能会追问:“为什么混合检索比纯向量好?能举个纯向量检索失败的例子吗?”
📌 Q6:如何评估 RAG 系统的质量?
标准答案
RAG 评估是面试中的高频考点,也是生产系统最容易被忽视的环节。评估分三个维度:
维度一:检索阶段指标
- Recall@K:Top-K 检索结果中包含正确答案的比例。这是最核心的检索指标,目标 > 90%。如果 Recall 不够,后面生成再好也没用——巧妇难为无米之炊。
- MRR(Mean Reciprocal Rank):正确答案在检索结果中的排位的倒数均值。MRR=1.0 表示正确答案总是排第一。
- NDCG(Normalized Discounted Cumulative Gain):考虑排序位置的相关性指标,排在前面的相关文档贡献更大。
- Precision@K:Top-K 中相关文档的比例。
维度二:生成阶段指标(RAG Triad)
这是Ragas 框架提出的三个核心指标,用"LLM 监考"自动评分:
- Faithfulness(忠实度):生成答案是否忠实于检索到的上下文,有没有"编造"上下文中没有的信息。这是最关键的指标,目标 > 95%。低忠实度 = 幻觉。
- Answer Relevancy(答案相关性):生成答案是否真正回答了用户的问题,而不是答非所问。
- Context Recall(上下文召回率):检索到的上下文是否包含了回答问题所需的所有信息。低 Context Recall = 检索不全。
维度三:端到端指标
- 任务完成率:用户问题被正确解决的比例,目标 > 85%。
- 二次查询率:用户需要追问的比例,越低越好。
- 答案正确性:人工标注评估,最准确但成本最高。
加分点
能说出Ragas 的"LLM 监考"机制:用另一个 LLM 来评估生成答案的质量,自动生成评分,无需大量人工标注。这是 2025-2026 年 RAG 评估的主流方法。同时能说出Faithfulness 是最关键指标——因为幻觉是 RAG 系统最大的风险。
避坑提示
不要只说"用 Ragas 评估"。面试官想知道你理解每个指标的含义和目标值,以及为什么 Faithfulness 最重要。
📌 Q7:RAG 常见问题有哪些?怎么解决?
标准答案
RAG 在实际应用中会遇到五大类问题,每类都有对应的解决方案:
问题一:检索不到相关内容(低召回率)
原因分析:Query 表达与文档表述差异大、Embedding 模型不够好、Chunk 切分不合理、知识库覆盖不全。解决方案:查询重写(Query Rewrite)补全隐含信息、混合检索(BM25 + 向量)互补、升级 Embedding 模型(BGE-M3、GTE-large)、优化 Chunk 策略、补充知识库覆盖面。其中混合检索是性价比最高的解决方案,通常能将召回率提升 15-20 个百分点。
问题二:检索到但不相关(低精确率)
原因分析:向量检索的"语义漂移"、Top-K 太大引入噪声、缺乏 Rerank。解决方案:引入 Rerank(Cross-Encoder 精排)、降低 Top-K 值、设置相似度阈值过滤、元数据过滤(按来源/时间/权限)。Rerank 是解决低精确率最有效的方法,通常能将精确率提升 20-30 个百分点。
问题三:检索到了但生成时幻觉(低忠实度)
原因分析:Prompt 没有约束"只基于提供的资料回答"、检索结果太多模型"注意力分散"、模型本身幻觉倾向。解决方案:Prompt 加约束(“只基于以下资料回答,如果资料中没有相关信息,请回答’我没有找到相关信息’”)、减少检索结果数量(Top-5 而非 Top-20)、使用 Faithfulness 评估持续监控、选择幻觉率低的模型。
问题四:多跳推理失败(需要综合多个文档)
原因分析:传统 RAG 是单轮检索,无法处理需要跨文档推理的问题。例如"公司 A 和公司 B 哪个市值更高?"需要分别检索两家公司信息再比较。解决方案:Agentic RAG(多轮检索 + 推理)、Graph RAG(知识图谱多跳推理)、Query Decomposition(问题分解为子问题分别检索)。这是 2025-2026 年 RAG 领域最活跃的研究方向。
问题五:知识库更新延迟
原因分析:新文档入库后需要重新 Embedding 和索引,有延迟。解决方案:增量索引(只处理新增文档)、异步索引管道、实时 Embedding 缓存、文档变更监听自动触发索引更新。生产系统中索引更新延迟通常控制在 5 分钟以内。
加分点
能说出问题优先级:低召回率 > 低忠实度 > 低精确率 > 多跳推理 > 更新延迟。召回率是基础,忠实度是底线,精确率是优化,多跳是进阶。
避坑提示
不要只说问题不说解决方案。面试官想看的是你能否定位问题根因并给出可行的解决方案,而不是只会抱怨"RAG 效果不好"。
📌 Q8:Self-RAG 和 CRAG 是什么?和传统 RAG 有什么区别?
标准答案
Self-RAG 和 CRAG 是 2024-2025 年提出的两种"自我纠正"RAG 机制,核心思想是让模型自己评估检索和生成的质量,并在必要时进行纠正。
Self-RAG(Self-Reflective RAG)
Self-RAG 由 Asai 等人在 2023 年提出,核心创新是引入了三种"反思 Token":
- Retrieve Token:模型自己决定是否需要检索。对于"你好"这类闲聊问题,不需要检索,直接回答即可;对于事实性问题,才触发检索。这避免了不必要的检索开销和噪声引入。
- IsRel Token(Is Relevant):评估检索结果是否与问题相关。如果检索到的内容不相关,模型可以拒绝使用这些内容,避免被误导。
- IsSup Token(Is Supported):评估生成答案是否被检索到的内容所支持。如果答案无法被检索内容支撑,模型会重新生成或标注"不确定"。
Self-RAG 的流程是:问题 → 是否检索?→ 检索 → 结果相关?→ 生成 → 答案有支撑?→ 输出。每一步都有"自我检查"环节,形成闭环。这种机制使得 RAG 系统从"盲目检索"进化为"有判断力的检索"。
CRAG(Corrective RAG)
CRAG 由 Yan 等人在 2024 年提出,核心创新是引入了检索质量评估器和纠正机制:
- 检索质量评估:用一个小模型评估检索结果的相关性得分。如果得分高(> 阈值),直接使用;如果得分低(< 阈值),触发纠正。
- 纠正策略:当检索质量差时,CRAG 不会直接放弃,而是尝试Web Search作为补充检索源。这相当于给 RAG 系统加了一个"兜底方案"——内部知识库检索不到,就去互联网上找。
- 知识精炼:对检索到的文档进行"去噪",只保留与问题最相关的部分,减少噪声干扰。
CRAG 的流程是:检索 → 质量评估 → 好?直接用 / 差?Web Search 补充 → 知识精炼 → 生成。关键区别在于它有一个外部纠正通道(Web Search),而 Self-RAG 的纠正更多是内部反思。
两者对比:
| 维度 | Self-RAG | CRAG |
|---|---|---|
| 纠正方式 | 内部反思(反思Token) | 外部纠正(Web Search) |
| 需要特殊训练 | 是(反思Token需训练) | 否(即插即用) |
| 适用场景 | 高精度、低延迟 | 高可靠性、可容忍延迟 |
| 实现难度 | 高(需训练反思能力) | 中(需接入搜索API) |
加分点
能说出共同本质:两者都是让 RAG 从"开环"变成"闭环"——传统 RAG 是"检索 → 生成"的单向流程,Self-RAG 和 CRAG 都加入了"评估 → 纠正"的反馈环。这和上下文工程中"遗忘与回忆"的哲学一脉相承:不是所有信息都值得加载,需要评估和筛选。
避坑提示
不要把 Self-RAG 和 CRAG 混为一谈。面试官想看的是你能否区分两者的纠正机制——内部反思 vs 外部纠正,以及各自的适用场景。
📌 Q9:Graph RAG 和传统 RAG 有什么区别?
标准答案
Graph RAG 是 2024-2025 年微软提出的一种新型 RAG 架构,核心区别在于知识表示方式:传统 RAG 用向量存储文本片段,Graph RAG 用知识图谱存储实体和关系。
传统 RAG 的局限:
传统 RAG 基于"文本片段 + 向量相似度"的检索模式,在处理需要多跳推理的问题时力不从心。例如:"公司 A 的 CEO 之前在哪家公司工作?那家公司的市值是多少?"这需要两步推理——先找到 CEO 的前任公司,再查那家公司的市值。传统 RAG 可能检索到包含"公司 A 的 CEO"的片段,但很难同时检索到"前任公司"和"市值"的信息,因为这些信息可能分散在不同文档中。
Graph RAG 的核心创新:
- 知识图谱构建:从文档中抽取实体(人、组织、产品)和关系(就职于、收购了、市值),构建知识图谱。每个实体是节点,关系是边。
- 社区检测:对知识图谱做社区检测(如 Leiden 算法),将相关实体聚类成"社区",每个社区生成一个摘要。
- 多跳检索:查询时,先定位相关实体,然后沿图谱边"跳转"到关联实体,实现多跳推理。例如从"公司 A 的 CEO"跳转到"前任公司"再跳转到"市值"。
- 全局摘要:社区摘要提供了文档的"高层视图",适合回答需要全局理解的问题(“这篇报告的主要发现是什么?”)。
Graph RAG vs 传统 RAG 对比:
| 维度 | 传统 RAG | Graph RAG |
|---|---|---|
| 知识表示 | 文本片段 + 向量 | 实体 + 关系 + 图谱 |
| 检索方式 | 向量相似度 | 图遍历 + 语义匹配 |
| 多跳推理 | 弱(需多轮检索) | 强(天然支持) |
| 全局理解 | 弱(只有局部片段) | 强(社区摘要) |
| 构建成本 | 低(只需 Embedding) | 高(需实体抽取 + 图谱构建) |
| 更新成本 | 低(增量 Embedding) | 高(需更新图谱) |
| 适用场景 | 事实性问答 | 关系推理 + 全局分析 |
什么时候该用 Graph RAG?
- 知识之间有丰富的实体关系(人物关系、组织架构、供应链)
- 需要多跳推理(“A 的 B 的 C 是什么?”)
- 需要全局理解(“这篇报告的核心观点是什么?”)
- 愿意承担更高的构建和维护成本
什么时候该用传统 RAG?
- 知识以独立文档为主,关系不复杂
- 主要是事实性问答
- 需要快速上线、低成本维护
- 知识库更新频繁
加分点
能说出Graph RAG 的最佳实践:传统 RAG + Graph RAG 混合方案。用传统 RAG 处理事实性问答,用 Graph RAG 处理关系推理,两者互补。很多生产系统已经采用这种混合架构。
避坑提示
不要说"Graph RAG 一定比传统 RAG 好"。Graph RAG 的构建成本远高于传统 RAG,只有在确实需要多跳推理和全局理解时才值得投入。
📌 Q10:如何构建生产级 RAG 系统?
标准答案
从 Demo 到生产级 RAG 系统,差距巨大。以下是生产级 RAG 系统必须考虑的 8 个维度:
1. 检索质量保障
生产系统的检索质量必须有量化指标和持续监控。建立三层评估体系:离线评估(标注测试集,计算 Recall/MRR)、在线评估(采样用户查询,自动评分 Faithfulness)、人工评估(定期抽检)。核心指标:Recall@10 > 90%、Faithfulness > 95%、Answer Relevancy > 90%。任何低于阈值的 case 都要进入 Bad Case 分析流程。
2. 幻觉防控
生产系统对幻觉零容忍。四道防线:Prompt 约束(“只基于提供的资料回答”)、Faithfulness 自动评估(低于阈值自动拦截)、来源引用(要求模型标注答案来源)、人工审核(高风险领域)。其中 Faithfulness 自动评估是最关键的——它可以在用户看到答案之前就拦截潜在的幻觉回答。
3. 权限控制
企业数据有权限边界,不同用户能看到的知识不同。实现方式:检索时按用户角色过滤(元数据过滤)、文档级别权限标签、查询时注入用户身份信息。权限过滤的准确率必须 > 99%,否则就是数据泄露。
4. 性能优化
生产系统的延迟和吞吐量有硬性要求。关键指标:P99 检索延迟 < 500ms、端到端延迟 < 3s、并发支持 > 100 QPS。优化手段:Embedding 缓存、Rerank 模型蒸馏(小模型精排)、异步检索管道、向量数据库分片。
5. 知识库管理
知识库不是建好就完事的,需要持续维护。包括:增量索引(新文档自动入库)、过期清理(旧文档自动下架)、质量巡检(定期检查 Embedding 质量)、版本管理(知识库回滚能力)。索引更新延迟控制在 5 分钟以内。
6. 可观测性
生产系统必须有完善的监控和告警。监控指标:检索延迟、检索质量、生成延迟、Faithfulness 分布、用户满意度。告警规则:Faithfulness < 90% 触发 P1 告警、检索延迟 > 1s 触发 P2 告警、Bad Case 率 > 5% 触发 P1 告警。
7. 降级策略
当 RAG 系统出现问题时,需要有降级方案。三级降级:一级降级(关闭 Rerank,降低延迟)、二级降级(切换到备选 Embedding 模型)、三级降级(关闭 RAG,直接用 LLM 回答 + 免责声明)。降级策略确保系统在极端情况下仍然可用。
8. 持续优化
RAG 系统不是一锤子买卖,需要持续迭代。建立反馈闭环:用户反馈 → Bad Case 分析 → 问题定位 → 优化方案 → A/B 测试 → 灰度发布。每季度做一次全面评估,对比核心指标趋势,确保系统持续改进而非退化。
加分点
能说出生产级 RAG 的成本估算:向量数据库(Milvus 集群 ~$500-2000/月)、Embedding 服务(~$0.1/1M tokens)、Rerank 服务(~$0.5/1M tokens)、LLM 推理(~$2-10/1M tokens)、工程人力(4-20 万美元初期投入)。以及最常见的生产事故:权限过滤遗漏导致数据泄露、Faithfulness 下降未及时发现、知识库更新后 Embedding 质量退化。
避坑提示
不要只说技术方案,要能说出工程考量:成本、可观测性、降级策略、持续优化。面试官想看的是你能否从"Demo 思维"切换到"生产思维"。
🎁 总结速查卡
10 道题核心答案速查
| 题号 | 问题 | 核心答案关键词 |
|---|---|---|
| Q1 | RAG 是什么? | 检索+生成 / 知识时效 / 幻觉 / 私有数据 |
| Q2 | RAG vs 微调? | 知识存外部 vs 内化 / 更新成本 / 幻觉控制 / 组合使用 |
| Q3 | 完整流程? | 索引阶段(5步) + 检索生成阶段(5步) |
| Q4 | Chunk 策略? | 固定/递归/语义/Parent-Child / trade-off |
| Q5 | 提升检索准确率? | 混合检索/Rerank/查询重写/HyDE/多路召回/自适应 |
| Q6 | 评估质量? | 检索指标(Recall/MRR) + RAG Triad(Faithfulness!) + 端到端 |
| Q7 | 常见问题? | 低召回/低精确/幻觉/多跳/更新延迟 |
| Q8 | Self-RAG/CRAG? | 反思Token vs Web纠正 / 开环→闭环 |
| Q9 | Graph RAG? | 知识图谱/多跳推理/全局摘要 / 混合方案 |
| Q10 | 生产级 RAG? | 8维度:质量/幻觉/权限/性能/管理/观测/降级/迭代 |
面试答题框架
每道题按这个框架回答,逻辑清晰不丢分:
- 一句话定义:先给出最精炼的核心答案
- 展开解释:说清楚原理、流程、对比
- 举具体例子:用实际场景说明,避免纯理论
- 说 trade-off:没有银弹,每种方案都有取舍
- 给选择建议:根据场景给出明确推荐
优化优先级
混合检索 > Rerank > 查询重写 > HyDE > 多路召回 > 自适应检索核心指标目标值
Recall@10 > 90% | Faithfulness > 95% | P99 < 500ms | 权限准确率 > 99%系列文章:
- 深入浅出上下文工程:比 Prompt Engineering 更重要的下一代 AI 工程范式
- Skill 本质还是上下文工程
- RAG 已死?依旧是最适合 Agent 项目落地的
- 大模型蒸馏详解
- Claude Code 到底强在哪?
参考链接:
- RAG大厂面试题汇总:向量检索、混合检索、Rerank (知乎)
- RAG夺命10连问 (博客园)
- RAG面试通关秘籍:15个核心问题深度解析 (CSDN)
- Self-RAG: Learning to Retrieve, Generate, and Critique through Self-Reflection (论文)
- Corrective RAG (CRAG) (论文)
- From Local to Global: A Graph RAG Approach to Query-Focused Summarization (微软)