大模型中Rag的介绍-程序员充电站

检索增强生成（Retrieval-Augmented Generation，简称 RAG）是大模型（LLM）领域中一种结合外部知识检索与语言生成的关键技术，旨在解决大语言模型的三大核心缺陷：

“让大模型学会查资料”—— 在生成答案前，先从外部知识库中检索相关证据，再基于真实信息生成回答。

其工作流程可概括为三步：

用户提问 → 检索相关文档 → 生成基于证据的答案

这模仿了人类解决问题的方式：遇到不懂的问题，先查资料，再作答。

将企业私有数据（PDF、网页、数据库、代码库等）切分为文本块（Chunks）；
使用嵌入模型（Embedding Model）（如 BAAI/bge、text-embedding-ada-002）将每个文本块转换为向量（Embedding）；
存入向量数据库（如 FAISS、Chroma、Pinecone、Milvus）建立索引。

✅ 目标：构建一个可高效语义搜索的知识库。

用户提问时，用同一嵌入模型将问题转为向量；
在向量数据库中执行近似最近邻搜索（ANN），找出 Top-K 最相关的文本块；
可选优化：
- 查询重写（Query Rewriting）：将模糊问题改写为更精准的检索式；
- 混合检索：结合关键词（BM25） + 向量检索；
- 重排序（Re-ranking）：用交叉编码器（如 BGE-reranker）对初检结果精排。

✅ 目标：召回高相关、高质量的上下文证据。

典型 Prompt 模板：

请根据以下上下文回答用户问题。如果上下文不相关，请回答“我不知道”。 上下文： {retrieved_text} 问题： {user_query} 回答：

✅ 目标：生成事实一致、减少幻觉的答案。

技术	说明
HyDE（Hypothetical Document Embeddings）	先让 LLM 生成一个假设答案，再用该答案去检索，提升召回率
子查询（Sub-query）	将复杂问题拆解为多个子问题分别检索
递归检索（Recursive Retrieval）	先检索文档元信息（如标题），再深入检索具体内容
Graph RAG	构建知识图谱，利用实体关系增强检索（微软提出）
Self-RAG	模型自主判断是否需要检索、是否使用检索结果（带反思机制）

组件	工具
框架	LangChain、LlamaIndex、Haystack
嵌入模型	BGE（智源）、gte-Qwen、text-embedding-3-small（OpenAI）
向量数据库	Chroma（轻量）、Pinecone（云服务）、Milvus（高性能）
重排序模型	BGE-reranker、Cohere Rerank
评估工具	Ragas（评估忠实度、相关性、答案质量）