本文介绍了RAG技术如何解决大模型知识局限、无法获取最新信息、访问私有数据及易产生幻觉的问题。RAG通过“检索增强生成”的方式,在模型回答前先“查资料”,如同给大模型开卷考试,提升回答准确性。文章详细阐述了RAG的三阶段工作流程:数据准备(文档切分、向量化、存入向量数据库)、检索阶段(问题向量化、相似度搜索)和生成阶段(结合检索内容与用户问题输入大模型)。通过简易RAG实现步骤,帮助读者理解并应用RAG技术,让大模型回答更贴近实际。
前言
你是否遇到过这种情况:向朋友提问,他不查资料、不思考验证,随口给出看似合理实则编造的答案。
大模型也类似,很多时候它不是“查询信息”,而是“基于知识储备推测合理答案”,这就是“大模型幻觉”产生的原因。
那有没有办法让模型回答前先“查阅资料”呢?今天介绍的RAG技术就能做到。RAG虽听起来高深,核心却只有“检索”与“生成”,即先检索、再生成,也就是“检索增强生成”。
为什么要用RAG?
先看一个本质问题:传统大模型的局限。大模型(LLM)的知识来源是训练数据(互联网语料)和固定时间点(有知识截止),因此存在三个致命问题:无法获取最新信息、无法访问私有数据(如文档、数据库)以及容易编造答案(幻觉)。
RAG的核心思路可以一句话总结:在模型回答问题之前,先“查资料”,再回答。也就是不直接让LLM“凭记忆回答”,而是给它“开卷考试”,回答也就更贴近实际。
RAG到底是怎么工作的?
举个例子,在一份上百页的文档中,只有极少部分内容对用户有用。RAG技术会将这份文档切分为若干片段,然后筛选出真正对用户有用的5个片段,与用户的提问一同发送给大模型。这样大模型便只需处理这5个片段,而非整个文档。
但这只是一个简化的步骤,为了更直观感受,下面是我用Gemini生成的一个RAG架构图:
RAG本质上是一个三阶段流程:
- 数据准备(离线阶段)
首先需要完成知识库的构建工作,具体分为三个步骤:
Step1:文档切分(Chunking)
将长文本拆分为适合处理的小块,常见方式包括按每段200~500字划分或按语义逻辑切分。比如这是因为大模型单次处理的上下文长度存在限制。
Step2:向量化(Embedding)
将每个文本块转换为向量形式,例如"RAG可以提升回答准确性"会被转化为[0.12, -0.98, …]这样的向量。其核心原理是:语义相似的文本对应的向量距离更近。
Step3:存入向量数据库
常用的向量数据库方案有FAISS(本地部署)、Milvus(分布式系统)和Chroma(轻量级工具)。完成这一步后,就构建出了一个可高效搜索的知识库。
- 检索阶段(在线)
当用户提出问题时,系统会执行以下操作:
Step1:问题向量化:将用户问题转换为向量形式;
Step2:相似度搜索:在向量数据库中查找最相关的Top-K文本块(通常K取值为3或5)。
- 生成阶段(LLM)
将检索到的内容与用户问题一同输入大模型,格式示例如下:
- 已知信息:[文档片段1]、[文档片段2]
- 问题:RAG的作用是什么?
- 请基于以上信息回答
这一阶段的关键在于:模型不再依赖记忆"瞎猜",而是基于检索到的证据进行回答。
简易RAG实现
为确保RAG测试的准确性,我先让AI生成了一篇虚构文章,随后将该文章输入RAG系统,使其基于这篇文章回答相关问题。
下面第一步:文档切片
我是按照制表符进行切分的,这里是可以看到我们准备的文章被分成了很多片段
第二步:向量化
加载一个中文预训练嵌入模型:shibing624/text2vec-base-chinese,将中文文本转换为数值变量,并为所有段落生成嵌入向量,这里首次加载模型可能得等几分钟。
第三步:存入向量数据库
这一步就是把嵌入向量存入向量数据库,到这在用户提问之前的数据准备工作就全部完成了。
第四步:向量检索
将用户的问题生成对应语义向量,根据向量相似度在向量数据库中进行检索。
第五步:重排序
如果只使用向量检索可能会检索出很多相关片段,但上下文窗口有限,而且噪音也会污染模型,所以需要进行重排序。一句话总结就是:向量检索负责“找可能相关的”,重排序负责“找最相关的”。
第六步:生成回答
这里使用了Gemini的API Key,将我们检索出的片段与用户问题一同输入大模型,再通过制定Prompt引导模型生成答案。
到这里,我们的简易RAG系统就已全部实现了。完整优化后的代码及相关资料我已整理至公众号后台,感兴趣的伙伴可在后台私信【简易RAG系统】领取。
总结
RAG本质上并非让模型变得更聪明,而是让模型不再单纯依赖“记忆”,而是学会“查资料”。若作类比:LLM就像是“大脑”,那么RAG则相当于为它配备了一套“搜索引擎 + 笔记系统”。
未来的大模型应用,不会是“单纯的模型能力竞争”,而是“模型 + 数据 + 检索能力”的组合竞争。
如何学习大模型 AI ?
由于新岗位的生产效率,要优于被取代岗位的生产效率,所以实际上整个社会的生产效率是提升的。
但是具体到个人,只能说是:
“最先掌握AI的人,将会比较晚掌握AI的人有竞争优势”。
这句话,放在计算机、互联网、移动互联网的开局时期,都是一样的道理。
我在一线科技企业深耕十二载,见证过太多因技术卡位而跃迁的案例。那些率先拥抱 AI 的同事,早已在效率与薪资上形成代际优势,我意识到有很多经验和知识值得分享给大家,也可以通过我们的能力和经验解答大家在大模型的学习中的很多困惑。我们整理出这套AI 大模型突围资料包:
- ✅ 从零到一的 AI 学习路径图
- ✅ 大模型调优实战手册(附医疗/金融等大厂真实案例)
- ✅ 百度/阿里专家闭门录播课
- ✅ 大模型当下最新行业报告
- ✅ 真实大厂面试真题
- ✅ 2026 最新岗位需求图谱
所有资料 ⚡️ ,朋友们如果有需要《AI大模型入门+进阶学习资源包》,下方扫码获取~
① 全套AI大模型应用开发视频教程
(包含提示工程、RAG、LangChain、Agent、模型微调与部署、DeepSeek等技术点)
② 大模型系统化学习路线
作为学习AI大模型技术的新手,方向至关重要。 正确的学习路线可以为你节省时间,少走弯路;方向不对,努力白费。这里我给大家准备了一份最科学最系统的学习成长路线图和学习规划,带你从零基础入门到精通!
③ 大模型学习书籍&文档
学习AI大模型离不开书籍文档,我精选了一系列大模型技术的书籍和学习文档(电子版),它们由领域内的顶尖专家撰写,内容全面、深入、详尽,为你学习大模型提供坚实的理论基础。
④ AI大模型最新行业报告
2025最新行业报告,针对不同行业的现状、趋势、问题、机会等进行系统地调研和评估,以了解哪些行业更适合引入大模型的技术和应用,以及在哪些方面可以发挥大模型的优势。
⑤ 大模型项目实战&配套源码
学以致用,在项目实战中检验和巩固你所学到的知识,同时为你找工作就业和职业发展打下坚实的基础。
⑥ 大模型大厂面试真题
面试不仅是技术的较量,更需要充分的准备。在你已经掌握了大模型技术之后,就需要开始准备面试,我精心整理了一份大模型面试题库,涵盖当前面试中可能遇到的各种技术问题,让你在面试中游刃有余。
以上资料如何领取?
为什么大家都在学大模型?
最近科技巨头英特尔宣布裁员2万人,传统岗位不断缩减,但AI相关技术岗疯狂扩招,有3-5年经验,大厂薪资就能给到50K*20薪!
不出1年,“有AI项目经验”将成为投递简历的门槛。
风口之下,与其像“温水煮青蛙”一样坐等被行业淘汰,不如先人一步,掌握AI大模型原理+应用技术+项目实操经验,“顺风”翻盘!
这些资料真的有用吗?
这份资料由我和鲁为民博士(北京清华大学学士和美国加州理工学院博士)共同整理,现任上海殷泊信息科技CEO,其创立的MoPaaS云平台获Forrester全球’强劲表现者’认证,服务航天科工、国家电网等1000+企业,以第一作者在IEEE Transactions发表论文50+篇,获NASA JPL火星探测系统强化学习专利等35项中美专利。本套AI大模型课程由清华大学-加州理工双料博士、吴文俊人工智能奖得主鲁为民教授领衔研发。
资料内容涵盖了从入门到进阶的各类视频教程和实战项目,无论你是小白还是有些技术基础的技术人员,这份资料都绝对能帮助你提升薪资待遇,转行大模型岗位。