Retrieval-Augmented Generation（RAG）简介-程序员充电站

一、什么是 RAG？

RAG 的全称是Retrieval-Augmented Generation
资料是这么描述的：
RAG isan AI framework that combines the strengths of traditional information retrieval systems (such as search and databases) with the capabilities of generative large language models (LLMs)
翻译过来就是：是一个AI框架(人工智能框架)，把以前提取系统消息的优势和LLM(是一种基于大量数据训练的统计语言模型)相结合出来的
我把他称为：提取文档信息，基于这些信息生成回答(仅作于个人说法)

二、RAG 的工作流程
大致可分为三个阶段
1、预处理文档：
我理解为，把一些数据，文档，网页，知识库，数据库等，这些分成小片段，这些片段可以理解为一组词（或者token），然后转换成为电脑可以理解的语义(这个词叫做"向量化")，存储到数据库

2、提取到相关内容：

我理解为，用户提问后(问题也会"向量化"，去数据库中查找)，根据语义去数据库做相似度搜索，即时没有重合的关键词，也能找到相关数据

3、生成回复内容：
我理解为，RAG框架会把"问题+相关片段"交给LLM(是一种基于大量数据训练的统计语言模型)，自然准确的回答

注："retrieval"单词理解存在点误差，含义指的是"检索"，不是"提取"，一开始我理解为提取，
提取指的是所有的内容，检索指的是只找相关内容，

三、RAG 的优势(google)

传统大语言模型虽然能力很强，但仍然存在一些天然限制：

知识存在时间截止点，无法了解最新信息；
容易出现“幻觉”，即生成不准确甚至虚构的内容；
无法直接访问企业内部知识、私有文档或实时数据。

而 RAG 正是为了解决这些问题：

可以接入最新数据；
可以利用企业内部知识库；
显著提高回答的准确性；
有效减少模型“胡编乱造”的情况

B站会员购抢票终极指南：如何用开源工具轻松抢到心仪门票

B站会员购抢票终极指南：如何用开源工具轻松抢到心仪门票【免费下载链接】biliTickerBuy b站会员购购票辅助工具项目地址: https://gitcode.com/GitHub_Trending/bi/biliTickerBuy 你是否曾在B站会员购抢票时，眼睁睁看着心仪的门票在几秒钟内售罄…

李华

一天吸金3个亿，人形机器人赛道的“疯狂”才刚刚开始

2026年才过去一个季度，人形机器人赛道已经吞下了超过300亿元的真金白银。按天算，每天有超过3亿元涌入这条赛道。这不是科幻电影里的数字，是一级市场正在发生的现实。但越是烈火烹油的时候，越要冷静地问一句：这么多钱砸…

李华

【金融级Saga事务原子性保障】：从消息丢失到最终一致，4层幂等校验架构图首次公开

更多请点击： https://intelliparadigm.com 第一章：【金融级Saga事务原子性保障】：从消息丢失到最终一致，4层幂等校验架构图首次公开在分布式金融系统中，跨服务资金操作（如转账、清算、对账）必…

李华

降aigc工具哪个好？实测5步把检测率降到7%内

上周图书馆自习室，室友的毕业论文本以为万无一失，维普AIGC检测却给了他68%的红牌，导师只留下一句“本周内降到10%以内”。他瞬间石化，我也同步慌成表情包。与其焦虑内耗，不如正面硬刚：我把这件事当成一场…

李华

实测MogFace人脸检测模型：上传图片秒出结果，新手零门槛体验

实测MogFace人脸检测模型：上传图片秒出结果，新手零门槛体验 1. 开箱即用的人脸检测神器想象一下这样的场景：你正在开发一个需要人脸识别的应用，或者只是想快速验证一个想法。传统方法可能需要你安装各种依赖、配置环境、调试参…

李华

cv_unet_image-colorization开源生态联动：与Label Studio集成实现上色结果人工校验

cv_unet_image-colorization开源生态联动：与Label Studio集成实现上色结果人工校验 1. 项目背景与集成价值在图像处理领域，黑白照片上色技术已经取得了显著进展，但自动上色结果的质量校验一直是个挑战。传统的做法是依赖开发人员肉眼判断&…

李华