RAG-Anything横空出世！文字、图片、表格、公式，文档里的“一切”都能搜！-程序员充电站

传统RAG仅支持文本检索，面对图表、公式等非文本内容束手无策。RAG-Anything在LightRAG基础上，通过多模态扩展层，将文档中的文字、图片、表格、公式等所有内容统一纳入知识图谱，并支持VLM增强查询和多模态查询模式，极大提升了文档问答系统的实用性和准确性。该框架支持多种文档格式，并提供了灵活的解析器选择和模态感知检索排序，是目前解决多模态文档检索痛点的优秀方案。

传统 RAG 只管文字，碰到图表和公式就装死。RAG-Anything 说：我全都要。

/ / /

问题出在哪

我前段时间拿 LightRAG 做了个内部文档问答系统。效果还行，纯文字的文档检索准确率挺高。但有一天产品经理扔了份 PDF 过来，里面全是架构图、数据表格、还有几个 LaTeX 公式。

跑了一遍。答案驴唇不对马嘴。

原因不难猜——LightRAG 本质上是个文本 RAG，它会把 PDF 里的文字抽出来建知识图谱，但图片？跳过。表格？勉强能抽成文本但丢了结构。公式？别想了。

这种"只吃文字"的 RAG 在真实场景里其实挺受限的。你想，一份技术文档里，架构图可能比三段文字信息量还大，一张数据对比表顶得上半页描述。

然后我看到了 RAG-Anything。

RAG-Anything 多模态 RAG 架构

/ / /

它在 LightRAG 上面做了什么

RAG-Anything 是 HKUDS（港大数据科学实验室）在 LightRAG 基础上搭的多模态扩展层。核心思路一句话：把文档里所有类型的内容——文字、图片、表格、公式——都塞进同一个知识图谱。

听起来不复杂？工程上要解决的事情不少。

它的处理流水线分五个阶段，我按顺序说。

第一步，文档解析。用 MinerU 做高保真的结构抽取，把 PDF 拆成文字块、图片块、表格块、公式块。不是简单的 OCR 暴力抽文字，是保留了文档的层级关系和空间位置。除了 MinerU 还支持 Docling 和 PaddleOCR 两个 parser，但 MinerU 是默认的。

第二步，内容分类路由。每个内容块自动判断类型（图片/表格/公式/纯文字），然后分发到对应的处理管线。这步是并发跑的，多管线同时处理。

五阶段处理流水线

第三步，多模态分析引擎。这是核心。四个专用分析器：

●Visual Content Analyzer：给图片生成描述、识别空间关系
●Structured Data Interpreter：解析表格结构、提取统计模式
●Mathematical Expression Parser：处理 LaTeX 公式，理解数学语义
●通用扩展器：你可以自己写处理器来支持新的模态

第四步，构建多模态知识图谱。把上面分析出来的所有实体和关系（不管来自文字还是图表）统一灌进一个图谱。跨模态的关系映射是自动做的，比如"图3 展示了表2 中数据的趋势"这种引用关系，它能自动关联。

第五步，模态感知检索。检索的时候用向量+图谱混合搜索，排序算法会考虑内容的模态类型。

/ / /

实际用起来是什么样

安装倒是不复杂。pip install raganything一行搞定，想要全功能就pip install 'raganything[all]'。处理 Office 文档需要装 LibreOffice，这个是唯一的外部依赖。

安装与使用流程

查询有三种模式：

纯文本查询——走 LightRAG 原生的检索，支持 hybrid/local/global/naive 四种模式。如果你的文档都是纯文字，用这个就够了，跟直接用 LightRAG 没区别。

VLM 增强查询——检索到包含图片的上下文时，自动调 VLM（视觉语言模型）来分析图片内容，把图片信息也纳入回答。这个模式不需要你显式指定，框架自动判断。

多模态查询——你可以指定"帮我分析这份文档里的表格数据"或者"解释这个公式"，它会针对性地检索和分析对应模态的内容。

讲真，VLM 增强查询这个设计我觉得想得比较好。用户不需要知道底层有几种模态，问就完了。

/ / /

支持什么格式

列一下：

文档	多模态元素
PDF、DOCX、PPTX、XLSX	照片、图表、截图
JPG/PNG/BMP/TIFF/GIF/WebP	数据表格、统计摘要
TXT、Markdown	LaTeX 公式

支持的文档格式

基本上常见的文档格式都覆盖了。PPTX 的支持我觉得挺实用的——很多公司的技术方案都在 PPT 里，里面全是图和表，传统 RAG 对 PPT 基本无能为力。

/ / /

几个技术细节

Parser 选择这块值得说说。三个 parser 各有侧重：

●MinerU：PDF 和图片最强，有 OCR 和表格抽取，支持 GPU 加速。默认选它。
●Docling：Office 文档更强，文档结构保留得更好。
●PaddleOCR：纯 OCR 场景，轻量，适合文字为主的图片。

我自己测下来的感觉（不一定准）：如果你的文档以 PDF 为主且有大量图表，MinerU 效果最好。纯 Office 文档走 Docling 可能更合适。PaddleOCR 适合"图片里有文字"的场景。

知识图谱构建用的是 LightRAG 的底子，加了多模态实体抽取和跨模态关系映射。图谱里的节点不再只是文字实体，还包括"图3"、“表2”、"公式(1)"这种多模态实体。

多模态知识图谱示意

检索排序做了模态感知的加权。比如用户问"xx 指标的趋势"，包含相关表格的节点权重会被提高。这个比一视同仁地只看文本相似度要靠谱。

/ / /

跟其他方案比

RAG-Anything 出自 HKUDS 实验室，跟 LightRAG 是同一个团队。他们还有几个相关项目：

●LightRAG：纯文本 RAG，简单快
●VideoRAG：超长视频 RAG
●MiniRAG：极简版 RAG

RAG-Anything 在这个系列里定位是"什么都能吃的 RAG"。16.8k stars，2k forks，MIT 协议。

最后

我在一线科技企业深耕十二载，见证过太多因技术卡位而跃迁的案例。那些率先拥抱 AI 的同事，早已在效率与薪资上形成代际优势，我意识到有很多经验和知识值得分享给大家，也可以通过我们的能力和经验解答大家在大模型的学习中的很多困惑。

我整理出这套 AI 大模型突围资料包【允许白嫖】：

✅从入门到精通的全套视频教程
✅AI大模型学习路线图（0基础到项目实战仅需90天）
✅大模型书籍与技术文档PDF
✅各大厂大模型面试题目详解
✅640套AI大模型报告合集
✅大模型入门实战训练

这份完整版的大模型 AI 学习和面试资料已经上传CSDN，朋友们如果需要可以微信扫描下方CSDN官方认证二维码免费领取【保证100%免费】

①从入门到精通的全套视频教程

包含提示词工程、RAG、Agent等技术点

② AI大模型学习路线图（0基础到项目实战仅需90天）

全过程AI大模型学习路线

③学习电子书籍和技术文档

市面上的大模型书籍确实太多了，这些是我精选出来的

④各大厂大模型面试题目详解

⑤640套AI大模型报告合集

⑥大模型入门实战训练

👉获取方式：
有需要的小伙伴，可以保存图片到wx扫描二v码免费领取【保证100%免费】🆓

RAG-Anything横空出世！文字、图片、表格、公式，文档里的“一切”都能搜！

问题出在哪

它在 LightRAG 上面做了什么

实际用起来是什么样

支持什么格式

几个技术细节

跟其他方案比

最后

①从入门到精通的全套视频教程

② AI大模型学习路线图（0基础到项目实战仅需90天）

③学习电子书籍和技术文档

④各大厂大模型面试题目详解

⑤640套AI大模型报告合集

⑥大模型入门实战训练

如何用SRWE突破游戏窗口分辨率限制：终极窗口编辑器完整指南

逆向工程工具：基于PE加载器的反作弊绕过技术实现

3分钟掌握Sketch Measure：设计师必备的高效设计标注插件

Docker AI Toolkit 2026面试通关指南：覆盖37道高频真题+官方考官评分逻辑（含LLM推理容器化压测题）

【收藏备用｜2026版】Java开发者秋招破局+大模型学习指南，小白/程序员必看！

AI教材写作必备！低查重AI工具一键生成30万字教材，轻松搞定！