news 2026/5/2 22:51:10

RAG——微软GraphRAG

作者头像

张小明

前端开发工程师

1.2k 24
文章封面图
RAG——微软GraphRAG

一、前提

  • 微软提出,在实际应用中,RAG 在使用向量检索时面临两个主要挑战。

    信息片段之间的连接能力有限:RAG 在跨越多个信息片段以获取综合见解时表现不足。例如,当需要回答一个复杂的问题,必须通过共享属性在不同信息之间建立联系时,RAG 无法有效捕捉这些关系。这限制了其在处理需要多跳推理或整合多源数据的复杂查询时的能力。

    归纳总结能力不足:在处理大型数据集或长文档时,RAG 难以有效地归纳和总结复杂的语义概念。例如,试图从一份包含数百页的技术文档中提取关键要点,对 RAG 来说是极具挑战性的。这导致其在需要全面理解和总结复杂语义信息的场景中表现不佳。

  • 为了解决这些挑战,微软提出了 GraphRAG,通过利用大模型生成的知识图谱来改进 RAG 的检索部分GraphRAG 的核心创新在于利用结构化的实体和关系信息,使检索过程更加精准和全面,特别在处理多跳问题和复杂文档分析时表现突出。通过这些改进,GraphRAG 在处理私有数据和复杂信息处理任务时,显著提升了问答性能,提供了比 RAG 更为准确和全面的答案。

  • GraphRAG 能够通过知识图谱有效地连接不同的信息片段。

    例如,当一个查询需要整合来自不同部门的报告时,GraphRAG 可以识别并链接跨文档的相关实体,如关键指标、关键行动、关键事项等。这使得 RAG 不仅能够提供准确的答案,还能展示答案之间的内在联系,提供更丰富和有价值的结果。

    在这里插入图片描述

  • 上图展示了归纳性问题的查询中两个系统的对比:RAG 与 GraphRAG 。GraphRAG 先利用知识图谱,关联查询的实体和关系,然后从与图谱实体直接相关的文档中检索片段,最终提供了一个更全面、指标化、高信息密度的总结。

二、为什么要使用 GraphRAG

  • GraphRAG 通过构建知识图谱,将实体实体之间的关系结构化地表示出来,克服了传统 RAG 的复杂推理局限性。其主要优势体现在以下几个方面:

  • 提高答案准确度和完整性

    精确的关系捕捉:知识图谱能够显式地表示实体及其关系,使得 GraphRAG 在处理涉及多实体、多关系的复杂查询时,能够准确地检索相关信息。

    多跳推理能力:通过图结构,GraphRAG 可以自然地实现多跳推理,连接不同的信息片段,提供更加全面和深入的回答。

    实证效果:微软的学术论文表明,GraphRAG 在回答业务复杂问题时,LLM 响应的准确度平均提升了三倍以上。

  • 增强数据理解和迭代效率

    直观的数据表示:知识图谱以图形方式展示数据,便于开发者和用户理解数据之间的关联和结构。

  • 提升可解释性和可追溯性

    可解释性:知识图谱的结构化特点使得系统的决策过程透明化,便于理解模型给出某一答案的原因。

    可追溯性:每个结论都可以在知识图谱中找到对应的路径,支持对决策过程的复查和验证。

三、知识图谱是什么

  • 在计算机科学和人工智能领域,图谱(Graph)是一种用于表示实体及其相互关系的数学结构一个图由一组 节点(Nodes) 和连接这些节点的 边(Edges) 组成。节点通常代表实体,如人物、地点或概念,边则表示实体之间的关系或关联。

  • 知识图谱(Knowledge Graph) 是一种特殊类型的图谱,用于表示知识领域中的实体及其关系。它以结构化的方式组织信息,使机器能够理解和推理复杂的语义关系。知识图谱的核心要素包括:

    实体(Entities):表示具体的对象或概念,例如苹果公司、iPhone、智能手机。

    属性(Attributes):描述实体的特征,如成立日期、创始人。

    关系(Relations):连接实体之间的语义关联,如生产、竞争对手。

    在这里插入图片描述

  • 通过这种结构,知识图谱能够高效地组织和检索信息,为各种应用提供支持,包括 RAG 系统、推荐引擎和语义搜索。

3.1、知识图谱 增强传统 RAG 能力的体现

  • 在 GraphRAG 中,知识图谱被引入以增强传统 RAG 的能力,主要体现在以下方面:

    结构化信息表示:通过将文本数据转换为知识图谱,GraphRAG 能够以结构化的方式捕捉实体和关系,超越了纯粹向量表示的局限。

    增强语义理解:知识图谱提供了显式的语义关系,使模型能够理解实体之间的复杂关联,支持多跳推理和全局信息整合。

    改进检索效率:在检索阶段,利用知识图谱可以更精准地定位相关信息,减少无关数据的干扰,提高 RAG 的检索速度。

3.2、构建知识图谱的步骤

  • 实体识别

    从文本或数据源中识别出关键实体。

  • 关系抽取

    确定实体之间的关系,可能通过自然语言处理技术实现。

  • 三元组生成

    将实体和关系表示为 (主体,关系,客体) 的形式。

  • 图谱存储

    使用图数据库或专门的存储系统保存知识图谱。

3.3、知识图谱构建中的主要成本挑战

  • 构建知识图谱的问题在于成本,尤其是涉及大规模数据处理和图谱维护时,所需的资源和技术复杂性往往较高。以下几个方面是知识图谱构建中的主要成本挑战:

  • 数据收集与清洗成本

    构建高质量的知识图谱依赖于从多源异构数据中抽取出可靠的实体和关系。这需要对数据进行大量清洗和预处理,以消除冗余、噪声和冲突数据,确保图谱的准确性和一致性,这种过程通常需要大量的人工干预和计算资源。

  • 知识图谱构建成本

    知识图谱的构建依赖于从数据中识别并提取实体及其关系,传统上依赖于人工识别和提取,现在可以借助大模型来完成,但均需要大量的成本。以处理 200 页的文本为例,假设使用 ChatGPT-4 完成构建,需要进行约 449 次调用,总成本约为 11 美元。

  • 图谱的维护与更新

    知识图谱是动态的,随着新的数据和知识不断涌现,图谱需要持续更新以保持其准确性和时效性。维护和更新图谱需要定期重新处理数据,以确保新添加的实体和关系与现有结构保持一致。

四、微软 GraphRAG 详解

  • GraphRAG 通过将知识图谱中的结构化数据输入文档中的非结构化数据相结合,利用相关实体信息来增强LLM 的上下文理解。
  • 在处理用户查询时(可选结合对话历史记录),系统采用本地搜索方法,从知识图谱中识别与用户输入语义相关的一组实体。这些实体作为知识图谱的访问点,帮助提取更多相关信息,包括关联实体、关系以及文档片段。随后,系统对这些候选数据源进行优先级排序与筛选,以适应单个上下文窗口的预定义大小,从而为用户生成准确的查询响应。

五、GraphRAG 示例代码

  • 更多细节查看 GraphRAG 官网https://microsoft.github.io/graphrag/

  • 安装 GraphRAG

    pip install graphrag
  • 设置文档文件夹和添加官方示例

    mkdir -p ./ragtest/inputcurl https://www.gutenberg.org/cache/epub/24022/pg24022.txt > ./ragtest/input/book.txt
  • 项目初始化配置

    python -m graphrag.index --init --root ./ragtest
  • 此操作将在 ./ragtest 目录下创建两个文件:.env 和 settings.yaml

    .env: 包含运行 GraphRAG 所需的环境变量。该文件将包括一个 GRAPHRAG_API_KEY= 的变量,你可以将其替换为你自己的 OpenAI 密钥。

    settings.yaml: 包含 Pipeline 的设置,你可以修改此文件来自定义 Pipeline 的行为。

  • 运行索引流程.

    python -m graphrag.index --root ./ragtest

    此过程需要一些时间,具体取决于你的输入数据大小、所使用的模型以及文本块大小(这些可以在 settings.yaml 文件中进行配置)。完成后,你会看到一个名为 ./ragtest/output//artifacts 的新文件夹,其中包含一系列处理后的文件。

  • 运行检索及生成流程

    python -m graphrag.query \ --root ./ragtest \ --method local \ "Who is Scrooge, and what are his main relationships?"

学AI大模型的正确顺序,千万不要搞错了

🤔2026年AI风口已来!各行各业的AI渗透肉眼可见,超多公司要么转型做AI相关产品,要么高薪挖AI技术人才,机遇直接摆在眼前!

有往AI方向发展,或者本身有后端编程基础的朋友,直接冲AI大模型应用开发转岗超合适!

就算暂时不打算转岗,了解大模型、RAG、Prompt、Agent这些热门概念,能上手做简单项目,也绝对是求职加分王🔋

📝给大家整理了超全最新的AI大模型应用开发学习清单和资料,手把手帮你快速入门!👇👇

学习路线:

✅大模型基础认知—大模型核心原理、发展历程、主流模型(GPT、文心一言等)特点解析
✅核心技术模块—RAG检索增强生成、Prompt工程实战、Agent智能体开发逻辑
✅开发基础能力—Python进阶、API接口调用、大模型开发框架(LangChain等)实操
✅应用场景开发—智能问答系统、企业知识库、AIGC内容生成工具、行业定制化大模型应用
✅项目落地流程—需求拆解、技术选型、模型调优、测试上线、运维迭代
✅面试求职冲刺—岗位JD解析、简历AI项目包装、高频面试题汇总、模拟面经

以上6大模块,看似清晰好上手,实则每个部分都有扎实的核心内容需要吃透!

我把大模型的学习全流程已经整理📚好了!抓住AI时代风口,轻松解锁职业新可能,希望大家都能把握机遇,实现薪资/职业跃迁~

这份完整版的大模型 AI 学习资料已经上传CSDN,朋友们如果需要可以微信扫描下方CSDN官方认证二维码免费领取【保证100%免费

版权声明: 本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若内容造成侵权/违法违规/事实不符,请联系邮箱:809451989@qq.com进行投诉反馈,一经查实,立即删除!
网站建设 2026/4/16 6:07:02

2026年4月亲测:宠物智能猫砂盆哪家强?

行业痛点分析在宠物智能猫砂盆领域,尽管市场上已有多种自动铲屎产品,但用户仍然面临一些核心问题。普通猫砂盆即便具备自动铲屎功能,底部仍会残留沾了尿液的结团猫砂,需要用户每周手动拆洗,实际上并未完全解放双手。数…

作者头像 李华
网站建设 2026/4/16 6:07:00

华硕无畏Pro15 2024 N6506M 原厂Win11 23H2系统分享下载-宇程系统站

华硕无畏Pro15 2024 N6506M笔记本自带一键恢复功能,可在系统异常或重装/更换硬盘后通过原厂工厂文件恢复出厂设置和隐藏恢复分区。支持型号包括N6506MU, N6506MV, N6506MJ,预装Windows 11 23H2家庭版系统。用户只需准备相关工具并按照安装教程操作即可轻…

作者头像 李华
网站建设 2026/4/16 6:04:11

2026年月付会员和按篇付费降AI工具对比:长期用哪种更划算

2026年月付会员和按篇付费降AI工具对比:长期用哪种更划算 「到底选哪个降AI工具」——这是我被问得最多的问题。 根据我自己用过的和帮朋友用过的经验,综合推荐嘎嘎降AI(www.aigcleaner.com),4.8元,99.26…

作者头像 李华
网站建设 2026/4/16 6:00:13

OFA视觉蕴含模型实操手册:结果可解释性增强——注意力热力图可视化

OFA视觉蕴含模型实操手册:结果可解释性增强——注意力热力图可视化 1. 项目概述 OFA视觉蕴含模型是一个强大的多模态AI系统,能够智能分析图像内容与文本描述之间的语义关系。简单来说,它能判断一张图片和一段文字是否匹配,就像一…

作者头像 李华