news 2026/6/10 20:41:50

[论文阅读]RAGChecker: A Fine-grained Framework for Diagnosing Retrieval-Augmented Generation

作者头像

张小明

前端开发工程师

1.2k 24
文章封面图
[论文阅读]RAGChecker: A Fine-grained Framework for Diagnosing Retrieval-Augmented Generation

RAGChecker: A Fine-grained Framework for Diagnosing Retrieval-Augmented Generation

https://proceedings.neurips.cc/paper_files/paper/2024/hash/27245589131d17368cccdfa990cbf16e-Abstract-Datasets_and_Benchmarks_Track.html

NIPS 2024

尝试从图中理解作者的工作:

作者是对RAG系统的评估进行了更加细粒度的指标定义

这些指标是在构建RAGChecker框架时专门设计的,用以更精细地诊断和量化 RAG 系统各个模块的性能与行为,不仅仅是粗略的召回/准确率,而能识别出检索和生成组件的具体优劣以及它们之间的交互特性。

传统的评估指标(如 recall@k、MRR、BLEU、ROUGE、BERTScore 等)通常用于评估检索排名或文本生成质量,但它们:

  1. 不能明确分解错误来源(检索 vs 生成)

  2. 难以区分语义错误、噪声敏感度、幻觉等不同行为

  3. 对于长文本及复杂回答表现不稳定

RAGChecker 引入一套基于“断言(claim)级别蕴含关系判断”的细粒度指标,可以更精细诊断 RAG 系统错误类型和机制。

RAGChecker 的指标体系分为三大类:

  1. 整体性能指标(Overall Metrics)

  2. 检索模块诊断指标(Retriever Diagnostic Metrics)

  3. 生成模块诊断指标(Generator Diagnostic Metrics)

整体性能指标

这些指标衡量 RAG 系统从查询到生成回答的整体表现:

指标

定义

说明

Precision

生成回答中正确断言所占比例

衡量回答中有多少内容是正确的

Recall

ground truth 断言中被回答覆盖的比率

衡量回答的完整性

F1 score

Precision 和 Recall 的调和平均

综合评估整体质量

  • 断言(claim)是指答案中独立的事实性陈述,经由工具抽取和语义蕴含判断生成这些指标。

  • 这些指标更关注答案是否覆盖重要事实及是否正确,而不是单纯的 n-gram 或向量相似度。

检索模块诊断指标

这些指标用于分析检索器在提取上下文片段(chunks)时的性能:

指标

计算方式

意义

Claim Recall

所有 ground truth 断言中,被检索上下文覆盖的比例

检索到的相关信息覆盖率

Context Precision

检索到的片段中,与 ground truth 有语义关系的片段比例

检索的噪声 vs 有用片段的精度

  • Claim Recall判断检索上下文是否真的包含了对回答有信息价值的内容。

  • Context Precision衡量检索器是否带入太多无关噪声(噪音片段可能误导生成器)。

生成模块诊断指标

这些指标细粒度分析生成模块如何利用检索上下文以及生成回答的可靠性:

指标

定义

说明

Context Utilization

在生成的正确断言中,有多少是使用检索上下文信息推断的

衡量生成器有效使用检索信息的程度

Relevant Noise Sensitivity

错误断言比例中,从相关检索信息中推断出的错误断言

检查生成器是否过度信任相关上下文中的噪声

Irrelevant Noise Sensitivity

错误断言比例中,由不相关检索信息引起的错误

生成器对无用上下文的敏感度

Hallucination

错误断言中无法从任何检索上下文推断出的部分

衡量生成器的幻觉现象

Self-knowledge

正确断言中无法从检索上下文推断出的部分

表示生成器依赖自身知识而非检索信息

Faithfulness

所有断言中可从检索上下文推断出的比例

衡量回答的“忠实度”

• Context Utilization

评估回答中正确的断言有多少是从检索内容中真正推导出来的。

高值意味着生成器有效利用了检索结果,有助于减少模型依赖自身记忆。

• Noise Sensitivity(相关/不相关)

拆分错误断言来源:

  • 相关噪声敏感性:错误断言是基于相关检索上下文中噪声的推断。

  • 不相关噪声敏感性:错误断言来自完全无关背景信息。

这两项指标帮助定位生成错误是否因为检索带来的噪声信息所致。

• Hallucination

衡量模型“凭空生成错误事实”的比例,即与任何检索内容无直接语义蕴含关系的错误。

这是衡量生成部分幻觉的重要指标。

• Self-knowledge

表示模型正确回答中不是来自检索上下文的信息。

在一些场景中这并不是坏事(例如广泛公共知识),但在 RAG 任务中高 Self-knowledge 表示生成器可能忽视检索结果。

• Faithfulness

衡量回答中有多少事实能被检索上下文蕴含。是对生成回答“是否忠实于检索内容”的整体度量。

RAGChecker 的细粒度指标设计具有如下优势:

  1. 语义驱动,不局限于表面结构匹配:通过断言级语义蕴含判断,能更真实反映“回答是否真实”而非仅对文本相似性。

  2. 模块拆解明确错误来源:分别诊断检索与生成,有助于定位性能瓶颈。

  3. 与人类评判高度相关:元评估显示 RAGChecker 指标比现有指标更符合人类判断

版权声明: 本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若内容造成侵权/违法违规/事实不符,请联系邮箱:809451989@qq.com进行投诉反馈,一经查实,立即删除!
网站建设 2026/6/9 21:00:43

基于java的SpringBoot/SSM+Vue+uniapp的面向旅游的美食管理系统的详细设计和实现(源码+lw+部署文档+讲解等)

文章目录前言详细视频演示具体实现截图技术栈后端框架SpringBoot前端框架Vue持久层框架MyBaitsPlus系统测试系统测试目的系统功能测试系统测试结论为什么选择我代码参考数据库参考源码获取前言 🌞博主介绍:✌全网粉丝15W,CSDN特邀作者、211毕业、高级全…

作者头像 李华
网站建设 2026/6/10 11:53:50

计算机Java毕设实战-基于javaweb+mysql的校园招聘平台招聘管理系统基于springboot的启梦校园招聘平台【完整源码+LW+部署说明+演示视频,全bao一条龙等】

博主介绍:✌️码农一枚 ,专注于大学生项目实战开发、讲解和毕业🚢文撰写修改等。全栈领域优质创作者,博客之星、掘金/华为云/阿里云/InfoQ等平台优质作者、专注于Java、小程序技术领域和毕业项目实战 ✌️技术范围:&am…

作者头像 李华
网站建设 2026/6/10 14:26:10

论文重复率不合格?5个科学方法,轻松降到目标值

论文重复率超30%?5个降重技巧,一次降到合格线 嘿,大家好!我是AI菌。今天咱们来聊聊一个让无数学生头疼的问题:论文重复率飙到30%以上怎么办?别慌,我这就分享5个实用降重技巧,帮你一次…

作者头像 李华
网站建设 2026/6/10 14:58:07

2025最新!10个AI论文平台测评:继续教育写作难题全解决

2025最新!10个AI论文平台测评:继续教育写作难题全解决 2025年AI论文平台测评:精准解决继续教育写作难题 在继续教育领域,撰写高质量论文已成为许多学员和从业者的必修课。然而,面对时间紧张、资料查找困难、格式不规范…

作者头像 李华
网站建设 2026/6/10 10:05:04

RestCloud ETL 4.0 Docker 部署指南

RestCloud ETL 4.0 Docker 部署指南 现状 截至当前日期官网的4.0的windows全能包无法正常下载,点击无反应。 采用Docker安装。 操作前准备 腾讯云账号注册windows专业版 或者 windows企业版已经可以访问的mongoDB服务 操作步骤 1. 启用 windows 自带的,h…

作者头像 李华
网站建设 2026/6/10 11:12:52

计算机Java毕设实战-基于Java+SpringBoot的星海书店管理系统的设计与实现基于Java的书店管理系统的设计与实现【完整源码+LW+部署说明+演示视频,全bao一条龙等】

博主介绍:✌️码农一枚 ,专注于大学生项目实战开发、讲解和毕业🚢文撰写修改等。全栈领域优质创作者,博客之星、掘金/华为云/阿里云/InfoQ等平台优质作者、专注于Java、小程序技术领域和毕业项目实战 ✌️技术范围:&am…

作者头像 李华