清华2024 ACL提出 DRAGIN：精准捕捉 LLM 实时需求，动态检索增强生成再破局-程序员充电站

清华大学团队在2024年ACL会议上发表了一项突破性工作DRAGIN，通过精准捕捉LLM的实时信息需求，重新定义了动态检索增强生成的范式。该框架在四大知识密集型基准数据集上全面超越现有方法，为LLM的事实性生成提供了全新解决方案。

在大语言模型（LLM）席卷自然语言处理领域的今天，"幻觉"问题始终是制约其落地的关键瓶颈——模型常常生成逻辑连贯却与事实相悖的内容，尤其在复杂多步推理、长文本生成等知识密集型任务中表现突出。为解决这一痛点，检索增强生成（RAG）技术应运而生，但传统静态RAG和现有动态RAG方法均存在明显局限。

近日，清华大学团队在2024年ACL会议上发表了一项突破性工作DRAGIN，通过精准捕捉LLM的实时信息需求，重新定义了动态检索增强生成的范式。该框架在四大知识密集型基准数据集上全面超越现有方法，为LLM的事实性生成提供了全新解决方案。

论文地址：https://aclanthology.org/2024.acl-long.702.pdf 项目地址：https://github.com/oneal2000/DRAGIN

01、现有RAG的两大核心痛点

尽管RAG技术已成为缓解LLM幻觉的主流方案，但当前方法仍存在难以忽视的缺陷：

1. 检索时机决策僵化

传统动态RAG方法（如RETRO、IC-RALM、IRCoT和FLARE）在检索触发机制上存在明显不足：

要么依赖固定规则：例如，RETRO和IC-RALM通过每生成n个token触发检索，这种固定间隔的检索方式忽略了语言生成的动态性和多样性。在某些情况下，模型可能已经具备足够的信息生成后续内容，而检索则会引入不必要的噪声数据，损害生成质量。
要么仅基于单一信号：如FLARE仅通过token生成概率阈值判断是否触发检索。这种单一信号机制忽略了token的语义价值和对后续生成的影响，可能导致在关键节点遗漏检索，或在无关节点过度检索。

这种做法完全忽略了LLM的实际信息需求：

token的语义价值：某些停用词（如“the”、“and”）可能触发不必要的检索。这些词在语言中虽然频繁出现，但通常不携带关键信息，检索这些词可能导致引入无关的上下文，从而降低生成质量。
token对后续生成的影响：某些低概率token可能对后续内容至关重要。例如，在生成一个技术文档时，一个低概率但语义关键的token（如“量子计算”）可能需要检索以确保生成内容的准确性和完整性。
下文关联性：仅关注当前token的置信度，未考虑其在整个上下文中的作用。语言生成是一个动态的、上下文依赖的过程，仅依赖当前token的置信度无法有效判断是否需要检索。

2. 检索查询构建片面

现有方法的查询构建局限于最近生成的句子或最后几个token，而LLM的信息需求往往贯穿整个上下文。例如，当模型生成"爱因斯坦1903年在苏黎世获得职位"时，真正需要检索的是"爱因斯坦1903年职位详情"，而非仅基于"苏黎世"或"1903年"进行局部查询，这种片面性导致检索效率低下。

02、DRAGIN框架：以实时信息需求为核心的动态RAG

DRAGIN（Dynamic Retrieval Augmented Generation based on the Information Needs of LLMs）的核心创新的是：不再依赖静态规则，而是基于LLM生成过程中的实时信息需求，动态决策“何时检索”和“检索什么”。

该框架包含两大核心组件：实时信息需求检测（RIND）和基于自注意力的查询构建（QFS），整体架构如下：

实时信息需求检测（RIND）：精准判断"何时检索"

RIND通过三维评估体系，综合判断每个token是否需要触发检索，彻底摆脱了静态规则的束缚：

（1）不确定性评估（Entropy）

通过计算token生成概率分布的熵值，识别模型的“知识盲区”。熵值越高，表明模型对当前token的生成越不确定（如专业术语、罕见事实），公式如下：

高熵→ 模型对当前token不确定（如专业术语或罕见词），低熵→ 模型对当前token高度确定（如常见词或语法标记）。

作用：识别模型“知识盲区”的潜在位置。

（2）影响力评估（Attention）

利用Transformer的自注意力机制，为每个token分配权重，量化当前token对后续生成的影响。通过提取最后一层Transformer的最大注意力值，筛选出对后续内容至关重要的token（如关键实体、逻辑转折点），公式如下：

高注意力值→后续生成强烈依赖（如关键实体或逻辑转折点），低注意力值→对后续生成影响微弱（如冗余修饰词）。

作用：避免为无关紧要的token触发检索。

（3）语义价值评估（Stopword Filtering）

通过二元语义指示器过滤停用词（如"the"、"and"），确保检索聚焦于承载核心语义的token：

其中S为停用词集合。

作用：确保检索聚焦于承载核心语义的token。

综合决策机制

将三维评估结果相乘，得到每个token的综合得分：

当任意token的得分超过预设阈值时，立即触发检索模块。

基于自注意力的查询构建（QFS）：精准定位"检索什么"

QFS突破了局部上下文的限制，利用LLM的自注意力权重，从整个上下文筛选最能反映实时需求的token构建查询，步骤如下：

提取触发检索位置i处token在Transformer最后一层的注意力得分，覆盖所有前文token；
按注意力得分降序排序，选取Top-n个关键token；
按原始文本顺序排列这些token，确保语义连贯性；
构建查询语句，精准匹配模型的真实信息需求。

例如，当模型生成"爱因斯坦1903年在苏黎世获得职位"并触发检索时，QFS会基于自注意力权重，提取"爱因斯坦1903年职位"作为查询，而非仅截取"苏黎世"或"1903年"。

检索后生成机制

检索到相关外部知识后，DRAGIN会将原始生成序列在触发位置截断，通过精心设计的提示模板将外部知识融入输入，让LLM基于补充信息继续生成：

若后续生成中再次检测到信息需求，将重复上述过程，实现多轮动态检索增强。

03、全面实验验证：四大基准数据集均达SOTA

为验证DRAGIN的有效性，在四大知识密集型数据集上进行了全面评估，并与5种主流RAG方法对比。

实验设置

数据集

2WikiMultihopQA：多跳问答任务，需多步推理获取答案
HotpotQA：多跳问答任务，侧重复杂信息整合
IIRC：阅读理解任务，需从文本中精准提取信息
StrategyQA：常识推理任务，需结合常识知识作答

基准方法

wo-RAG：无检索增强，LLM直接生成
SR-RAG：单轮检索，基于初始问题检索
FL-RAG：固定长度检索，每n个token触发
FS-RAG：固定句子检索，每生成一句触发
FLARE：基于token概率阈值的动态检索

整体性能对比

DRAGIN在所有数据集和模型上均实现SOTA性能，尤其在多跳问答任务中优势显著：

关键发现：

检索增强普遍提升LLM性能，验证了RAG的有效性；
固定规则检索（FL-RAG/FS-RAG）性能不稳定，甚至低于单轮检索，凸显检索时机优化的重要性；
DRAGIN在多跳问答任务（2WikiMultihopQA/HotpotQA）上提升最为显著，证明其在复杂推理场景的优势。

检索时机与查询构建

为验证核心组件的有效性，进行了专项消融实验：

检索时机对比：固定查询构建方法为"最新句子"，DRAGIN的检索时机策略在IIRC数据集上EM/F1得分（0.187/0.2242）远超FLARE（0.128/0.1599）、FL-RAG（0.155/0.1875）和FS-RAG（0.171/0.2061）；

查询构建对比：固定检索时机为RIND，DRAGIN的QFS方法在HotpotQA数据集上EM/F1得分（0.314/0.4238）显著优于FLARE（0.262/0.3674）、全上下文查询（0.252/0.3584）等方法。

效率与鲁棒性

效率：DRAGIN的检索调用次数少于FS-RAG和FL-RAG，仅略高于FLARE，实现性能与效率的平衡；

鲁棒性：RIND模块的阈值在0.3-1.0范围内变化时，DRAGIN性能保持稳定，表明其对超参数不敏感；

检索模型适配性：尽管SGPT是SOTA稠密检索模型，但BM25在DRAGIN框架中表现更优，验证了框架与传统检索模型的良好兼容性。

04、总结

DRAGIN通过两大核心创新，解决了现有动态RAG的关键痛点：

RIND组件实现了基于LLM实时信息需求的精准检索时机决策，避免无效检索；
QFS组件突破局部上下文限制，构建更贴合真实需求的检索查询。

该框架具有轻量级特性，无需对LLM进行额外训练、微调或提示工程，可直接集成到LLM中。其核心适用场景为开源LLM的本地部署（需访问模型自注意力得分）。

但现在对于RAG的生成模型，更多基于闭源模型。因此，解决闭源LLM无法访问自注意力得分的限制，DRAGIN的优势能够延伸至更广泛的应用场景。

另外对QFS方法和截断生成的进一步理解：

（一）QFS选token会不会造成语义断裂

QFS看似是“跳着选token”，但实际是基于语义关联的精准筛选，而非随机挑选，核心保障有两点：

注意力得分的本质是“语义相关性”：QFS选的是“对当前触发位置token生成最重要的前n个token”，这些token本身就和当前信息需求强相关。比如触发位置是“爱因斯坦1903年职位”，注意力得分最高的token自然是“爱因斯坦”“1903年”“职位”这类核心元素，它们本身就构成了完整的语义单元，不会出现“跳着选导致语义破碎”的情况。
按原始顺序重组token：QFS筛选出Top-n token后，不会打乱顺序，而是严格按照它们在原文中的出现顺序排列构建查询。比如原文是“爱因斯坦1879年出生，1903年在苏黎世获得职位”，筛选出的token是“爱因斯坦”“1903年”“职位”，重组后依然是“爱因斯坦 1903年职位”，语义逻辑完全连贯。

简单说，QFS选的是“语义核心子集”，而非“零散碎片”，自然不会造成语义断裂。

（二）截断生成+融入外部知识会不会导致语义不通

DRAGIN的截断和融合逻辑，核心是“无缝衔接”，而非“生硬拼接”，关键设计有三个：

截断位置精准可控：截断点就是RIND检测到的“需要外部知识的token位置”，这个位置本身就是生成的“知识缺口点”，比如“爱因斯坦1903年在苏黎世获得职位”，截断在“职位”之后，前面的内容已经是完整且正确的语义，不会出现“截断在半句话中间”的情况。
提示模板强调“基于外部知识继续”：模板明确告知LLM“现有答案是T'，请结合提供的外部知识继续补充”，相当于给LLM一个“衔接指令”。比如截断后是“爱因斯坦1903年在苏黎世获得职位”，外部知识是“该职位为伯尔尼瑞士专利局职员”，LLM会自然衔接为“爱因斯坦1903年在苏黎世获得职位，具体为伯尔尼瑞士专利局的职员”，语义完全通顺。
外部知识是“补充”而非“替换”：融入的外部知识是对现有生成内容的“事实补全”，而非推翻重写。现有生成的语义框架是正确的，只是缺少具体事实支撑，外部知识刚好填补这个缺口，不会出现“前后语义冲突”。

举个实际案例：

截断前生成：“爱因斯坦1903年在苏黎世获得职位”
外部知识：“1903年，爱因斯坦在伯尔尼瑞士专利局获得三级技术专家职位”
融合后继续生成：“爱因斯坦1903年在苏黎世获得职位，具体为伯尔尼瑞士专利局的三级技术专家，这一职位为他提供了稳定的收入，让他有精力开展理论物理研究”

整个过程语义连贯，没有任何不通畅的问题。

如果你想更深入地学习大模型，以下是一些非常有价值的学习资源，这些资源将帮助你从不同角度学习大模型，提升你的实践能力。

一、全套AGI大模型学习路线

AI大模型时代的学习之旅：从基础到前沿，掌握人工智能的核心技能！

因篇幅有限，仅展示部分资料，需要点击文章最下方名片即可前往获取

二、640套AI大模型报告合集

这套包含640份报告的合集，涵盖了AI大模型的理论研究、技术实现、行业应用等多个方面。无论您是科研人员、工程师，还是对AI大模型感兴趣的爱好者，这套报告合集都将为您提供宝贵的信息和启示

因篇幅有限，仅展示部分资料，需要点击文章最下方名片即可前往获取

三、AI大模型经典PDF籍

随着人工智能技术的飞速发展，AI大模型已经成为了当今科技领域的一大热点。这些大型预训练模型，如GPT-3、BERT、XLNet等，以其强大的语言理解和生成能力，正在改变我们对人工智能的认识。那以下这些PDF籍就是非常不错的学习资源。

因篇幅有限，仅展示部分资料，需要点击文章最下方名片即可前往获取

四、AI大模型商业化落地方案

作为普通人，入局大模型时代需要持续学习和实践，不断提高自己的技能和认知水平，同时也需要有责任感和伦理意识，为人工智能的健康发展贡献力量

清华2024 ACL提出 DRAGIN：精准捕捉 LLM 实时需求，动态检索增强生成再破局

01、现有RAG的两大核心痛点

1. 检索时机决策僵化

2. 检索查询构建片面

02、DRAGIN框架：以实时信息需求为核心的动态RAG

实时信息需求检测（RIND）：精准判断"何时检索"

（1）不确定性评估（Entropy）

（2）影响力评估（Attention）

（3）语义价值评估（Stopword Filtering）

综合决策机制

基于自注意力的查询构建（QFS）：精准定位"检索什么"

检索后生成机制

03、全面实验验证：四大基准数据集均达SOTA

实验设置

数据集

基准方法

整体性能对比

检索时机与查询构建

效率与鲁棒性

04、总结

（一）QFS选token会不会造成语义断裂

（二）截断生成+融入外部知识会不会导致语义不通

从安装到上线：一份 Nginx 实战指南，让你的 Web 应用稳建安全

西安电子科技大学研究生学位论文XeLaTeX模板快速使用指南

Wwise音频处理完整指南：从解包到音效替换的终极教程

PyInstaller解包终极指南：轻松提取Python可执行文件内容

突破魔兽世界宏限制：GSE高级宏编译器完全指南

PyInstaller可执行文件逆向分析全攻略