news 2026/5/3 15:00:00

清华2024 ACL提出 DRAGIN:精准捕捉 LLM 实时需求,动态检索增强生成再破局

作者头像

张小明

前端开发工程师

1.2k 24
文章封面图
清华2024 ACL提出 DRAGIN:精准捕捉 LLM 实时需求,动态检索增强生成再破局

清华大学团队在2024年ACL会议上发表了一项突破性工作DRAGIN,通过精准捕捉LLM的实时信息需求,重新定义了动态检索增强生成的范式。该框架在四大知识密集型基准数据集上全面超越现有方法,为LLM的事实性生成提供了全新解决方案。

在大语言模型(LLM)席卷自然语言处理领域的今天,"幻觉"问题始终是制约其落地的关键瓶颈——模型常常生成逻辑连贯却与事实相悖的内容,尤其在复杂多步推理、长文本生成等知识密集型任务中表现突出。为解决这一痛点,检索增强生成(RAG)技术应运而生,但传统静态RAG和现有动态RAG方法均存在明显局限。

近日,清华大学团队在2024年ACL会议上发表了一项突破性工作DRAGIN,通过精准捕捉LLM的实时信息需求,重新定义了动态检索增强生成的范式。该框架在四大知识密集型基准数据集上全面超越现有方法,为LLM的事实性生成提供了全新解决方案。

论文地址:https://aclanthology.org/2024.acl-long.702.pdf 项目地址:https://github.com/oneal2000/DRAGIN

01、现有RAG的两大核心痛点

尽管RAG技术已成为缓解LLM幻觉的主流方案,但当前方法仍存在难以忽视的缺陷:

1. 检索时机决策僵化

传统动态RAG方法(如RETRO、IC-RALM、IRCoT和FLARE)在检索触发机制上存在明显不足:

  • 要么依赖固定规则:例如,RETRO和IC-RALM通过每生成n个token触发检索,这种固定间隔的检索方式忽略了语言生成的动态性和多样性。在某些情况下,模型可能已经具备足够的信息生成后续内容,而检索则会引入不必要的噪声数据,损害生成质量。
  • 要么仅基于单一信号:如FLARE仅通过token生成概率阈值判断是否触发检索。这种单一信号机制忽略了token的语义价值和对后续生成的影响,可能导致在关键节点遗漏检索,或在无关节点过度检索。

这种做法完全忽略了LLM的实际信息需求:

  • token的语义价值:某些停用词(如“the”、“and”)可能触发不必要的检索。这些词在语言中虽然频繁出现,但通常不携带关键信息,检索这些词可能导致引入无关的上下文,从而降低生成质量。
  • token对后续生成的影响:某些低概率token可能对后续内容至关重要。例如,在生成一个技术文档时,一个低概率但语义关键的token(如“量子计算”)可能需要检索以确保生成内容的准确性和完整性。
  • 下文关联性:仅关注当前token的置信度,未考虑其在整个上下文中的作用。语言生成是一个动态的、上下文依赖的过程,仅依赖当前token的置信度无法有效判断是否需要检索。

2. 检索查询构建片面

现有方法的查询构建局限于最近生成的句子或最后几个token,而LLM的信息需求往往贯穿整个上下文。例如,当模型生成"爱因斯坦1903年在苏黎世获得职位"时,真正需要检索的是"爱因斯坦1903年职位详情",而非仅基于"苏黎世"或"1903年"进行局部查询,这种片面性导致检索效率低下。

02、DRAGIN框架:以实时信息需求为核心的动态RAG

DRAGIN(Dynamic Retrieval Augmented Generation based on the Information Needs of LLMs)的核心创新的是:不再依赖静态规则,而是基于LLM生成过程中的实时信息需求,动态决策何时检索检索什么”。

该框架包含两大核心组件:实时信息需求检测(RIND)和基于自注意力的查询构建(QFS),整体架构如下:

实时信息需求检测(RIND):精准判断"何时检索"

RIND通过三维评估体系,综合判断每个token是否需要触发检索,彻底摆脱了静态规则的束缚:

(1)不确定性评估(Entropy)

通过计算token生成概率分布的熵值,识别模型的知识盲区”。熵值越高,表明模型对当前token的生成越不确定(如专业术语、罕见事实),公式如下:

高熵→ 模型对当前token不确定(如专业术语或罕见词),低熵→ 模型对当前token高度确定(如常见词或语法标记)。

作用:识别模型知识盲区的潜在位置

(2)影响力评估(Attention)

利用Transformer的自注意力机制,为每个token分配权重,量化当前token对后续生成的影响。通过提取最后一层Transformer的最大注意力值,筛选出对后续内容至关重要的token(如关键实体、逻辑转折点),公式如下:

高注意力值→后续生成强烈依赖(如关键实体或逻辑转折点),低注意力值→对后续生成影响微弱(如冗余修饰词)。

作用:避免为无关紧要的token触发检索

(3)语义价值评估(Stopword Filtering)

通过二元语义指示器过滤停用词(如"the"、"and"),确保检索聚焦于承载核心语义的token:

其中S为停用词集合。

作用:确保检索聚焦于承载核心语义的token

综合决策机制

将三维评估结果相乘,得到每个token的综合得分:

当任意token的得分超过预设阈值时,立即触发检索模块。

基于自注意力的查询构建(QFS):精准定位"检索什么"

QFS突破了局部上下文的限制,利用LLM的自注意力权重,从整个上下文筛选最能反映实时需求的token构建查询,步骤如下:

  1. 提取触发检索位置i处token在Transformer最后一层的注意力得分,覆盖所有前文token;
  2. 按注意力得分降序排序,选取Top-n个关键token;
  3. 按原始文本顺序排列这些token,确保语义连贯性;
  4. 构建查询语句,精准匹配模型的真实信息需求。

例如,当模型生成"爱因斯坦1903年在苏黎世获得职位"并触发检索时,QFS会基于自注意力权重,提取"爱因斯坦1903年职位"作为查询,而非仅截取"苏黎世"或"1903年"。

检索后生成机制

检索到相关外部知识后,DRAGIN会将原始生成序列在触发位置截断,通过精心设计的提示模板将外部知识融入输入,让LLM基于补充信息继续生成:

若后续生成中再次检测到信息需求,将重复上述过程,实现多轮动态检索增强。

03、全面实验验证:四大基准数据集均达SOTA

为验证DRAGIN的有效性,在四大知识密集型数据集上进行了全面评估,并与5种主流RAG方法对比。

实验设置

数据集
  • 2WikiMultihopQA:多跳问答任务,需多步推理获取答案
  • HotpotQA:多跳问答任务,侧重复杂信息整合
  • IIRC:阅读理解任务,需从文本中精准提取信息
  • StrategyQA:常识推理任务,需结合常识知识作答
基准方法
  • wo-RAG:无检索增强,LLM直接生成
  • SR-RAG:单轮检索,基于初始问题检索
  • FL-RAG:固定长度检索,每n个token触发
  • FS-RAG:固定句子检索,每生成一句触发
  • FLARE:基于token概率阈值的动态检索

整体性能对比

DRAGIN在所有数据集和模型上均实现SOTA性能,尤其在多跳问答任务中优势显著:

关键发现:

  • 检索增强普遍提升LLM性能,验证了RAG的有效性;
  • 固定规则检索(FL-RAG/FS-RAG)性能不稳定,甚至低于单轮检索,凸显检索时机优化的重要性;
  • DRAGIN在多跳问答任务(2WikiMultihopQA/HotpotQA)上提升最为显著,证明其在复杂推理场景的优势。

检索时机与查询构建

为验证核心组件的有效性,进行了专项消融实验:

检索时机对比:固定查询构建方法为"最新句子",DRAGIN的检索时机策略在IIRC数据集上EM/F1得分(0.187/0.2242)远超FLARE(0.128/0.1599)、FL-RAG(0.155/0.1875)和FS-RAG(0.171/0.2061);

查询构建对比:固定检索时机为RIND,DRAGIN的QFS方法在HotpotQA数据集上EM/F1得分(0.314/0.4238)显著优于FLARE(0.262/0.3674)、全上下文查询(0.252/0.3584)等方法。

效率与鲁棒性

效率:DRAGIN的检索调用次数少于FS-RAG和FL-RAG,仅略高于FLARE,实现性能与效率的平衡;

鲁棒性:RIND模块的阈值在0.3-1.0范围内变化时,DRAGIN性能保持稳定,表明其对超参数不敏感

检索模型适配性:尽管SGPT是SOTA稠密检索模型,但BM25在DRAGIN框架中表现更优,验证了框架与传统检索模型的良好兼容性

04、总结

DRAGIN通过两大核心创新,解决了现有动态RAG的关键痛点:

  1. RIND组件实现了基于LLM实时信息需求的精准检索时机决策,避免无效检索;
  2. QFS组件突破局部上下文限制,构建更贴合真实需求的检索查询。

该框架具有轻量级特性,无需对LLM进行额外训练、微调或提示工程,可直接集成到LLM中。其核心适用场景为开源LLM的本地部署(需访问模型自注意力得分)。

但现在对于RAG的生成模型,更多基于闭源模型。因此,解决闭源LLM无法访问自注意力得分的限制,DRAGIN的优势能够延伸至更广泛的应用场景。

另外对QFS方法和截断生成的进一步理解:

(一)QFS选token会不会造成语义断裂

QFS看似是“跳着选token”,但实际是基于语义关联的精准筛选,而非随机挑选,核心保障有两点:

  1. 意力得分的本质是语义相关性”:QFS选的是“对当前触发位置token生成最重要的前n个token”,这些token本身就和当前信息需求强相关。比如触发位置是“爱因斯坦1903年职位”,注意力得分最高的token自然是“爱因斯坦”“1903年”“职位”这类核心元素,它们本身就构成了完整的语义单元,不会出现“跳着选导致语义破碎”的情况。
  2. 原始顺序重组token:QFS筛选出Top-n token后,不会打乱顺序,而是严格按照它们在原文中的出现顺序排列构建查询。比如原文是“爱因斯坦1879年出生,1903年在苏黎世获得职位”,筛选出的token是“爱因斯坦”“1903年”“职位”,重组后依然是“爱因斯坦 1903年 职位”,语义逻辑完全连贯。

简单说,QFS选的是“语义核心子集”,而非“零散碎片”,自然不会造成语义断裂。

(二)截断生成+融入外部知识会不会导致语义不通

DRAGIN的截断和融合逻辑,核心是“无缝衔接”,而非“生硬拼接”,关键设计有三个:

  1. 断位置精准可控:截断点就是RIND检测到的“需要外部知识的token位置”,这个位置本身就是生成的“知识缺口点”,比如“爱因斯坦1903年在苏黎世获得职位”,截断在“职位”之后,前面的内容已经是完整且正确的语义,不会出现“截断在半句话中间”的情况。
  2. 示模板强调“基于外部知识继续”:模板明确告知LLM“现有答案是T',请结合提供的外部知识继续补充”,相当于给LLM一个“衔接指令”。比如截断后是“爱因斯坦1903年在苏黎世获得职位”,外部知识是“该职位为伯尔尼瑞士专利局职员”,LLM会自然衔接为“爱因斯坦1903年在苏黎世获得职位,具体为伯尔尼瑞士专利局的职员”,语义完全通顺。
  3. 部知识是“补充”而非“替换”:融入的外部知识是对现有生成内容的“事实补全”,而非推翻重写。现有生成的语义框架是正确的,只是缺少具体事实支撑,外部知识刚好填补这个缺口,不会出现“前后语义冲突”。

举个实际案例:

  • 截断前生成:“爱因斯坦1903年在苏黎世获得职位”
  • 外部知识:“1903年,爱因斯坦在伯尔尼瑞士专利局获得三级技术专家职位”
  • 融合后继续生成:“爱因斯坦1903年在苏黎世获得职位,具体为伯尔尼瑞士专利局的三级技术专家,这一职位为他提供了稳定的收入,让他有精力开展理论物理研究”

整个过程语义连贯,没有任何不通畅的问题。

如果你想更深入地学习大模型,以下是一些非常有价值的学习资源,这些资源将帮助你从不同角度学习大模型,提升你的实践能力。

一、全套AGI大模型学习路线

AI大模型时代的学习之旅:从基础到前沿,掌握人工智能的核心技能!​

因篇幅有限,仅展示部分资料,需要点击文章最下方名片即可前往获取

二、640套AI大模型报告合集

这套包含640份报告的合集,涵盖了AI大模型的理论研究、技术实现、行业应用等多个方面。无论您是科研人员、工程师,还是对AI大模型感兴趣的爱好者,这套报告合集都将为您提供宝贵的信息和启示

因篇幅有限,仅展示部分资料,需要点击文章最下方名片即可前往获取

三、AI大模型经典PDF籍

随着人工智能技术的飞速发展,AI大模型已经成为了当今科技领域的一大热点。这些大型预训练模型,如GPT-3、BERT、XLNet等,以其强大的语言理解和生成能力,正在改变我们对人工智能的认识。 那以下这些PDF籍就是非常不错的学习资源。

因篇幅有限,仅展示部分资料,需要点击文章最下方名片即可前往获取

四、AI大模型商业化落地方案

作为普通人,入局大模型时代需要持续学习和实践,不断提高自己的技能和认知水平,同时也需要有责任感和伦理意识,为人工智能的健康发展贡献力量

版权声明: 本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若内容造成侵权/违法违规/事实不符,请联系邮箱:809451989@qq.com进行投诉反馈,一经查实,立即删除!
网站建设 2026/5/1 11:45:03

从安装到上线:一份 Nginx 实战指南,让你的 Web 应用稳建安全

你有没有遇到过网站突然变卡,或者千辛万苦写好的 Flask/FastAPI 应用,却不知道怎么优雅地部署到公网?今天,我们就来聊聊那个在背后默默支撑全球近三分之一活跃网站的“无名英雄”——Nginx。 对于很多开发者和运维新手来说&#x…

作者头像 李华
网站建设 2026/4/23 14:45:00

西安电子科技大学研究生学位论文XeLaTeX模板快速使用指南

西安电子科技大学研究生学位论文XeLaTeX模板快速使用指南 【免费下载链接】xdupgthesis [停止维护 请使用note286/xduts]西安电子科技大学研究生学位论文XeLaTeX模板 项目地址: https://gitcode.com/gh_mirrors/xd/xdupgthesis 引言与核心价值 西安电子科技大学研究生学…

作者头像 李华
网站建设 2026/5/3 9:10:26

Wwise音频处理完整指南:从解包到音效替换的终极教程

Wwise音频处理完整指南:从解包到音效替换的终极教程 【免费下载链接】wwiseutil Tools for unpacking and modifying Wwise SoundBank and File Package files. 项目地址: https://gitcode.com/gh_mirrors/ww/wwiseutil 还在为游戏音频文件无法编辑而烦恼吗&…

作者头像 李华
网站建设 2026/4/22 15:15:38

PyInstaller解包终极指南:轻松提取Python可执行文件内容

PyInstaller解包终极指南:轻松提取Python可执行文件内容 【免费下载链接】pyinstxtractor PyInstaller Extractor 项目地址: https://gitcode.com/gh_mirrors/py/pyinstxtractor 想要找回丢失的Python源代码?PyInstaller解包工具就是您的救星&…

作者头像 李华
网站建设 2026/4/23 17:48:06

突破魔兽世界宏限制:GSE高级宏编译器完全指南

突破魔兽世界宏限制:GSE高级宏编译器完全指南 【免费下载链接】GSE-Advanced-Macro-Compiler GSE is an alternative advanced macro editor and engine for World of Warcraft. It uses Travis for UnitTests, Coveralls to report on test coverage and the Curse…

作者头像 李华
网站建设 2026/5/3 19:44:54

PyInstaller可执行文件逆向分析全攻略

PyInstaller可执行文件逆向分析全攻略 【免费下载链接】pyinstxtractor PyInstaller Extractor 项目地址: https://gitcode.com/gh_mirrors/py/pyinstxtractor PyInstaller逆向分析工具是专门用于解包PyInstaller打包的Python可执行文件的强大解决方案。无论是进行代码审…

作者头像 李华