news 2026/6/10 1:46:38

DecEx-RAG:过程监督+智能剪枝,让大模型检索推理快6倍

作者头像

张小明

前端开发工程师

1.2k 24
文章封面图
DecEx-RAG:过程监督+智能剪枝,让大模型检索推理快6倍

Agentic RAG 是当前 LLM 应用中一个非常火热的方向。与传统 RAG 不同它让模型在推理过程中自主决定要不要检索、什么时候检索。这样就相当于给模型一套工具让它自己判断该用哪个。

目前训练 Agentic RAG 的主流做法是结果监督强化学习:只在推理结束后给一个标量奖励:对就是对、错就是错,而过程中完全没有任何反馈。

这种方式有几个明显的问题:

模型必须跑完整个推理链才能拿到分数,中途即使跑偏了也没法纠正;奖励信号极其稀疏,模型根本不知道哪些步骤有用、哪些是在浪费时间;而且单一的全局分数太粗糙了,没法告诉模型到底是哪个环节出了问题,想做细粒度优化几乎不可能。

DecEx-RAG 的核心思路

DecEx-RAG 把 RAG 建模成一个马尔可夫决策过程(MDP),分成决策和执行两个阶段。

图1:DecEx-RAG 框架示意图,展示搜索树的扩展与剪枝过程

决策阶段解决两个问题:该停还是该继续?如果继续的话用内部知识还是去检索外部信息?每一步模型都要做出终止决策 σₜ 和检索决策 δₜ。

执行阶段关注的是生成质量。不管是子问题还是最终答案,都要求高质量输出。这个阶段用过程级奖励来优化。

而剪枝策略是 DecEx-RAG 的一大亮点:搜索树扩展太快会导致计算量爆炸所以需要动态剪枝,每一层做多次 rollout 模拟不同决策,把结果汇总成中间奖励;超过一半样本认为该停就停;如果内部知识生成的答案分数够高,直接跳过检索。

实测效果也是相当不错的,平均扩展时间从 743.2 秒压缩到 134.9 秒,快了将近 6 倍性能却几乎没有损失。

MDP 建模的技术细节

状态 S 是增量构建的,每一步都在历史中累积原始问题、子问题和对应的答案或检索文档。动作 A 包含两部分:终止决策 σₜ 决定继续还是停止,检索决策 δₜ 决定用内部知识还是发子查询拿外部文档。状态转移 P 也直接:停止就输出答案,不停就把新的子问题和结果加进历史继续走。

奖励 R 的计算方式是对给定(状态,动作)对做多次 rollout,然后取正确性分数的均值:

R(sₜ, aₜ) = (1/n) × Σ v(rolloutᵢ)

这里有两个设计值得注意,子问题和子查询是分开优化的,因为措辞上的微小差异可能导致检索结果天差地别。另外决策和执行被解耦了:决策数据用于提升效率,执行数据用于改善输出质量。

剪枝机制

生成过程监督数据非常耗时,DecEx-RAG 的剪枝机制在这里起了关键作用。

终止通过采样投票决定:每一步多次采样模型决策超过 50% 同意停止就终止迭代,而分支评分则是对每个子问题做 rollout 模拟,算平均分,只留表现最好的分支进入下一层。还有一个省算力的设计就是如果纯靠内部知识的答案分数超过预设阈值,检索直接跳过。

图2:三种扩展方法对比。k 为每个决策的执行分支数,n 为 rollout 次数,l 为层深。

理论上这种剪枝把复杂度从指数级拉到了线性级。在实际测试中单问题扩展时间从 743.2 秒降到 134.9 秒,6 倍提速而且可以保证性能不降。

训练流程

第一步是监督微调(SFT):从搜索树中抽取根到叶的最优推理链用来做标准监督学习。模型输入是推理步骤序列,输出是下一个最佳动作——可能是子问题、答案或子查询。

第二步是直接偏好优化(DPO):剪枝前模型会生成多组候选决策和执行结果,把这些配对保存下来用于偏好训练,让模型学会区分好的和不够好的选择。

实验结果

测试在六个开放域问答数据集上进行:HotpotQA、2WikiMultiHopQA、Bamboogle、PopQA、Natural Questions(NQ)、AmbigQA。

图3:DecEx-RAG 与基线方法在六个数据集上的表现。最佳/次佳分数分别用粗体/下划线标注

DecEx-RAG 拿下了最好成绩,平均 EM 43.7、F1 52.4,在所有基线中领先。

复现所需的工程细节

策略模型方面,检索相关决策用 Qwen2.5–7B-Instruct,其他决策步骤跑在 Qwen3–30B-A3B 上。知识库是 2018 年的维基百科转储,训练数据从 HotpotQA 抽了 2,000 条,WikiMultiHopQA 抽了 1,000 条。

总结

DecEx-RAG 最值得肯定的地方在于把推理过程结构化了。决策和执行的分离、分层剪枝的引入,把搜索复杂度从指数级压到近乎线性,对效率和扩展性都是实质性的改进。

不过也有一些可以改进的地方,比如当前系统依赖硬编码的启发式规则:“超过半数 rollout 投票停止就停”、“内部答案超过固定阈值就跳过检索”。这类规则在噪音或不确定性较大时容易出问题,可能会遇到过于激进提前终止或者过于保守浪费计算的情况。一个可能的改进方向是学习信息价值(VOI)函数,根据不确定性或预期收益动态决定是否继续检索而不是靠写死的阈值。

用多次 rollout 的平均 EM/F1 作为奖励信号,逻辑上没问题但存在一个不匹配:模型可能中间步骤一塌糊涂,最后碰巧蒙对了答案,照样拿高分。这样一来过程中的错误就没机会被纠正,不过增加 rollout 次数可以缓解这个问题,但成本会快速上升。更稳健的做法是引入双值基线或值加权 rollout,减少对最终结果的过度拟合。

论文:

https://avoid.overfit.cn/post/7c93c6c1703f491e8d68f8156abecfef

作者:Florian June

版权声明: 本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若内容造成侵权/违法违规/事实不符,请联系邮箱:809451989@qq.com进行投诉反馈,一经查实,立即删除!
网站建设 2026/6/10 11:19:20

2025年十大高风险漏洞及其在实际攻击中的应用

2025 年的网络安全形势出现了前所未有的严重漏洞激增,仅上半年就披露了超过 21,500个CVE,与2024年相比增长了16-18%。其中,有一部分漏洞因其异常严重、在实际环境中被积极利用以及可能导致企业范围内的安全漏洞而脱颖而出。这项综合分析考察了…

作者头像 李华
网站建设 2026/6/9 21:22:13

2026爆火AI论文神器限时公开:9款一键生成覆盖毕业期刊职称

深夜改稿,导师的夺命连环批注让你濒临崩溃? 离毕业、职称、期刊投稿截止日期只剩最后72小时,初稿还是一片空白?别慌!2026年最新一波AI论文写作神器已限时集结,专为“急救”而生!本文将为你深度揭…

作者头像 李华
网站建设 2026/6/10 13:42:01

【拯救HMI】工业HMI新手学习路径:30天系统化入门与实操蓝图

刚接触工业自动化,面对HMI这个又涉及硬件、软件、通讯还有设计的领域,确实容易不知道从哪里开始。别担心,这里有一份为期30天的渐进式学习路径,结合理论和动手实践,帮你从零开始,系统地把HMI工程师的核心技…

作者头像 李华
网站建设 2026/6/10 11:22:58

qmlRegisterType 详解

qmlRegisterType 是 Qt QML 中将 C 类注册到 QML 系统中的核心函数&#xff0c;它建立了 C 类型与 QML 类型系统之间的桥梁。基本用法1. 最简单的注册#include <QQmlApplicationEngine> #include <QQmlContext> #include <QQuickItem>// 注册到默认模块&…

作者头像 李华
网站建设 2026/6/10 1:50:29

GEO报告一键生成工具:从数据采集到分析闭环

在AI搜索和大模型快速发展的背景下&#xff0c;品牌和产品的可见度评估越来越依赖数据化分析。GEO&#xff08;Global Entity Optimization&#xff09;报告&#xff0c;就是一种系统化的方法&#xff0c;用于监测品牌在不同AI平台上的表现以及竞品情况。随着AI搜索结构化和可计…

作者头像 李华
网站建设 2026/6/10 17:37:19

I知识库实操指南:构建适配 AI 的知识系统

写在前面&#xff1a; 人工智能要在企业落地&#xff0c;让知识库和知识管理成为了各类机构降本增效、提升能力的必选项&#xff1a; 没有高质量的知识库&#xff0c;没有企业自己的私有知识&#xff0c;AI的能力无法在企业发挥出作用。 但关于如何建知识库做好知识管理工作&am…

作者头像 李华