news 2026/4/25 23:45:18

经验记忆黑科技!LightSearcher让AI工具调用减39.6%、推理快48.6%

作者头像

张小明

前端开发工程师

1.2k 24
文章封面图
经验记忆黑科技!LightSearcher让AI工具调用减39.6%、推理快48.6%
北邮百家AI团队 投稿
量子位 | 公众号 QbitAI

深度思考大模型面临的“跷跷板”困境,这下有解了!

现有RL驱动的深度思考大模型常常面临准确率与效率的“跷跷板”困境——

频繁调用搜索工具能提升准确性,却带来计算开销和效率低下

对此,北邮百家AI团队提出LightSearcher框架,首创基于经验记忆的高效RL优化技术,不依赖额外数据,仅通过引入经验记忆机制,实现Agent工具调用高效自主优化,解决痛点问题。

在保持与SOTA基线ReSearch相当准确率的同时,搜索工具调用和模型回复时间显著缩短,搜索工具调用次数减少39.6%,推理时间缩短48.6%,Token消耗降低21.2%,在保持模型效果的同时显著提升了工具调用效率。

团队表示,以DeepSeek-R1为代表的深度思考大模型能够处理复杂的推理任务,DeepSearch作为深度思考大模型的核心搜索器,在推理过程中通过迭代调用外部搜索工具,访问参数边界之外的最新、领域特定知识,从而提升推理的深度和事实可靠性。

不过,虽然高频调用外部搜索工具能补充实时信息、提升推理准确率,但使得推理延迟大幅升高,等待时间可达几十秒至几分钟。

而从用户体验角度来看,若信息加载时间超过10秒,50%的移动用户会放弃访问。

因此,深度思考大模型系统的长时推理等待无疑会带来类似的用户流失风险。

反之,减少工具调用以提升效率,则会因大语言模型内部知识局限,导致推理结果准确性与完整性不足。

面对这一两难困境,LightSearcher框架应运而生。

LightSearcher框架

如何教会深度思考大模型策略性地控制搜索工具的使用,优化何时以及如何查询外部知识源,是深度思考大模型亟待解决的问题,现有方法存在显著缺陷:

1、提示工程或监督学习方法依赖人工标注,成本高且泛化差;RL驱动方法虽能自主优化,但奖励偏重准确性,导致模型为确保正确而频繁调用工具,造成冗余开销。

2、工具调用“过度依赖”,现有模型往往不分难易,对简单查询也反复检索,导致推理时间延长、token消耗激增。

3、 准确性与效率失衡,部分方法虽提升准确率,但牺牲效率;另一些虽减少调用,却降低答案质量,无法兼顾双重目标。

这些问题导致现有模型要么要么答案不准、可靠性差,要么工具调用过多、效率低下,难以同时满足推理准确和高效执行的核心需求。

为解决上述缺陷,北邮百家AI团队提出基于经验记忆的高效DeepSearch框架——LightSearcher

核心思路是在大模型强化推理过程中,通过“对比经验学习”将隐性推理轨迹转化为显性指导经验,并结合自适应奖励优化工具调用。

具体包含三大关键组件:

  • 对比经验推理机制(Contrastive Experiential Reasoning):收集高低质量推理轨迹,通过LLM生成成功模式的自然语言总结(如“简单查询优先用内部知识”),构建动态经验记忆库;

  • 自适应奖励塑造机制(Adaptive Reward Shaping):引入最小工具调用基准,仅在答案正确时惩罚冗余调用,使用指数衰减函数动态平衡准确性和效率,避免盲目优化;

  • 基于经验的RL训练机制:采用GRPO算法,将积累经验和少样本示例融入提示模板,指导模型生成高效轨迹,确保探索与利用的均衡。

模型最终优化目标为多目标奖励函数的加权和,确保工具调用精简与答案质量的协同提升。

实验

研究团队在四个多跳QA基准数据集(NQ、HotpotQA、Musique、2WikiMultihopQA)上进行了全面评估,对比了多种主流DeepSearch方法。

主实验结果

实验结果显示:

1、模型准确性保持顶尖: LightSearcher在F1分数和LLM评判上与SOTA基线ReSearch相当,甚至在部分数据集上优于ReSearch;

2、效率显著提升: 工具调用减少39.6%,推理时间缩短48.6%,token消耗降低21.2%;

3、泛化能力强:在不同难度的查询(易/难)上均表现稳定,即使在域外测试集也能超越依赖固定检索的迭代方法。

消融实验

移除经验导致F1下降7.2%,证明其核心作用。

团队表示,LightSearcher框架通过“经验记忆”这一核心理念,为构建高效、可靠的深度推理系统提供了新路径。

尽管目前限于多跳QA,未来可扩展到代码合成、策略规划等领域。

它成功解决了现有DeepSearch的关键痛点:

  • 从隐性到显性:将对比轨迹转化为可解释的推理指导;

  • 精准平衡:通过自适应奖励确保工具调用最小化;

  • 效率优先:利用RL训练维持准确与开销的连贯性;

  • 双重优化:同时提升推理质量和执行效率,而非顾此失彼。

最后,大模型的DeepSearch能力需设计有效的经验机制。

相比于复杂的手动标注, LightSearcher通过其“对比经验”的设计思想, 在推理过程依赖可靠的外部知识调用,为构建更加高效、可靠的AI深度思考系统提供了重要的技术路径。

论文链接:https://arxiv.org/abs/2512.06653
百家AI主页:https://baijia.online/homepage/index

版权声明: 本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若内容造成侵权/违法违规/事实不符,请联系邮箱:809451989@qq.com进行投诉反馈,一经查实,立即删除!
网站建设 2026/4/18 9:34:00

【课程设计/毕业设计】基于springboot的中小学课后延时服务系统课后延时服务信息化管理平台【附源码、数据库、万字文档】

博主介绍:✌️码农一枚 ,专注于大学生项目实战开发、讲解和毕业🚢文撰写修改等。全栈领域优质创作者,博客之星、掘金/华为云/阿里云/InfoQ等平台优质作者、专注于Java、小程序技术领域和毕业项目实战 ✌️技术范围:&am…

作者头像 李华
网站建设 2026/4/18 11:01:15

高效GPU加速FaceFusion人脸融合,提升大模型Token利用率

高效GPU加速FaceFusion人脸融合,提升大模型Token利用率在短视频滤镜、虚拟主播和数字人对话系统中,用户上传一张照片后,期望的是“秒级响应”——从换脸到生成描述一气呵成。但现实往往不尽如人意:画面卡顿、回复延迟、上下文截断…

作者头像 李华
网站建设 2026/4/18 10:08:01

Langchain-Chatchat向量检索原理揭秘:高效知识库匹配核心技术

Langchain-Chatchat向量检索原理揭秘:高效知识库匹配核心技术 在企业级AI应用日益深入的今天,一个核心问题逐渐浮现:如何让大语言模型真正“懂”你的业务?通用模型虽然能写诗、编故事,但面对公司内部的合同模板、产品…

作者头像 李华
网站建设 2026/4/18 8:35:07

FaceFusion与DeepSeek-Vision结合使用的潜在价值

FaceFusion与DeepSeek-Vision结合使用的潜在价值 在数字内容爆炸式增长的今天,用户对个性化、高质量视觉体验的需求日益提升。从短视频平台上的“一键换脸”特效,到影视工业中复杂的角色替换,人脸合成技术早已不再是实验室里的概念&#xff0…

作者头像 李华
网站建设 2026/4/24 22:54:27

Langchain-Chatchat辅助软件需求文档撰写

Langchain-Chatchat:构建企业级本地知识库问答系统的实践路径 在企业数字化转型的浪潮中,一个看似不起眼却日益突出的问题浮出水面:如何让散落在各个角落的知识真正“活”起来? 制度文件藏在共享盘深处、操作手册锁在部门内部、项…

作者头像 李华
网站建设 2026/4/18 8:15:26

Kotaemon与HuggingFace模型集成实操指南

Kotaemon与HuggingFace模型集成实操指南在今天这个AI技术飞速普及的时代,越来越多开发者和企业开始关注一个问题:如何在不牺牲隐私、不依赖云端API的前提下,构建一个真正属于自己的智能助手?尤其是在处理敏感数据或需要低延迟响应…

作者头像 李华