程序员必看：高效LLM Agent技术综述与实践指南（建议收藏）-程序员充电站

该文综述了LLM进化为Agent系统时面临的效率瓶颈，系统梳理了高效Agent的三大核心方向：高效记忆、高效工具学习和高效规划。详细分析了Agent相比纯LLM更复杂的成本结构，并深入探讨了记忆构建、管理和访问的全生命周期优化策略，以及多Agent系统中的记忆设计挑战。文章指出高效Agent的核心定义是在相似成本预算下实现更高性能，或在可比性能下实现更低成本，为构建高效Agent系统提供了系统性框架。

当LLM从单轮问答进化为能够自主执行复杂任务的agent系统时，一个关键瓶颈浮出水面：效率。与标准LLM的线性单轮交互不同，agent需要进行大量记忆管理、迭代工具调用和多步规划，导致延迟飙升、上下文窗口饱和、token消耗激增。这篇综述系统梳理了高效agent的三大核心方向：高效记忆、高效工具学习、高效规划。

[Figure 1: 高效agent研究的演进轨迹] 该图按记忆、工具学习、规划和基准测试四个主要分支组织，按时间顺序展示了2023年至2025年该领域的发展和分类。

从LLM到Agent：效率差距从何而来

论文将LLM-based agent建模为部分可观测马尔可夫决策过程(POMDP)，并增加了外部工具接口和显式记忆组件。与纯LLM相比，agent的成本来源更加复杂。

对于纯LLM，推理成本主要由token生成主导，可近似为：CostLLM ≈ α × Ntok，其中Ntok是生成的推理token数量，α表示每token成本。而agent则会产生额外开销：Costagent ≈ α × Ntok + 工具成本 + 记忆成本 + 重试成本。

[Figure 2: 从LLM到agent] 展示了从独立推理到带有记忆、规划和工具学习的轨迹级推理的转变，同时引入了额外的成本来源。

因此，提升agent效率不仅仅是减少语言生成，更要减少工具或记忆调用的频率、提高选择性，并减少轨迹中的重试次数。

高效记忆：构建、管理与访问的全生命周期

记忆增强推理是缓解长上下文和长期交互带来的计算与token开销的关键机制。论文围绕agent记忆的生命周期展开，涵盖记忆构建、记忆管理和记忆访问三个阶段。

[Figure 3: 高效记忆概览] 总结了agent-记忆生命周期的三个阶段：记忆构建通过压缩工作记忆和外部记忆中的长交互上下文来缓解token爆炸；记忆管理通过基于规则、基于LLM或混合策略来整理和更新累积的记忆存储以控制延迟；记忆访问决定检索哪些记忆以及如何将其整合到模型中。

记忆构建

工作记忆分为文本记忆和潜在记忆两类。文本记忆方面，COMEDY使用LLM生成和压缩记忆，MemAgent和MEM1通过在每一步重写和更新紧凑的记忆状态来顺序处理长输入。潜在记忆方面，Activation Beacon将上下文分割成块并使用渐进压缩将KV激活蒸馏到信标中，MemoryLLM维护固定大小的记忆token池，Titans在测试时更新神经记忆模块。

外部记忆包括基于项目的记忆、基于图的记忆和层次化记忆。基于项目的记忆中，SeCom使用分割模型将长期对话划分为主题连贯的片段并应用压缩模型去噪，A-MEM将每次交互转换为带有LLM生成的上下文描述、关键词和标签的原子笔记。基于图的记忆中，Zep通过摄取带时间戳的事件、提取/对齐实体和关系来构建时间感知知识图。层次化记忆中，MemGPT通过将上下文提示分区为系统指令、可写工作上下文和FIFO消息缓冲区来构建层次化记忆。

[Table 1: 效率导向机制的记忆概览] 该表按照论文提出的分类法组织，涵盖工作记忆、外部记忆和多agent记忆，列出了各方法的类别、核心机制和资源链接。

记忆管理

基于规则的管理使用预定义规则进行更新、删除和合并。MemoryBank引入了基于艾宾浩斯遗忘曲线的记忆更新规则，随时间衰减记忆同时强化重要记忆。A-MEM的实验结果表明，基于遗忘曲线的记忆管理有效控制了记忆大小并减少了检索时间，但也导致任务性能大幅下降。

基于LLM的管理可分为操作选择和开放式生成两种形式。Memory-R1和Mem0都通过检索相似条目并在ADD、UPDATE、DELETE、NOOP中选择来更新外部记忆。A-MEM使用生成式更新：检索top-k相似笔记后，LLM创建链接并通过记忆演化重写相关笔记。

混合管理结合轻量级规则控制和选择性LLM操作。MemoryOS和LightMem都采用分层记忆的层级特定、触发驱动更新。MemGPT使用队列管理器通过记忆压力警告、驱逐和递归摘要来强制执行token限制。

记忆访问

记忆选择方面，Generative Agents和Human-like memory将时间因素纳入考虑。对于基于图的记忆，AriGraph和Mem0[g]通过锚定查询相关事实并扩展邻居到局部子图来从记忆图中检索。H-MEM中，每个记忆嵌入指向下一层的相关子记忆，递归索引到最后一层以检索相关信息，从而加速检索。

记忆整合方面，文本整合中Mem0在推理时检索最相关的项目并将其格式化为紧凑的记忆块附加到对话上下文中。潜在整合中，MemoryLLM在每个transformer层插入可训练的记忆token池，M+添加CPU驻留的长期记忆和协同训练的检索器。

多Agent记忆：共享与本地的权衡

多agent系统中的记忆设计面临独特挑战。共享记忆方面，MS使用共享记忆池和选择性添加，G-Memory采用三层图记忆和双向粗到细检索。本地记忆方面，AgentNet为路由/执行使用固定大小的记忆模块并进行动态剪枝，DAMCS采用去中心化的每agent短期/长期记忆和目标导向的层次化知识图。混合记忆方面，SRMT结合个人潜在记忆和全局广播的共享循环记忆。

高效工具学习与高效规划

论文还系统梳理了高效工具学习和高效规划两大方向。工具学习涵盖工具选择、工具调用和工具整合推理；规划涵盖单agent规划效率和多agent协作效率。这些模块的优化策略与记忆优化相辅相成，共同构成高效agent系统的完整图景。

写在最后

论文总结了记忆、工具学习和规划三个维度的基准测试，并指出了开放挑战和未来研究方向。高效agent的核心定义是：在相似成本预算下实现更高性能，或在可比性能下实现更低成本的成本-性能权衡。

这篇综述为理解和构建高效agent系统提供了系统性框架，对于关注AI系统长期可持续性和可及性的研究者和实践者具有重要参考价值。

如何学习AI大模型？

如果你对AI大模型入门感兴趣，那么你需要的话可以点击这里大模型重磅福利：入门进阶全套104G学习资源包免费分享！

这份完整版的大模型 AI 学习和面试资料已经上传CSDN，朋友们如果需要可以微信扫描下方CSDN官方认证二维码免费领取【保证100%免费】

这是一份大模型从零基础到进阶的学习路线大纲全览，小伙伴们记得点个收藏！

第一阶段：从大模型系统设计入手，讲解大模型的主要方法；

第二阶段：在通过大模型提示词工程从Prompts角度入手更好发挥模型的作用；

第三阶段：大模型平台应用开发借助阿里云PAI平台构建电商领域虚拟试衣系统；

第四阶段：大模型知识库应用开发以LangChain框架为例，构建物流行业咨询智能问答系统；

第五阶段：大模型微调开发借助以大健康、新零售、新媒体领域构建适合当前领域大模型；

第六阶段：以SD多模态大模型为主，搭建了文生图小程序案例；

第七阶段：以大模型平台应用与开发为主，通过星火大模型，文心大模型等成熟大模型构建大模型行业应用。

100套AI大模型商业化落地方案

大模型全套视频教程

200本大模型PDF书籍

👉学会后的收获：👈

• 基于大模型全栈工程实现（前端、后端、产品经理、设计、数据分析等），通过这门课可获得不同能力；

• 能够利用大模型解决相关实际项目需求：大数据时代，越来越多的企业和机构需要处理海量数据，利用大模型技术可以更好地处理这些数据，提高数据分析和决策的准确性。因此，掌握大模型应用开发技能，可以让程序员更好地应对实际项目需求；

• 基于大模型和企业数据AI应用开发，实现大模型理论、掌握GPU算力、硬件、LangChain开发框架和项目实战技能，学会Fine-tuning垂直训练大模型（数据准备、数据蒸馏、大模型部署）一站式掌握；

• 能够完成时下热门大模型垂直领域模型训练能力，提高程序员的编码能力：大模型应用开发需要掌握机器学习算法、深度学习框架等技术，这些技术的掌握可以提高程序员的编码能力和分析能力，让程序员更加熟练地编写高质量的代码。

LLM面试题合集

大模型产品经理资源合集

大模型项目实战合集

👉获取方式：
😝有需要的小伙伴，可以保存图片到wx扫描二v码免费领取【保证100%免费】🆓

程序员必看：高效LLM Agent技术综述与实践指南（建议收藏）

如何学习AI大模型？

100套AI大模型商业化落地方案

大模型全套视频教程

200本大模型PDF书籍

LLM面试题合集

大模型产品经理资源合集

大模型项目实战合集

一文掌握BGE-M3向量模型：多语言检索增强技术的完整实现指南（建议收藏）

创客匠人现象观察：AI智能体如何重构知识产品的技术交付逻辑

微信通话时，是如何判断“当前/对方网络不佳”的？以及我们自己怎么实现？

基于plc拉杆箱振动与噪音检测平台设计

数字人民币：概念、历史、内容与发展战略！

招聘“脆皮青年”？这样评估韧性更有效！