news 2026/4/18 1:24:12

Anthropic大模型Agents构建全攻略:从理念到实践的极简指南

作者头像

张小明

前端开发工程师

1.2k 24
文章封面图
Anthropic大模型Agents构建全攻略:从理念到实践的极简指南

高效构建Agents的设计理念

始终贯穿“实用优先、简洁可控、按需适配”的逻辑。

1. 最小复杂度优先,拒绝过度设计

这是最核心的底层理念:构建LLM相关系统时,优先采用最简单的解决方案(如单次LLM调用+检索/上下文示例),仅在简单方案无法满足性能需求时,才逐步增加复杂度(如多步骤workflowsAgents)。本质是避免为追求“复杂先进”而牺牲效率,始终权衡 latency、成本与任务性能的平衡,不盲目堆砌功能或依赖复杂框架。

2. 架构按需匹配,不搞“一刀切”

根据任务特性选择合适的智能Agents系统类型,强调“架构适配场景”而非“技术驱动选择”:

  • 对定义明确、需可预测性和一致性的任务,采用预定义路径的“workflows”;
  • 对开放式、需灵活性和模型动态决策的任务,采用自主导向的“Agents”;
  • 对无需多步骤协作的简单任务,直接使用基础LLM能力,不引入额外层级。

3. 模块化可组合,灵活适配需求

核心构建逻辑是“基础块+组合模式”:

  • 以“增强型LLM”为统一基础构建块(扩展检索、工具、记忆功能);
  • 提供5类可复用、可组合的workflows模式(提示词链、路由、并行化等),开发者可根据具体场景拆分、组合,而非使用固定的复杂框架;
  • 模式本身无强制性,允许根据需求定制调整,避免“一套框架用到底”的僵化。

4. 透明可控为基,兼顾实用与可维护

设计时优先保障系统的透明度和可维护性,避免黑箱操作:

  • 拒绝冗余抽象层:优先直接使用LLM APIs,即使使用框架也需理解底层逻辑,减少调试障碍;
  • 强调过程可见:明确展示Agents的规划步骤,工具设计需文档详尽、使用直观(如优化参数命名、提供示例);
  • 工具防呆设计:通过规范格式(如绝对文件路径)、减少格式开销等方式,降低模型使用工具的出错概率,提升可靠性。

5. 人机协同赋能,可控范围内自主

Agents的“自主性”并非无边界,而是在“可控、可反馈”的框架内实现:

  • 保留人类监督:关键节点(如任务卡点、结果审核)允许人类介入,支持反馈循环(如评估者-优化者模式);
  • 风险前置控制:对自主Agents进行沙盒测试,设置停止条件(如最大迭代次数)和护栏机制,规避累积错误和高成本风险;
  • 聚焦“人机互补”:Agents承担重复操作、动态决策等任务,人类负责标准定义、复杂审核等核心环节,而非追求完全替代人类。

构建高效的Agents细节

发布时间:2024年12月19日 00:00:00 Anthropic 工程团队 著

我们与多个行业中构建大语言模型(LLM)Agents的团队展开了合作。实践表明,最成功的实现方案往往采用简单、可组合的模式,而非复杂的框架。

在过去一年里,我们与数十个来自不同行业、致力于构建大语言模型(LLM)Agents的团队进行了合作。始终不变的是,最成功的实现方案并未依赖复杂框架或专用库,而是基于简单、可组合的模式构建而成。

在本文中,我们将分享从与客户合作及自身构建Agents的过程中总结的经验,并为开发者提供构建高效Agents的实用建议。

什么是Agents

Agents”(Agent)的定义多种多样。部分客户将其定义为能够长期独立运行、借助各类工具完成复杂任务的全自主系统;另一些客户则用该术语描述遵循预定义workflows的指令式实现方案。在 Anthropic,我们将所有这些变体归类为Agents系统(agentic systems),但在架构上对workflowsAgents做出了重要区分:

  • workflows:通过预定义的代码路径对 LLM 和工具进行编排的系统。
  • Agents:由 LLM 动态指导自身流程和工具使用,自主掌控任务完成方式的系统。

下文将详细探讨这两类Agents系统。在附录 1《实际应用中的Agents》中,我们将介绍客户发现这类系统极具价值的两个领域。

何时(以及何时不)使用Agents

在基于 LLM 构建应用时,我们建议优先选择最简单的解决方案,仅在必要时增加复杂度——这可能意味着完全不构建Agents系统。Agents系统通常需要以延迟和成本为代价,换取更好的任务性能,你需要判断这种权衡是否合理。

当确实需要更高复杂度时:

  • workflows适用于定义明确的任务,能提供可预测性和一致性;
  • Agents则更适合需要大规模灵活性和模型驱动决策的场景。

不过,对于许多应用而言,通过检索和上下文示例优化单次 LLM 调用通常就已足够。

何时以及如何使用框架?

目前有许多框架可简化Agents系统的实现,包括:

  • LangChain 推出的 LangGraph;
  • Amazon Bedrock 的 AI Agent 框架;
  • Rivet(一款拖拽式 GUI 界面的 LLMworkflows构建工具);
  • Vellum(另一款用于构建和测试复杂workflows的 GUI 工具)。

这些框架通过简化调用 LLM、定义和解析工具、串联调用等标准底层任务,降低了入门门槛。但它们往往会增加额外的抽象层,掩盖底层的提示词和响应,导致调试难度加大;同时也可能诱使开发者在简单方案已足够的情况下过度增加复杂度。

我们建议开发者首先直接使用 LLM API:许多模式仅需几行代码即可实现。如果确实需要使用框架,请务必理解其底层代码——对底层逻辑的错误假设是客户常见的出错原因之一。

可参考我们的示例代码集(cookbook)获取部分实现案例。

构建Blocks、workflowsAgents

本节将探讨我们在生产环境中观察到的Agents系统常见模式。我们将从基础构建块(增强型 LLM)开始,逐步提升复杂度,依次介绍简单的可组合workflows和自主Agents

构建Blocks:增强型 LLM

The augmented LLM

Agents系统的基本构建块是增强型 LLM——即通过检索、工具、记忆等增强功能扩展的 LLM。我们当前的模型能够主动运用这些能力:生成自己的搜索查询、选择合适的工具,并决定需要保留哪些信息。

评估维度Claude 3.5 Sonnet(新版)Claude 3.5 HaikuClaude 3.5 SonnetGPT-4o*GPT-4o mini*Gemini 1.5 ProGemini 1.5 Flash
研究生级推理 GPQA(钻石级)65.0% 零样本思维链41.6% 零样本思维链59.4% 零样本思维链53.6% 零样本思维链40.2% 零样本思维链59.1% 零样本思维链51.0% 零样本思维链
本科级知识 MMLU Pro78.0% 零样本思维链65.0% 零样本思维链75.1% 零样本思维链--75.8% 零样本思维链67.3% 零样本思维链
代码能力 HumanEval93.7% 零样本88.1% 零样本92.0% 零样本90.2% 零样本87.2% 零样本--
数学问题解决 MATH78.3% 零样本思维链69.2% 零样本思维链71.1% 零样本思维链76.6% 零样本思维链70.2% 零样本思维链86.5% 四样本思维链77.9% 四样本思维链
高中数学竞赛 AIME202416.0% 零样本思维链5.3% 零样本思维链9.6% 零样本思维链9.3% 零样本思维链---
视觉问答 MMMU70.4% 零样本思维链-68.3% 零样本思维链69.1% 零样本思维链59.4% 零样本思维链65.9% 零样本思维链62.3% 零样本思维链
Agents式编码 SWE-bench Verified49.0%40.6%33.4%----
Agents式工具使用 TAU-bench零售 69.2% / 航空 46.0%零售 51.0% / 航空 22.8%零售 62.6% / 航空 36.0%----
  • 注:我们的评估表格未包含 OpenAI 的 o1 模型系列,因为该系列模型依赖大量预响应计算时间,与典型模型存在本质差异,导致性能对比缺乏参考意义。
增强型 LLM 的实现建议

建议重点关注两个核心实现要点:

  1. 根据具体用例定制这些增强功能;
  2. 为 LLM 提供简洁、文档完善的接口。

虽然实现这些增强功能的方式多种多样,但其中一种方案是通过我们最近推出的**模型上下文协议(Model Context Protocol)**——开发者仅需简单的客户端实现,即可集成日益丰富的第三方工具生态。

在本文后续内容中,我们将默认每次 LLM 调用都可使用这些增强功能。

workflows:提示词链(Prompt Chaining)

提示词链将任务分解为一系列步骤,每个 LLM 调用都会处理前一个调用的输出结果。你可以在任意中间步骤添加程序化检查(见下图中的“gate/网关”),确保流程按预期推进。

The prompt chaining workflow

适用场景

workflows适用于可轻松、清晰地分解为固定子任务的场景。其核心目标是通过将每个 LLM 调用的任务简化,以延迟换取更高的准确性。

实用示例
  • 生成营销文案后,将其翻译成其他语言;
  • 先编写文档大纲,检查大纲是否符合特定标准,再根据大纲撰写完整文档。
workflows:路由(Routing)

路由会对输入进行分类,并将其导向专门的后续任务。该workflows支持关注点分离,可构建更具针对性的提示词。若缺少这一workflows,针对某类输入的优化可能会影响其他输入的处理性能。

The routing workflow

适用场景

路由适用于以下复杂任务:

  • 存在明显不同的分类,且各分类更适合单独处理;
  • 分类可通过 LLM 或更传统的分类模型/算法准确完成。
实用示例
  • 将不同类型的客户服务查询(一般咨询、退款申请、技术支持)导向不同的下游流程、提示词和工具;
  • 将简单/常见问题分配给 Claude 3.5 Haiku 等小型模型,将复杂/特殊问题分配给 Claude 3.5 Sonnet 等更强大的模型,以优化成本和速度。
workflows:并行化(Parallelization)

LLM 有时可以同时处理某项任务,并通过程序化方式聚合输出结果。这种并行化workflows主要有两种核心变体:

  • 分段处理(Sectioning):将任务拆分为独立子任务,并行执行;
  • 投票机制(Voting):多次运行同一任务,获取多样化输出。

The parallelization workflow

适用场景

当拆分后的子任务可通过并行化提升速度,或需要多视角、多次尝试以获得更高可信度的结果时,并行化非常有效。对于涉及多方面考量的复杂任务,LLM 通常在每个考量点由单独的 LLM 调用处理时表现更佳——这样可以让模型专注于每个具体方面。

实用示例
  1. 分段处理:
  • 实现护栏机制(guardrails):一个模型实例处理用户查询,另一个同时筛查不当内容或请求(这种方式通常比让单个 LLM 同时处理护栏和核心响应的效果更好);
  • 自动化评估 LLM 性能:每个 LLM 调用评估模型在特定提示词下某一方面的表现。
  1. 投票机制:
  • 代码漏洞审查:通过多个不同的提示词审查代码,若发现问题则标记;
  • 内容合规性评估:通过多个提示词从不同维度评估内容是否违规,并设置不同的投票阈值以平衡误报和漏报。
workflows:协调者-执行者(Orchestrator-workers)

在协调者-执行者workflows中,中央 LLM 会动态分解任务、将其委派给执行者 LLM,并合成最终结果。

适用场景

workflows适用于无法预测所需子任务的复杂任务(例如在编码场景中,需要修改的文件数量和每个文件的修改内容往往取决于具体任务)。虽然在结构上与并行化类似,但核心区别在于其灵活性——子任务并非预先定义,而是由协调者根据具体输入动态确定。

实用示例
  • 每次需要对多个文件进行复杂修改的编码产品;
  • 需要从多个来源收集和分析相关信息的搜索任务。
workflows:评估者-优化者(Evaluator-optimizer)

在评估者-优化者workflows中,一个 LLM 调用生成响应,另一个则通过循环提供评估和反馈。

适用场景

workflows在以下情况下尤为有效:

  • 存在明确的评估标准;
  • 迭代优化能带来可量化的价值。

判断是否适用的两个关键标志:

  1. 当人类明确表达反馈时,LLM 的响应能得到显著改进;
  2. LLM 本身能够提供此类有效反馈。

这类似于人类作家创作精炼文档时的迭代写作过程。

实用示例
  • 文学翻译:译者 LLM 最初可能无法捕捉到某些细微差别,但评估者 LLM 可以提供有用的批评建议;
  • 复杂搜索任务:需要多轮搜索和分析以收集全面信息,评估者会判断是否需要进一步搜索。
Agents

随着 LLM 在核心能力(理解复杂输入、推理规划、可靠使用工具、从错误中恢复)上的成熟,Agents已开始投入生产环境应用。Agentsworkflows程通常如下:

  1. 接收人类用户的指令或通过互动讨论明确任务;
  2. 任务明确后,自主规划并执行操作,必要时向人类请求更多信息或判断;
  3. 执行过程中,关键是Agents在每个步骤都能从环境中获取“真实数据”(如工具调用结果或代码执行情况),以评估进度;
  4. Agents可在检查点或遇到障碍时暂停,等待人类反馈;
  5. 任务通常在完成后终止,但通常会设置停止条件(如最大迭代次数)以保持控制。

Agents能够处理复杂任务,但其实现往往并不复杂——通常只是 LLM 在循环中根据环境反馈使用工具。因此,清晰、周全地设计工具集及其文档至关重要。我们在附录 2《工具的Prompt engineering》中详细阐述了工具开发的最佳实践。

Autonomous agent

适用场景

Agents适用于以下情况:

  • 开放式问题:难以或无法预测所需步骤数量,无法硬编码固定路径;
  • 模型需进行多轮操作,且你对其决策能力有一定信任度。

Agents的自主性使其非常适合在可信环境中规模化处理任务。但同时,自主性也意味着更高的成本和潜在的累积错误风险。我们建议在沙盒环境中进行充分测试,并设置适当的护栏机制。

实用示例(来自我们的自有实现)
  • 编码Agents:解决 SWE-bench 任务(根据任务描述编辑多个文件);
  • “计算机使用”参考实现:Claude 通过操作计算机完成任务。

High-level flow of a coding agent

组合与定制这些模式

这些构建块并非强制性规范,而是开发者可根据不同用例调整和组合的常见模式。与所有 LLM 功能一样,成功的关键在于衡量性能并迭代优化实现方案。再次强调:仅当复杂度的增加能显著改善结果时,才考虑添加。

总结

在 LLM 领域取得成功,并非在于构建最复杂的系统,而在于打造符合自身需求的系统。从简单提示词开始,通过全面评估进行优化,仅在简单解决方案无法满足需求时,再添加多步骤Agents系统。

在实现Agents时,我们遵循三大核心原则:

  1. 保持Agents设计的简洁性;
  2. 优先保证透明度——明确展示Agents的规划步骤;
  3. 通过详尽的工具文档和测试,精心设计Agents-计算机接口(ACI)。

框架可以帮助你快速入门,但在向生产环境迁移时,不妨减少抽象层,使用基础组件构建。遵循这些原则,你将能够创建出不仅功能强大,而且可靠、可维护且能获得用户信任的Agents

附录 1:实际应用中的Agents

我们与客户的合作发现,AIAgents在以下两个应用场景中展现出了显著的实用价值,充分体现了上述模式的价值。这两个场景的共同特点是:任务既需要对话交流也需要实际操作、有明确的成功标准、支持反馈循环,并且融入了有意义的人类监督。

A. 客户支持

客户支持将常见的聊天机器人界面与工具集成的增强功能相结合,非常适合更开放式的Agents,原因如下:

  • 支持互动天然遵循对话流程,同时需要访问外部信息和执行操作;
  • 可集成工具以提取客户数据、订单历史和知识库文章;
  • 退款发放、工单更新等操作可通过程序化方式处理;
  • 成功与否可通过用户定义的解决方案完成度清晰衡量。

已有多家公司通过基于使用量的定价模型(仅对成功解决的案例收费)验证了这种方法的可行性,这也体现了他们对自身Agents有效性的信心。

B. 编码Agents

软件开发领域已展现出 LLM 功能的巨大潜力,其能力从代码补全逐步演进到自主问题解决。Agents在此领域尤为有效,原因如下:

  • 代码解决方案可通过自动化测试验证;
  • Agents可利用测试结果作为反馈,迭代优化解决方案;
  • 问题空间定义明确、结构清晰;
  • 输出质量可客观衡量。

在我们的自有实现中,Agents现已能够仅根据拉取请求(pull request)描述,解决 SWE-bench Verified 基准测试中的真实 GitHub 问题。不过,尽管自动化测试有助于验证功能正确性,但人类审核仍然至关重要——以确保解决方案符合更广泛的系统要求。

附录 2:工具的Prompt engineering

无论你构建的是哪种Agents系统,工具都可能是核心组成部分。工具通过在 API 中指定确切的结构和定义,使 Claude 能够与外部服务和 API 交互。当 Claude 决定调用工具时,会在 API 响应中包含工具使用块(tool use block)。工具的定义和规范应获得与整体提示词同等程度的Prompt engineering关注。在本附录中,我们将介绍如何对工具进行Prompt engineering优化。

同一操作通常有多种指定方式。例如,文件编辑可通过编写差异(diff)或重写整个文件实现;结构化输出可将代码嵌入 markdown 或 JSON 中。在软件工程中,这些差异通常是表面的,可无损转换,但某些格式对 LLM 而言要困难得多:

  • 编写差异需要在撰写新代码前,准确知道代码块头部中需要修改的行数;
  • 与 markdown 相比,在 JSON 中嵌入代码需要额外对换行符和引号进行转义。
工具格式选择建议
  1. 给模型足够的tokens以“思考”,避免其陷入思维僵局;
  2. 选择与模型在互联网文本中常见的格式相近的形式;
  3. 避免格式“开销”——例如无需精确统计数千行代码的数量,或无需对编写的代码进行字符串转义。

一个重要原则是:如同投入大量精力设计人机交互(HCI)一样,你也应投入同等精力打造优质的Agents-计算机接口(ACI)。以下是具体建议:

  1. 换位思考:仅根据描述和参数,是否能直观理解工具的使用方式?还是需要仔细琢磨?如果连你都需要思考,那么模型很可能也会遇到困难。优秀的工具定义通常包含使用示例、边缘情况说明、输入格式要求,以及与其他工具的明确边界;
  2. 优化参数命名和描述:如何修改参数名称或描述使其更清晰易懂?可将其视为为团队中的初级开发者编写完善的文档字符串(docstring)——尤其是在使用多个相似工具时,这一点更为重要;
  3. 测试模型对工具的使用:在我们的工作台(workbench)中运行大量示例输入,观察模型会出现哪些错误,并持续迭代优化;
  4. 防呆设计(Poka-yoke):调整参数设置,降低模型出错的可能性。

在为 SWE-bench 构建Agents时,我们实际上在工具优化上投入的时间比整体提示词更多。例如,我们发现当Agents移出根目录后,会在使用相对文件路径的工具上出错。为解决这一问题,我们修改了工具,要求必须使用绝对文件路径——之后发现模型能够完美使用该工具。

最后唠两句

为什么AI大模型成为越来越多程序员转行就业、升职加薪的首选

很简单,这些岗位缺人且高薪

智联招聘的最新数据给出了最直观的印证:2025年2月,AI领域求职人数同比增幅突破200% ,远超其他行业平均水平;整个人工智能行业的求职增速达到33.4%,位居各行业榜首,其中人工智能工程师岗位的求职热度更是飙升69.6%。

AI产业的快速扩张,也让人才供需矛盾愈发突出。麦肯锡报告明确预测,到2030年中国AI专业人才需求将达600万人,人才缺口可能高达400万人,这一缺口不仅存在于核心技术领域,更蔓延至产业应用的各个环节。

那0基础普通人如何学习大模型 ?

深耕科技一线十二载,亲历技术浪潮变迁。我见证那些率先拥抱AI的同行,如何建立起效率与薪资的代际优势。如今,我将积累的大模型面试真题、独家资料、技术报告与实战路线系统整理,分享于此,为你扫清学习困惑,共赴AI时代新程。

我整理出这套 AI 大模型突围资料包【允许白嫖】:

  • ✅从入门到精通的全套视频教程

  • ✅AI大模型学习路线图(0基础到项目实战仅需90天)

  • ✅大模型书籍与技术文档PDF

  • ✅各大厂大模型面试题目详解

  • ✅640套AI大模型报告合集

  • ✅大模型入门实战训练

这份完整版的大模型 AI 学习和面试资料已经上传CSDN,朋友们如果需要可以微信扫描下方CSDN官方认证二维码免费领取【保证100%免费】

①从入门到精通的全套视频教程

包含提示词工程、RAG、Agent等技术点

② AI大模型学习路线图(0基础到项目实战仅需90天)

全过程AI大模型学习路线

③学习电子书籍和技术文档

市面上的大模型书籍确实太多了,这些是我精选出来的

④各大厂大模型面试题目详解

⑤640套AI大模型报告合集

⑥大模型入门实战训练

如果说你是以下人群中的其中一类,都可以来智泊AI学习人工智能,找到高薪工作,一次小小的“投资”换来的是终身受益!

应届毕业生‌:无工作经验但想要系统学习AI大模型技术,期待通过实战项目掌握核心技术。

零基础转型‌:非技术背景但关注AI应用场景,计划通过低代码工具实现“AI+行业”跨界‌。

业务赋能 ‌突破瓶颈:传统开发者(Java/前端等)学习Transformer架构与LangChain框架,向AI全栈工程师转型‌。

👉获取方式:
有需要的小伙伴,可以保存图片到wx扫描二v码免费领取【保证100%免费】🆓

版权声明: 本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若内容造成侵权/违法违规/事实不符,请联系邮箱:809451989@qq.com进行投诉反馈,一经查实,立即删除!
网站建设 2026/4/18 8:48:29

咕噜分发——APP图标在线制作

咕噜分发(gulufenfa.com)的APP图标在线制作工具是该平台提供的一项实用功能,主要面向APP开发者、测试人员及企业用户,用于快速生成符合iOS/Android平台规范的APP图标资源包。以下是该功能的详细介绍: 一、功能定位与核…

作者头像 李华
网站建设 2026/4/17 16:50:41

小程序商城开发要点解析:从核心架构到关键功能模块

伴随着移动互联网朝着 方向发展,小程序商城已然变成零售、餐饮、本地生活等好些行业用以开展数字化转型的标准配备。和传统的独立 APP 或者 H5 页面相比较而言,小程序靠着它那“无需下载、即用即走”的轻量化特有属性,以及借助微信、支付宝等…

作者头像 李华
网站建设 2026/4/18 6:45:54

计算机PHP毕设实战-基于php+vue的动物救助网站的设计与实现基于php+vue.js流浪动物宠物领养公益网站【完整源码+LW+部署说明+演示视频,全bao一条龙等】

博主介绍:✌️码农一枚 ,专注于大学生项目实战开发、讲解和毕业🚢文撰写修改等。全栈领域优质创作者,博客之星、掘金/华为云/阿里云/InfoQ等平台优质作者、专注于Java、小程序技术领域和毕业项目实战 ✌️技术范围:&am…

作者头像 李华
网站建设 2026/4/18 8:42:30

工业互联网平台有哪些技术支持

工业互联网平台作为支撑制造业数字化、网络化、智能化转型的新型基础设施,其技术支撑体系涵盖多个层面,以下从核心架构、关键技术、新兴技术融合三个维度展开分析:一、核心架构支撑:分层技术体系工业互联网平台通常采用边缘层、Ia…

作者头像 李华
网站建设 2026/4/18 5:41:26

[信息论与编码理论专题-16]:等概率时熵最大、编码最长;实际概率不均,熵降低,变长编码可压缩,平均码长更短。

在一个包含 N 个可能事件的系统中,当所有事件等概率发生时,系统的熵达到最大值 log 2​N ,此时对事件进行最优无损编码所需的平均码长也达到理论最大值。 而在实际系统中,事件发生的概率往往不相等;若存在较多高概率事…

作者头像 李华
网站建设 2026/4/18 1:44:39

跟AI学一手之自定义调试函数或者类

最后一招是 macos 专用的,有帮助,所以记录一下 from gevent import monkey monkey.patch_all() import signal import sys import os# 检查是否有信号处理 def debug_signal(signum, frame):print(f"收到信号 {signum},堆栈:", fi…

作者头像 李华