Anthropic团队产品经理演讲：Claude能力跃升，开发者如何为未来构建产品？-程序员充电站

一年之内，模型失败率被大幅压低

最近，Anthropic团队研究产品经理Theodora（Theo）Chu的一段演讲视频引发关注。Theo表示，如今越来越多开发者在日常工作中借助Claude提升效率，有人认为效率翻倍，也有人觉得提升了10倍。更关键的是，Claude已深入Anthropic自身工程流程，“Anthropic内部超过80%的代码由Claude合并”，这意味着模型角色在转变，不再局限于回答问题，而是在可反馈、验证、修正的环境里持续完成任务，即“Close the Loop（闭合循环），给模型一种验证自身输出结果的方式”。

在这场分享中，Theo想告诉开发者“应如何适应新世界，面向未来构建产品，而非仅为过去构建产品”。为此，他详细拆解了构建自我改进Agent的方法，“真正的配置，是让Claude在循环、计划模式和动态工作流中持续运行”。网友rari@0xwhrrari认为，“这要比大多数300美元的Agent课程都要好”。接下来，我们详细了解这场演讲内容。

Theo以编程评估基准SWE - bench Verified为例，它由一系列GitHub issue组成，模型需理解问题、修改代码并通过测试证明解决任务，这是Anthropic内部观察Claude编程能力提升的重要评测。一年前的Sonnet 3.7得分约60%，到Opus 4.8得分达88%，意味着一年前模型在这些任务上的失败次数约是现在的3倍。这表明模型能力提升不仅是“多做对几道题”，更在于失败率快速下降。失败率下降后，模型才可能承担更复杂、接近真实工作的任务。此外，最新的Mythos和Fable系列模型中，该基准测试接近饱和，一些过去难的测试如今已不能有效区分模型能力。这对开发者是重要信号：用12个月前的任务测试如今的模型，易低估其能力边界。新模型智能增长体现在以下三个核心领域：

一是先规划，再行动

Theo展示同一任务在两个模型上的表现：让模型重建Claude.ai网站。旧模型上来就写大量代码、调用大量工具，缺乏规划，界面看似合理但运行不完整、功能未闭环，“像装宜家家具不看说明书，拼错才回头看”。而以Opus 4.8为代表的新模型有自适应思考能力，会先深思规范，规划中捕捉错误（输出自我修正词），这种方式让模型首次执行就高效落地，减少工具调用和代码行数。所以，Theo建议开发者允许模型先思考，产品体验要为思考留空间，简单问题不折腾模型，复杂任务给足规划空间。

二是错误恢复和自我纠正

过去做Agent重点在“让模型调用更多工具”，但Theo强调工具调用不够，模型要知道自己何时做错。旧模型常见doom looping问题，失败后再次尝试仍用老方法。新模型能读取反馈、理解失败原因并尝试不同路径，具备错误恢复能力，这对Agent产品关键，因为长任务中模型必遇错误，有价值的Agent是犯错后能恢复。因此，开发者要重新设计模型环境，让其知道错误所在，“模型不会因doom looping浪费token，能用更少token完成任务”。比如做应用生成Agent，要给其访问前端界面能力，让它验证、修正、再执行，这就是网友rari@0xwhrrari强调的“close the agent loop（闭环智能体循环）”。

三是模型越来越擅长在更长任务周期上运行

旧模型在长任务中常“跟丢主线”，遗忘最初目标或上下文。现在模型在长程任务上下文连贯性上有显著突破，能稳定维持100万个Token甚至更高级别的注意力。这意味着开发者可直接给模型整个代码库，未来应把更完整任务交给模型，如给整个代码库而非单个文件，给完整产品需求而非孤立函数，让它跑完整流程而非局部步骤。

当规划、错误恢复和长上下文能力叠加，Agent形态改变，可先规划再执行，验证结果后调整计划继续执行，直至完成任务。

开发者该如何为未来进行构建？

随着模型更智能，用户可让其运行更久，完成任务效率和效果更好。从战术上讲，开发者在产品与工程层面需全面升级研发战术：

一是主动保持野心，动态刷新评估基准（Evals）

开发者要大胆让Claude处理更多事，思考Claude如今做不到的任务并持续关注。模型快速进步后，开发者易误判新模型没明显提升，原因可能在Evals。Theo提到，有些客户新模型发布后觉得Evals只提升1%，但实际使用发现某些能力提升明显，说明Evals会过时。AI时代，Evals像单元测试，可助开发者判断模型能力、追踪对用户体验的影响。好的Eval要面向未来设计，融入用户报告的失败模式和应用未来发展方向，遗留问题不可解就更新题目。

二是精简「脚手架」（Shrink the Scaffolding）

Theo建议缩小模型周围的“脚手架”，即工程实践中为修补旧模型漏洞套上的系统提示词、外部工具、代码Harness及约束补丁。这些补丁在旧模型时代有用，但新模型指令遵循能力变强后，旧补丁可能成问题。Theo举Anthropic自身例子，团队曾以为新模型Claude.ai引用功能有Bug，后发现是新模型太听话执行了过时提示词，删掉提示词功能恢复正常。所以，开发者应“针对意图”写简洁提示词，明确结果，给模型松绑，看清其真正能力。

三是闭环设计，让模型验证自身的输出结果

模型完成复杂任务，仅有思考不够，还需动作能力，这是构建自改进Agent的核心底层逻辑。既然模型有强错误恢复能力，工程上要“闭环智能体循环”（Close the Agent Loop）：

给模型留出思考与工作的空间：引入自适应思考机制，产品设计允许模型前端思考，可通过投入度拨盘让模型自由调整钻研程度。
以受控的方式开放高权限：发挥Agent自主性，要赋予其在环境里行动的权限。Anthropic在Claude Code中推出“自动模式”分类器，平衡“开发者控制欲”与“模型自主权”，甄别安全行动，防止模型误删环境。
提供自我质检的工具：为Agent配备“Computer Use”等自动化验证工具，让智能体通过前端操作、环境反馈发现错误，实现代码自我迭代与修正。