news 2026/6/26 4:26:11

Anthropic团队产品经理演讲:Claude能力跃升,开发者如何为未来构建产品?

作者头像

张小明

前端开发工程师

1.2k 24
文章封面图
Anthropic团队产品经理演讲:Claude能力跃升,开发者如何为未来构建产品?

一年之内,模型失败率被大幅压低

最近,Anthropic团队研究产品经理Theodora(Theo)Chu的一段演讲视频引发关注。Theo表示,如今越来越多开发者在日常工作中借助Claude提升效率,有人认为效率翻倍,也有人觉得提升了10倍。更关键的是,Claude已深入Anthropic自身工程流程,“Anthropic内部超过80%的代码由Claude合并”,这意味着模型角色在转变,不再局限于回答问题,而是在可反馈、验证、修正的环境里持续完成任务,即“Close the Loop(闭合循环),给模型一种验证自身输出结果的方式”。

在这场分享中,Theo想告诉开发者“应如何适应新世界,面向未来构建产品,而非仅为过去构建产品”。为此,他详细拆解了构建自我改进Agent的方法,“真正的配置,是让Claude在循环、计划模式和动态工作流中持续运行”。网友rari@0xwhrrari认为,“这要比大多数300美元的Agent课程都要好”。接下来,我们详细了解这场演讲内容。

Theo以编程评估基准SWE - bench Verified为例,它由一系列GitHub issue组成,模型需理解问题、修改代码并通过测试证明解决任务,这是Anthropic内部观察Claude编程能力提升的重要评测。一年前的Sonnet 3.7得分约60%,到Opus 4.8得分达88%,意味着一年前模型在这些任务上的失败次数约是现在的3倍。这表明模型能力提升不仅是“多做对几道题”,更在于失败率快速下降。失败率下降后,模型才可能承担更复杂、接近真实工作的任务。此外,最新的Mythos和Fable系列模型中,该基准测试接近饱和,一些过去难的测试如今已不能有效区分模型能力。这对开发者是重要信号:用12个月前的任务测试如今的模型,易低估其能力边界。新模型智能增长体现在以下三个核心领域:

一是先规划,再行动

Theo展示同一任务在两个模型上的表现:让模型重建Claude.ai网站。旧模型上来就写大量代码、调用大量工具,缺乏规划,界面看似合理但运行不完整、功能未闭环,“像装宜家家具不看说明书,拼错才回头看”。而以Opus 4.8为代表的新模型有自适应思考能力,会先深思规范,规划中捕捉错误(输出自我修正词),这种方式让模型首次执行就高效落地,减少工具调用和代码行数。所以,Theo建议开发者允许模型先思考,产品体验要为思考留空间,简单问题不折腾模型,复杂任务给足规划空间。

二是错误恢复和自我纠正

过去做Agent重点在“让模型调用更多工具”,但Theo强调工具调用不够,模型要知道自己何时做错。旧模型常见doom looping问题,失败后再次尝试仍用老方法。新模型能读取反馈、理解失败原因并尝试不同路径,具备错误恢复能力,这对Agent产品关键,因为长任务中模型必遇错误,有价值的Agent是犯错后能恢复。因此,开发者要重新设计模型环境,让其知道错误所在,“模型不会因doom looping浪费token,能用更少token完成任务”。比如做应用生成Agent,要给其访问前端界面能力,让它验证、修正、再执行,这就是网友rari@0xwhrrari强调的“close the agent loop(闭环智能体循环)”。

三是模型越来越擅长在更长任务周期上运行

旧模型在长任务中常“跟丢主线”,遗忘最初目标或上下文。现在模型在长程任务上下文连贯性上有显著突破,能稳定维持100万个Token甚至更高级别的注意力。这意味着开发者可直接给模型整个代码库,未来应把更完整任务交给模型,如给整个代码库而非单个文件,给完整产品需求而非孤立函数,让它跑完整流程而非局部步骤。

当规划、错误恢复和长上下文能力叠加,Agent形态改变,可先规划再执行,验证结果后调整计划继续执行,直至完成任务。

开发者该如何为未来进行构建?

随着模型更智能,用户可让其运行更久,完成任务效率和效果更好。从战术上讲,开发者在产品与工程层面需全面升级研发战术:

一是主动保持野心,动态刷新评估基准(Evals)

开发者要大胆让Claude处理更多事,思考Claude如今做不到的任务并持续关注。模型快速进步后,开发者易误判新模型没明显提升,原因可能在Evals。Theo提到,有些客户新模型发布后觉得Evals只提升1%,但实际使用发现某些能力提升明显,说明Evals会过时。AI时代,Evals像单元测试,可助开发者判断模型能力、追踪对用户体验的影响。好的Eval要面向未来设计,融入用户报告的失败模式和应用未来发展方向,遗留问题不可解就更新题目。

二是精简「脚手架」(Shrink the Scaffolding)

Theo建议缩小模型周围的“脚手架”,即工程实践中为修补旧模型漏洞套上的系统提示词、外部工具、代码Harness及约束补丁。这些补丁在旧模型时代有用,但新模型指令遵循能力变强后,旧补丁可能成问题。Theo举Anthropic自身例子,团队曾以为新模型Claude.ai引用功能有Bug,后发现是新模型太听话执行了过时提示词,删掉提示词功能恢复正常。所以,开发者应“针对意图”写简洁提示词,明确结果,给模型松绑,看清其真正能力。

三是闭环设计,让模型验证自身的输出结果

模型完成复杂任务,仅有思考不够,还需动作能力,这是构建自改进Agent的核心底层逻辑。既然模型有强错误恢复能力,工程上要“闭环智能体循环”(Close the Agent Loop):

  • 给模型留出思考与工作的空间:引入自适应思考机制,产品设计允许模型前端思考,可通过投入度拨盘让模型自由调整钻研程度。
  • 以受控的方式开放高权限:发挥Agent自主性,要赋予其在环境里行动的权限。Anthropic在Claude Code中推出“自动模式”分类器,平衡“开发者控制欲”与“模型自主权”,甄别安全行动,防止模型误删环境。
  • 提供自我质检的工具:为Agent配备“Computer Use”等自动化验证工具,让智能体通过前端操作、环境反馈发现错误,实现代码自我迭代与修正。
版权声明: 本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若内容造成侵权/违法违规/事实不符,请联系邮箱:809451989@qq.com进行投诉反馈,一经查实,立即删除!
网站建设 2026/6/26 4:23:04

AgentFlow API密钥安全配置:从环境变量到生产级密钥管理实践

1. 项目概述:为什么API密钥管理是AgentFlow的命门?最近在社区里看到不少关于AgentFlow的讨论,尤其是“openclaw如何切换api密钥”这类问题频繁出现。这让我意识到,很多开发者,无论是刚接触AgentFlow的新手,…

作者头像 李华
网站建设 2026/6/26 4:21:00

滑动窗口解法:最短子数组长度代码解释与优化

目录 一、代码逐行解释(滑动窗口解法:最短子数组长度) 原代码完整拆解 原代码存在的 BUG & 缺陷 二、标准优化版滑动窗口(双指针) 优化思路 三、优化点对比说明 四、逻辑流程演示(举例&#xff…

作者头像 李华
网站建设 2026/6/26 4:15:14

32-Git 差异行号计算机制:平台如何知道“哪些行真的变了”

适合对象:关注增量分析、差异行提取、提交比较、代码变更精度的后端工程师和测试平台工程师。 先说结论 Git 差异行号计算机制不是一个孤立功能,而是精准测试平台里帮助团队做判断的一环。 它重点解决的是:平台如何知道“哪些行真的变了”。 用大白话讲,版本能力的重点不…

作者头像 李华
网站建设 2026/6/26 4:15:16

承影Ventus:基于事件驱动的模块化开发者效率平台设计与实践

1. 项目概述:从“承影”到“Ventus”的命名玄机与项目定位最近在和一些做独立开发的朋友聊天时,发现一个挺有意思的现象:大家给项目起名字,越来越讲究了。以前可能就是“XX管理系统”、“XX工具箱”,现在则更倾向于一个…

作者头像 李华