news 2026/4/18 7:31:36

100 万token!Anthropic 重磅发布 Claude Opus 4.6,成功登顶编程王座

作者头像

张小明

前端开发工程师

1.2k 24
文章封面图
100 万token!Anthropic 重磅发布 Claude Opus 4.6,成功登顶编程王座

Anthropic 毫无预警地发布了Claude Opus 4.6。说实话,这半年被各种“遥遥领先”的模型轰炸得有点审美疲劳,本来想关灯睡觉,但扫了一眼官方的 Changelog,我直接垂死病中惊坐起——这货居然支持 100 万 token 上下文了?而且还会自己改 Bug?

1. 它终于学会了“像人一样思考”

以前我们用 AI 写代码,最烦的是什么?是它写了一段看着很完美的代码,一运行全是红字,然后你把报错扔回去,它就开始瞎蒙,越改越错。

Opus 4.6 最让我惊喜的一点是它的自省能力

官方文档里提到它在“Terminal-Bench 2.0”里拿了最高分,还在那个听起来很吓人的“人类最后的考试(Humanity's Last Exam)”里碾压了对手。但数据是冰冷的,真实的体感是:它变稳了。

Opus 4.6 还能将其增强的功能应用于一系列日常工作任务:运行财务分析、进行研究以及使用和创建文档、电子表格和演示文稿。在Cowork 环境中,Claude 可以自主地执行多任务,Opus 4.6 可以代表用户运用所有这些技能。

Opus 4.6 在多个专业领域的实际工作任务中都达到了最先进的水平

该模型在多项评估中均表现出色,堪称业界领先。例如,它在智能体编码评估工具Terminal-Bench 2.0中取得了最高分,并在“人类最后的考试”(一项复杂的多学科推理测试)中领先于所有其他前沿模型。

在GDPval-AA(一项评估模型在金融、法律和其他领域中具有经济价值的知识工作任务上的表现的测试)中, Opus 4.6 的表现比业界次优模型(OpenAI 的 GPT-5.2)高出约 144 个 Elo 分数,比其前身(Claude Opus 4.5)高出 190 分。此外,Opus 4.6 在BrowseComp 测试中也优于其他所有模型,该测试用于衡量模型在线查找难寻信息的能力。

我在 Claude Code 里丢给它一个很恶心的遗留代码重构任务。以前的模型可能直接就上手改,改完崩了算我的。但 Opus 4.6 并没有急着输出代码,而是先规划。它列出了几个可能踩坑的点,甚至在运行过程中,它自己发现了逻辑漏洞,然后自己修好了

这种“自我纠错”的感觉,太像一个靠谱的高级工程师坐在你旁边结对编程了。它不再是一个单纯的“代码生成器”,更像是一个能帮你兜底的 Partner。

Opus 4.6 擅长诊断复杂的软件故障

2. 100 万 Token 上下文:告别“金鱼记忆”

咱们做开发的都有个痛点叫“Context Rot”(上下文腐烂)。聊着聊着,AI 就忘了十分钟前我们定义的变量,或者在处理长文档时开始胡言乱语。

这次 Opus 4.6 直接上了100 万 Token 的上下文窗口(虽然是测试版)。这是什么概念?你可以把几本技术书、整个项目的文档、甚至几万行的屎山代码一次性扔给它。

Opus 4.6 在长上下文检索方面表现出显著的改进

官方对比数据里,那个“大海捞针”测试(MRCR v2),前代 Sonnet 4.5 得分只有 18.5%,而 Opus 4.6 飙到了76%

我自己试着扔了一份超长的 API 文档进去让它查一个冷门参数,它不仅找出来了,还关联了上下文告诉我这玩意儿在这个版本里有坑。说真的,以前那种“还得我自己先读一遍文档再喂给 AI”的憋屈日子,可能真要结束了。

3. 给打工人的“真·福利”:Excel 和 PPT

虽然咱们是写代码的,但谁还没个被老板逼着写 PPT、做报表的时候?

Opus 4.6 这次不仅是程序员的福音,也是“打工人的神”。它对 Excel 进行了史诗级升级,还搞了个 PowerPoint 的预览版。

这就很有意思了。想象一下,你把一堆乱七八糟的财务数据扔给它,说:“帮我分析下上个季度的亏损原因,并做个 PPT,我要向老板汇报。” 然后它就开始自主执行多任务(Multitasking),一边跑分析,一边画图表,最后还给你生成了幻灯片。

在 Cowork 环境下,它甚至能代表你操作这些工具。这不就是我梦寐以求的“硅基实习生”吗?

4. 丰俭由人:学会了“偷懒”的 AI 才是好 AI

这次 API 的更新里,有个功能我觉得特别人性化:Adaptive Thinking(自适应思维)

以前调用模型,要么全速跑,要么强制它深度思考,很死板。现在 Opus 4.6 学聪明了,它会根据上下文判断:这个问题很简单,我就秒回;这个问题很复杂,我要开启“扩展思维”好好琢磨一下。

而且,开发者终于可以控制Workload(工作量)了!你可以选低、中、高、最高四档。想省钱的时候开低档,遇到硬骨头开最高档。

这就很像真实的职场:不是所有任务都需要拼命三郎,懂得分配精力的 AI,反而让我觉得它更懂事了。而且价格没变,加量不加价,这点必须给好评。

5. 安全感:不只是不乱说话

最后聊聊安全。虽然大家都不爱看系统卡(System Card),但我扫了一眼,这次 Anthropic 确实下了功夫。

Opus 4.6 在网络安全防御上很强,甚至能用来帮咱们修开源软件的漏洞。官方说它的“过度拒绝率”是最低的——意思是,它不会动不动就因为误判而拒绝回答你的正常问题(这在以前真的很搞心态)。它在保持安全的同时,更听话了。

写在最后

现在的 AI 圈,每隔几个月就是一次“工业革命”。但说实话,作为用户,我关心的不是你在榜单上比 GPT-5.2 高了多少分(虽然这次 Opus 4.6 确实高了 144 分,挺夸张的),我关心的是:你能不能让我早点下班?

从 Opus 4.6 身上,我看到了一种趋势:AI 正在从“工具”向“队友”转变。它开始有记忆、有判断力、懂得自我反思,甚至懂得帮你省钱。

更多transformer,VIT,swin tranformer 参考头条号:人工智能研究所 v号:人工智能研究Suo, 启示AI科技

动画详解transformer 在线视频教程

版权声明: 本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若内容造成侵权/违法违规/事实不符,请联系邮箱:809451989@qq.com进行投诉反馈,一经查实,立即删除!
网站建设 2026/4/10 19:05:37

【开题答辩全过程】以 基于python的电影推荐系统为例,包含答辩的问题和答案

个人简介一名14年经验的资深毕设内行人,语言擅长Java、php、微信小程序、Python、Golang、安卓Android等开发项目包括大数据、深度学习、网站、小程序、安卓、算法。平常会做一些项目定制化开发、代码讲解、答辩教学、文档编写、也懂一些降重方面的技巧。感谢大家的…

作者头像 李华
网站建设 2026/4/15 10:05:12

【开题答辩全过程】以 基于springboot的高校电动车租赁系统为例,包含答辩的问题和答案

个人简介一名14年经验的资深毕设内行人,语言擅长Java、php、微信小程序、Python、Golang、安卓Android等开发项目包括大数据、深度学习、网站、小程序、安卓、算法。平常会做一些项目定制化开发、代码讲解、答辩教学、文档编写、也懂一些降重方面的技巧。感谢大家的…

作者头像 李华
网站建设 2026/4/16 14:37:03

新手也能上手 8个降AI率网站测评:本科生降AI率必备指南

在当前学术写作中,AI生成内容的普及让论文查重率和AIGC检测变得越来越严格。尤其是对于本科生而言,如何在保持原文意思不变的前提下,有效降低AI痕迹和重复率,成为了一个亟需解决的问题。而AI降重工具的出现,正是为了解…

作者头像 李华
网站建设 2026/3/28 6:00:43

学长亲荐 10个降AI率网站:继续教育必备工具深度测评与推荐

在当前继续教育日益普及的背景下,越来越多的学生和在职人员需要撰写论文、报告等学术材料。然而,随着AI技术的广泛应用,如何有效降低AIGC率、去除AI痕迹、同时保持内容的逻辑性和可读性,成为许多学习者面临的难题。AI降重工具应运…

作者头像 李华
网站建设 2026/4/16 9:35:48

技术拆解与选型避坑:2026年五大企业级BI平台深度横评报告

本文将从技术内核出发,深度拆解市场表现与理念最独特的五家BI厂商——衡石科技、瓴羊Quick BI、Tableau、微软Power BI与观远数据,旨在为企业的关键选型提供一份客观、硬核的避坑指南。01 市场与技术拐点:AI Agent、业务融合与性能门槛2026年…

作者头像 李华
网站建设 2026/4/17 16:03:47

这次终于选对!风靡全网的AI论文工具 —— 千笔ai写作

你是否正在为论文写作而焦虑?选题难、框架乱、文献找不全、查重率高、格式出错……这些困扰让无数学生在毕业季前夜辗转反侧。面对繁重的学术任务,你是否渴望一个高效、智能又可靠的写作助手?千笔AI,正是为解决这些问题而生。它不…

作者头像 李华