news 2026/4/18 19:14:51

将 Claude 代码的输出token减少了 75%。为什么没人告诉我?

作者头像

张小明

前端开发工程师

1.2k 24
文章封面图
将 Claude 代码的输出token减少了 75%。为什么没人告诉我?

Claude Code 正在拿“Certainly”这种词收你的钱。

不是修复方案。 不是代码。 而是“当然,我很乐意帮你处理这个问题”“你现在遇到的问题,大概率是由……”这一类看上去很礼貌、实际上很烧 token 的废话。

我们真的在为这些字付费。

Allen Iverson 当年那段著名采访,被全网反复调侃。不是因为比赛,不是因为胜负,而是因为他一直在说——practice。

不是比赛。 是训练。

而现在,我们花钱买的,某种程度上就是另一种“practice words”。

我做了个测试

我拿同一个 Unity UI 元素 bug,让 Claude Code 连续解释了两次。

默认状态下的 Claude Code:1252 tokens。 开了这个方法以后:410 tokens

修的是同一个 bug。 给的也是同一种解决方向。

差别不在能力。 差别在于,其中一个版本额外花了 800 多个 token,用来铺垫、寒暄、解释语气,以及那些根本不影响结果的“人话包装”。

说白了,答案没变。

变的只是废话变少了。

这个办法,简单得离谱

GitHub 上有个免费的插件,已经拿下了1.3 万+ stars。 它干的事情听起来像玩笑,但效果一点都不像玩笑:

让 Claude 说话像个穴居人。

装上以后,它会立刻把 Claude 的输出风格压缩到极简模式。 少寒暄,少铺垫,少没必要的完整句,直接奔结果去。

安装方式也夸张地简单:

claude plugin marketplace add JuliusBrussee/caveman claude plugin install caveman@caveman

装完以后,执行:

/caveman

就开了。

没别的步骤。 没有复杂配置。 没有折腾空间。

开了以后,Claude 到底会变成什么样

在 caveman 模式没开之前,Claude 往往会这样说:

“Sure! I’d be happy to help you with that. The issue you’re experiencing is most likely caused by your authentication middleware not properly validating the token expiry. Let me take a look and suggest a fix.”

很礼貌。 很完整。 也很贵。

而开了 caveman 之后,它会更像这样:

“Bug in auth middleware. Token expiry check use < not <=. Fix:”

瞬间就干净了。

没有“我很乐意帮你”。 没有“让我来看看”。 没有“你遇到的问题很可能是”。 直接告诉你:问题在哪,为什么错,怎么改。

更关键的是,这不只是更省钱。

它通常也更好读

因为很多时候,我们真正想看的,本来就不是陪伴式对话,而是可执行信息。

既然目的是修 bug、改代码、推进任务,那越快碰到核心内容,体验往往越好。


最让我意外的,不是省钱

我一开始其实以为,这件事肯定有代价。

直觉上你会觉得:

输出更短了,token 更少了,那质量是不是也会一起下降?

听上去很合理。 但结果不一定是这样。

也就是说,冗长不一定更聪明。 很多时候,它只是更贵。

因为我们过去太容易默认: “说得越多,说明理解越深。” 可对模型输出来说,很多额外长度并不是洞察,而只是包浆。

不是能力。 是包装。

你甚至还能自己选“穴居人程度”

这个插件不是只有一种压缩方式,它给了 3 个层级,让你自己决定想让 Claude 缩到什么程度。

1. Lite 模式

/caveman lite

这个模式会稍微收一点,保留基本语法,整体还是专业、正常、可读的。 如果你不喜欢太生硬的风格,但又想砍掉那些没必要的前置话术,这个模式会比较平衡。

2. Full 模式

/caveman full

这是默认模式。 会进一步压掉冠词和一些连接内容,输出更像短句碎片。 读起来更利落,也更像“直接把结果扔给你”。

3. Ultra 模式

/caveman ultra

这个就很极端了。 能缩就缩,能省就省,恨不得一个词能说完绝不用两个。

差不多就是那种:

One word. Enough.

如果你本来就不在乎语言完整性,只在乎 token 和信息密度,那这个模式会很上头。

甚至还有一种更狠的模式:文言文压缩。 看到这里,我都差点开始后悔自己学生时代没认真学中文古文。

一些很有意思的数据

根据 Julius Brussee 自己给出的基准测试,这类节省主要发生在 Claude“解释事情”的阶段。

也就是说,越是那种需要输出说明、分析、推理过程、建议文本的场景,压缩带来的收益就越明显。 真正的大头,不一定是“代码块”,反而是那些围着代码打转的自然语言部分。

想想也挺合理。

代码本来就已经比较紧。 真正容易膨胀的,是解释代码的那些句子。

而 Claude 最爱膨胀的,恰恰就是这一部分。

还有个配套工具,也挺狠

除了caveman之外,还有一个兄弟工具,叫:

caveman-compress

这个工具主要不是压 Claude 的回答,而是压你的CLAUDE.md

很多人会忽略这件事,但CLAUDE.md是非常贵的。 因为它几乎每个 session 都会被加载一次。 也就是说,这个文件里每多一个 token,你后面每次会话都可能反复为它付钱。

这不是一次性成本。 而是持续税。

caveman-compress的作用,就是把这类说明文件改写成更紧凑、但仍然可读的格式。 同时它还会保留一份对人类友好的备份,不至于压完以后自己都看不懂。

一些用户反馈的节省幅度,大约在:

45% 左右。

这事其实非常关键。 因为很多人只盯着输出 token,却忘了输入 token 同样贵,而且往往更稳定、更持续。

输出是这轮用了多少。 输入是你每轮都在交多少底租。

我自己后来怎么改的

我现在基本上每次开新 session,都会先开/caveman

已经习惯了。 而且越来越喜欢这种简短、直接、不演的输出风格。

以前我也会让 Claude 自己去压缩我的CLAUDE.md,但现在我改用专门的插件来做。 很明显的一个体感变化是:我撞 limit 的频率下降了不少。

说实话,我甚至觉得这东西就该默认开启。

但问题也很现实。 输出越长,使用量越高;使用量越高,平台赚得越多。 所以这种“替用户省钱”的行为,不一定天然符合平台的商业激励。

这也正是为什么,很多真正有用的小工具,最后反而是社区先做出来。

最后:

精通 React 面试:从零到中高级(针对面试回答)

CSS终极指南

Vue 设计模式实战指南

20个前端开发者必备的响应式布局

深入React:从基础到最佳实践完整攻略

python 技巧精讲

React Hook 深入浅出

CSS技巧与案例详解

vue2与vue3技巧合集

全栈AI·探索:涵盖动效、React Hooks、Vue 技巧、LLM 应用、Python 脚本等专栏,案例驱动实战学习,点击二维码了解更多详情。

版权声明: 本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若内容造成侵权/违法违规/事实不符,请联系邮箱:809451989@qq.com进行投诉反馈,一经查实,立即删除!
网站建设 2026/4/17 15:11:19

基于C语言调用Youtu-Parsing模型API:轻量级嵌入式集成方案

基于C语言调用Youtu-Parsing模型API&#xff1a;轻量级嵌入式集成方案 你是不是也遇到过这样的场景&#xff1f;手头有个嵌入式设备&#xff0c;或者一个用C/C写的桌面应用&#xff0c;需要集成文档解析功能。一想到要引入庞大的Python环境、复杂的依赖库&#xff0c;头就大了…

作者头像 李华
网站建设 2026/4/17 14:56:45

如何用Python轻松下载B站视频:从零开始到4K大会员画质完整指南

如何用Python轻松下载B站视频&#xff1a;从零开始到4K大会员画质完整指南 【免费下载链接】bilibili-downloader B站视频下载&#xff0c;支持下载大会员清晰度4K&#xff0c;持续更新中 项目地址: https://gitcode.com/gh_mirrors/bil/bilibili-downloader 你是否曾遇…

作者头像 李华