Claude Code 正在拿“Certainly”这种词收你的钱。
不是修复方案。 不是代码。 而是“当然,我很乐意帮你处理这个问题”“你现在遇到的问题,大概率是由……”这一类看上去很礼貌、实际上很烧 token 的废话。
我们真的在为这些字付费。
Allen Iverson 当年那段著名采访,被全网反复调侃。不是因为比赛,不是因为胜负,而是因为他一直在说——practice。
不是比赛。 是训练。
而现在,我们花钱买的,某种程度上就是另一种“practice words”。
我做了个测试
我拿同一个 Unity UI 元素 bug,让 Claude Code 连续解释了两次。
默认状态下的 Claude Code:1252 tokens。 开了这个方法以后:410 tokens。
修的是同一个 bug。 给的也是同一种解决方向。
差别不在能力。 差别在于,其中一个版本额外花了 800 多个 token,用来铺垫、寒暄、解释语气,以及那些根本不影响结果的“人话包装”。
说白了,答案没变。
变的只是废话变少了。
这个办法,简单得离谱
GitHub 上有个免费的插件,已经拿下了1.3 万+ stars。 它干的事情听起来像玩笑,但效果一点都不像玩笑:
让 Claude 说话像个穴居人。
装上以后,它会立刻把 Claude 的输出风格压缩到极简模式。 少寒暄,少铺垫,少没必要的完整句,直接奔结果去。
安装方式也夸张地简单:
claude plugin marketplace add JuliusBrussee/caveman claude plugin install caveman@caveman装完以后,执行:
/caveman就开了。
没别的步骤。 没有复杂配置。 没有折腾空间。
开了以后,Claude 到底会变成什么样
在 caveman 模式没开之前,Claude 往往会这样说:
“Sure! I’d be happy to help you with that. The issue you’re experiencing is most likely caused by your authentication middleware not properly validating the token expiry. Let me take a look and suggest a fix.”
很礼貌。 很完整。 也很贵。
而开了 caveman 之后,它会更像这样:
“Bug in auth middleware. Token expiry check use < not <=. Fix:”
瞬间就干净了。
没有“我很乐意帮你”。 没有“让我来看看”。 没有“你遇到的问题很可能是”。 直接告诉你:问题在哪,为什么错,怎么改。
更关键的是,这不只是更省钱。
它通常也更好读。
因为很多时候,我们真正想看的,本来就不是陪伴式对话,而是可执行信息。
既然目的是修 bug、改代码、推进任务,那越快碰到核心内容,体验往往越好。
最让我意外的,不是省钱
我一开始其实以为,这件事肯定有代价。
直觉上你会觉得:
输出更短了,token 更少了,那质量是不是也会一起下降?
听上去很合理。 但结果不一定是这样。
也就是说,冗长不一定更聪明。 很多时候,它只是更贵。
因为我们过去太容易默认: “说得越多,说明理解越深。” 可对模型输出来说,很多额外长度并不是洞察,而只是包浆。
不是能力。 是包装。
你甚至还能自己选“穴居人程度”
这个插件不是只有一种压缩方式,它给了 3 个层级,让你自己决定想让 Claude 缩到什么程度。
1. Lite 模式
/caveman lite这个模式会稍微收一点,保留基本语法,整体还是专业、正常、可读的。 如果你不喜欢太生硬的风格,但又想砍掉那些没必要的前置话术,这个模式会比较平衡。
2. Full 模式
/caveman full这是默认模式。 会进一步压掉冠词和一些连接内容,输出更像短句碎片。 读起来更利落,也更像“直接把结果扔给你”。
3. Ultra 模式
/caveman ultra这个就很极端了。 能缩就缩,能省就省,恨不得一个词能说完绝不用两个。
差不多就是那种:
One word. Enough.
如果你本来就不在乎语言完整性,只在乎 token 和信息密度,那这个模式会很上头。
甚至还有一种更狠的模式:文言文压缩。 看到这里,我都差点开始后悔自己学生时代没认真学中文古文。
一些很有意思的数据
根据 Julius Brussee 自己给出的基准测试,这类节省主要发生在 Claude“解释事情”的阶段。
也就是说,越是那种需要输出说明、分析、推理过程、建议文本的场景,压缩带来的收益就越明显。 真正的大头,不一定是“代码块”,反而是那些围着代码打转的自然语言部分。
想想也挺合理。
代码本来就已经比较紧。 真正容易膨胀的,是解释代码的那些句子。
而 Claude 最爱膨胀的,恰恰就是这一部分。
还有个配套工具,也挺狠
除了caveman之外,还有一个兄弟工具,叫:
caveman-compress
这个工具主要不是压 Claude 的回答,而是压你的CLAUDE.md。
很多人会忽略这件事,但CLAUDE.md是非常贵的。 因为它几乎每个 session 都会被加载一次。 也就是说,这个文件里每多一个 token,你后面每次会话都可能反复为它付钱。
这不是一次性成本。 而是持续税。
caveman-compress的作用,就是把这类说明文件改写成更紧凑、但仍然可读的格式。 同时它还会保留一份对人类友好的备份,不至于压完以后自己都看不懂。
一些用户反馈的节省幅度,大约在:
45% 左右。
这事其实非常关键。 因为很多人只盯着输出 token,却忘了输入 token 同样贵,而且往往更稳定、更持续。
输出是这轮用了多少。 输入是你每轮都在交多少底租。
我自己后来怎么改的
我现在基本上每次开新 session,都会先开/caveman。
已经习惯了。 而且越来越喜欢这种简短、直接、不演的输出风格。
以前我也会让 Claude 自己去压缩我的CLAUDE.md,但现在我改用专门的插件来做。 很明显的一个体感变化是:我撞 limit 的频率下降了不少。
说实话,我甚至觉得这东西就该默认开启。
但问题也很现实。 输出越长,使用量越高;使用量越高,平台赚得越多。 所以这种“替用户省钱”的行为,不一定天然符合平台的商业激励。
这也正是为什么,很多真正有用的小工具,最后反而是社区先做出来。
最后:
精通 React 面试:从零到中高级(针对面试回答)
CSS终极指南
Vue 设计模式实战指南
20个前端开发者必备的响应式布局
深入React:从基础到最佳实践完整攻略
python 技巧精讲
React Hook 深入浅出
CSS技巧与案例详解
vue2与vue3技巧合集
全栈AI·探索:涵盖动效、React Hooks、Vue 技巧、LLM 应用、Python 脚本等专栏,案例驱动实战学习,点击二维码了解更多详情。