将 Claude 代码的输出token减少了 75%。为什么没人告诉我？-程序员充电站

Claude Code 正在拿“Certainly”这种词收你的钱。

不是修复方案。不是代码。而是“当然，我很乐意帮你处理这个问题”“你现在遇到的问题，大概率是由……”这一类看上去很礼貌、实际上很烧 token 的废话。

我们真的在为这些字付费。

Allen Iverson 当年那段著名采访，被全网反复调侃。不是因为比赛，不是因为胜负，而是因为他一直在说——practice。

不是比赛。是训练。

而现在，我们花钱买的，某种程度上就是另一种“practice words”。

我做了个测试

我拿同一个 Unity UI 元素 bug，让 Claude Code 连续解释了两次。

默认状态下的 Claude Code：1252 tokens。开了这个方法以后：410 tokens。

修的是同一个 bug。给的也是同一种解决方向。

差别不在能力。差别在于，其中一个版本额外花了 800 多个 token，用来铺垫、寒暄、解释语气，以及那些根本不影响结果的“人话包装”。

说白了，答案没变。

变的只是废话变少了。

这个办法，简单得离谱

GitHub 上有个免费的插件，已经拿下了1.3 万+ stars。它干的事情听起来像玩笑，但效果一点都不像玩笑：

让 Claude 说话像个穴居人。

装上以后，它会立刻把 Claude 的输出风格压缩到极简模式。少寒暄，少铺垫，少没必要的完整句，直接奔结果去。

安装方式也夸张地简单：

claude plugin marketplace add JuliusBrussee/caveman claude plugin install caveman@caveman

装完以后，执行：

/caveman

就开了。

没别的步骤。没有复杂配置。没有折腾空间。

开了以后，Claude 到底会变成什么样

在 caveman 模式没开之前，Claude 往往会这样说：

“Sure! I’d be happy to help you with that. The issue you’re experiencing is most likely caused by your authentication middleware not properly validating the token expiry. Let me take a look and suggest a fix.”

很礼貌。很完整。也很贵。

而开了 caveman 之后，它会更像这样：

“Bug in auth middleware. Token expiry check use < not <=. Fix:”

瞬间就干净了。

没有“我很乐意帮你”。没有“让我来看看”。没有“你遇到的问题很可能是”。直接告诉你：问题在哪，为什么错，怎么改。

更关键的是，这不只是更省钱。

它通常也更好读。

因为很多时候，我们真正想看的，本来就不是陪伴式对话，而是可执行信息。

既然目的是修 bug、改代码、推进任务，那越快碰到核心内容，体验往往越好。

最让我意外的，不是省钱

我一开始其实以为，这件事肯定有代价。

直觉上你会觉得：

输出更短了，token 更少了，那质量是不是也会一起下降？

听上去很合理。但结果不一定是这样。

也就是说，冗长不一定更聪明。很多时候，它只是更贵。

因为我们过去太容易默认： “说得越多，说明理解越深。” 可对模型输出来说，很多额外长度并不是洞察，而只是包浆。

不是能力。是包装。

你甚至还能自己选“穴居人程度”

这个插件不是只有一种压缩方式，它给了 3 个层级，让你自己决定想让 Claude 缩到什么程度。

1. Lite 模式

/caveman lite

这个模式会稍微收一点，保留基本语法，整体还是专业、正常、可读的。如果你不喜欢太生硬的风格，但又想砍掉那些没必要的前置话术，这个模式会比较平衡。

2. Full 模式

/caveman full

这是默认模式。会进一步压掉冠词和一些连接内容，输出更像短句碎片。读起来更利落，也更像“直接把结果扔给你”。

3. Ultra 模式

/caveman ultra

这个就很极端了。能缩就缩，能省就省，恨不得一个词能说完绝不用两个。

差不多就是那种：

One word. Enough.

如果你本来就不在乎语言完整性，只在乎 token 和信息密度，那这个模式会很上头。

甚至还有一种更狠的模式：文言文压缩。看到这里，我都差点开始后悔自己学生时代没认真学中文古文。

一些很有意思的数据

根据 Julius Brussee 自己给出的基准测试，这类节省主要发生在 Claude“解释事情”的阶段。

也就是说，越是那种需要输出说明、分析、推理过程、建议文本的场景，压缩带来的收益就越明显。真正的大头，不一定是“代码块”，反而是那些围着代码打转的自然语言部分。

想想也挺合理。

代码本来就已经比较紧。真正容易膨胀的，是解释代码的那些句子。

而 Claude 最爱膨胀的，恰恰就是这一部分。

还有个配套工具，也挺狠

除了caveman之外，还有一个兄弟工具，叫：

caveman-compress

这个工具主要不是压 Claude 的回答，而是压你的CLAUDE.md。

很多人会忽略这件事，但CLAUDE.md是非常贵的。因为它几乎每个 session 都会被加载一次。也就是说，这个文件里每多一个 token，你后面每次会话都可能反复为它付钱。

这不是一次性成本。而是持续税。

caveman-compress的作用，就是把这类说明文件改写成更紧凑、但仍然可读的格式。同时它还会保留一份对人类友好的备份，不至于压完以后自己都看不懂。

一些用户反馈的节省幅度，大约在：

45% 左右。

这事其实非常关键。因为很多人只盯着输出 token，却忘了输入 token 同样贵，而且往往更稳定、更持续。

输出是这轮用了多少。输入是你每轮都在交多少底租。

我自己后来怎么改的

我现在基本上每次开新 session，都会先开/caveman。

已经习惯了。而且越来越喜欢这种简短、直接、不演的输出风格。

以前我也会让 Claude 自己去压缩我的CLAUDE.md，但现在我改用专门的插件来做。很明显的一个体感变化是：我撞 limit 的频率下降了不少。

说实话，我甚至觉得这东西就该默认开启。

但问题也很现实。输出越长，使用量越高；使用量越高，平台赚得越多。所以这种“替用户省钱”的行为，不一定天然符合平台的商业激励。

这也正是为什么，很多真正有用的小工具，最后反而是社区先做出来。

最后：

精通 React 面试：从零到中高级(针对面试回答)

CSS终极指南

Vue 设计模式实战指南

20个前端开发者必备的响应式布局

深入React:从基础到最佳实践完整攻略

python 技巧精讲

React Hook 深入浅出

CSS技巧与案例详解

vue2与vue3技巧合集

全栈AI·探索：涵盖动效、React Hooks、Vue 技巧、LLM 应用、Python 脚本等专栏，案例驱动实战学习，点击二维码了解更多详情。

将 Claude 代码的输出token减少了 75%。为什么没人告诉我？

我做了个测试

这个办法，简单得离谱

开了以后，Claude 到底会变成什么样

最让我意外的，不是省钱

你甚至还能自己选“穴居人程度”

1. Lite 模式

2. Full 模式

3. Ultra 模式

一些很有意思的数据

还有个配套工具，也挺狠

我自己后来怎么改的

ESP32-CAM变身RTSP监控摄像头：从零配置到手机实时查看（附M5Stack避坑指南）

基于C语言调用Youtu-Parsing模型API：轻量级嵌入式集成方案

保姆级教程：用TensorFlow 2.10和3x3小窗口搞定Salinas高光谱图像分类（附完整代码）

3个理由让你立即体验QobuzDownloaderX-MOD：无损音乐下载的革命性工具 [特殊字符]

如何用Python轻松下载B站视频：从零开始到4K大会员画质完整指南

在Windows系统上完美使用苹果触控板的终极解决方案：mac-precision-touchpad驱动详解