用 Agent Skills 把 Claude Code Token 消耗降低 50%
三个经过验证的策略,帮你把 Claude Code Token 消耗降低 50%——可复用 Skill、上下文压缩、减少迭代循环。
William Wang — TokRepo & GEOScore AI 创始人,专注 AI 开发者工具和搜索可见性。
三个经过验证的策略,帮你把 Claude Code Token 消耗降低 50%——可复用 Agent Skill、上下文压缩、以及用专业 Skill 消除反复修改的迭代循环。
Token 成本问题
Claude Code 的每次交互都消耗 Token。按照 Anthropic 当前定价,费用增长很快:
- Claude Opus 输入: 每百万 Token $15
- Claude Opus 输出: 每百万 Token $75
- Claude Sonnet 输入: 每百万 Token $3
- Claude Sonnet 输出: 每百万 Token $15
一次典型的开发会话大约消耗 50,000–150,000 输入 Token 和 10,000–30,000 输出 Token。按 Opus 定价,单次会话成本约 $1.50–$4.50。一个月 20 次,就是 $30–$90——这还是保守估计。大型项目轻松达到 $150–$300/月。
Token 消耗过高的根本原因有三个:
- 重复的 prompt —— 每次让 Claude 做某个任务都要重新输入一大段指令
- 上下文膨胀 —— 对话历史越来越长,Claude 每轮都要重新读取成千上万行无关内容
- 迭代循环 —— Claude 理解错了你的意图,你花 5–10 轮来回纠正
每个问题都有具体的解决方案。下面逐一拆解。
策略一:用 Skill 替代重复 Prompt
每次你输入一大段 prompt 告诉 Claude Code 怎么审查代码、怎么跑测试、怎么格式化提交信息——你都在为可以存储一次、永久复用的指令买单。
问题所在
看一个开发者反复输入的典型代码审查 prompt:
Review this code for bugs, security issues, and performance problems.
Check for SQL injection, XSS vulnerabilities, and auth bypass risks.
Verify error handling covers all edge cases. Look for N+1 query
patterns. Check that all database transactions are properly committed
or rolled back. Format your findings as a markdown table with severity,
location, description, and suggested fix.
大约 80 个 Token。一天做 5 次代码审查,就是 400 Token。一个月下来,光这一条重复指令就要花 12,000 Token。
解决方案
安装一个 Agent Skill,把指令编码一次。Skill 文件放在 .claude/commands/,用一个短触发词激活:
tokrepo install e108cf5c-c34e-4d27-a694-66a693301e87
现在你不需要输入 80+ Token 的指令,只需要:
/gsd-code-review
只要 3 个 Token。Skill 文件在会话中加载一次,后续每次触发只消耗触发词的 Token。而且 Skill 包含的指令比你手动输入的更全面——覆盖边界情况、输出格式、验证步骤。
实际节省计算
| 场景 | 不用 Skill | 用 Skill | 节省比例 |
|---|---|---|---|
| 代码审查 prompt | 80 Token x 5 次/天 | 3 Token x 5 次/天 + 500 Token 初次加载 | 首次使用后 92% |
| 调试工作流 prompt | 120 Token x 3 次/天 | 3 Token x 3 次/天 + 800 Token 初次加载 | 首次使用后 88% |
| 规划 prompt | 200 Token x 2 次/天 | 3 Token x 2 次/天 + 1,200 Token 初次加载 | 首次使用后 85% |
推荐的省 Token Skill
两个 Token 投资回报率最高的 Skill:
- GSD (Get Shit Done) —— 用结构化的
/gsd-plan-phase、/gsd-execute-phase、/gsd-next命令替代长篇规划 prompt。原本需要 200+ Token 的规划 prompt,现在每次只要 3 Token。 - Planning Skill —— 编码你的规划方法论,不需要每次会话重新解释。对多人团队特别有价值,确保一致的规划输出。
在 Skill 合集 中浏览更多适合你工作流的选项。
策略二:用摘要压缩上下文
即使装了 Skill,对话上下文仍然会随着每条消息增长。Claude Code 每轮都要读取完整的对话历史——也就是说,50,000 Token 的历史意味着每条消息都要花 50,000 输入 Token,哪怕你只问了一个简单问题。
问题所在
一个真实场景:
- 第 1 轮: 你让 Claude 读 3 个文件(8,000 Token 的文件内容加入上下文)
- 第 5 轮: 已经交换了 20,000 Token 的对话
- 第 10 轮: 上下文达到 45,000 Token
- 第 15 轮: 上下文达到 80,000 Token——每条新消息的输入 Token 成本就是 80,000
按 Opus 定价($15/百万输入 Token),第 15 轮的单条消息输入成本是 $1.20。一个 20 轮对话的累计成本轻松超过 $10。
解决方案
策略性地使用 /compact 命令。这个命令让 Claude Code 对对话历史做摘要,把它压缩到原始大小的几分之一,同时保留关键决策和上下文。
什么时候做 compact:
- 在会话中完成一个重要任务之后
- 当你注意到上下文超过 40,000 Token 时
- 在同一会话中切换话题之前
- 在读取了大文件但后续不再需要完整内容时
压缩前后的 Token 对比:
| 场景 | /compact 前 | /compact 后 | 压缩率 |
|---|---|---|---|
| 15 轮代码审查会话 | 82,000 Token | 12,000 Token | 85% |
| 大文件探索 | 65,000 Token | 8,000 Token | 88% |
| 多阶段项目规划 | 120,000 Token | 18,000 Token | 85% |
高级上下文管理
除了 /compact,这些做法也能减少上下文膨胀:
- 新任务开新对话 —— 不要在臃肿的会话里做不相关的工作
- 精确指定读取范围 —— 用 "读取
server.ts的 50–120 行" 代替 "读取server.ts",避免加载几千行无关代码 - 使用
.claudeignore—— 排除node_modules/、构建产物、大数据文件,防止 Claude 的文件搜索意外加载它们 - 前置上下文 —— 第一条消息就提供所有相关文件和约束,而不是分 5 条消息零散补充,否则 Claude 每轮都要重新读取不断增长的上下文
策略三:用专业 Skill 减少迭代轮次
最贵的 Token 浪费不是 prompt 重复,也不是上下文膨胀——而是迭代循环。Claude 理解错了你的意图时,你要花 3–10 轮纠正,每一轮都要重新处理整个对话上下文。一次误解在大上下文中就能浪费 $5–$15 的 Token。
问题所在
没有结构的调试是经典的 Token 燃烧器:
第 1 轮:"修复这个 bug"(Claude 试了方案 A——失败)
第 2 轮:"不行,试试 X"(Claude 试了 X——部分成功)
第 3 轮:"接近了,但你破坏了 Y"(Claude 修了 Y 但重新引入了原始 bug)
第 4 轮:"不对,你需要保留第 2 轮的修复同时修 Y"
第 5 轮:"让我重新解释一下完整上下文..."
每一轮都比上一轮贵,因为上下文在不断增长。到第 5 轮,你花的 Token 是正确一次完成所需的 5 倍。
解决方案
专业 Skill 编码了结构化的方法论,让 Claude 第一次就做对——或者至少在 1–2 轮内完成,而不是 5–10 轮。
系统化调试 Skill —— 不再用随意的 "修复这个" prompt,而是引导 Claude 走一个结构化的流程:
tokrepo install 78ed006e-d10d-4efe-804b-2e19a76cf2bb
使用 /gsd-debug 触发系统化调试工作流:
- 复现 —— 验证 bug 存在且可重现
- 假设 —— 生成 3–5 个可能的根因,按可能性排序
- 测试 —— 用最小代码改动验证每个假设
- 修复 —— 针对确认的根因应用修复
- 验证 —— 跑测试确认修复没有引入新问题
这种结构化方法通常在 2–3 轮 内解决 bug,而非 5–10 轮——调试任务节省 60–70% 的 Token。
Skill Creator —— 当你发现自己写同一个复杂 prompt 超过两次时,这个元技能帮你在几分钟内把它变成可复用的 Skill:
tokrepo install 0b7c0a41-97e1-4187-9cc5-4dc32d91a9cd
使用 /skill-creator 从描述生成新 Skill。Skill Creator 编码了 Skill 编写的最佳实践——frontmatter、触发条件、指令、示例——让你的自定义 Skill 第一次就能正确工作,不需要 3–4 轮修改。
前后对比:真实 Token 用量
我们跟踪了五个常见开发任务的 Token 使用量,对比了不用 Skill 和使用上述三个策略的工作流。
| 任务 | 不用 Skill (Token) | 用 Skill (Token) | 节省比例 |
|---|---|---|---|
| 代码审查(3 个文件) | 45,000 | 18,000 | 60% |
| 调试后端 API Bug | 92,000 | 35,000 | 62% |
| 规划新功能(5 个阶段) | 68,000 | 28,000 | 59% |
| 创建一个新 Agent Skill | 34,000 | 12,000 | 65% |
| 全天开发会话 | 320,000 | 145,000 | 55% |
按 Opus 定价($15/$75 每百万 Token)换算成美元:
| 指标 | 不用 Skill | 用 Skill |
|---|---|---|
| 日均 Token 用量 | 320,000 | 145,000 |
| 每日输入成本 (@ $15/M) | $4.80 | $2.18 |
| 每日输出成本 (@ $75/M,约 30K 输出) | $2.25 | $1.13 |
| 月度成本(20 个工作日) | $141.00 | $66.20 |
| 年度节省 | — | $897.60 |
单个开发者每年节省近 $900——团队规模越大,节省效果线性增长。
常见问题
Agent Skill 本身会消耗 Token 吗?
会,但每个会话只消耗一次。当 Skill 被触发时,它的 Markdown 内容会加载到对话上下文中。一个典型的 Skill 约 500–1,500 Token。之后在同一会话中再次触发,只消耗斜杠命令的 2–3 个 Token。净节省远超一次性加载成本——通常在使用 Skill 的第 2 或第 3 轮就回本了。
降低 Token 成本最有效的单一操作是什么?
定期执行 /compact。上下文压缩能带来最大的绝对节省,因为它降低了会话中每条后续消息的成本。如果你的上下文在 80,000 Token,压缩到 12,000,每轮后续消息就节省 68,000 Token。再交互 3 轮,就是 204,000 Token——按 Opus 输入定价值 $3.06。
可以三个策略一起用吗?
当然可以——它们本来就是配合使用的。安装 Skill(策略一)减少重复 prompt,用 /compact(策略二)保持上下文精简,依赖专业 Skill(策略三)最小化迭代循环。同时采用三个策略的团队,月度 Token 成本通常降低 45–55%。
下一步
准备好开始省 Token 了吗?以下是你的行动清单:
- 安装你的第一个 Skill —— 从 GSD 或 Planning Skill 开始,立刻见效
- 浏览完整目录 —— 在 Skill 合集 中找到适合你工作流的 Skill
- 学会自己做 —— 阅读 如何创建你的第一个 Agent Skill,把你最常重复的 prompt 变成可复用的 Skill
- 对比你的选项 —— 看 Skill vs MCP vs Rules 完整对比 了解什么时候该用 Skill
- 看看最热门的 —— 我们的 15 个最佳 Claude Code Skill 排行榜展示了经过实测的高影响力 Skill