use-case8 min read

用 Agent Skills 把 Claude Code Token 消耗降低 50%

三个经过验证的策略,帮你把 Claude Code Token 消耗降低 50%——可复用 Skill、上下文压缩、减少迭代循环。

WI
William Wang · Apr 12, 2026

William Wang — TokRepo & GEOScore AI 创始人,专注 AI 开发者工具和搜索可见性。

用 Agent Skills 把 Claude Code Token 消耗降低 50%
目录

三个经过验证的策略,帮你把 Claude Code Token 消耗降低 50%——可复用 Agent Skill、上下文压缩、以及用专业 Skill 消除反复修改的迭代循环。

Token 成本问题

Claude Code 的每次交互都消耗 Token。按照 Anthropic 当前定价,费用增长很快:

  • Claude Opus 输入: 每百万 Token $15
  • Claude Opus 输出: 每百万 Token $75
  • Claude Sonnet 输入: 每百万 Token $3
  • Claude Sonnet 输出: 每百万 Token $15

一次典型的开发会话大约消耗 50,000–150,000 输入 Token 和 10,000–30,000 输出 Token。按 Opus 定价,单次会话成本约 $1.50–$4.50。一个月 20 次,就是 $30–$90——这还是保守估计。大型项目轻松达到 $150–$300/月

Token 消耗过高的根本原因有三个:

  1. 重复的 prompt —— 每次让 Claude 做某个任务都要重新输入一大段指令
  2. 上下文膨胀 —— 对话历史越来越长,Claude 每轮都要重新读取成千上万行无关内容
  3. 迭代循环 —— Claude 理解错了你的意图,你花 5–10 轮来回纠正

每个问题都有具体的解决方案。下面逐一拆解。

策略一:用 Skill 替代重复 Prompt

每次你输入一大段 prompt 告诉 Claude Code 怎么审查代码、怎么跑测试、怎么格式化提交信息——你都在为可以存储一次、永久复用的指令买单。

问题所在

看一个开发者反复输入的典型代码审查 prompt:

Review this code for bugs, security issues, and performance problems.
Check for SQL injection, XSS vulnerabilities, and auth bypass risks.
Verify error handling covers all edge cases. Look for N+1 query
patterns. Check that all database transactions are properly committed
or rolled back. Format your findings as a markdown table with severity,
location, description, and suggested fix.

大约 80 个 Token。一天做 5 次代码审查,就是 400 Token。一个月下来,光这一条重复指令就要花 12,000 Token。

解决方案

安装一个 Agent Skill,把指令编码一次。Skill 文件放在 .claude/commands/,用一个短触发词激活:

tokrepo install e108cf5c-c34e-4d27-a694-66a693301e87

现在你不需要输入 80+ Token 的指令,只需要:

/gsd-code-review

只要 3 个 Token。Skill 文件在会话中加载一次,后续每次触发只消耗触发词的 Token。而且 Skill 包含的指令比你手动输入的更全面——覆盖边界情况、输出格式、验证步骤。

实际节省计算

场景不用 Skill用 Skill节省比例
代码审查 prompt80 Token x 5 次/天3 Token x 5 次/天 + 500 Token 初次加载首次使用后 92%
调试工作流 prompt120 Token x 3 次/天3 Token x 3 次/天 + 800 Token 初次加载首次使用后 88%
规划 prompt200 Token x 2 次/天3 Token x 2 次/天 + 1,200 Token 初次加载首次使用后 85%
💡

推荐的省 Token Skill

两个 Token 投资回报率最高的 Skill:

  • GSD (Get Shit Done) —— 用结构化的 /gsd-plan-phase/gsd-execute-phase/gsd-next 命令替代长篇规划 prompt。原本需要 200+ Token 的规划 prompt,现在每次只要 3 Token。
  • Planning Skill —— 编码你的规划方法论,不需要每次会话重新解释。对多人团队特别有价值,确保一致的规划输出。

Skill 合集 中浏览更多适合你工作流的选项。

策略二:用摘要压缩上下文

即使装了 Skill,对话上下文仍然会随着每条消息增长。Claude Code 每轮都要读取完整的对话历史——也就是说,50,000 Token 的历史意味着每条消息都要花 50,000 输入 Token,哪怕你只问了一个简单问题。

问题所在

一个真实场景:

  1. 第 1 轮: 你让 Claude 读 3 个文件(8,000 Token 的文件内容加入上下文)
  2. 第 5 轮: 已经交换了 20,000 Token 的对话
  3. 第 10 轮: 上下文达到 45,000 Token
  4. 第 15 轮: 上下文达到 80,000 Token——每条新消息的输入 Token 成本就是 80,000

按 Opus 定价($15/百万输入 Token),第 15 轮的单条消息输入成本是 $1.20。一个 20 轮对话的累计成本轻松超过 $10

解决方案

策略性地使用 /compact 命令。这个命令让 Claude Code 对对话历史做摘要,把它压缩到原始大小的几分之一,同时保留关键决策和上下文。

什么时候做 compact:

  • 在会话中完成一个重要任务之后
  • 当你注意到上下文超过 40,000 Token 时
  • 在同一会话中切换话题之前
  • 在读取了大文件但后续不再需要完整内容时

压缩前后的 Token 对比:

场景/compact/compact压缩率
15 轮代码审查会话82,000 Token12,000 Token85%
大文件探索65,000 Token8,000 Token88%
多阶段项目规划120,000 Token18,000 Token85%
💡

高级上下文管理

除了 /compact,这些做法也能减少上下文膨胀:

  1. 新任务开新对话 —— 不要在臃肿的会话里做不相关的工作
  2. 精确指定读取范围 —— 用 "读取 server.ts 的 50–120 行" 代替 "读取 server.ts",避免加载几千行无关代码
  3. 使用 .claudeignore —— 排除 node_modules/、构建产物、大数据文件,防止 Claude 的文件搜索意外加载它们
  4. 前置上下文 —— 第一条消息就提供所有相关文件和约束,而不是分 5 条消息零散补充,否则 Claude 每轮都要重新读取不断增长的上下文

策略三:用专业 Skill 减少迭代轮次

最贵的 Token 浪费不是 prompt 重复,也不是上下文膨胀——而是迭代循环。Claude 理解错了你的意图时,你要花 3–10 轮纠正,每一轮都要重新处理整个对话上下文。一次误解在大上下文中就能浪费 $5–$15 的 Token

问题所在

没有结构的调试是经典的 Token 燃烧器:

第 1 轮:"修复这个 bug"(Claude 试了方案 A——失败)
第 2 轮:"不行,试试 X"(Claude 试了 X——部分成功)
第 3 轮:"接近了,但你破坏了 Y"(Claude 修了 Y 但重新引入了原始 bug)
第 4 轮:"不对,你需要保留第 2 轮的修复同时修 Y"
第 5 轮:"让我重新解释一下完整上下文..."

每一轮都比上一轮贵,因为上下文在不断增长。到第 5 轮,你花的 Token 是正确一次完成所需的 5 倍。

解决方案

专业 Skill 编码了结构化的方法论,让 Claude 第一次就做对——或者至少在 1–2 轮内完成,而不是 5–10 轮。

系统化调试 Skill —— 不再用随意的 "修复这个" prompt,而是引导 Claude 走一个结构化的流程:

tokrepo install 78ed006e-d10d-4efe-804b-2e19a76cf2bb

使用 /gsd-debug 触发系统化调试工作流:

  1. 复现 —— 验证 bug 存在且可重现
  2. 假设 —— 生成 3–5 个可能的根因,按可能性排序
  3. 测试 —— 用最小代码改动验证每个假设
  4. 修复 —— 针对确认的根因应用修复
  5. 验证 —— 跑测试确认修复没有引入新问题

这种结构化方法通常在 2–3 轮 内解决 bug,而非 5–10 轮——调试任务节省 60–70% 的 Token。

Skill Creator —— 当你发现自己写同一个复杂 prompt 超过两次时,这个元技能帮你在几分钟内把它变成可复用的 Skill:

tokrepo install 0b7c0a41-97e1-4187-9cc5-4dc32d91a9cd

使用 /skill-creator 从描述生成新 Skill。Skill Creator 编码了 Skill 编写的最佳实践——frontmatter、触发条件、指令、示例——让你的自定义 Skill 第一次就能正确工作,不需要 3–4 轮修改。

⚠️

前后对比:真实 Token 用量

我们跟踪了五个常见开发任务的 Token 使用量,对比了不用 Skill 和使用上述三个策略的工作流。

任务不用 Skill (Token)用 Skill (Token)节省比例
代码审查(3 个文件)45,00018,00060%
调试后端 API Bug92,00035,00062%
规划新功能(5 个阶段)68,00028,00059%
创建一个新 Agent Skill34,00012,00065%
全天开发会话320,000145,00055%

按 Opus 定价($15/$75 每百万 Token)换算成美元:

指标不用 Skill用 Skill
日均 Token 用量320,000145,000
每日输入成本 (@ $15/M)$4.80$2.18
每日输出成本 (@ $75/M,约 30K 输出)$2.25$1.13
月度成本(20 个工作日)$141.00$66.20
年度节省$897.60

单个开发者每年节省近 $900——团队规模越大,节省效果线性增长。

常见问题

Agent Skill 本身会消耗 Token 吗?

会,但每个会话只消耗一次。当 Skill 被触发时,它的 Markdown 内容会加载到对话上下文中。一个典型的 Skill 约 500–1,500 Token。之后在同一会话中再次触发,只消耗斜杠命令的 2–3 个 Token。净节省远超一次性加载成本——通常在使用 Skill 的第 2 或第 3 轮就回本了。

降低 Token 成本最有效的单一操作是什么?

定期执行 /compact。上下文压缩能带来最大的绝对节省,因为它降低了会话中每条后续消息的成本。如果你的上下文在 80,000 Token,压缩到 12,000,每轮后续消息就节省 68,000 Token。再交互 3 轮,就是 204,000 Token——按 Opus 输入定价值 $3.06

可以三个策略一起用吗?

当然可以——它们本来就是配合使用的。安装 Skill(策略一)减少重复 prompt,用 /compact(策略二)保持上下文精简,依赖专业 Skill(策略三)最小化迭代循环。同时采用三个策略的团队,月度 Token 成本通常降低 45–55%

下一步

准备好开始省 Token 了吗?以下是你的行动清单:

  1. 安装你的第一个 Skill —— 从 GSDPlanning Skill 开始,立刻见效
  2. 浏览完整目录 —— 在 Skill 合集 中找到适合你工作流的 Skill
  3. 学会自己做 —— 阅读 如何创建你的第一个 Agent Skill,把你最常重复的 prompt 变成可复用的 Skill
  4. 对比你的选项 —— 看 Skill vs MCP vs Rules 完整对比 了解什么时候该用 Skill
  5. 看看最热门的 —— 我们的 15 个最佳 Claude Code Skill 排行榜展示了经过实测的高影响力 Skill