什么是 Prompt Caching?
Anthropic 的提示缓存,将重复使用的内容(系统提示、工具定义、长文档)缓存在请求间复用,缓存读取仅需 1/10 成本。
一句话总结:Anthropic 提示缓存,缓存系统提示/工具/文档,读取成本仅 1/10,5 分钟 TTL 自动续期,生产级 Claude 应用必用,最高省 90%。
可缓存内容
- 系统提示 — 最常见场景
- 工具定义 — 大量工具时效果显著
- RAG 文档 — 同一文档多轮问答
- 多轮对话前缀 — 早期上下文缓存
最佳实践
- 最长最稳定的内容先缓存
- 缓存内容必须是前缀
- 监控 cache_read_input_tokens 确认命中
- 最小 1024 tokens
常见问题
Q: 影响质量? A: 不影响,模型看到的输入完全一致。
Q: Claude Code 用了吗? A: 用了,自动缓存 CLAUDE.md 和工具定义。