TOKREPO · 主题包

稳定

LLM 可观测性

Langfuse / AgentOps / LangSmith / Phoenix — 在 CFO 发现之前抓到 token 失控。

7 个资产

关于这个主题包

这个 pack 装了什么

看不见就修不了。某天一个 prompt 回归悄悄把 token 账单翻 3 倍，你才会后悔上季度没装可观测层。这个 pack 收齐 七个资产，把不透明的 LLM 黑盒变成可调试、可报警、可优化的系统。

#	资产	类型	干啥的
1	Langfuse	开源	全套 trace + 评测 + prompt 管理 —— 自建或云
2	AgentOps	开源	针对 agent 的可观测性，带 session 回放
3	Arize Phoenix	开源	OpenInference trace + 内置评估器
4	LangSmith	托管	LangChain 第一方 trace 与数据集平台
5	Token 成本仪表盘	模式	按用户 / 按功能 / 按 prompt 版本拆分
6	延迟预算报警	模式	p95 / p99 接 PagerDuty
7	Prompt 版本对比	模式	两个 prompt 版本 trace 并排回放

为什么要装

三个直觉抓不到、可观测性能抓到的生产失败：

Token 静默膨胀。一个「小」prompt 改动加了 200 token 的提醒。乘上每天 100 万次请求，预算外多了 2-6 千美金/月。Langfuse 按 prompt 版本看成本，第一天就能发现。
第 95 百分位的尾巴。平均延迟看着正常 —— 但 5% 撞冷缓存、撞重试循环、撞超大 RAG payload 的请求把用户体验拖崩。Phoenix / LangSmith 的 p99 仪表盘让尾巴可见。
质量回归在单条上看不出来。每条单独回答都看着合理。把过去 24h 的评估器分数（LLM-as-judge / 检索召回 / 幻觉率）跟前 7 天聚合对比，回归就跳出来了。

一条命令装齐

# 装整个 pack
tokrepo install pack/llm-observability

# 或者只装你想先跑的平台
tokrepo install langfuse
tokrepo install agentops
tokrepo install phoenix

TokRepo CLI 把 SDK 配置和仪表盘脚手架丢进项目，下次请求就开始流 trace —— 不用手动接接接。

常见坑

把完整 prompt 和 PII 日志推到第三方 SaaS。如果 prompt 含用户数据，自建 Langfuse 或 Phoenix；别没脱敏就把原始 payload 推 LangSmith 云。三个开源方案在常规负载下单 VM 4GB 内存就够。
高流量端点不采样。每天 100 万请求全 trace 会把存储和钱包同时打爆。默认采 10%，错误时采 100%。Langfuse 和 Phoenix 原生支持。
追 token 不追美元。不同模型每 token 价不同。在平台里配一次模型定价；按美元追，不只看 token 数。CFO 关心的是美元。
所有人共用一个仪表盘。每个角色一个仪表盘 —— 工程（延迟 / 错误率）、产品（每功能成本）、高管（每活跃用户成本 / 周环比）。通用仪表盘没人看。
不报 prompt 版本成本差。设个报警：新 prompt 版本平均每次调用成本比上个版本偏离 >20% 就触发。这是 ROI 最高的单个报警。

跟其他 pack 的关系

LLM 可观测性是运行时遥测层。互补的 LLM 评测 & 护栏 pack 是离线打分层 —— DeepEval / Promptfoo / Ragas。两个都要：可观测性告诉你生产里在发生什么，评测告诉你拟改的 prompt 是否更好再上线。

多 Agent 框架（CAMEL / LangGraph / DeepAgents）是被检测的系统。如果你跑 LangGraph 工作流但看不出哪个节点挂了，那不叫可观测，叫 print 调试。框架 pack 跟这个 pack 第一天就一起装。

安装 · 一行命令

$ tokrepo install pack/llm-observability

丢给 agent，或粘到终端

包内含什么

7 个资产打包就绪

Config#01

Langfuse — Open Source LLM Observability

Langfuse is an open-source LLM engineering platform for tracing, prompt management, evaluation, and debugging AI apps. 24.1K+ GitHub stars. Self-hosted or cloud. MIT.

by AI Open Source·100 views

$ tokrepo install langfuse-open-source-llm-observability-49a8eb0b

Script#02

AgentOps — Observability for AI Agents

Python SDK for AI agent monitoring. LLM cost tracking, session replay, benchmarking, and error analysis. Integrates with CrewAI, LangChain, AutoGen, and more. 5.4K+ stars.

by Script Depot·98 views

$ tokrepo install agentops-observability-ai-agents-d570c84f

Prompt#03

LangSmith — Prompt Debugging and LLM Observability

Debug, test, and monitor LLM applications in production. LangSmith provides trace visualization, prompt playground, dataset evaluation, and regression testing for AI.

by Prompt Lab·93 views

$ tokrepo install langsmith-prompt-debugging-llm-observability-4d9432ea

Config#04

Phoenix — Open Source AI Observability

Phoenix is an AI observability platform for tracing, evaluating, and debugging LLM apps. 9.1K+ stars. OpenTelemetry, evals, prompt management.

by AI Open Source·89 views

$ tokrepo install phoenix-open-source-ai-observability-42fa8573

Config#05

OpenLIT — OpenTelemetry LLM Observability

Monitor LLM costs, latency, and quality with OpenTelemetry-native tracing. GPU monitoring and guardrails built in. 2.3K+ stars.

by AI Open Source·75 views

$ tokrepo install openlit-opentelemetry-llm-observability-13e3c714

Config#06

Langtrace — Open Source AI Observability Platform

Open-source observability for LLM apps. Trace OpenAI, Anthropic, and LangChain calls with OpenTelemetry-native instrumentation and a real-time dashboard.

by AI Open Source·75 views

$ tokrepo install langtrace-open-source-ai-observability-platform-a53444d6

Skill#07

Gemini CLI Extension: Observability — Monitoring & Logs

Gemini CLI extension for Google Cloud observability. Set up monitoring, analyze logs, create dashboards, and configure alerts.

by Google · Gemini Team·102 views

$ tokrepo install gemini-cli-extension-observability-monitoring-logs-aa41279c

FAQ

常见问题

这些工具免费吗？

Langfuse / Phoenix / AgentOps 是 MIT/Apache 2.0 开源，单 VM 跑得起来。自建免费，只付存储和计算。LangSmith 只能托管，按 trace 计费 —— 免费档够小团队用，价格往企业级走。多数团队的正确答案：先自建 Langfuse，只有当你已经深度在 LangChain 生态、想要第一方集成时才换 LangSmith。

Langfuse 跟 LangSmith 比怎么样？

Langfuse 开源、可自建、框架无关 —— LangChain / LlamaIndex / 原生 OpenAI SDK / 自定义代码都能用。LangSmith 闭源、托管、跟 LangChain 紧耦合。功能上 trace 和 prompt 管理大致打平；LangSmith 在 LangChain 专属功能上略强，Langfuse 评估器框架和自建故事更强。看重数据主权选 Langfuse；想零运维 + LangChain 原生选 LangSmith。

用 Cursor 或 Codex CLI 也能用吗？

可观测性在 API 调用层，不是编辑器层 —— 任何打 LLM API 的工具都能接。TokRepo 装的时候把 SDK init 代码加进项目。如果你通过 Claude Code / Cursor / Codex CLI 代理，检测的是 agent 后端（实际调 LLM 的框架或服务），不是编辑器本身。每个平台的 SDK 都是 5 行 import。

跟 LLM 评测 pack 啥区别？

评测是离线打分 —— 给定 prompt 和参考答案，输出有多好。可观测性是运行时遥测 —— 生产里发生了什么：延迟 / 成本 / 错误 / trace。评测喂 CI；可观测性喂仪表盘和报警。两个都要。常见模式：黄金集评测分数推进可观测平台，让质量、成本、延迟在同一个仪表盘。

这玩意儿加多少检测开销？

异步批量日志给 LLM 调用加 ~1-3ms p50 延迟 —— 跟模型本身延迟（常 500-3000ms）比可忽略。四个平台都出异步 SDK 后台批 trace。高流量端点采 10% 让存储成本可控。实际热路径开销低到没有理由不装可观测就上线。

更多主题包

12 个主题包 · 80+ 精选资产

回首页浏览全部精选合集

返回主题包总览