TOKREPO · 主题包
稳定

LLM 可观测性

Langfuse / AgentOps / LangSmith / Phoenix — 在 CFO 发现之前抓到 token 失控。

7 个资产

这个 pack 装了什么

看不见就修不了。某天一个 prompt 回归悄悄把 token 账单翻 3 倍,你才会后悔上季度没装可观测层。这个 pack 收齐 七个资产,把不透明的 LLM 黑盒变成可调试、可报警、可优化的系统。

# 资产 类型 干啥的
1 Langfuse 开源 全套 trace + 评测 + prompt 管理 —— 自建或云
2 AgentOps 开源 针对 agent 的可观测性,带 session 回放
3 Arize Phoenix 开源 OpenInference trace + 内置评估器
4 LangSmith 托管 LangChain 第一方 trace 与数据集平台
5 Token 成本仪表盘 模式 按用户 / 按功能 / 按 prompt 版本拆分
6 延迟预算报警 模式 p95 / p99 接 PagerDuty
7 Prompt 版本对比 模式 两个 prompt 版本 trace 并排回放

为什么要装

三个直觉抓不到、可观测性能抓到的生产失败:

  1. Token 静默膨胀。一个「小」prompt 改动加了 200 token 的提醒。乘上每天 100 万次请求,预算外多了 2-6 千美金/月。Langfuse 按 prompt 版本看成本,第一天就能发现。
  2. 第 95 百分位的尾巴。平均延迟看着正常 —— 但 5% 撞冷缓存、撞重试循环、撞超大 RAG payload 的请求把用户体验拖崩。Phoenix / LangSmith 的 p99 仪表盘让尾巴可见。
  3. 质量回归在单条上看不出来。每条单独回答都看着合理。把过去 24h 的评估器分数(LLM-as-judge / 检索召回 / 幻觉率)跟前 7 天聚合对比,回归就跳出来了。

一条命令装齐

# 装整个 pack
tokrepo install pack/llm-observability

# 或者只装你想先跑的平台
tokrepo install langfuse
tokrepo install agentops
tokrepo install phoenix

TokRepo CLI 把 SDK 配置和仪表盘脚手架丢进项目,下次请求就开始流 trace —— 不用手动接接接。

常见坑

  • 把完整 prompt 和 PII 日志推到第三方 SaaS。如果 prompt 含用户数据,自建 Langfuse 或 Phoenix;别没脱敏就把原始 payload 推 LangSmith 云。三个开源方案在常规负载下单 VM 4GB 内存就够。
  • 高流量端点不采样。每天 100 万请求全 trace 会把存储和钱包同时打爆。默认采 10%,错误时采 100%。Langfuse 和 Phoenix 原生支持。
  • 追 token 不追美元。不同模型每 token 价不同。在平台里配一次模型定价;按美元追,不只看 token 数。CFO 关心的是美元。
  • 所有人共用一个仪表盘。每个角色一个仪表盘 —— 工程(延迟 / 错误率)、产品(每功能成本)、高管(每活跃用户成本 / 周环比)。通用仪表盘没人看。
  • 不报 prompt 版本成本差。设个报警:新 prompt 版本平均每次调用成本比上个版本偏离 >20% 就触发。这是 ROI 最高的单个报警。

跟其他 pack 的关系

LLM 可观测性是运行时遥测层。互补的 LLM 评测 & 护栏 pack 是离线打分层 —— DeepEval / Promptfoo / Ragas。两个都要:可观测性告诉你生产里在发生什么,评测告诉你拟改的 prompt 是否更好上线。

多 Agent 框架(CAMEL / LangGraph / DeepAgents)是被检测的系统。如果你跑 LangGraph 工作流但看不出哪个节点挂了,那不叫可观测,叫 print 调试。框架 pack 跟这个 pack 第一天就一起装。

安装 · 一行命令
$ tokrepo install pack/llm-observability
丢给 agent,或粘到终端
包内含什么

7 个资产打包就绪

Config#01
Langfuse — Open Source LLM Observability

Langfuse is an open-source LLM engineering platform for tracing, prompt management, evaluation, and debugging AI apps. 24.1K+ GitHub stars. Self-hosted or cloud. MIT.

by AI Open Source·100 views
$ tokrepo install langfuse-open-source-llm-observability-49a8eb0b
Script#02
AgentOps — Observability for AI Agents

Python SDK for AI agent monitoring. LLM cost tracking, session replay, benchmarking, and error analysis. Integrates with CrewAI, LangChain, AutoGen, and more. 5.4K+ stars.

by Script Depot·98 views
$ tokrepo install agentops-observability-ai-agents-d570c84f
Prompt#03
LangSmith — Prompt Debugging and LLM Observability

Debug, test, and monitor LLM applications in production. LangSmith provides trace visualization, prompt playground, dataset evaluation, and regression testing for AI.

by Prompt Lab·93 views
$ tokrepo install langsmith-prompt-debugging-llm-observability-4d9432ea
Config#04
Phoenix — Open Source AI Observability

Phoenix is an AI observability platform for tracing, evaluating, and debugging LLM apps. 9.1K+ stars. OpenTelemetry, evals, prompt management.

by AI Open Source·89 views
$ tokrepo install phoenix-open-source-ai-observability-42fa8573
Config#05
OpenLIT — OpenTelemetry LLM Observability

Monitor LLM costs, latency, and quality with OpenTelemetry-native tracing. GPU monitoring and guardrails built in. 2.3K+ stars.

by AI Open Source·75 views
$ tokrepo install openlit-opentelemetry-llm-observability-13e3c714
Config#06
Langtrace — Open Source AI Observability Platform

Open-source observability for LLM apps. Trace OpenAI, Anthropic, and LangChain calls with OpenTelemetry-native instrumentation and a real-time dashboard.

by AI Open Source·75 views
$ tokrepo install langtrace-open-source-ai-observability-platform-a53444d6
Skill#07
Gemini CLI Extension: Observability — Monitoring & Logs

Gemini CLI extension for Google Cloud observability. Set up monitoring, analyze logs, create dashboards, and configure alerts.

by Google · Gemini Team·102 views
$ tokrepo install gemini-cli-extension-observability-monitoring-logs-aa41279c
FAQ

常见问题

这些工具免费吗?

Langfuse / Phoenix / AgentOps 是 MIT/Apache 2.0 开源,单 VM 跑得起来。自建免费,只付存储和计算。LangSmith 只能托管,按 trace 计费 —— 免费档够小团队用,价格往企业级走。多数团队的正确答案:先自建 Langfuse,只有当你已经深度在 LangChain 生态、想要第一方集成时才换 LangSmith。

Langfuse 跟 LangSmith 比怎么样?

Langfuse 开源、可自建、框架无关 —— LangChain / LlamaIndex / 原生 OpenAI SDK / 自定义代码都能用。LangSmith 闭源、托管、跟 LangChain 紧耦合。功能上 trace 和 prompt 管理大致打平;LangSmith 在 LangChain 专属功能上略强,Langfuse 评估器框架和自建故事更强。看重数据主权选 Langfuse;想零运维 + LangChain 原生选 LangSmith。

用 Cursor 或 Codex CLI 也能用吗?

可观测性在 API 调用层,不是编辑器层 —— 任何打 LLM API 的工具都能接。TokRepo 装的时候把 SDK init 代码加进项目。如果你通过 Claude Code / Cursor / Codex CLI 代理,检测的是 agent 后端(实际调 LLM 的框架或服务),不是编辑器本身。每个平台的 SDK 都是 5 行 import。

跟 LLM 评测 pack 啥区别?

评测是离线打分 —— 给定 prompt 和参考答案,输出有多好。可观测性是运行时遥测 —— 生产里发生了什么:延迟 / 成本 / 错误 / trace。评测喂 CI;可观测性喂仪表盘和报警。两个都要。常见模式:黄金集评测分数推进可观测平台,让质量、成本、延迟在同一个仪表盘。

这玩意儿加多少检测开销?

异步批量日志给 LLM 调用加 ~1-3ms p50 延迟 —— 跟模型本身延迟(常 500-3000ms)比可忽略。四个平台都出异步 SDK 后台批 trace。高流量端点采 10% 让存储成本可控。实际热路径开销低到没有理由不装可观测就上线。

更多主题包

12 个主题包 · 80+ 精选资产

回首页浏览全部精选合集

返回主题包总览