TOKREPO · ARSENAL
Estable

Observabilidad de LLM

Langfuse, AgentOps, LangSmith, Phoenix — los dashboards que detectan fugas de tokens antes que tu CFO.

7 recursos

Qué incluye este pack

No puedes arreglar lo que no ves. El día en que una regresión de prompt triplica silenciosamente tu factura de tokens es el día en que te arrepientes de no haber instalado una capa de observabilidad el trimestre pasado. Este pack reúne los siete recursos que convierten una caja negra LLM opaca en un sistema depurable, alertable y optimizable.

# Recurso Tipo Qué hace
1 Langfuse open-source trazas completas, eval, gestión de prompts — self-host o cloud
2 AgentOps open-source observabilidad específica para agentes con replay de sesión
3 Arize Phoenix open-source trazas OpenInference con evaluadores integrados
4 LangSmith hosted plataforma de tracing y datasets de LangChain
5 Dashboards de coste de tokens patrón breakdown por usuario, feature y versión de prompt
6 Alertas de presupuesto de latencia patrón p95 / p99 con cableado a PagerDuty
7 Diffs de versiones de prompt patrón replay lado-a-lado de trazas entre dos versiones

Por qué importa

Tres modos de fallo en producción que la observabilidad atrapa y la intuición no:

  1. Inflación silenciosa de tokens. Una edición "menor" añade un recordatorio de 200 tokens. Multiplica por 1M de requests/día y son $2-6k/mes extra que no presupuestaste. La vista por versión de prompt de Langfuse lo expone el primer día.
  2. La cola del percentil 95. La latencia promedio se ve bien — pero el 5% de queries que pegan en caché fría, bucles de retry o payloads RAG enormes hunden la experiencia de usuario. Los dashboards p99 de Phoenix o LangSmith hacen visible la cola.
  3. Regresión de calidad invisible a nivel unitario. Cada respuesta individual parece plausible. Agregando puntuaciones de evaluadores (LLM-as-judge, recall de recuperación, tasa de alucinación) sobre las últimas 24h vs los 7 días previos, la regresión salta.

Instala en un comando

# Instala el pack completo
tokrepo install pack/llm-observability

# O elige la plataforma con la que empezar
tokrepo install langfuse
tokrepo install agentops
tokrepo install phoenix

TokRepo CLI deja la config del SDK y el scaffolding de dashboards en tu proyecto, así que las trazas empiezan a fluir en el siguiente request — sin walkthrough de instrumentación manual.

Errores comunes

  • Loguear prompts completos y PII a una SaaS de terceros. Si tus prompts incluyen datos de usuario, self-host Langfuse o Phoenix; no envíes payloads crudos a LangSmith Cloud sin redacción. Las tres opciones open-source corren en una sola VM bajo 4GB RAM para cargas típicas.
  • Sin sampling en endpoints de alto volumen. Trazar el 100% de requests a 1M/día abruma tanto el almacenamiento como el bolsillo. Muestrea 10% por defecto, 100% en errores. Langfuse y Phoenix lo soportan nativamente.
  • Trackear tokens pero no dólares. Modelos diferentes cobran diferente por token. Configura el pricing del modelo en tu plataforma una vez; trackea coste en dólares, no solo conteos de tokens. A los CFOs les importan los dólares.
  • Un dashboard genérico para todos. Construye un dashboard por persona — ing (latencia, tasa de error), producto (coste por feature), ejecutivo (coste por usuario activo, tendencia semanal). Los dashboards genéricos se ignoran.
  • Sin alerta sobre delta de coste por versión de prompt. Añade una alerta que dispare cuando el coste-por-llamada promedio de una nueva versión de prompt se desvía >20% de la versión previa. Es la alerta de mayor ROI que configurarás.

Relación con otros packs

Observabilidad LLM es la capa de telemetría runtime. El pack complementario LLM Eval & Guardrails es la capa de scoring offline — DeepEval, Promptfoo, Ragas. Quieres ambos: la observabilidad te muestra qué está pasando en producción, el eval te dice si un cambio propuesto es mejor antes de desplegarlo.

Los Frameworks Multi-Agente (CAMEL, LangGraph, DeepAgents) son los sistemas que estás instrumentando. Si corres un workflow LangGraph y no puedes ver qué nodo falló, no tienes observabilidad — tienes un debugger con print. Combina el pack de framework con éste desde el día uno.

INSTALAR · UN COMANDO
$ tokrepo install pack/llm-observability
pásalo a tu agente — o pégalo en tu terminal
Qué incluye

7 recursos listos para instalar

Config#01
Langfuse — Open Source LLM Observability

Langfuse is an open-source LLM engineering platform for tracing, prompt management, evaluation, and debugging AI apps. 24.1K+ GitHub stars. Self-hosted or cloud. MIT.

by AI Open Source·100 views
$ tokrepo install langfuse-open-source-llm-observability-49a8eb0b
Script#02
AgentOps — Observability for AI Agents

Python SDK for AI agent monitoring. LLM cost tracking, session replay, benchmarking, and error analysis. Integrates with CrewAI, LangChain, AutoGen, and more. 5.4K+ stars.

by Script Depot·98 views
$ tokrepo install agentops-observability-ai-agents-d570c84f
Prompt#03
LangSmith — Prompt Debugging and LLM Observability

Debug, test, and monitor LLM applications in production. LangSmith provides trace visualization, prompt playground, dataset evaluation, and regression testing for AI.

by Prompt Lab·93 views
$ tokrepo install langsmith-prompt-debugging-llm-observability-4d9432ea
Config#04
Phoenix — Open Source AI Observability

Phoenix is an AI observability platform for tracing, evaluating, and debugging LLM apps. 9.1K+ stars. OpenTelemetry, evals, prompt management.

by AI Open Source·89 views
$ tokrepo install phoenix-open-source-ai-observability-42fa8573
Config#05
OpenLIT — OpenTelemetry LLM Observability

Monitor LLM costs, latency, and quality with OpenTelemetry-native tracing. GPU monitoring and guardrails built in. 2.3K+ stars.

by AI Open Source·75 views
$ tokrepo install openlit-opentelemetry-llm-observability-13e3c714
Config#06
Langtrace — Open Source AI Observability Platform

Open-source observability for LLM apps. Trace OpenAI, Anthropic, and LangChain calls with OpenTelemetry-native instrumentation and a real-time dashboard.

by AI Open Source·75 views
$ tokrepo install langtrace-open-source-ai-observability-platform-a53444d6
Skill#07
Gemini CLI Extension: Observability — Monitoring & Logs

Gemini CLI extension for Google Cloud observability. Set up monitoring, analyze logs, create dashboards, and configure alerts.

by Google · Gemini Team·102 views
$ tokrepo install gemini-cli-extension-observability-monitoring-logs-aa41279c
FAQ

Preguntas frecuentes

¿Esto es gratis?

Langfuse, Phoenix y AgentOps son open-source bajo MIT/Apache 2.0 y corren en una sola VM. Self-hosted es gratis; solo pagas almacenamiento y compute. LangSmith es solo hosted y se mide por traza — el tier gratis cubre equipos pequeños, los precios escalan a enterprise. Para la mayoría la respuesta correcta es empezar con Langfuse self-host, cambiar a LangSmith solo si ya estás profundo en el ecosistema LangChain y quieres integración first-party.

¿Cómo se compara Langfuse con LangSmith?

Langfuse es open-source, auto-alojable y agnóstico al framework — funciona con LangChain, LlamaIndex, SDK OpenAI raw, código custom. LangSmith es closed-source, hosted y acoplado a LangChain. En features son aproximadamente equivalentes en tracing y gestión de prompts; LangSmith tiene ventaja en features específicas LangChain, Langfuse tiene un framework de evaluadores más fuerte y mejor historia de self-host. Elige Langfuse si la soberanía de datos importa, LangSmith si quieres zero-ops y eres LangChain-nativo.

¿Funcionará con Cursor o Codex CLI?

La observabilidad está al nivel de llamada API, no del editor — así que cualquier herramienta que pegue a una API LLM puede instrumentarse. La instalación TokRepo añade código init del SDK a tu proyecto. Si proxieas a través de Claude Code, Cursor o Codex CLI, instrumenta el backend del agente (el framework o servicio que llama al LLM), no el editor. El SDK de cada plataforma son 5 líneas de import.

¿Cuál es la diferencia vs el pack LLM Eval?

Eval es scoring offline — dado un prompt y una respuesta de referencia, qué tan bueno es el output. Observabilidad es telemetría runtime — qué pasó en producción: latencia, coste, errores, trazas. Eval alimenta CI; observabilidad alimenta dashboards y alertas. Necesitas ambos. Un patrón común: las puntuaciones de eval de tu golden set se loguean en tu plataforma de observabilidad para que calidad, coste y latencia vivan en el mismo dashboard.

¿Cuánto overhead añade esta instrumentación?

El logging async batched añade ~1-3ms p50 de latencia a las llamadas LLM — negligible comparado con la latencia del modelo (frecuentemente 500-3000ms). Las cuatro plataformas envían SDKs async que batchean trazas en background. Pon sampling a 10% en endpoints de alto volumen para mantener costes de storage sanos. El overhead real en hot-path es tan bajo que no hay buena razón para enviar a producción sin observabilidad.

MÁS DEL ARSENAL

12 packs · 80+ recursos seleccionados

Explora todos los packs curados en la página principal

Volver a todos los packs