Observabilidad de LLM
Langfuse, AgentOps, LangSmith, Phoenix — los dashboards que detectan fugas de tokens antes que tu CFO.
Qué incluye este pack
No puedes arreglar lo que no ves. El día en que una regresión de prompt triplica silenciosamente tu factura de tokens es el día en que te arrepientes de no haber instalado una capa de observabilidad el trimestre pasado. Este pack reúne los siete recursos que convierten una caja negra LLM opaca en un sistema depurable, alertable y optimizable.
| # | Recurso | Tipo | Qué hace |
|---|---|---|---|
| 1 | Langfuse | open-source | trazas completas, eval, gestión de prompts — self-host o cloud |
| 2 | AgentOps | open-source | observabilidad específica para agentes con replay de sesión |
| 3 | Arize Phoenix | open-source | trazas OpenInference con evaluadores integrados |
| 4 | LangSmith | hosted | plataforma de tracing y datasets de LangChain |
| 5 | Dashboards de coste de tokens | patrón | breakdown por usuario, feature y versión de prompt |
| 6 | Alertas de presupuesto de latencia | patrón | p95 / p99 con cableado a PagerDuty |
| 7 | Diffs de versiones de prompt | patrón | replay lado-a-lado de trazas entre dos versiones |
Por qué importa
Tres modos de fallo en producción que la observabilidad atrapa y la intuición no:
- Inflación silenciosa de tokens. Una edición "menor" añade un recordatorio de 200 tokens. Multiplica por 1M de requests/día y son $2-6k/mes extra que no presupuestaste. La vista por versión de prompt de Langfuse lo expone el primer día.
- La cola del percentil 95. La latencia promedio se ve bien — pero el 5% de queries que pegan en caché fría, bucles de retry o payloads RAG enormes hunden la experiencia de usuario. Los dashboards p99 de Phoenix o LangSmith hacen visible la cola.
- Regresión de calidad invisible a nivel unitario. Cada respuesta individual parece plausible. Agregando puntuaciones de evaluadores (LLM-as-judge, recall de recuperación, tasa de alucinación) sobre las últimas 24h vs los 7 días previos, la regresión salta.
Instala en un comando
# Instala el pack completo
tokrepo install pack/llm-observability
# O elige la plataforma con la que empezar
tokrepo install langfuse
tokrepo install agentops
tokrepo install phoenix
TokRepo CLI deja la config del SDK y el scaffolding de dashboards en tu proyecto, así que las trazas empiezan a fluir en el siguiente request — sin walkthrough de instrumentación manual.
Errores comunes
- Loguear prompts completos y PII a una SaaS de terceros. Si tus prompts incluyen datos de usuario, self-host Langfuse o Phoenix; no envíes payloads crudos a LangSmith Cloud sin redacción. Las tres opciones open-source corren en una sola VM bajo 4GB RAM para cargas típicas.
- Sin sampling en endpoints de alto volumen. Trazar el 100% de requests a 1M/día abruma tanto el almacenamiento como el bolsillo. Muestrea 10% por defecto, 100% en errores. Langfuse y Phoenix lo soportan nativamente.
- Trackear tokens pero no dólares. Modelos diferentes cobran diferente por token. Configura el pricing del modelo en tu plataforma una vez; trackea coste en dólares, no solo conteos de tokens. A los CFOs les importan los dólares.
- Un dashboard genérico para todos. Construye un dashboard por persona — ing (latencia, tasa de error), producto (coste por feature), ejecutivo (coste por usuario activo, tendencia semanal). Los dashboards genéricos se ignoran.
- Sin alerta sobre delta de coste por versión de prompt. Añade una alerta que dispare cuando el coste-por-llamada promedio de una nueva versión de prompt se desvía >20% de la versión previa. Es la alerta de mayor ROI que configurarás.
Relación con otros packs
Observabilidad LLM es la capa de telemetría runtime. El pack complementario LLM Eval & Guardrails es la capa de scoring offline — DeepEval, Promptfoo, Ragas. Quieres ambos: la observabilidad te muestra qué está pasando en producción, el eval te dice si un cambio propuesto es mejor antes de desplegarlo.
Los Frameworks Multi-Agente (CAMEL, LangGraph, DeepAgents) son los sistemas que estás instrumentando. Si corres un workflow LangGraph y no puedes ver qué nodo falló, no tienes observabilidad — tienes un debugger con print. Combina el pack de framework con éste desde el día uno.
7 recursos listos para instalar
Preguntas frecuentes
¿Esto es gratis?
Langfuse, Phoenix y AgentOps son open-source bajo MIT/Apache 2.0 y corren en una sola VM. Self-hosted es gratis; solo pagas almacenamiento y compute. LangSmith es solo hosted y se mide por traza — el tier gratis cubre equipos pequeños, los precios escalan a enterprise. Para la mayoría la respuesta correcta es empezar con Langfuse self-host, cambiar a LangSmith solo si ya estás profundo en el ecosistema LangChain y quieres integración first-party.
¿Cómo se compara Langfuse con LangSmith?
Langfuse es open-source, auto-alojable y agnóstico al framework — funciona con LangChain, LlamaIndex, SDK OpenAI raw, código custom. LangSmith es closed-source, hosted y acoplado a LangChain. En features son aproximadamente equivalentes en tracing y gestión de prompts; LangSmith tiene ventaja en features específicas LangChain, Langfuse tiene un framework de evaluadores más fuerte y mejor historia de self-host. Elige Langfuse si la soberanía de datos importa, LangSmith si quieres zero-ops y eres LangChain-nativo.
¿Funcionará con Cursor o Codex CLI?
La observabilidad está al nivel de llamada API, no del editor — así que cualquier herramienta que pegue a una API LLM puede instrumentarse. La instalación TokRepo añade código init del SDK a tu proyecto. Si proxieas a través de Claude Code, Cursor o Codex CLI, instrumenta el backend del agente (el framework o servicio que llama al LLM), no el editor. El SDK de cada plataforma son 5 líneas de import.
¿Cuál es la diferencia vs el pack LLM Eval?
Eval es scoring offline — dado un prompt y una respuesta de referencia, qué tan bueno es el output. Observabilidad es telemetría runtime — qué pasó en producción: latencia, coste, errores, trazas. Eval alimenta CI; observabilidad alimenta dashboards y alertas. Necesitas ambos. Un patrón común: las puntuaciones de eval de tu golden set se loguean en tu plataforma de observabilidad para que calidad, coste y latencia vivan en el mismo dashboard.
¿Cuánto overhead añade esta instrumentación?
El logging async batched añade ~1-3ms p50 de latencia a las llamadas LLM — negligible comparado con la latencia del modelo (frecuentemente 500-3000ms). Las cuatro plataformas envían SDKs async que batchean trazas en background. Pon sampling a 10% en endpoints de alto volumen para mantener costes de storage sanos. El overhead real en hot-path es tan bajo que no hay buena razón para enviar a producción sin observabilidad.
12 packs · 80+ recursos seleccionados
Explora todos los packs curados en la página principal
Volver a todos los packs