Question 1

¿Esto es gratis?

Accepted Answer

Langfuse, Phoenix y AgentOps son open-source bajo MIT/Apache 2.0 y corren en una sola VM. Self-hosted es gratis; solo pagas almacenamiento y compute. LangSmith es solo hosted y se mide por traza — el tier gratis cubre equipos pequeños, los precios escalan a enterprise. Para la mayoría la respuesta correcta es empezar con Langfuse self-host, cambiar a LangSmith solo si ya estás profundo en el ecosistema LangChain y quieres integración first-party.

Question 2

¿Cómo se compara Langfuse con LangSmith?

Accepted Answer

Langfuse es open-source, auto-alojable y agnóstico al framework — funciona con LangChain, LlamaIndex, SDK OpenAI raw, código custom. LangSmith es closed-source, hosted y acoplado a LangChain. En features son aproximadamente equivalentes en tracing y gestión de prompts; LangSmith tiene ventaja en features específicas LangChain, Langfuse tiene un framework de evaluadores más fuerte y mejor historia de self-host. Elige Langfuse si la soberanía de datos importa, LangSmith si quieres zero-ops y eres LangChain-nativo.

Question 3

¿Funcionará con Cursor o Codex CLI?

Accepted Answer

La observabilidad está al nivel de llamada API, no del editor — así que cualquier herramienta que pegue a una API LLM puede instrumentarse. La instalación TokRepo añade código init del SDK a tu proyecto. Si proxieas a través de Claude Code, Cursor o Codex CLI, instrumenta el backend del agente (el framework o servicio que llama al LLM), no el editor. El SDK de cada plataforma son 5 líneas de import.

Question 4

¿Cuál es la diferencia vs el pack LLM Eval?

Accepted Answer

Eval es scoring offline — dado un prompt y una respuesta de referencia, qué tan bueno es el output. Observabilidad es telemetría runtime — qué pasó en producción: latencia, coste, errores, trazas. Eval alimenta CI; observabilidad alimenta dashboards y alertas. Necesitas ambos. Un patrón común: las puntuaciones de eval de tu golden set se loguean en tu plataforma de observabilidad para que calidad, coste y latencia vivan en el mismo dashboard.

Question 5

¿Cuánto overhead añade esta instrumentación?

Accepted Answer

El logging async batched añade ~1-3ms p50 de latencia a las llamadas LLM — negligible comparado con la latencia del modelo (frecuentemente 500-3000ms). Las cuatro plataformas envían SDKs async que batchean trazas en background. Pon sampling a 10% en endpoints de alto volumen para mantener costes de storage sanos. El overhead real en hot-path es tan bajo que no hay buena razón para enviar a producción sin observabilidad.

#	Recurso	Tipo	Qué hace
1	Langfuse	open-source	trazas completas, eval, gestión de prompts — self-host o cloud
2	AgentOps	open-source	observabilidad específica para agentes con replay de sesión
3	Arize Phoenix	open-source	trazas OpenInference con evaluadores integrados
4	LangSmith	hosted	plataforma de tracing y datasets de LangChain
5	Dashboards de coste de tokens	patrón	breakdown por usuario, feature y versión de prompt
6	Alertas de presupuesto de latencia	patrón	p95 / p99 con cableado a PagerDuty
7	Diffs de versiones de prompt	patrón	replay lado-a-lado de trazas entre dos versiones

Observabilidad de LLM

Qué incluye este pack

Por qué importa

Instala en un comando

Errores comunes

Relación con otros packs

7 recursos listos para instalar

Preguntas frecuentes

12 packs · 80+ recursos seleccionados