[{"data":1,"prerenderedAt":-1},["ShallowReactive",2],{"pack-detail-llm-observability-es":3,"seo:pack:llm-observability:es":78},{"code":4,"message":5,"data":6},200,"操作成功",{"pack":7},{"slug":8,"icon":9,"tone":10,"status":11,"status_label":12,"title":13,"description":14,"items":15,"install_cmd":77},"llm-observability","📊","#EA580C","stable","Estable","Observabilidad de LLM","Langfuse, AgentOps, LangSmith, Phoenix — los dashboards que detectan fugas de tokens antes que tu CFO.",[16,28,36,46,54,62,69],{"id":17,"uuid":18,"slug":19,"title":20,"description":21,"author_name":22,"view_count":23,"vote_count":24,"lang_type":25,"type":26,"type_label":27},288,"49a8eb0b-b44b-46c2-b3c8-b54e55fb224f","langfuse-open-source-llm-observability-49a8eb0b","Langfuse — Open Source LLM Observability","Langfuse is an open-source LLM engineering platform for tracing, prompt management, evaluation, and debugging AI apps. 24.1K+ GitHub stars. Self-hosted or cloud. MIT.","Langfuse",300,0,"en","skill","Skill",{"id":29,"uuid":30,"slug":31,"title":32,"description":33,"author_name":34,"view_count":35,"vote_count":24,"lang_type":25,"type":26,"type_label":27},236,"d570c84f-4e22-4723-806a-d23710686a5c","agentops-observability-ai-agents-d570c84f","AgentOps — Observability for AI Agents","Python SDK for AI agent monitoring. LLM cost tracking, session replay, benchmarking, and error analysis. Integrates with CrewAI, LangChain, AutoGen, and more. 5.4K+ stars.","Script Depot",240,{"id":37,"uuid":38,"slug":39,"title":40,"description":41,"author_name":42,"view_count":43,"vote_count":24,"lang_type":25,"type":44,"type_label":45},768,"4d9432ea-330f-44b6-a629-5b29627f746a","langsmith-prompt-debugging-llm-observability-4d9432ea","LangSmith — Prompt Debugging and LLM Observability","Debug, test, and monitor LLM applications in production. LangSmith provides trace visualization, prompt playground, dataset evaluation, and regression testing for AI.","Prompt Lab",305,"prompt","Prompt",{"id":47,"uuid":48,"slug":49,"title":50,"description":51,"author_name":52,"view_count":53,"vote_count":24,"lang_type":25,"type":26,"type_label":27},303,"42fa8573-760e-4a07-a19f-43422546e9f5","phoenix-open-source-ai-observability-42fa8573","Phoenix — Open Source AI Observability","Phoenix is an AI observability platform for tracing, evaluating, and debugging LLM apps. 9.1K+ stars. OpenTelemetry, evals, prompt management.","Arize AI",269,{"id":55,"uuid":56,"slug":57,"title":58,"description":59,"author_name":60,"view_count":61,"vote_count":24,"lang_type":25,"type":26,"type_label":27},442,"13e3c714-032f-4323-b9ee-69f38e613f45","openlit-opentelemetry-llm-observability-13e3c714","OpenLIT — OpenTelemetry LLM Observability","Monitor LLM costs, latency, and quality with OpenTelemetry-native tracing. GPU monitoring and guardrails built in. 2.3K+ stars.","AI Open Source",255,{"id":63,"uuid":64,"slug":65,"title":66,"description":67,"author_name":60,"view_count":68,"vote_count":24,"lang_type":25,"type":26,"type_label":27},730,"a53444d6-2d55-4f59-ba6f-3b672d7ec458","langtrace-open-source-ai-observability-platform-a53444d6","Langtrace — Open Source AI Observability Platform","Open-source observability for LLM apps. Trace OpenAI, Anthropic, and LangChain calls with OpenTelemetry-native instrumentation and a real-time dashboard.",248,{"id":70,"uuid":71,"slug":72,"title":73,"description":74,"author_name":75,"view_count":76,"vote_count":24,"lang_type":25,"type":26,"type_label":27},92,"aa41279c-0695-4fd6-a8ec-f70e0f255cff","gemini-cli-extension-observability-monitoring-logs-aa41279c","Gemini CLI Extension: Observability — Monitoring & Logs","Gemini CLI extension for Google Cloud observability. Set up monitoring, analyze logs, create dashboards, and configure alerts.","Google · Gemini Team",322,"tokrepo install pack\u002Fllm-observability",{"pageType":79,"pageKey":8,"locale":80,"title":81,"metaDescription":82,"h1":83,"tldr":84,"bodyMarkdown":85,"faq":86,"schema":102,"internalLinks":112,"citations":125,"wordCount":138,"generatedAt":139},"pack","es","Observabilidad LLM: Langfuse, AgentOps, LangSmith, Phoenix","Detecta fugas de tokens antes que tu CFO. Langfuse, AgentOps, LangSmith, Phoenix — los dashboards que todo equipo LLM en producción usa. Instala con TokRepo.","Observabilidad LLM","Siete recursos de observabilidad LLM — open-source (Langfuse, Phoenix, AgentOps) más hosted (LangSmith) — para trazar prompts, puntuar outputs y alertar sobre picos de coste antes de que aparezcan en tu factura.","## Qué incluye este pack\n\nNo puedes arreglar lo que no ves. El día en que una regresión de prompt triplica silenciosamente tu factura de tokens es el día en que te arrepientes de no haber instalado una capa de observabilidad el trimestre pasado. Este pack reúne los **siete recursos** que convierten una caja negra LLM opaca en un sistema depurable, alertable y optimizable.\n\n| # | Recurso | Tipo | Qué hace |\n|---|---|---|---|\n| 1 | Langfuse | open-source | trazas completas, eval, gestión de prompts — self-host o cloud |\n| 2 | AgentOps | open-source | observabilidad específica para agentes con replay de sesión |\n| 3 | Arize Phoenix | open-source | trazas OpenInference con evaluadores integrados |\n| 4 | LangSmith | hosted | plataforma de tracing y datasets de LangChain |\n| 5 | Dashboards de coste de tokens | patrón | breakdown por usuario, feature y versión de prompt |\n| 6 | Alertas de presupuesto de latencia | patrón | p95 \u002F p99 con cableado a PagerDuty |\n| 7 | Diffs de versiones de prompt | patrón | replay lado-a-lado de trazas entre dos versiones |\n\n## Por qué importa\n\nTres modos de fallo en producción que la observabilidad atrapa y la intuición no:\n\n1. **Inflación silenciosa de tokens.** Una edición \"menor\" añade un recordatorio de 200 tokens. Multiplica por 1M de requests\u002Fdía y son $2-6k\u002Fmes extra que no presupuestaste. La vista por versión de prompt de Langfuse lo expone el primer día.\n2. **La cola del percentil 95.** La latencia promedio se ve bien — pero el 5% de queries que pegan en caché fría, bucles de retry o payloads RAG enormes hunden la experiencia de usuario. Los dashboards p99 de Phoenix o LangSmith hacen visible la cola.\n3. **Regresión de calidad invisible a nivel unitario.** Cada respuesta individual parece plausible. Agregando puntuaciones de evaluadores (LLM-as-judge, recall de recuperación, tasa de alucinación) sobre las últimas 24h vs los 7 días previos, la regresión salta.\n\n## Instala en un comando\n\n```bash\n# Instala el pack completo\ntokrepo install pack\u002Fllm-observability\n\n# O elige la plataforma con la que empezar\ntokrepo install langfuse\ntokrepo install agentops\ntokrepo install phoenix\n```\n\nTokRepo CLI deja la config del SDK y el scaffolding de dashboards en tu proyecto, así que las trazas empiezan a fluir en el siguiente request — sin walkthrough de instrumentación manual.\n\n## Errores comunes\n\n- **Loguear prompts completos y PII a una SaaS de terceros.** Si tus prompts incluyen datos de usuario, self-host Langfuse o Phoenix; no envíes payloads crudos a LangSmith Cloud sin redacción. Las tres opciones open-source corren en una sola VM bajo 4GB RAM para cargas típicas.\n- **Sin sampling en endpoints de alto volumen.** Trazar el 100% de requests a 1M\u002Fdía abruma tanto el almacenamiento como el bolsillo. Muestrea 10% por defecto, 100% en errores. Langfuse y Phoenix lo soportan nativamente.\n- **Trackear tokens pero no dólares.** Modelos diferentes cobran diferente por token. Configura el pricing del modelo en tu plataforma una vez; trackea coste en dólares, no solo conteos de tokens. A los CFOs les importan los dólares.\n- **Un dashboard genérico para todos.** Construye un dashboard por persona — ing (latencia, tasa de error), producto (coste por feature), ejecutivo (coste por usuario activo, tendencia semanal). Los dashboards genéricos se ignoran.\n- **Sin alerta sobre delta de coste por versión de prompt.** Añade una alerta que dispare cuando el coste-por-llamada promedio de una nueva versión de prompt se desvía >20% de la versión previa. Es la alerta de mayor ROI que configurarás.\n\n## Relación con otros packs\n\nObservabilidad LLM es la **capa de telemetría runtime**. El pack complementario LLM Eval & Guardrails es la **capa de scoring offline** — DeepEval, Promptfoo, Ragas. Quieres ambos: la observabilidad te muestra qué está pasando en producción, el eval te dice si un cambio propuesto es mejor *antes* de desplegarlo.\n\nLos Frameworks Multi-Agente (CAMEL, LangGraph, DeepAgents) son los *sistemas que estás instrumentando*. Si corres un workflow LangGraph y no puedes ver qué nodo falló, no tienes observabilidad — tienes un debugger con print. Combina el pack de framework con éste desde el día uno.",[87,90,93,96,99],{"q":88,"a":89},"¿Esto es gratis?","Langfuse, Phoenix y AgentOps son open-source bajo MIT\u002FApache 2.0 y corren en una sola VM. Self-hosted es gratis; solo pagas almacenamiento y compute. LangSmith es solo hosted y se mide por traza — el tier gratis cubre equipos pequeños, los precios escalan a enterprise. Para la mayoría la respuesta correcta es empezar con Langfuse self-host, cambiar a LangSmith solo si ya estás profundo en el ecosistema LangChain y quieres integración first-party.",{"q":91,"a":92},"¿Cómo se compara Langfuse con LangSmith?","Langfuse es open-source, auto-alojable y agnóstico al framework — funciona con LangChain, LlamaIndex, SDK OpenAI raw, código custom. LangSmith es closed-source, hosted y acoplado a LangChain. En features son aproximadamente equivalentes en tracing y gestión de prompts; LangSmith tiene ventaja en features específicas LangChain, Langfuse tiene un framework de evaluadores más fuerte y mejor historia de self-host. Elige Langfuse si la soberanía de datos importa, LangSmith si quieres zero-ops y eres LangChain-nativo.",{"q":94,"a":95},"¿Funcionará con Cursor o Codex CLI?","La observabilidad está al nivel de llamada API, no del editor — así que cualquier herramienta que pegue a una API LLM puede instrumentarse. La instalación TokRepo añade código init del SDK a tu proyecto. Si proxieas a través de Claude Code, Cursor o Codex CLI, instrumenta el backend del agente (el framework o servicio que llama al LLM), no el editor. El SDK de cada plataforma son 5 líneas de import.",{"q":97,"a":98},"¿Cuál es la diferencia vs el pack LLM Eval?","Eval es scoring offline — dado un prompt y una respuesta de referencia, qué tan bueno es el output. Observabilidad es telemetría runtime — qué pasó en producción: latencia, coste, errores, trazas. Eval alimenta CI; observabilidad alimenta dashboards y alertas. Necesitas ambos. Un patrón común: las puntuaciones de eval de tu golden set se loguean en tu plataforma de observabilidad para que calidad, coste y latencia vivan en el mismo dashboard.",{"q":100,"a":101},"¿Cuánto overhead añade esta instrumentación?","El logging async batched añade ~1-3ms p50 de latencia a las llamadas LLM — negligible comparado con la latencia del modelo (frecuentemente 500-3000ms). Las cuatro plataformas envían SDKs async que batchean trazas en background. Pon sampling a 10% en endpoints de alto volumen para mantener costes de storage sanos. El overhead real en hot-path es tan bajo que no hay buena razón para enviar a producción sin observabilidad.",{"@context":103,"@type":104,"name":105,"description":106,"numberOfItems":107,"publisher":108},"https:\u002F\u002Fschema.org","CollectionPage","LLM Observability","Langfuse, AgentOps, LangSmith, Phoenix and the dashboards that catch token blow-ups before your CFO does.",7,{"@type":109,"name":110,"url":111},"Organization","TokRepo","https:\u002F\u002Ftokrepo.com",[113,117,121],{"url":114,"anchor":115,"reason":116},"\u002Fes\u002Fpacks\u002Fllm-eval-guardrails","Eval & Guardrails LLM","capa de scoring offline complementaria",{"url":118,"anchor":119,"reason":120},"\u002Fes\u002Fpacks\u002Fmulti-agent-frameworks","Frameworks Multi-Agente","los sistemas que estos dashboards instrumentan",{"url":122,"anchor":123,"reason":124},"\u002Fes\u002Ftools\u002Fclaude-code","Claude Code","la superficie de agente que emite las traces",[126,130,134],{"claim":127,"source_name":128,"source_url":129},"Langfuse open-source LLM engineering platform with tracing, evaluations, and prompt management","langfuse\u002Flangfuse","https:\u002F\u002Fgithub.com\u002Flangfuse\u002Flangfuse",{"claim":131,"source_name":132,"source_url":133},"Arize Phoenix open-source AI observability and evaluation library","Arize-ai\u002Fphoenix","https:\u002F\u002Fgithub.com\u002FArize-ai\u002Fphoenix",{"claim":135,"source_name":136,"source_url":137},"AgentOps SDK for monitoring, debugging and benchmarking AI agents","AgentOps-AI\u002Fagentops","https:\u002F\u002Fgithub.com\u002FAgentOps-AI\u002Fagentops",694,"2026-05-02T15:10:00Z"]