[{"data":1,"prerenderedAt":-1},["ShallowReactive",2],{"pack-detail-llm-observability-fr":3,"seo:pack:llm-observability:fr":78},{"code":4,"message":5,"data":6},200,"操作成功",{"pack":7},{"slug":8,"icon":9,"tone":10,"status":11,"status_label":12,"title":13,"description":14,"items":15,"install_cmd":77},"llm-observability","📊","#EA580C","stable","Stable","Observabilité LLM","Langfuse, AgentOps, LangSmith, Phoenix — les dashboards qui détectent les fuites de tokens avant votre CFO.",[16,28,36,46,54,62,69],{"id":17,"uuid":18,"slug":19,"title":20,"description":21,"author_name":22,"view_count":23,"vote_count":24,"lang_type":25,"type":26,"type_label":27},288,"49a8eb0b-b44b-46c2-b3c8-b54e55fb224f","langfuse-open-source-llm-observability-49a8eb0b","Langfuse — Open Source LLM Observability","Langfuse is an open-source LLM engineering platform for tracing, prompt management, evaluation, and debugging AI apps. 24.1K+ GitHub stars. Self-hosted or cloud. MIT.","Langfuse",300,0,"en","skill","Skill",{"id":29,"uuid":30,"slug":31,"title":32,"description":33,"author_name":34,"view_count":35,"vote_count":24,"lang_type":25,"type":26,"type_label":27},236,"d570c84f-4e22-4723-806a-d23710686a5c","agentops-observability-ai-agents-d570c84f","AgentOps — Observability for AI Agents","Python SDK for AI agent monitoring. LLM cost tracking, session replay, benchmarking, and error analysis. Integrates with CrewAI, LangChain, AutoGen, and more. 5.4K+ stars.","Script Depot",240,{"id":37,"uuid":38,"slug":39,"title":40,"description":41,"author_name":42,"view_count":43,"vote_count":24,"lang_type":25,"type":44,"type_label":45},768,"4d9432ea-330f-44b6-a629-5b29627f746a","langsmith-prompt-debugging-llm-observability-4d9432ea","LangSmith — Prompt Debugging and LLM Observability","Debug, test, and monitor LLM applications in production. LangSmith provides trace visualization, prompt playground, dataset evaluation, and regression testing for AI.","Prompt Lab",305,"prompt","Prompt",{"id":47,"uuid":48,"slug":49,"title":50,"description":51,"author_name":52,"view_count":53,"vote_count":24,"lang_type":25,"type":26,"type_label":27},303,"42fa8573-760e-4a07-a19f-43422546e9f5","phoenix-open-source-ai-observability-42fa8573","Phoenix — Open Source AI Observability","Phoenix is an AI observability platform for tracing, evaluating, and debugging LLM apps. 9.1K+ stars. OpenTelemetry, evals, prompt management.","Arize AI",269,{"id":55,"uuid":56,"slug":57,"title":58,"description":59,"author_name":60,"view_count":61,"vote_count":24,"lang_type":25,"type":26,"type_label":27},442,"13e3c714-032f-4323-b9ee-69f38e613f45","openlit-opentelemetry-llm-observability-13e3c714","OpenLIT — OpenTelemetry LLM Observability","Monitor LLM costs, latency, and quality with OpenTelemetry-native tracing. GPU monitoring and guardrails built in. 2.3K+ stars.","AI Open Source",255,{"id":63,"uuid":64,"slug":65,"title":66,"description":67,"author_name":60,"view_count":68,"vote_count":24,"lang_type":25,"type":26,"type_label":27},730,"a53444d6-2d55-4f59-ba6f-3b672d7ec458","langtrace-open-source-ai-observability-platform-a53444d6","Langtrace — Open Source AI Observability Platform","Open-source observability for LLM apps. Trace OpenAI, Anthropic, and LangChain calls with OpenTelemetry-native instrumentation and a real-time dashboard.",248,{"id":70,"uuid":71,"slug":72,"title":73,"description":74,"author_name":75,"view_count":76,"vote_count":24,"lang_type":25,"type":26,"type_label":27},92,"aa41279c-0695-4fd6-a8ec-f70e0f255cff","gemini-cli-extension-observability-monitoring-logs-aa41279c","Gemini CLI Extension: Observability — Monitoring & Logs","Gemini CLI extension for Google Cloud observability. Set up monitoring, analyze logs, create dashboards, and configure alerts.","Google · Gemini Team",322,"tokrepo install pack\u002Fllm-observability",{"pageType":79,"pageKey":8,"locale":80,"title":81,"metaDescription":82,"h1":13,"tldr":83,"bodyMarkdown":84,"faq":85,"schema":101,"internalLinks":111,"citations":124,"wordCount":137,"generatedAt":138},"pack","fr","Observabilité LLM : Langfuse, AgentOps, LangSmith, Phoenix","Détectez les fuites de tokens avant votre CFO. Langfuse, AgentOps, LangSmith, Phoenix — les dashboards de toute équipe LLM en production. Installation TokRepo.","Sept ressources d'observabilité LLM — open-source (Langfuse, Phoenix, AgentOps) plus hosted (LangSmith) — pour tracer les prompts, scorer les sorties et alerter sur les pics de coût avant qu'ils n'apparaissent sur votre facture.","## Ce que contient ce pack\n\nOn ne corrige pas ce qu'on ne voit pas. Le jour où une régression de prompt triple silencieusement votre facture de tokens, c'est le jour où vous regrettez de ne pas avoir installé une couche d'observabilité au trimestre dernier. Ce pack rassemble les **sept ressources** qui transforment une boîte noire LLM opaque en un système débogable, alertable et optimisable.\n\n| # | Ressource | Catégorie | Ce qu'elle fait |\n|---|---|---|---|\n| 1 | Langfuse | open-source | traces complètes, eval, gestion de prompts — self-host ou cloud |\n| 2 | AgentOps | open-source | observabilité spécifique aux agents avec replay de session |\n| 3 | Arize Phoenix | open-source | traces OpenInference avec évaluateurs intégrés |\n| 4 | LangSmith | hosted | plateforme de tracing et datasets de LangChain |\n| 5 | Dashboards coût de tokens | pattern | ventilation par utilisateur, feature, version de prompt |\n| 6 | Alertes budget de latence | pattern | p95 \u002F p99 câblé à PagerDuty |\n| 7 | Diffs de versions de prompt | pattern | replay côte-à-côte de traces entre deux versions |\n\n## Pourquoi c'est important\n\nTrois modes d'échec en production que l'observabilité attrape et que l'intuition rate :\n\n1. **Inflation silencieuse de tokens.** Une édition \"mineure\" ajoute un rappel de 200 tokens. Multipliez par 1M de requêtes\u002Fjour et c'est 2-6k$\u002Fmois en plus que vous n'aviez pas budgété. La vue par version de prompt de Langfuse l'expose dès le premier jour.\n2. **La queue du 95e percentile.** La latence moyenne paraît bien — mais les 5% de requêtes qui tapent du cache froid, des boucles de retry ou des payloads RAG énormes plombent l'expérience utilisateur. Les dashboards p99 de Phoenix ou LangSmith rendent la queue visible.\n3. **Régression de qualité invisible au niveau unitaire.** Chaque réponse individuelle paraît plausible. Agrégez les scores d'évaluateurs (LLM-as-judge, recall de retrieval, taux d'hallucination) sur les 24 dernières heures vs les 7 jours précédents, et la régression saute aux yeux.\n\n## Installer en une commande\n\n```bash\n# Installer le pack entier\ntokrepo install pack\u002Fllm-observability\n\n# Ou choisir la plateforme par laquelle commencer\ntokrepo install langfuse\ntokrepo install agentops\ntokrepo install phoenix\n```\n\nLe TokRepo CLI dépose la config SDK et le scaffolding de dashboards dans votre projet, donc les traces commencent à couler à la prochaine requête — pas de walkthrough d'instrumentation manuelle.\n\n## Pièges fréquents\n\n- **Logger les prompts complets et la PII vers un SaaS tiers.** Si vos prompts contiennent des données utilisateur, self-host Langfuse ou Phoenix ; n'envoyez pas de payloads bruts à LangSmith Cloud sans rédaction. Les trois options open-source tournent sur une seule VM sous 4GB RAM pour des charges typiques.\n- **Pas de sampling sur les endpoints à fort volume.** Tracer 100% des requêtes à 1M\u002Fjour submerge votre stockage et votre porte-monnaie. Échantillonnez 10% par défaut, 100% sur les erreurs. Langfuse et Phoenix le supportent nativement.\n- **Tracker les tokens mais pas les dollars.** Différents modèles facturent différemment par token. Configurez le pricing modèle dans votre plateforme une fois ; trackez le coût en dollars, pas seulement en compte de tokens. Les CFO se soucient des dollars.\n- **Un dashboard générique pour tout le monde.** Construisez un dashboard par persona — ing (latence, taux d'erreur), produit (coût par feature), exec (coût par utilisateur actif, tendance semaine sur semaine). Les dashboards génériques sont ignorés.\n- **Pas d'alerte sur le delta de coût par version de prompt.** Ajoutez une alerte qui se déclenche quand le coût-par-appel moyen d'une nouvelle version de prompt dévie de >20% par rapport à la précédente. C'est l'alerte au plus haut ROI que vous configurerez.\n\n## Relation avec les autres packs\n\nL'Observabilité LLM est la **couche de télémétrie runtime**. Le pack complémentaire LLM Eval & Guardrails est la **couche de scoring offline** — DeepEval, Promptfoo, Ragas. Vous voulez les deux : l'observabilité montre ce qui se passe en production, l'eval dit si un changement proposé est meilleur *avant* déploiement.\n\nLes Frameworks Multi-Agent (CAMEL, LangGraph, DeepAgents) sont les *systèmes instrumentés*. Si vous lancez un workflow LangGraph et ne voyez pas quel nœud a échoué, vous n'avez pas d'observabilité — vous avez un debugger à print. Associez le pack framework avec celui-ci dès le premier jour.",[86,89,92,95,98],{"q":87,"a":88},"Est-ce gratuit ?","Langfuse, Phoenix et AgentOps sont open-source sous MIT\u002FApache 2.0 et tournent sur une seule VM. Self-hosted, c'est gratuit ; vous ne payez que stockage et compute. LangSmith est seulement hosted et facturé par trace — le tier gratuit couvre les petites équipes, les prix montent à l'enterprise. Pour la plupart des équipes la bonne réponse est de commencer par Langfuse self-host, et de basculer vers LangSmith uniquement si vous êtes déjà profondément dans l'écosystème LangChain et voulez l'intégration first-party.",{"q":90,"a":91},"Comment Langfuse se compare-t-il à LangSmith ?","Langfuse est open-source, auto-hébergeable et agnostique au framework — il fonctionne avec LangChain, LlamaIndex, SDK OpenAI brut, code custom. LangSmith est closed-source, hosted et étroitement couplé à LangChain. Côté features, ils sont à peu près équivalents sur le tracing et la gestion de prompts ; LangSmith a un léger avantage sur les features spécifiques LangChain, Langfuse a un framework d'évaluateurs plus fort et une meilleure histoire de self-host. Choisissez Langfuse si la souveraineté des données compte, LangSmith si vous voulez zero-ops et êtes LangChain-natif.",{"q":93,"a":94},"Est-ce que ça fonctionnera avec Cursor ou Codex CLI ?","L'observabilité se situe au niveau de l'appel API, pas de l'éditeur — donc tout outil qui appelle une API LLM peut être instrumenté. L'install TokRepo ajoute le code init SDK à votre projet. Si vous proxiez via Claude Code, Cursor ou Codex CLI, instrumentez le backend de l'agent (le framework ou service qui appelle le LLM), pas l'éditeur. Le SDK de chaque plateforme fait 5 lignes d'import.",{"q":96,"a":97},"Quelle est la différence vs le pack LLM Eval ?","L'eval est du scoring offline — étant donné un prompt et une réponse de référence, à quel point la sortie est-elle bonne. L'observabilité est de la télémétrie runtime — ce qui s'est passé en production : latence, coût, erreurs, traces. L'eval nourrit le CI ; l'observabilité nourrit dashboards et alertes. Vous avez besoin des deux. Pattern courant : les scores d'eval de votre golden set sont loggés dans votre plateforme d'observabilité pour que qualité, coût et latence vivent sur le même dashboard.",{"q":99,"a":100},"Combien d'overhead cette instrumentation ajoute-t-elle ?","Le logging async batched ajoute ~1-3ms p50 de latence aux appels LLM — négligeable comparé à la latence modèle elle-même (souvent 500-3000ms). Les quatre plateformes livrent des SDKs async qui batchent les traces en arrière-plan. Mettez le sampling à 10% sur les endpoints à fort volume pour garder des coûts de stockage sains. L'overhead réel sur le hot-path est si bas qu'il n'y a pas de bonne raison de livrer en prod sans observabilité.",{"@context":102,"@type":103,"name":104,"description":105,"numberOfItems":106,"publisher":107},"https:\u002F\u002Fschema.org","CollectionPage","LLM Observability","Langfuse, AgentOps, LangSmith, Phoenix and the dashboards that catch token blow-ups before your CFO does.",7,{"@type":108,"name":109,"url":110},"Organization","TokRepo","https:\u002F\u002Ftokrepo.com",[112,116,120],{"url":113,"anchor":114,"reason":115},"\u002Ffr\u002Fpacks\u002Fllm-eval-guardrails","Eval & Guardrails LLM","couche scoring offline complémentaire",{"url":117,"anchor":118,"reason":119},"\u002Ffr\u002Fpacks\u002Fmulti-agent-frameworks","Frameworks Multi-Agent","les systèmes que ces dashboards instrumentent",{"url":121,"anchor":122,"reason":123},"\u002Ffr\u002Ftools\u002Fclaude-code","Claude Code","la surface d'agent qui émet les traces",[125,129,133],{"claim":126,"source_name":127,"source_url":128},"Langfuse open-source LLM engineering platform with tracing, evaluations, and prompt management","langfuse\u002Flangfuse","https:\u002F\u002Fgithub.com\u002Flangfuse\u002Flangfuse",{"claim":130,"source_name":131,"source_url":132},"Arize Phoenix open-source AI observability and evaluation library","Arize-ai\u002Fphoenix","https:\u002F\u002Fgithub.com\u002FArize-ai\u002Fphoenix",{"claim":134,"source_name":135,"source_url":136},"AgentOps SDK for monitoring, debugging and benchmarking AI agents","AgentOps-AI\u002Fagentops","https:\u002F\u002Fgithub.com\u002FAgentOps-AI\u002Fagentops",709,"2026-05-02T15:10:00Z"]