Question 1

Est-ce gratuit ?

Accepted Answer

Langfuse, Phoenix et AgentOps sont open-source sous MIT/Apache 2.0 et tournent sur une seule VM. Self-hosted, c'est gratuit ; vous ne payez que stockage et compute. LangSmith est seulement hosted et facturé par trace — le tier gratuit couvre les petites équipes, les prix montent à l'enterprise. Pour la plupart des équipes la bonne réponse est de commencer par Langfuse self-host, et de basculer vers LangSmith uniquement si vous êtes déjà profondément dans l'écosystème LangChain et voulez l'intégration first-party.

Question 2

Comment Langfuse se compare-t-il à LangSmith ?

Accepted Answer

Langfuse est open-source, auto-hébergeable et agnostique au framework — il fonctionne avec LangChain, LlamaIndex, SDK OpenAI brut, code custom. LangSmith est closed-source, hosted et étroitement couplé à LangChain. Côté features, ils sont à peu près équivalents sur le tracing et la gestion de prompts ; LangSmith a un léger avantage sur les features spécifiques LangChain, Langfuse a un framework d'évaluateurs plus fort et une meilleure histoire de self-host. Choisissez Langfuse si la souveraineté des données compte, LangSmith si vous voulez zero-ops et êtes LangChain-natif.

Question 3

Est-ce que ça fonctionnera avec Cursor ou Codex CLI ?

Accepted Answer

L'observabilité se situe au niveau de l'appel API, pas de l'éditeur — donc tout outil qui appelle une API LLM peut être instrumenté. L'install TokRepo ajoute le code init SDK à votre projet. Si vous proxiez via Claude Code, Cursor ou Codex CLI, instrumentez le backend de l'agent (le framework ou service qui appelle le LLM), pas l'éditeur. Le SDK de chaque plateforme fait 5 lignes d'import.

Question 4

Quelle est la différence vs le pack LLM Eval ?

Accepted Answer

L'eval est du scoring offline — étant donné un prompt et une réponse de référence, à quel point la sortie est-elle bonne. L'observabilité est de la télémétrie runtime — ce qui s'est passé en production : latence, coût, erreurs, traces. L'eval nourrit le CI ; l'observabilité nourrit dashboards et alertes. Vous avez besoin des deux. Pattern courant : les scores d'eval de votre golden set sont loggés dans votre plateforme d'observabilité pour que qualité, coût et latence vivent sur le même dashboard.

Question 5

Combien d'overhead cette instrumentation ajoute-t-elle ?

Accepted Answer

Le logging async batched ajoute ~1-3ms p50 de latence aux appels LLM — négligeable comparé à la latence modèle elle-même (souvent 500-3000ms). Les quatre plateformes livrent des SDKs async qui batchent les traces en arrière-plan. Mettez le sampling à 10% sur les endpoints à fort volume pour garder des coûts de stockage sains. L'overhead réel sur le hot-path est si bas qu'il n'y a pas de bonne raison de livrer en prod sans observabilité.

#	Ressource	Catégorie	Ce qu'elle fait
1	Langfuse	open-source	traces complètes, eval, gestion de prompts — self-host ou cloud
2	AgentOps	open-source	observabilité spécifique aux agents avec replay de session
3	Arize Phoenix	open-source	traces OpenInference avec évaluateurs intégrés
4	LangSmith	hosted	plateforme de tracing et datasets de LangChain
5	Dashboards coût de tokens	pattern	ventilation par utilisateur, feature, version de prompt
6	Alertes budget de latence	pattern	p95 / p99 câblé à PagerDuty
7	Diffs de versions de prompt	pattern	replay côte-à-côte de traces entre deux versions

Observabilité LLM

Ce que contient ce pack

Pourquoi c'est important

Installer en une commande

Pièges fréquents

Relation avec les autres packs

7 ressources prêtes à installer

Questions fréquentes

12 packs · 80+ ressources sélectionnées