[{"data":1,"prerenderedAt":-1},["ShallowReactive",2],{"pack-detail-llm-eval-guardrails-fr":3,"seo:pack:llm-eval-guardrails:fr":61},{"code":4,"message":5,"data":6},200,"操作成功",{"pack":7},{"slug":8,"icon":9,"tone":10,"status":11,"status_label":12,"title":13,"description":14,"items":15,"install_cmd":60},"llm-eval-guardrails","⚖️","#B45309","stable","Stable","Eval & Guardrails LLM","DeepEval, Promptfoo, Ragas, Opik, Guardrails AI — notez chaque changement de prompt avant déploiement et détectez les régressions tôt.",[16,28,38,45,53],{"id":17,"uuid":18,"slug":19,"title":20,"description":21,"author_name":22,"view_count":23,"vote_count":24,"lang_type":25,"type":26,"type_label":27},292,"a4d57f88-3711-4032-8ad5-f2040ae03178","deepeval-llm-testing-framework-30-metrics-a4d57f88","DeepEval — LLM Testing Framework with 30+ Metrics","DeepEval is a pytest-like testing framework for LLM apps with 30+ metrics. 14.4K+ GitHub stars. RAG, agent, multimodal evaluation. Runs locally. MIT.","Script Depot",353,0,"en","skill","Skill",{"id":29,"uuid":30,"slug":31,"title":32,"description":33,"author_name":34,"view_count":35,"vote_count":24,"lang_type":25,"type":36,"type_label":37},618,"288cfb9f-58ef-4890-a0f7-f698ada3447e","promptfoo-llm-eval-red-team-testing-framework-288cfb9f","Promptfoo — LLM Eval & Red-Team Testing Framework","Open-source framework for evaluating and red-teaming LLM applications. Test prompts across models, detect jailbreaks, measure quality, and catch regressions. 5,000+ GitHub stars.","Agent Toolkit",240,"prompt","Prompt",{"id":39,"uuid":40,"slug":41,"title":42,"description":43,"author_name":22,"view_count":44,"vote_count":24,"lang_type":25,"type":26,"type_label":27},291,"2c856b4d-64e5-46b2-9bbd-a7ce9f7a7296","ragas-evaluate-rag-llm-applications-2c856b4d","Ragas — Evaluate RAG & LLM Applications","Ragas evaluates LLM applications with objective metrics, test data generation, and data-driven insights. 13.2K+ GitHub stars. RAG evaluation, auto test generation. Apache 2.0.",242,{"id":46,"uuid":47,"slug":48,"title":49,"description":50,"author_name":51,"view_count":52,"vote_count":24,"lang_type":25,"type":26,"type_label":27},443,"a543eba5-fe14-46f3-9aa5-96a5a23b72d0","opik-debug-evaluate-monitor-llm-apps-a543eba5","Opik — Debug, Evaluate & Monitor LLM Apps","Trace LLM calls, run automated evaluations, and monitor RAG and agent quality in production. By Comet. 18K+ GitHub stars.","AI Open Source",293,{"id":54,"uuid":55,"slug":56,"title":57,"description":58,"author_name":34,"view_count":59,"vote_count":24,"lang_type":25,"type":26,"type_label":27},773,"ffbad589-cd32-4eca-9518-fdcf9167ca21","guardrails-ai-validate-llm-outputs-production-ffbad589","Guardrails AI — Validate LLM Outputs in Production","Add validation and guardrails to any LLM output. Guardrails AI checks for hallucination, toxicity, PII leakage, and format compliance with 50+ built-in validators.",327,"tokrepo install pack\u002Fllm-eval-guardrails",{"pageType":62,"pageKey":8,"locale":63,"title":64,"metaDescription":65,"h1":13,"tldr":66,"bodyMarkdown":67,"faq":68,"schema":84,"internalLinks":94,"citations":107,"wordCount":120,"generatedAt":121},"pack","fr","Eval & Guardrails LLM : DeepEval, Promptfoo, Ragas, Opik","Pack open-source eval LLM : DeepEval, Promptfoo, Ragas, Opik, Guardrails AI. Notez les prompts avant déploiement, contraignez les sorties runtime.","Cinq outils open-source qui transforment l'itération de prompt de l'intuition en ingénierie mesurée : eval offline, scoring RAG-spécifique, observabilité, contraintes runtime.","## Ce que contient ce pack\n\nCe pack rassemble les **cinq outils open-source** vers lesquels chaque équipe converge une fois que ses features LLM atteignent des utilisateurs réels et que « le modèle s'est dégradé cette semaine » cesse d'être une réponse tolérable. Les outils se divisent en deux moitiés : évaluation pré-déploiement (note chaque changement de prompt) et guardrails runtime (contraint ce que le modèle émet réellement).\n\n| # | Ressource | Phase | Excelle à |\n|---|---|---|---|\n| 1 | DeepEval | Pré-déploiement | Tests style pytest pour sorties LLM (G-Eval, Faithfulness, hallucination) |\n| 2 | Promptfoo | Pré-déploiement | Comparaisons A\u002FB de prompts et red-team scans entre modèles |\n| 3 | Ragas | Pré-déploiement | Métriques RAG-spécifiques : context precision, faithfulness, answer relevancy |\n| 4 | Opik | Observabilité | Tracing production, scores eval par requête, curation de datasets |\n| 5 | Guardrails AI | Runtime | Valider schéma et policies de sortie, avec retry et reasking |\n\nLa séparation compte. Eval pré-déploiement attrape la régression *avant* que le client la voie. Guardrails runtime attrape la régression que vous n'aviez pas prédite. Vous avez besoin des deux — eval seul rate les inputs adversariaux que vous n'avez pas samplés, guardrails seul ne dit pas quel changement de prompt a causé le drift.\n\n## Pourquoi eval est table-stakes maintenant\n\nTrois forces ont rendu eval la différence entre équipes qui livrent et équipes bloquées :\n\n- **Les upgrades de modèle suivent l'agenda du vendor.** Quand Anthropic sort Sonnet 4.7, votre prompt qui marchait sur 4.6 peut se comporter subtilement différemment. Sans suite eval, vous l'apprenez par un ticket support. Avec Promptfoo, vous lancez `promptfoo eval -c promptfooconfig.yaml --providers anthropic:claude-4.7,anthropic:claude-4.6` et voyez le diff en 30 secondes.\n- **Les prompts n'ont pas d'erreurs de compilation.** Une coquille en code lève une exception. Une coquille en prompt produit une sortie plausible mais pire qui part en prod. Eval est l'étape de compilation que les prompts n'ont jamais eue.\n- **La qualité RAG décline silencieusement.** Un nouveau doc qui est récupéré mais n'est pas vraiment pertinent baisse la qualité de réponse sans lever d'erreur. Ragas vous donne des scores de context precision et faithfulness par requête, donc vous repérez le déclin avant qu'il ne s'accumule.\n\n## Installer en une commande\n\n```bash\n# Installe le pack entier dans le projet actuel\ntokrepo install pack\u002Fllm-eval-guardrails\n\n# Ou choisissez des ressources individuelles\ntokrepo install promptfoo\ntokrepo install ragas\n```\n\nLe TokRepo CLI installe un répertoire `evals\u002F` avec cas de test exemples, un `promptfooconfig.yaml`, un notebook Ragas amorcé avec votre retriever, et un template rail file Guardrails AI. Snippets CI bloquent les merges sur le pass rate de la suite eval.\n\n## Pièges courants\n\n- **LLM-as-judge sans grounding.** DeepEval et Ragas utilisent un modèle juge pour scorer les réponses, mais si le juge est le même modèle que le système testé, vous obtenez des scores optimistes. Utilisez une famille différente comme juge, ou pin un modèle plus fort (e.g. juger avec Claude en scorant des sorties GPT).\n- **Suites eval à 5 cas.** Cinq exemples choisis à la main ne couvrent pas la longue traîne. Visez 50-200 cas dérivés de vrais logs production (Opik facilite ça — samplez les mauvaises sorties, étiquetez-les, promouvez vers eval set).\n- **Traiter Guardrails comme filtre magique.** Guardrails impose la *structure* (JSON valide, sans profanité, conforme au schéma) — il n'attrape pas les réponses factuellement fausses mais bien formatées. Pairez avec un check faithfulness Ragas.\n- **Lancer eval contre le trafic production coûte.** Les suites eval peuvent atteindre 5-10x votre facture LLM normale si vous rescorez chaque nuit. Cachez les embeddings, samplez votre eval set par run, ou utilisez des modèles bon marché pour l'étape juge.\n- **Pas d'eval pour sorties non-texte.** Si votre agent émet des tool calls, évaluez la *forme du tool call* avec assertions structurées, pas que le texte final. Promptfoo supporte ça via hooks `transform` et `assert` custom.\n\n## Quand ce pack seul ne suffit pas\n\nPour une **observabilité production** complète au-delà d'Opik (percentiles de latence, tracking coût par utilisateur, analytique routing de modèles), regardez LangSmith ou Arize Phoenix — aucun n'est dans le pack car ils sont plus orchestration qu'eval. Pour les **classifieurs safety** (détection jailbreak, scoring prompt injection), ajoutez Llama Guard ou NVIDIA NeMo Guardrails — Guardrails AI se concentre sur la validation de sortie, pas la détection d'input adversarial. Et si votre eval a besoin d'**annotation human-in-the-loop** à l'échelle, Argilla ou Label Studio s'intègrent au format dataset d'Opik.",[69,72,75,78,81],{"q":70,"a":71},"Le pack est-il gratuit ?","Les cinq outils sont open source sous licences permissives (Apache 2.0 ou MIT). Les coûts compute sont la variable : chaque appel eval frappe un LLM, donc une suite de 200 cas × 4 variantes prompt × 2 modèles = 1600 appels LLM par run. Cachez agressivement, samplez pour les runs nocturnes, full-run uniquement en release. Ragas et DeepEval supportent LLM-as-judge avec modèles bon marché (Haiku, gpt-4o-mini) pour garder bas le coût juge.",{"q":73,"a":74},"Comment ça se compare à LangSmith ou Braintrust ?","LangSmith et Braintrust sont des plateformes managées avec eval, observabilité et curation de datasets dans une UI. Le pack ici donne 80% des features pour $0 et auto-héberger complet. Compromis : vous câblez les composants vous-mêmes (Promptfoo pour eval, Opik pour traces, Guardrails pour runtime) au lieu d'un dashboard. Choisissez managé si votre équipe ne ferait pas d'eval autrement ; choisissez ce pack si l'effort ingénierie est moins cher que les frais par siège.",{"q":76,"a":77},"Ça fonctionnera avec Claude Code ou Cursor ?","Oui. Claude Code peut écrire des configs Promptfoo et cas de test DeepEval depuis votre spec de feature — donnez-lui la spec plus quelques prompts exemples, et il génère `evals\u002Ftest_*.py` et `promptfooconfig.yaml`. Les pages de ressources TokRepo incluent des prompts subagent qui câblent ça en commande slash `prompt-eval`. Cursor utilise le même flux via règles custom.",{"q":79,"a":80},"Quelle différence entre Promptfoo et DeepEval ?","Promptfoo est config-driven (YAML) et excelle aux comparaisons A\u002FB entre providers\u002Fmodèles — parfait pour « doit-on passer de GPT à Claude ? ». DeepEval est code-driven (pytest) et excelle aux assertions style unit-test sur prompts individuels — parfait pour « cette réponse doit mentionner X et ne pas contenir Y ». La plupart des équipes lancent les deux : Promptfoo pour la sélection de modèle, DeepEval pour la régression de prompt.",{"q":82,"a":83},"Piège opérationnel en ajoutant Guardrails AI ?","Le reasking de Guardrails peut multiplier votre latence et coût — chaque validation échouée déclenche un autre appel LLM pour réparer la sortie. Mettez max-retry 1-2, monitorez le taux reask dans Opik (si taux >5% votre prompt lui-même est faux, pas la sortie), et préférez le mode structured output (JSON schema) sur le reasking quand le modèle sous-jacent le supporte (Claude, GPT-4o, Gemini tous le font).",{"@context":85,"@type":86,"name":87,"description":88,"numberOfItems":89,"publisher":90},"https:\u002F\u002Fschema.org","CollectionPage","LLM Eval & Guardrails","Open-source pack for scoring prompt changes and constraining LLM outputs: DeepEval, Promptfoo, Ragas, Opik, Guardrails AI.",5,{"@type":91,"name":92,"url":93},"Organization","TokRepo","https:\u002F\u002Ftokrepo.com",[95,99,103],{"url":96,"anchor":97,"reason":98},"\u002Ffr\u002Fpacks\u002Frag-pipelines","Pipelines RAG","évaluer la qualité retrieval avec la génération",{"url":100,"anchor":101,"reason":102},"\u002Ffr\u002Fpacks\u002Fprompt-engineering-toolkit","Toolkit Prompt Engineering","les prompts que vous notez avec ces évaluateurs",{"url":104,"anchor":105,"reason":106},"\u002Ffr\u002Ftools\u002Fclaude-code","Claude Code","agent qui génère configs Promptfoo depuis les specs",[108,112,116],{"claim":109,"source_name":110,"source_url":111},"Promptfoo is an open-source CLI for testing and evaluating LLM apps with model comparisons and assertions","promptfoo\u002Fpromptfoo","https:\u002F\u002Fgithub.com\u002Fpromptfoo\u002Fpromptfoo",{"claim":113,"source_name":114,"source_url":115},"Ragas provides metrics like faithfulness and answer relevancy for evaluating RAG pipelines","explodinggradients\u002Fragas","https:\u002F\u002Fgithub.com\u002Fexplodinggradients\u002Fragas",{"claim":117,"source_name":118,"source_url":119},"Guardrails AI defines validation rules to constrain LLM outputs to expected formats and policies","guardrails-ai\u002Fguardrails","https:\u002F\u002Fgithub.com\u002Fguardrails-ai\u002Fguardrails",748,"2026-05-02T15:00:00Z"]