[{"data":1,"prerenderedAt":-1},["ShallowReactive",2],{"pack-detail-llm-eval-guardrails-es":3,"seo:pack:llm-eval-guardrails:es":61},{"code":4,"message":5,"data":6},200,"操作成功",{"pack":7},{"slug":8,"icon":9,"tone":10,"status":11,"status_label":12,"title":13,"description":14,"items":15,"install_cmd":60},"llm-eval-guardrails","⚖️","#B45309","stable","Estable","Eval & Guardrails LLM","DeepEval, Promptfoo, Ragas, Opik, Guardrails AI — puntúa cada cambio de prompt antes del despliegue y detecta regresiones a tiempo.",[16,28,38,45,53],{"id":17,"uuid":18,"slug":19,"title":20,"description":21,"author_name":22,"view_count":23,"vote_count":24,"lang_type":25,"type":26,"type_label":27},292,"a4d57f88-3711-4032-8ad5-f2040ae03178","deepeval-llm-testing-framework-30-metrics-a4d57f88","DeepEval — LLM Testing Framework with 30+ Metrics","DeepEval is a pytest-like testing framework for LLM apps with 30+ metrics. 14.4K+ GitHub stars. RAG, agent, multimodal evaluation. Runs locally. MIT.","Script Depot",353,0,"en","skill","Skill",{"id":29,"uuid":30,"slug":31,"title":32,"description":33,"author_name":34,"view_count":35,"vote_count":24,"lang_type":25,"type":36,"type_label":37},618,"288cfb9f-58ef-4890-a0f7-f698ada3447e","promptfoo-llm-eval-red-team-testing-framework-288cfb9f","Promptfoo — LLM Eval & Red-Team Testing Framework","Open-source framework for evaluating and red-teaming LLM applications. Test prompts across models, detect jailbreaks, measure quality, and catch regressions. 5,000+ GitHub stars.","Agent Toolkit",240,"prompt","Prompt",{"id":39,"uuid":40,"slug":41,"title":42,"description":43,"author_name":22,"view_count":44,"vote_count":24,"lang_type":25,"type":26,"type_label":27},291,"2c856b4d-64e5-46b2-9bbd-a7ce9f7a7296","ragas-evaluate-rag-llm-applications-2c856b4d","Ragas — Evaluate RAG & LLM Applications","Ragas evaluates LLM applications with objective metrics, test data generation, and data-driven insights. 13.2K+ GitHub stars. RAG evaluation, auto test generation. Apache 2.0.",242,{"id":46,"uuid":47,"slug":48,"title":49,"description":50,"author_name":51,"view_count":52,"vote_count":24,"lang_type":25,"type":26,"type_label":27},443,"a543eba5-fe14-46f3-9aa5-96a5a23b72d0","opik-debug-evaluate-monitor-llm-apps-a543eba5","Opik — Debug, Evaluate & Monitor LLM Apps","Trace LLM calls, run automated evaluations, and monitor RAG and agent quality in production. By Comet. 18K+ GitHub stars.","AI Open Source",293,{"id":54,"uuid":55,"slug":56,"title":57,"description":58,"author_name":34,"view_count":59,"vote_count":24,"lang_type":25,"type":26,"type_label":27},773,"ffbad589-cd32-4eca-9518-fdcf9167ca21","guardrails-ai-validate-llm-outputs-production-ffbad589","Guardrails AI — Validate LLM Outputs in Production","Add validation and guardrails to any LLM output. Guardrails AI checks for hallucination, toxicity, PII leakage, and format compliance with 50+ built-in validators.",327,"tokrepo install pack\u002Fllm-eval-guardrails",{"pageType":62,"pageKey":8,"locale":63,"title":64,"metaDescription":65,"h1":13,"tldr":66,"bodyMarkdown":67,"faq":68,"schema":84,"internalLinks":94,"citations":107,"wordCount":120,"generatedAt":121},"pack","es","Eval & Guardrails LLM: DeepEval, Promptfoo, Ragas, Opik","Pack open-source eval LLM: DeepEval, Promptfoo, Ragas, Opik, Guardrails AI. Puntúa prompts antes del deploy, limita salidas en runtime. Instala TokRepo.","Cinco herramientas open-source que convierten la iteración de prompts de intuición a ingeniería medida: eval offline, scoring RAG-específico, observabilidad y constraints en runtime.","## Qué incluye este pack\n\nEste pack reúne las **cinco herramientas open-source** a las que todo equipo converge una vez que sus features LLM llegan a usuarios reales y \"el modelo se puso peor esta semana\" deja de ser respuesta tolerable. Las herramientas se dividen en dos mitades: evaluación pre-deploy (puntúa cada cambio de prompt) y guardrails runtime (constriñe lo que el modelo realmente emite).\n\n| # | Recurso | Fase | Mejor en |\n|---|---|---|---|\n| 1 | DeepEval | Pre-deploy | Tests estilo pytest para outputs LLM (G-Eval, Faithfulness, métricas hallucination) |\n| 2 | Promptfoo | Pre-deploy | Comparaciones A\u002FB de prompts y red-team scans entre modelos |\n| 3 | Ragas | Pre-deploy | Métricas RAG-específicas: context precision, faithfulness, answer relevancy |\n| 4 | Opik | Observabilidad | Tracing en producción, scores eval por request, curación de datasets |\n| 5 | Guardrails AI | Runtime | Validar schema y políticas de salida, con retry y reasking |\n\nLa separación importa. Eval pre-deploy atrapa la regresión *antes* de que la vea el cliente. Guardrails runtime atrapa la regresión que no predijiste. Necesitas ambos — eval solo se pierde inputs adversariales que no sampleaste, guardrails solo no te dice qué cambio de prompt causó el drift.\n\n## Por qué eval es ya table-stakes\n\nTres fuerzas hicieron de eval la diferencia entre equipos que envían y equipos que se atascan:\n\n- **Los upgrades de modelo ocurren en agenda del vendor.** Cuando Anthropic libera Sonnet 4.7, tu prompt que funcionaba en 4.6 puede comportarse sutilmente distinto. Sin suite eval, te enteras por un ticket de soporte. Con Promptfoo, corres `promptfoo eval -c promptfooconfig.yaml --providers anthropic:claude-4.7,anthropic:claude-4.6` y ves el diff en 30 segundos.\n- **Los prompts no tienen errores de compilación.** Un typo en código lanza excepción. Un typo en prompt produce output plausible pero peor que se envía. Eval es el paso de compilación que los prompts nunca tuvieron.\n- **La calidad RAG decae silenciosa.** Un doc nuevo que se recupera pero no es realmente relevante baja la calidad de respuesta sin levantar error. Ragas te da scores de context precision y faithfulness por query, así detectas decay antes de que se acumule.\n\n## Instala en un comando\n\n```bash\n# Instala el pack completo en el proyecto actual\ntokrepo install pack\u002Fllm-eval-guardrails\n\n# O elige recursos individuales\ntokrepo install promptfoo\ntokrepo install ragas\n```\n\nEl TokRepo CLI configura un directorio `evals\u002F` con casos de test ejemplo, un `promptfooconfig.yaml`, un notebook Ragas semilla con tu retriever, y una plantilla rail file Guardrails AI. Snippets CI bloquean merges según pass rate de la suite eval.\n\n## Errores comunes\n\n- **LLM-as-judge sin grounding.** DeepEval y Ragas usan un modelo juez para puntuar respuestas, pero si el juez es el mismo modelo que el sistema bajo prueba, obtienes scores optimistas. Usa familia diferente como juez, o pin un modelo más fuerte (e.g. juez con Claude al puntuar outputs GPT).\n- **Suites eval con 5 casos.** Cinco ejemplos a mano no cubren el long tail. Apunta a 50-200 casos derivados de logs reales de producción (Opik facilita esto — samplea outputs malos, etiquétalos, promueve a eval set).\n- **Tratar Guardrails como filtro mágico.** Guardrails refuerza *estructura* (JSON válido, sin profanidad, conforme a schema) — no atrapa respuestas factualmente erróneas pero bien formateadas. Empareja con un check faithfulness Ragas.\n- **Correr eval contra tráfico producción cuesta.** Las suites eval pueden pegar 5-10x tu factura LLM normal si re-puntúas cada noche. Cachea embeddings, samplea tu eval set por run, o usa modelos baratos para el paso juez.\n- **Sin eval para outputs no-texto.** Si tu agente emite tool calls, evalúa la *forma del tool call* con aserciones estructuradas, no solo el texto final. Promptfoo soporta esto via hooks `transform` y `assert` custom.\n\n## Cuándo este pack solo no basta\n\nPara **observabilidad producción** completa más allá de Opik (percentiles latencia, tracking coste por usuario, analítica routing modelos), mira LangSmith o Arize Phoenix — ninguno está en el pack porque son más orquestación que eval. Para **clasificadores safety** (detección jailbreak, scoring prompt injection), añade Llama Guard o NVIDIA NeMo Guardrails — Guardrails AI se enfoca en validación de salida, no detección de input adversarial. Y si tu eval necesita **anotación human-in-the-loop** a escala, Argilla o Label Studio enchufan al formato dataset de Opik.",[69,72,75,78,81],{"q":70,"a":71},"¿Es gratis correr todo el pack?","Las cinco herramientas son open source bajo licencias permisivas (Apache 2.0 o MIT). Los costes de cómputo son el variable: cada llamada eval pega un LLM, así que una suite de 200 casos × 4 variantes prompt × 2 modelos = 1600 llamadas LLM por run. Cachea agresivamente, samplea para runs nocturnas, full-run solo en release. Ragas y DeepEval soportan LLM-as-judge con modelos baratos (Haiku, gpt-4o-mini) para mantener bajo el coste juez.",{"q":73,"a":74},"¿Cómo se compara con LangSmith o Braintrust?","LangSmith y Braintrust son plataformas gestionadas con eval, observabilidad y curación de datasets en una UI. El pack aquí te da 80% de las features por $0 y auto-host completo. Trade-off: cableas los componentes tú (Promptfoo para eval, Opik para traces, Guardrails para runtime) en vez de un dashboard. Elige gestionado si tu equipo si no haría eval en absoluto; elige este pack si el esfuerzo de ingeniería es más barato que cuotas por asiento.",{"q":76,"a":77},"¿Funcionará con Claude Code o Cursor?","Sí. Claude Code puede crear configs Promptfoo y casos test DeepEval desde tu spec de feature — dale la spec más algunos prompts ejemplo, y genera `evals\u002Ftest_*.py` y `promptfooconfig.yaml`. Las páginas recurso TokRepo incluyen prompts subagente que conectan esto a un comando slash `prompt-eval`. Cursor usa el mismo flujo via reglas custom.",{"q":79,"a":80},"¿Qué diferencia a Promptfoo de DeepEval?","Promptfoo es config-driven (YAML) y excele en comparaciones A\u002FB entre providers\u002Fmodelos — perfecto para la pregunta '¿deberíamos cambiar de GPT a Claude?'. DeepEval es code-driven (pytest) y excele en aserciones estilo unit-test sobre prompts individuales — perfecto para 'esta respuesta debe mencionar X y no contener Y'. La mayoría corre ambos: Promptfoo para selección de modelo, DeepEval para regresión de prompt.",{"q":82,"a":83},"¿Trampa operativa al añadir Guardrails AI?","El reasking de Guardrails puede multiplicar tu latencia y coste — cada validación fallida dispara otra llamada LLM para arreglar el output. Pon max-retry 1-2, monitorea tasa reask en Opik (si tasa >5% tu prompt mismo está mal, no el output), y prefiere modo structured output (JSON schema) sobre reasking cuando el modelo subyacente lo soporte (Claude, GPT-4o, Gemini todos lo hacen).",{"@context":85,"@type":86,"name":87,"description":88,"numberOfItems":89,"publisher":90},"https:\u002F\u002Fschema.org","CollectionPage","LLM Eval & Guardrails","Open-source pack for scoring prompt changes and constraining LLM outputs: DeepEval, Promptfoo, Ragas, Opik, Guardrails AI.",5,{"@type":91,"name":92,"url":93},"Organization","TokRepo","https:\u002F\u002Ftokrepo.com",[95,99,103],{"url":96,"anchor":97,"reason":98},"\u002Fes\u002Fpacks\u002Frag-pipelines","Pipelines RAG","evaluar calidad de retrieval junto a generación",{"url":100,"anchor":101,"reason":102},"\u002Fes\u002Fpacks\u002Fprompt-engineering-toolkit","Toolkit de Prompt Engineering","los prompts que puntúas con estos evaluadores",{"url":104,"anchor":105,"reason":106},"\u002Fes\u002Ftools\u002Fclaude-code","Claude Code","agente que crea configs Promptfoo desde specs",[108,112,116],{"claim":109,"source_name":110,"source_url":111},"Promptfoo is an open-source CLI for testing and evaluating LLM apps with model comparisons and assertions","promptfoo\u002Fpromptfoo","https:\u002F\u002Fgithub.com\u002Fpromptfoo\u002Fpromptfoo",{"claim":113,"source_name":114,"source_url":115},"Ragas provides metrics like faithfulness and answer relevancy for evaluating RAG pipelines","explodinggradients\u002Fragas","https:\u002F\u002Fgithub.com\u002Fexplodinggradients\u002Fragas",{"claim":117,"source_name":118,"source_url":119},"Guardrails AI defines validation rules to constrain LLM outputs to expected formats and policies","guardrails-ai\u002Fguardrails","https:\u002F\u002Fgithub.com\u002Fguardrails-ai\u002Fguardrails",715,"2026-05-02T15:00:00Z"]