TOKREPO · ARSENAL
Estable

Pipelines RAG

Quivr, RAGFlow, GraphRAG y mejores prácticas para producción. Evita la mala arquitectura inicial.

8 recursos

Qué incluye este pack

La mayoría de los equipos lanza su primera demo de RAG en un fin de semana y después pasa seis meses descifrando por qué da respuestas sutilmente incorrectas. Este pack reúne los ocho recursos que te llevan más allá de ese muro: tres motores grado producción, tres patrones de recuperación/indexación y dos herramientas de evaluación.

# Recurso Capa Por qué está aquí
1 Quivr RAG full-stack implementación de referencia "segundo cerebro", licencia MIT
2 RAGFlow RAG full-stack parsing profundo de documentos — gana a LangChain en tablas/formularios
3 GraphRAG recuperación enfoque grafo-de-conocimiento de Microsoft para preguntas multi-hop
4 Patrones de chunking indexación semántico vs tamaño fijo vs recursivo — cuándo gana cada uno
5 Búsqueda híbrida recuperación BM25 + vectores densos, con rerank
6 Reranker cross-encoder recuperación el mayor salto de precisión que puedes añadir
7 Harness de eval RAG observabilidad golden-set + LLM-as-judge para regresión nocturna
8 Refuerzo de citaciones guardrails rechaza responder cuando la recuperación está bajo el umbral

Por qué importa

Solo con búsqueda vectorial llegas al ~70% de la calidad demo. El último 30% — el que los usuarios sí notan — viene de las capas no vectoriales: cómo cortas, cómo re-rankeas, cómo decides que la recuperación falló y el LLM debe rechazar en lugar de alucinar.

Tres modos de fallo aparecen en cada auditoría RAG que hacemos:

  1. El chunking destruye el contexto. Un split ingenuo de 512 tokens parte tablas por la mitad y deja huérfanos los encabezados. El parser layout-aware de RAGFlow lo resuelve; los pipelines puramente LangChain no.
  2. La recuperación top-k devuelve casi-duplicados. La similitud coseno adora subir 5 paráfrasis del mismo párrafo. Un paso de rerank cross-encoder (BGE-reranker, Cohere Rerank) recorta el payload duplicado en 60%+ en la mayoría de corpus.
  3. Sin razonamiento multi-hop. Una búsqueda vectorial única no puede contestar "compara X en 2022, 2023 y 2024." GraphRAG construye un grafo de conocimiento al indexar para que sean posibles respuestas basadas en travesía.

Instala en un comando

# Instala el pack completo
tokrepo install pack/rag-pipelines

# O elige el motor con el que empezar
tokrepo install quivr
tokrepo install ragflow
tokrepo install graphrag

TokRepo CLI normaliza la configuración entre las 8 herramientas IA soportadas, así que los motores quedan listos para encajar en tu proyecto Claude Code, Cursor o Codex CLI existente.

Errores comunes

  • Tratar RAG como "embebe todo." La victoria de precisión más barata es no indexar páginas de baja señal. Audita primero el corpus; quita duplicados, chrome de navegación y versiones obsoletas.
  • Saltarse el paso de rerank. Añadir un rerank cross-encoder de top-50 → top-5 normalmente sube la corrección de respuestas 15-25 puntos en los benchmarks RAG. Saltarlo para "ahorrar latencia" casi siempre es un error.
  • Sin harness de eval. Si no puedes correr una regresión sobre golden-set, no sabes si tu último cambio de prompt mejoró o empeoró las cosas. Construye el eval antes de escalar el corpus.
  • Almacenar chunks sin contexto padre. Mantén siempre un puntero al documento fuente y a los chunks adyacentes; deja que el LLM expanda si necesita más contexto.
  • Elegir vector DB antes de saber tu escala. Pinecone tiene sentido a 100M+ vectores; bajo 10M, Qdrant o Chroma en una sola VM es más rápido, barato y fácil de depurar.

Cuándo este pack solo no basta

Si tu cuello de botella es la calidad de ingesta (PDFs, escaneos, layouts multi-columna), combínalo con el pack Document AI Pipeline — Surya/Docling/MinerU limpian la fuente antes de chunkear. Si tu cuello es la evaluación, apila el pack LLM Eval & Guardrails: DeepEval, Ragas y Promptfoo se conectan al harness de eval de aquí.

Para almacenamiento: este pack es agnóstico al motor — mira el pack Vector DB Showdown para elegir entre Chroma, Weaviate, Pinecone, Qdrant o txtai según tus objetivos de latencia, coste y precisión.

INSTALAR · UN COMANDO
$ tokrepo install pack/rag-pipelines
pásalo a tu agente — o pégalo en tu terminal
Qué incluye

8 recursos listos para instalar

Script#01
Quivr — Opinionated RAG Framework for Any LLM

Quivr is an opinionated RAG framework supporting any LLM, multiple file types, and customizable retrieval. 39.1K+ stars. Apache 2.0.

by Script Depot·139 views
$ tokrepo install quivr-opinionated-rag-framework-any-llm-96223597
Script#02
RAGFlow — Deep Document Understanding RAG Engine

Open-source RAG engine with deep document understanding. Parses complex PDFs, tables, images. Agent-powered Q&A with citations. Multi-model. 77K+ stars.

by Script Depot·121 views
$ tokrepo install ragflow-deep-document-understanding-rag-engine-7785d7a8
Skill#03
GraphRAG — Knowledge Graph RAG by Microsoft

Build knowledge graphs from documents for smarter RAG. Local and global search over entity relationships. By Microsoft Research. 31K+ stars.

by Microsoft AI·124 views
$ tokrepo install graphrag-knowledge-graph-rag-microsoft-ac77668d
Script#04
Kotaemon — Open-Source RAG Document Chat

Clean, open-source RAG tool for chatting with your documents. Supports PDF, DOCX, web pages. Multi-model, citation, and multi-user. Self-hostable. 25K+ stars.

by Script Depot·103 views
$ tokrepo install kotaemon-open-source-rag-document-chat-b0f93b10
Config#05
Verba — The Golden RAGtriever by Weaviate

Verba is an open-source RAG (Retrieval-Augmented Generation) chatbot from the Weaviate team. Drop in PDFs, web pages, or notes; pick a model (OpenAI, Ollama, Anthropic); and get a polished chat UI with semantic search built in.

by AI Open Source·99 views
$ tokrepo install verba-golden-ragtriever-weaviate-e0e719be
Prompt#06
RAG Best Practices — Production Pipeline Guide 2026

Comprehensive guide to building production RAG pipelines. Covers chunking strategies, embedding models, vector databases, retrieval techniques, evaluation, and common pitfalls with code examples.

by Prompt Lab·98 views
$ tokrepo install rag-best-practices-production-pipeline-guide-2026-7ded33e8
MCP#07
Tavily — Search API Built for AI Agents & RAG

Search API designed specifically for AI agents and RAG pipelines. Returns clean, LLM-ready results with content extraction, no HTML parsing needed. Official MCP server available. 5,000+ stars.

by MCP Hub·100 views
$ tokrepo install tavily-search-api-built-ai-agents-rag-f73611a0
Script#08
Haystack — AI Orchestration for Search & RAG

Open-source AI orchestration framework by deepset. Build production RAG pipelines, semantic search, and agent workflows with modular components. 25K+ GitHub stars.

by Script Depot·82 views
$ tokrepo install haystack-ai-orchestration-search-rag-761bd107
FAQ

Preguntas frecuentes

¿Son gratis estos motores RAG?

Quivr, RAGFlow y GraphRAG son todos open-source bajo licencias permisivas (Apache 2.0 / MIT). Auto-alojas. Los únicos componentes pagos que podrías añadir son la API de embeddings (OpenAI, Cohere, Voyage) y un vector DB gestionado si no quieres correr el tuyo. Una demo a escala laptop no cuesta nada; un despliegue de 10M docs en producción está dominado por la factura de embeddings, no por el motor.

¿Cómo se compara GraphRAG con RAG vanilla?

RAG vanilla recupera top-k chunks por similitud vectorial y los mete en el prompt — genial para preguntas single-hop como "qué es X." GraphRAG construye un grafo entidad-relación al indexar, así puede responder preguntas multi-hop como "cómo cambió el rol de X a través de estos documentos." El trade-off: indexar es 5-10x más caro y lento. Usa GraphRAG cuando tus consultas sean analíticas, RAG vanilla cuando sean búsquedas factuales.

¿Funcionará con Cursor o Codex CLI?

Sí — estos son motores server-side, no extensiones de editor. Corres RAGFlow o Quivr como servicio, y luego cualquier herramienta IA que pueda llamar HTTP puede consultarlo. La instalación TokRepo deja el docker-compose y los archivos de config en tu proyecto para que el mismo setup funcione en Claude Code, Cursor, Codex CLI, Cline y el resto. La API de recuperación es idéntica.

¿Cuál es la diferencia entre este pack y Vector DB Showdown?

Vector DB Showdown contesta "dónde viven mis embeddings" — Chroma, Qdrant, Pinecone, Weaviate, etc. RAG Pipelines contesta "cómo recupero y re-rankeo desde ese almacenamiento para producir una respuesta correcta." Eliges uno de cada. La mayoría de setups producción son Qdrant o pgvector debajo, con RAGFlow o un pipeline a medida arriba.

¿Cómo sé si mi RAG realmente funciona?

Construye un golden set de 50-200 pares pregunta-respuesta de queries de usuarios reales. Córrelo cada noche. Trackea tres números: recall de recuperación (¿apareció el chunk correcto en top-k?), corrección de respuesta (LLM-as-judge contra la respuesta gold) y fidelidad de citación (¿la respuesta citó un chunk realmente recuperado?). Sin estos tres, vuelas a ciegas. Pack 28 (LLM Eval & Guardrails) trae el harness.

MÁS DEL ARSENAL

12 packs · 80+ recursos seleccionados

Explora todos los packs curados en la página principal

Volver a todos los packs