Pipelines RAG
Quivr, RAGFlow, GraphRAG y mejores prácticas para producción. Evita la mala arquitectura inicial.
Qué incluye este pack
La mayoría de los equipos lanza su primera demo de RAG en un fin de semana y después pasa seis meses descifrando por qué da respuestas sutilmente incorrectas. Este pack reúne los ocho recursos que te llevan más allá de ese muro: tres motores grado producción, tres patrones de recuperación/indexación y dos herramientas de evaluación.
| # | Recurso | Capa | Por qué está aquí |
|---|---|---|---|
| 1 | Quivr | RAG full-stack | implementación de referencia "segundo cerebro", licencia MIT |
| 2 | RAGFlow | RAG full-stack | parsing profundo de documentos — gana a LangChain en tablas/formularios |
| 3 | GraphRAG | recuperación | enfoque grafo-de-conocimiento de Microsoft para preguntas multi-hop |
| 4 | Patrones de chunking | indexación | semántico vs tamaño fijo vs recursivo — cuándo gana cada uno |
| 5 | Búsqueda híbrida | recuperación | BM25 + vectores densos, con rerank |
| 6 | Reranker cross-encoder | recuperación | el mayor salto de precisión que puedes añadir |
| 7 | Harness de eval RAG | observabilidad | golden-set + LLM-as-judge para regresión nocturna |
| 8 | Refuerzo de citaciones | guardrails | rechaza responder cuando la recuperación está bajo el umbral |
Por qué importa
Solo con búsqueda vectorial llegas al ~70% de la calidad demo. El último 30% — el que los usuarios sí notan — viene de las capas no vectoriales: cómo cortas, cómo re-rankeas, cómo decides que la recuperación falló y el LLM debe rechazar en lugar de alucinar.
Tres modos de fallo aparecen en cada auditoría RAG que hacemos:
- El chunking destruye el contexto. Un split ingenuo de 512 tokens parte tablas por la mitad y deja huérfanos los encabezados. El parser layout-aware de RAGFlow lo resuelve; los pipelines puramente LangChain no.
- La recuperación top-k devuelve casi-duplicados. La similitud coseno adora subir 5 paráfrasis del mismo párrafo. Un paso de rerank cross-encoder (BGE-reranker, Cohere Rerank) recorta el payload duplicado en 60%+ en la mayoría de corpus.
- Sin razonamiento multi-hop. Una búsqueda vectorial única no puede contestar "compara X en 2022, 2023 y 2024." GraphRAG construye un grafo de conocimiento al indexar para que sean posibles respuestas basadas en travesía.
Instala en un comando
# Instala el pack completo
tokrepo install pack/rag-pipelines
# O elige el motor con el que empezar
tokrepo install quivr
tokrepo install ragflow
tokrepo install graphrag
TokRepo CLI normaliza la configuración entre las 8 herramientas IA soportadas, así que los motores quedan listos para encajar en tu proyecto Claude Code, Cursor o Codex CLI existente.
Errores comunes
- Tratar RAG como "embebe todo." La victoria de precisión más barata es no indexar páginas de baja señal. Audita primero el corpus; quita duplicados, chrome de navegación y versiones obsoletas.
- Saltarse el paso de rerank. Añadir un rerank cross-encoder de top-50 → top-5 normalmente sube la corrección de respuestas 15-25 puntos en los benchmarks RAG. Saltarlo para "ahorrar latencia" casi siempre es un error.
- Sin harness de eval. Si no puedes correr una regresión sobre golden-set, no sabes si tu último cambio de prompt mejoró o empeoró las cosas. Construye el eval antes de escalar el corpus.
- Almacenar chunks sin contexto padre. Mantén siempre un puntero al documento fuente y a los chunks adyacentes; deja que el LLM expanda si necesita más contexto.
- Elegir vector DB antes de saber tu escala. Pinecone tiene sentido a 100M+ vectores; bajo 10M, Qdrant o Chroma en una sola VM es más rápido, barato y fácil de depurar.
Cuándo este pack solo no basta
Si tu cuello de botella es la calidad de ingesta (PDFs, escaneos, layouts multi-columna), combínalo con el pack Document AI Pipeline — Surya/Docling/MinerU limpian la fuente antes de chunkear. Si tu cuello es la evaluación, apila el pack LLM Eval & Guardrails: DeepEval, Ragas y Promptfoo se conectan al harness de eval de aquí.
Para almacenamiento: este pack es agnóstico al motor — mira el pack Vector DB Showdown para elegir entre Chroma, Weaviate, Pinecone, Qdrant o txtai según tus objetivos de latencia, coste y precisión.
8 recursos listos para instalar
Preguntas frecuentes
¿Son gratis estos motores RAG?
Quivr, RAGFlow y GraphRAG son todos open-source bajo licencias permisivas (Apache 2.0 / MIT). Auto-alojas. Los únicos componentes pagos que podrías añadir son la API de embeddings (OpenAI, Cohere, Voyage) y un vector DB gestionado si no quieres correr el tuyo. Una demo a escala laptop no cuesta nada; un despliegue de 10M docs en producción está dominado por la factura de embeddings, no por el motor.
¿Cómo se compara GraphRAG con RAG vanilla?
RAG vanilla recupera top-k chunks por similitud vectorial y los mete en el prompt — genial para preguntas single-hop como "qué es X." GraphRAG construye un grafo entidad-relación al indexar, así puede responder preguntas multi-hop como "cómo cambió el rol de X a través de estos documentos." El trade-off: indexar es 5-10x más caro y lento. Usa GraphRAG cuando tus consultas sean analíticas, RAG vanilla cuando sean búsquedas factuales.
¿Funcionará con Cursor o Codex CLI?
Sí — estos son motores server-side, no extensiones de editor. Corres RAGFlow o Quivr como servicio, y luego cualquier herramienta IA que pueda llamar HTTP puede consultarlo. La instalación TokRepo deja el docker-compose y los archivos de config en tu proyecto para que el mismo setup funcione en Claude Code, Cursor, Codex CLI, Cline y el resto. La API de recuperación es idéntica.
¿Cuál es la diferencia entre este pack y Vector DB Showdown?
Vector DB Showdown contesta "dónde viven mis embeddings" — Chroma, Qdrant, Pinecone, Weaviate, etc. RAG Pipelines contesta "cómo recupero y re-rankeo desde ese almacenamiento para producir una respuesta correcta." Eliges uno de cada. La mayoría de setups producción son Qdrant o pgvector debajo, con RAGFlow o un pipeline a medida arriba.
¿Cómo sé si mi RAG realmente funciona?
Construye un golden set de 50-200 pares pregunta-respuesta de queries de usuarios reales. Córrelo cada noche. Trackea tres números: recall de recuperación (¿apareció el chunk correcto en top-k?), corrección de respuesta (LLM-as-judge contra la respuesta gold) y fidelidad de citación (¿la respuesta citó un chunk realmente recuperado?). Sin estos tres, vuelas a ciegas. Pack 28 (LLM Eval & Guardrails) trae el harness.
12 packs · 80+ recursos seleccionados
Explora todos los packs curados en la página principal
Volver a todos los packs