Pipelines RAG
Quivr, RAGFlow, GraphRAG et les bonnes pratiques de production. Évitez la mauvaise architecture initiale.
Ce que contient ce pack
La plupart des équipes lancent leur première démo RAG en un week-end puis passent six mois à démêler pourquoi elle donne des réponses subtilement fausses. Ce pack rassemble les huit ressources qui vous font passer ce mur : trois moteurs production, trois patterns retrieval/indexation et deux outils d'évaluation.
| # | Ressource | Couche | Pourquoi elle est là |
|---|---|---|---|
| 1 | Quivr | RAG full-stack | implémentation de référence "second cerveau", licence MIT |
| 2 | RAGFlow | RAG full-stack | parsing profond — bat LangChain pour tables/formulaires |
| 3 | GraphRAG | retrieval | approche graphe-de-connaissance de Microsoft pour multi-hop |
| 4 | Patterns de chunking | indexation | sémantique vs taille fixe vs récursif — quand chacun gagne |
| 5 | Recherche hybride | retrieval | BM25 + vecteurs denses, avec rerank |
| 6 | Reranker cross-encoder | retrieval | le plus gros gain de précision que vous puissiez ajouter |
| 7 | Harness d'eval RAG | observabilité | golden-set + LLM-as-judge en régression nocturne |
| 8 | Forçage de citations | guardrails | refuse de répondre quand le retrieval passe sous le seuil |
Pourquoi c'est important
Avec la recherche vectorielle seule, vous obtenez ~70% de la qualité démo. Les 30% restants — ceux que les utilisateurs remarquent — viennent des couches non vectorielles : comment vous chunkez, comment vous re-rankez, comment vous décidez que le retrieval a échoué et que le LLM doit refuser plutôt qu'halluciner.
Trois modes d'échec apparaissent dans chaque audit RAG :
- Le chunking détruit le contexte. Un split naïf de 512 tokens coupe des tableaux en deux et laisse des titres orphelins. Le parser layout-aware de RAGFlow règle ça ; les pipelines purement LangChain non.
- Le retrieval top-k renvoie des quasi-doublons. La similarité cosinus adore remonter 5 paraphrases du même paragraphe. Un rerank cross-encoder (BGE-reranker, Cohere Rerank) coupe le payload dupliqué de 60%+ sur la plupart des corpus.
- Pas de raisonnement multi-hop. Un lookup vectoriel unique ne peut pas répondre "compare X en 2022, 2023 et 2024." GraphRAG construit un graphe de connaissance à l'indexation pour rendre possibles les réponses par traversée.
Installer en une commande
# Installer le pack entier
tokrepo install pack/rag-pipelines
# Ou choisir le moteur par lequel commencer
tokrepo install quivr
tokrepo install ragflow
tokrepo install graphrag
Le TokRepo CLI normalise les fichiers de config entre les 8 outils IA supportés, donc les moteurs sont prêts à s'enficher dans votre projet Claude Code, Cursor ou Codex CLI existant.
Pièges fréquents
- Traiter RAG comme "embed tout." Le gain de précision le moins cher est de ne pas indexer les pages à faible signal. Auditez le corpus d'abord ; supprimez doublons, chrome de navigation et versions obsolètes.
- Sauter l'étape de rerank. Ajouter un rerank cross-encoder top-50 → top-5 lève normalement la justesse de réponse de 15-25 points sur les benchmarks RAG. Le sauter pour "économiser de la latence" est presque toujours faux.
- Pas de harness d'eval. Si vous ne pouvez pas faire tourner une régression golden-set, vous ne savez pas si votre dernier changement de prompt a amélioré ou dégradé. Construisez l'eval avant de passer à l'échelle.
- Stocker les chunks sans contexte parent. Gardez toujours un pointeur vers le document source et les chunks adjacents ; laissez le LLM étendre s'il a besoin de plus de contexte.
- Choisir le vector DB avant de connaître votre échelle. Pinecone a du sens à 100M+ vecteurs ; sous 10M, Qdrant ou Chroma sur une seule VM est plus rapide, moins cher et plus facile à déboguer.
Quand ce pack seul ne suffit pas
Si votre goulot est la qualité d'ingestion (PDFs, scans, layouts multi-colonnes), combinez avec le pack Document AI Pipeline — Surya/Docling/MinerU nettoient la source avant chunking. Si votre goulot est l'évaluation, empilez le pack LLM Eval & Guardrails : DeepEval, Ragas et Promptfoo se branchent au harness d'eval d'ici.
Pour le stockage : ce pack est agnostique au moteur — voyez le pack Vector DB Showdown pour choisir entre Chroma, Weaviate, Pinecone, Qdrant ou txtai selon vos cibles de latence, coût et précision.
8 ressources prêtes à installer
Questions fréquentes
Ces moteurs RAG sont-ils gratuits ?
Quivr, RAGFlow et GraphRAG sont tous open-source sous licences permissives (Apache 2.0 / MIT). Vous auto-hébergez. Les seuls composants payants que vous pourriez ajouter sont l'API d'embeddings (OpenAI, Cohere, Voyage) et un vector DB managé si vous ne voulez pas faire tourner le vôtre. Une démo échelle laptop ne coûte rien ; un déploiement 10M docs en prod est dominé par la facture embeddings, pas par le moteur.
Comment GraphRAG se compare-t-il au RAG vanille ?
Le RAG vanille récupère les top-k chunks par similarité vectorielle et les colle dans le prompt — super pour les questions single-hop comme "qu'est-ce que X." GraphRAG construit un graphe entité-relation à l'indexation, donc il peut répondre à des questions multi-hop comme "comment le rôle de X a-t-il changé à travers ces documents." Le trade-off : indexer est 5-10x plus cher et plus lent. Utilisez GraphRAG quand vos requêtes sont analytiques, RAG vanille quand ce sont des recherches factuelles.
Est-ce que ça fonctionnera avec Cursor ou Codex CLI ?
Oui — ce sont des moteurs côté serveur, pas des extensions d'éditeur. Vous lancez RAGFlow ou Quivr comme service, puis n'importe quel outil IA pouvant appeler HTTP peut le requêter. L'install TokRepo dépose le docker-compose et les fichiers de config dans votre projet pour que le même setup marche dans Claude Code, Cursor, Codex CLI, Cline et les autres. L'API de retrieval est identique.
Quelle est la différence entre ce pack et Vector DB Showdown ?
Vector DB Showdown répond à "où vivent mes embeddings" — Chroma, Qdrant, Pinecone, Weaviate, etc. RAG Pipelines répond à "comment je récupère et re-ranke depuis ce stockage pour produire une réponse correcte." Vous choisissez un de chaque. La plupart des setups production sont Qdrant ou pgvector dessous, avec RAGFlow ou un pipeline custom dessus.
Comment savoir si mon RAG fonctionne vraiment ?
Construisez un golden set de 50-200 paires question-réponse à partir de requêtes utilisateurs réelles. Faites-le tourner chaque nuit. Suivez trois nombres : recall du retrieval (le bon chunk est-il apparu dans top-k), justesse de réponse (LLM-as-judge contre la réponse gold) et fidélité de citation (la réponse a-t-elle cité un chunk réellement récupéré). Sans ces trois, vous volez à l'aveugle. Pack 28 (LLM Eval & Guardrails) livre le harness.
12 packs · 80+ ressources sélectionnées
Découvrez tous les packs curatés sur la page d'accueil
Retour à tous les packs