TOKREPO · ARSENAL
Stable

Pipelines RAG

Quivr, RAGFlow, GraphRAG et les bonnes pratiques de production. Évitez la mauvaise architecture initiale.

8 ressources

Ce que contient ce pack

La plupart des équipes lancent leur première démo RAG en un week-end puis passent six mois à démêler pourquoi elle donne des réponses subtilement fausses. Ce pack rassemble les huit ressources qui vous font passer ce mur : trois moteurs production, trois patterns retrieval/indexation et deux outils d'évaluation.

# Ressource Couche Pourquoi elle est là
1 Quivr RAG full-stack implémentation de référence "second cerveau", licence MIT
2 RAGFlow RAG full-stack parsing profond — bat LangChain pour tables/formulaires
3 GraphRAG retrieval approche graphe-de-connaissance de Microsoft pour multi-hop
4 Patterns de chunking indexation sémantique vs taille fixe vs récursif — quand chacun gagne
5 Recherche hybride retrieval BM25 + vecteurs denses, avec rerank
6 Reranker cross-encoder retrieval le plus gros gain de précision que vous puissiez ajouter
7 Harness d'eval RAG observabilité golden-set + LLM-as-judge en régression nocturne
8 Forçage de citations guardrails refuse de répondre quand le retrieval passe sous le seuil

Pourquoi c'est important

Avec la recherche vectorielle seule, vous obtenez ~70% de la qualité démo. Les 30% restants — ceux que les utilisateurs remarquent — viennent des couches non vectorielles : comment vous chunkez, comment vous re-rankez, comment vous décidez que le retrieval a échoué et que le LLM doit refuser plutôt qu'halluciner.

Trois modes d'échec apparaissent dans chaque audit RAG :

  1. Le chunking détruit le contexte. Un split naïf de 512 tokens coupe des tableaux en deux et laisse des titres orphelins. Le parser layout-aware de RAGFlow règle ça ; les pipelines purement LangChain non.
  2. Le retrieval top-k renvoie des quasi-doublons. La similarité cosinus adore remonter 5 paraphrases du même paragraphe. Un rerank cross-encoder (BGE-reranker, Cohere Rerank) coupe le payload dupliqué de 60%+ sur la plupart des corpus.
  3. Pas de raisonnement multi-hop. Un lookup vectoriel unique ne peut pas répondre "compare X en 2022, 2023 et 2024." GraphRAG construit un graphe de connaissance à l'indexation pour rendre possibles les réponses par traversée.

Installer en une commande

# Installer le pack entier
tokrepo install pack/rag-pipelines

# Ou choisir le moteur par lequel commencer
tokrepo install quivr
tokrepo install ragflow
tokrepo install graphrag

Le TokRepo CLI normalise les fichiers de config entre les 8 outils IA supportés, donc les moteurs sont prêts à s'enficher dans votre projet Claude Code, Cursor ou Codex CLI existant.

Pièges fréquents

  • Traiter RAG comme "embed tout." Le gain de précision le moins cher est de ne pas indexer les pages à faible signal. Auditez le corpus d'abord ; supprimez doublons, chrome de navigation et versions obsolètes.
  • Sauter l'étape de rerank. Ajouter un rerank cross-encoder top-50 → top-5 lève normalement la justesse de réponse de 15-25 points sur les benchmarks RAG. Le sauter pour "économiser de la latence" est presque toujours faux.
  • Pas de harness d'eval. Si vous ne pouvez pas faire tourner une régression golden-set, vous ne savez pas si votre dernier changement de prompt a amélioré ou dégradé. Construisez l'eval avant de passer à l'échelle.
  • Stocker les chunks sans contexte parent. Gardez toujours un pointeur vers le document source et les chunks adjacents ; laissez le LLM étendre s'il a besoin de plus de contexte.
  • Choisir le vector DB avant de connaître votre échelle. Pinecone a du sens à 100M+ vecteurs ; sous 10M, Qdrant ou Chroma sur une seule VM est plus rapide, moins cher et plus facile à déboguer.

Quand ce pack seul ne suffit pas

Si votre goulot est la qualité d'ingestion (PDFs, scans, layouts multi-colonnes), combinez avec le pack Document AI Pipeline — Surya/Docling/MinerU nettoient la source avant chunking. Si votre goulot est l'évaluation, empilez le pack LLM Eval & Guardrails : DeepEval, Ragas et Promptfoo se branchent au harness d'eval d'ici.

Pour le stockage : ce pack est agnostique au moteur — voyez le pack Vector DB Showdown pour choisir entre Chroma, Weaviate, Pinecone, Qdrant ou txtai selon vos cibles de latence, coût et précision.

INSTALLER · UNE COMMANDE
$ tokrepo install pack/rag-pipelines
passez-la à votre agent — ou collez-la dans votre terminal
Ce qu'il contient

8 ressources prêtes à installer

Script#01
Quivr — Opinionated RAG Framework for Any LLM

Quivr is an opinionated RAG framework supporting any LLM, multiple file types, and customizable retrieval. 39.1K+ stars. Apache 2.0.

by Script Depot·139 views
$ tokrepo install quivr-opinionated-rag-framework-any-llm-96223597
Script#02
RAGFlow — Deep Document Understanding RAG Engine

Open-source RAG engine with deep document understanding. Parses complex PDFs, tables, images. Agent-powered Q&A with citations. Multi-model. 77K+ stars.

by Script Depot·121 views
$ tokrepo install ragflow-deep-document-understanding-rag-engine-7785d7a8
Skill#03
GraphRAG — Knowledge Graph RAG by Microsoft

Build knowledge graphs from documents for smarter RAG. Local and global search over entity relationships. By Microsoft Research. 31K+ stars.

by Microsoft AI·124 views
$ tokrepo install graphrag-knowledge-graph-rag-microsoft-ac77668d
Script#04
Kotaemon — Open-Source RAG Document Chat

Clean, open-source RAG tool for chatting with your documents. Supports PDF, DOCX, web pages. Multi-model, citation, and multi-user. Self-hostable. 25K+ stars.

by Script Depot·103 views
$ tokrepo install kotaemon-open-source-rag-document-chat-b0f93b10
Config#05
Verba — The Golden RAGtriever by Weaviate

Verba is an open-source RAG (Retrieval-Augmented Generation) chatbot from the Weaviate team. Drop in PDFs, web pages, or notes; pick a model (OpenAI, Ollama, Anthropic); and get a polished chat UI with semantic search built in.

by AI Open Source·99 views
$ tokrepo install verba-golden-ragtriever-weaviate-e0e719be
Prompt#06
RAG Best Practices — Production Pipeline Guide 2026

Comprehensive guide to building production RAG pipelines. Covers chunking strategies, embedding models, vector databases, retrieval techniques, evaluation, and common pitfalls with code examples.

by Prompt Lab·98 views
$ tokrepo install rag-best-practices-production-pipeline-guide-2026-7ded33e8
MCP#07
Tavily — Search API Built for AI Agents & RAG

Search API designed specifically for AI agents and RAG pipelines. Returns clean, LLM-ready results with content extraction, no HTML parsing needed. Official MCP server available. 5,000+ stars.

by MCP Hub·100 views
$ tokrepo install tavily-search-api-built-ai-agents-rag-f73611a0
Script#08
Haystack — AI Orchestration for Search & RAG

Open-source AI orchestration framework by deepset. Build production RAG pipelines, semantic search, and agent workflows with modular components. 25K+ GitHub stars.

by Script Depot·82 views
$ tokrepo install haystack-ai-orchestration-search-rag-761bd107
FAQ

Questions fréquentes

Ces moteurs RAG sont-ils gratuits ?

Quivr, RAGFlow et GraphRAG sont tous open-source sous licences permissives (Apache 2.0 / MIT). Vous auto-hébergez. Les seuls composants payants que vous pourriez ajouter sont l'API d'embeddings (OpenAI, Cohere, Voyage) et un vector DB managé si vous ne voulez pas faire tourner le vôtre. Une démo échelle laptop ne coûte rien ; un déploiement 10M docs en prod est dominé par la facture embeddings, pas par le moteur.

Comment GraphRAG se compare-t-il au RAG vanille ?

Le RAG vanille récupère les top-k chunks par similarité vectorielle et les colle dans le prompt — super pour les questions single-hop comme "qu'est-ce que X." GraphRAG construit un graphe entité-relation à l'indexation, donc il peut répondre à des questions multi-hop comme "comment le rôle de X a-t-il changé à travers ces documents." Le trade-off : indexer est 5-10x plus cher et plus lent. Utilisez GraphRAG quand vos requêtes sont analytiques, RAG vanille quand ce sont des recherches factuelles.

Est-ce que ça fonctionnera avec Cursor ou Codex CLI ?

Oui — ce sont des moteurs côté serveur, pas des extensions d'éditeur. Vous lancez RAGFlow ou Quivr comme service, puis n'importe quel outil IA pouvant appeler HTTP peut le requêter. L'install TokRepo dépose le docker-compose et les fichiers de config dans votre projet pour que le même setup marche dans Claude Code, Cursor, Codex CLI, Cline et les autres. L'API de retrieval est identique.

Quelle est la différence entre ce pack et Vector DB Showdown ?

Vector DB Showdown répond à "où vivent mes embeddings" — Chroma, Qdrant, Pinecone, Weaviate, etc. RAG Pipelines répond à "comment je récupère et re-ranke depuis ce stockage pour produire une réponse correcte." Vous choisissez un de chaque. La plupart des setups production sont Qdrant ou pgvector dessous, avec RAGFlow ou un pipeline custom dessus.

Comment savoir si mon RAG fonctionne vraiment ?

Construisez un golden set de 50-200 paires question-réponse à partir de requêtes utilisateurs réelles. Faites-le tourner chaque nuit. Suivez trois nombres : recall du retrieval (le bon chunk est-il apparu dans top-k), justesse de réponse (LLM-as-judge contre la réponse gold) et fidélité de citation (la réponse a-t-elle cité un chunk réellement récupéré). Sans ces trois, vous volez à l'aveugle. Pack 28 (LLM Eval & Guardrails) livre le harness.

PLUS DANS L'ARSENAL

12 packs · 80+ ressources sélectionnées

Découvrez tous les packs curatés sur la page d'accueil

Retour à tous les packs