Pipeline Document → IA
Surya, Zerox, MinerU, Docling, Unstructured, DocETL, MarkItDown — transformez tout PDF, scan ou fichier Office en input propre pour LLM.
Ce que contient ce pack
| # | Parser | Excelle à | Sortie |
|---|---|---|---|
| 1 | Surya | OCR multilingue + layout, 90+ langues | texte + bounding boxes |
| 2 | Zerox | parse page-par-page piloté par LLM visuel | markdown |
| 3 | MinerU | PDFs scientifiques avec formules et tables | markdown + LaTeX |
| 4 | Docling | parser tout-en-un IBM (PDF/DOCX/HTML/PPTX) | DoclingDocument JSON |
| 5 | Unstructured | prétraitement enterprise avec chunking | liste d'éléments prête pour embedding |
| 6 | DocETL | ETL documentaire piloté LLM avec validation | enregistrements typés |
| 7 | MarkItDown | convertisseur Office-vers-Markdown de Microsoft | markdown |
Les sept parsers couvrent toutes les formes de "ce fichier était pour les humains et un LLM doit maintenant le lire". Certains spécialistes (Surya pour OCR, MinerU pour papers de maths) ; d'autres généralistes (Docling, Unstructured, MarkItDown). Choisissez selon votre mix de fichiers et budget de précision.
Pourquoi c'est important
Les LLMs sont étonnamment mauvais à lire le texte brut de PDF. Les octets qui ressemblent à de la prose à vos yeux sont en réalité des glyphes éparpillés sans ordre de lecture — pdfplumber et PyMuPDF renvoient une sortie mélangée qui désoriente le modèle. Les tables sortent en lignes cassées. Headers et footers fuient dans le corps. Les layouts multi-colonnes lisent haut-en-bas la colonne gauche puis haut-en-bas la droite, ce qui n'a aucun sens pour un transformer.
Ce pack résout ça. Surya et Zerox utilisent des modèles de vision pour voir la page comme un humain et reconstruire l'ordre logique. Docling et Unstructured exécutent des pipelines layout-aware qui étiquettent chaque élément (titre, paragraphe, table, légende) pour que le chunking aval respecte la structure. MinerU est le seul outil open-source qui extrait de façon fiable équations et matrices de papers scientifiques.
Pour les fichiers Office (PowerPoint, Word, Excel), MarkItDown est la réponse. Microsoft l'a publié parce que leur propre Copilot interne avait besoin de Markdown propre depuis Office et les convertisseurs existants étaient mauvais.
Installer en une commande
# Installe tout le pack
tokrepo install pack/document-ai-pipeline
# Ou choisissez le parser qui correspond à votre mix
tokrepo install docling
tokrepo install surya
tokrepo install markitdown
La page TokRepo de chaque ressource liste les types de fichier supportés, les besoins GPU (Surya et Zerox veulent un GPU ; Docling et MarkItDown tournent sur CPU), et la stratégie de chunking qui s'associe bien aval.
Pièges courants
- OCR vs couche texte du PDF : un PDF avec couche texte n'a pas besoin d'OCR. Lancez Docling d'abord ; si la couche texte est intacte, sautez Surya. L'OCR est 10-100x plus lent que l'extraction texte.
- Tables silencieusement cassées : la plupart des parsers extraient les tables mais aplatissent mal les lignes. Échantillonnez toujours 10 sorties aléatoires et regardez à l'œil avant de faire confiance au pipeline.
- Ordre de lecture multi-colonnes : documents juridiques et papers académiques à deux colonnes piègent les parsers naïfs. Docling et Surya gèrent ça ; pdfplumber non.
- Légendes d'image perdues : les figures sont souvent la partie la plus dense en info d'un paper. Assurez-vous que votre parser garde la légende liée à la figure, pas flottante.
- Coût en tokens sur Zerox : Zerox appelle un LLM visuel par page. Un PDF de 200 pages peut coûter 1-2 $ en API. Cachez agressivement et préférez Docling-puis-Zerox-fallback plutôt que tout passer par Zerox.
Relation avec les autres packs
Ce pack est la couche d'ingestion pour le retrieval. Il produit du texte propre et des éléments structurés ; le pack Pipelines RAG les chunke, les embedde et les sert. Pour les pages web au lieu de fichiers, basculez vers Scraping pour IA. Pour contenu vocal ou vidéo, ça passe par du speech-to-text d'abord (hors scope).
Un stack production courant : MarkItDown pour Office → Docling pour PDFs → chunking Unstructured → vector DB → pipeline RAG. Les frontières entre packs sont assez nettes pour échanger une couche sans réécrire le reste.
7 ressources prêtes à installer
Questions fréquentes
Cette stack est-elle gratuite ?
Les sept parsers sont open-source sous MIT, Apache 2.0 ou BSD. Le self-host est gratuit. Le coût caché c'est le temps GPU pour les parsers basés vision (Surya, Zerox) et les frais d'API LLM si vous utilisez Zerox ou DocETL avec des modèles hosted. Les options CPU-only (Docling, MarkItDown, Unstructured) sont essentiellement gratuites à toute échelle.
Docling ou Unstructured ?
Docling si vous voulez un parser unique qui gère PDF/DOCX/HTML/PPTX avec un format unifié et le standard de qualité IBM. Unstructured si vous avez besoin d'intégrations enterprise profondes (S3, SharePoint, connecteurs Azure), de stratégies de chunking pluggables, et acceptez une surface de config plus raide. Beaucoup d'équipes utilisent les deux : Docling pour le parse, Unstructured pour le chunking.
Ça marche avec Cursor ou Codex CLI ?
Oui — Docling, Unstructured et MarkItDown ont des serveurs MCP ou sont exposés comme CLI tools que tout agent IA peut invoquer. Glissez la définition MCP dans les paramètres Cursor et le LLM peut convertir un PDF en markdown à la volée. Surya et Zerox sont plus lourds (GPU résidents) et tournent généralement comme microservice séparé.
En quoi diffère du pack AI Web Scraping ?
Le web scraping part d'une URL. Document AI part d'un fichier. La sortie des deux est du texte LLM-ready, mais l'entrée diffère fondamentalement. La plupart des corpora RAG production ont besoin des deux — votre KB contient des PDFs internes et un site de docs public. Installez les deux packs dans ce cas.
Quel est le piège opérationnel ?
Planification du throughput. Parsing visuel (Surya, Zerox, MinerU sur pages dures) fait 1-5 pages/seconde sur un GPU. Si vous avez 100k pages à ingérer, c'est des heures-à-jours. Lancez un petit benchmark avant de vous engager — beaucoup d'équipes découvrent trop tard que leur backfill prend un week-end, pas une après-midi.
12 packs · 80+ ressources sélectionnées
Découvrez tous les packs curatés sur la page d'accueil
Retour à tous les packs