TOKREPO · ARSENAL
Stable

Pipeline Document → IA

Surya, Zerox, MinerU, Docling, Unstructured, DocETL, MarkItDown — transformez tout PDF, scan ou fichier Office en input propre pour LLM.

7 ressources

Ce que contient ce pack

# Parser Excelle à Sortie
1 Surya OCR multilingue + layout, 90+ langues texte + bounding boxes
2 Zerox parse page-par-page piloté par LLM visuel markdown
3 MinerU PDFs scientifiques avec formules et tables markdown + LaTeX
4 Docling parser tout-en-un IBM (PDF/DOCX/HTML/PPTX) DoclingDocument JSON
5 Unstructured prétraitement enterprise avec chunking liste d'éléments prête pour embedding
6 DocETL ETL documentaire piloté LLM avec validation enregistrements typés
7 MarkItDown convertisseur Office-vers-Markdown de Microsoft markdown

Les sept parsers couvrent toutes les formes de "ce fichier était pour les humains et un LLM doit maintenant le lire". Certains spécialistes (Surya pour OCR, MinerU pour papers de maths) ; d'autres généralistes (Docling, Unstructured, MarkItDown). Choisissez selon votre mix de fichiers et budget de précision.

Pourquoi c'est important

Les LLMs sont étonnamment mauvais à lire le texte brut de PDF. Les octets qui ressemblent à de la prose à vos yeux sont en réalité des glyphes éparpillés sans ordre de lecture — pdfplumber et PyMuPDF renvoient une sortie mélangée qui désoriente le modèle. Les tables sortent en lignes cassées. Headers et footers fuient dans le corps. Les layouts multi-colonnes lisent haut-en-bas la colonne gauche puis haut-en-bas la droite, ce qui n'a aucun sens pour un transformer.

Ce pack résout ça. Surya et Zerox utilisent des modèles de vision pour voir la page comme un humain et reconstruire l'ordre logique. Docling et Unstructured exécutent des pipelines layout-aware qui étiquettent chaque élément (titre, paragraphe, table, légende) pour que le chunking aval respecte la structure. MinerU est le seul outil open-source qui extrait de façon fiable équations et matrices de papers scientifiques.

Pour les fichiers Office (PowerPoint, Word, Excel), MarkItDown est la réponse. Microsoft l'a publié parce que leur propre Copilot interne avait besoin de Markdown propre depuis Office et les convertisseurs existants étaient mauvais.

Installer en une commande

# Installe tout le pack
tokrepo install pack/document-ai-pipeline

# Ou choisissez le parser qui correspond à votre mix
tokrepo install docling
tokrepo install surya
tokrepo install markitdown

La page TokRepo de chaque ressource liste les types de fichier supportés, les besoins GPU (Surya et Zerox veulent un GPU ; Docling et MarkItDown tournent sur CPU), et la stratégie de chunking qui s'associe bien aval.

Pièges courants

  • OCR vs couche texte du PDF : un PDF avec couche texte n'a pas besoin d'OCR. Lancez Docling d'abord ; si la couche texte est intacte, sautez Surya. L'OCR est 10-100x plus lent que l'extraction texte.
  • Tables silencieusement cassées : la plupart des parsers extraient les tables mais aplatissent mal les lignes. Échantillonnez toujours 10 sorties aléatoires et regardez à l'œil avant de faire confiance au pipeline.
  • Ordre de lecture multi-colonnes : documents juridiques et papers académiques à deux colonnes piègent les parsers naïfs. Docling et Surya gèrent ça ; pdfplumber non.
  • Légendes d'image perdues : les figures sont souvent la partie la plus dense en info d'un paper. Assurez-vous que votre parser garde la légende liée à la figure, pas flottante.
  • Coût en tokens sur Zerox : Zerox appelle un LLM visuel par page. Un PDF de 200 pages peut coûter 1-2 $ en API. Cachez agressivement et préférez Docling-puis-Zerox-fallback plutôt que tout passer par Zerox.

Relation avec les autres packs

Ce pack est la couche d'ingestion pour le retrieval. Il produit du texte propre et des éléments structurés ; le pack Pipelines RAG les chunke, les embedde et les sert. Pour les pages web au lieu de fichiers, basculez vers Scraping pour IA. Pour contenu vocal ou vidéo, ça passe par du speech-to-text d'abord (hors scope).

Un stack production courant : MarkItDown pour Office → Docling pour PDFs → chunking Unstructured → vector DB → pipeline RAG. Les frontières entre packs sont assez nettes pour échanger une couche sans réécrire le reste.

INSTALLER · UNE COMMANDE
$ tokrepo install pack/document-ai-pipeline
passez-la à votre agent — ou collez-la dans votre terminal
Ce qu'il contient

7 ressources prêtes à installer

Script#01
Surya — Document OCR for 90+ Languages

Surya is a document OCR toolkit with 19.5K+ GitHub stars. Text recognition in 90+ languages, layout analysis, table detection, reading order, and LaTeX OCR. Benchmarks favorably against cloud OCR serv

by Script Depot·237 views
$ tokrepo install surya-document-ocr-90-languages-66bc0630
Script#02
Zerox — Zero-Shot PDF OCR for AI Pipelines

Extract text from any PDF using vision models as OCR. Zerox converts PDF pages to images then uses GPT-4o or Claude to extract clean markdown without training.

by Script Depot·97 views
$ tokrepo install zerox-zero-shot-pdf-ocr-ai-pipelines-3ac555d9
Script#03
MinerU — Extract LLM-Ready Data from Any Document

Convert PDFs, scans, and complex documents into clean Markdown or JSON for RAG and LLM pipelines. 57K+ GitHub stars.

by Script Depot·119 views
$ tokrepo install mineru-extract-llm-ready-data-any-document-985fe0df
Script#04
Docling — Document Parsing for AI

IBM document parsing library. Converts PDFs, DOCX, PPTX, images, and HTML into structured markdown or JSON. Built for RAG pipelines and LLM ingestion.

by Script Depot·92 views
$ tokrepo install docling-document-parsing-ai-443e86c2
MCP#05
Unstructured — Document ETL for LLM Pipelines

Extract clean data from PDFs, DOCX, HTML, images, and emails for RAG and LLM ingestion. 14K+ GitHub stars.

by MCP Hub·125 views
$ tokrepo install unstructured-document-etl-llm-pipelines-c2ba9909
Skill#06
DocETL — LLM-Powered Document Processing Pipelines

Declarative YAML pipelines for LLM document analysis with map, reduce, and resolve operators. By UC Berkeley. 3.7K+ stars.

by AI Open Source·133 views
$ tokrepo install docetl-llm-powered-document-processing-pipelines-ef81583e
Config#07
MarkItDown — Convert Any File to Markdown for LLMs

Python library by Microsoft that converts PDF, DOCX, PPTX, XLSX, images, audio, and HTML to clean Markdown. Perfect for feeding documents into LLM context windows. 8,000+ stars.

by Microsoft AI·114 views
$ tokrepo install markitdown-convert-any-file-markdown-llms-6fdc90c2
FAQ

Questions fréquentes

Cette stack est-elle gratuite ?

Les sept parsers sont open-source sous MIT, Apache 2.0 ou BSD. Le self-host est gratuit. Le coût caché c'est le temps GPU pour les parsers basés vision (Surya, Zerox) et les frais d'API LLM si vous utilisez Zerox ou DocETL avec des modèles hosted. Les options CPU-only (Docling, MarkItDown, Unstructured) sont essentiellement gratuites à toute échelle.

Docling ou Unstructured ?

Docling si vous voulez un parser unique qui gère PDF/DOCX/HTML/PPTX avec un format unifié et le standard de qualité IBM. Unstructured si vous avez besoin d'intégrations enterprise profondes (S3, SharePoint, connecteurs Azure), de stratégies de chunking pluggables, et acceptez une surface de config plus raide. Beaucoup d'équipes utilisent les deux : Docling pour le parse, Unstructured pour le chunking.

Ça marche avec Cursor ou Codex CLI ?

Oui — Docling, Unstructured et MarkItDown ont des serveurs MCP ou sont exposés comme CLI tools que tout agent IA peut invoquer. Glissez la définition MCP dans les paramètres Cursor et le LLM peut convertir un PDF en markdown à la volée. Surya et Zerox sont plus lourds (GPU résidents) et tournent généralement comme microservice séparé.

En quoi diffère du pack AI Web Scraping ?

Le web scraping part d'une URL. Document AI part d'un fichier. La sortie des deux est du texte LLM-ready, mais l'entrée diffère fondamentalement. La plupart des corpora RAG production ont besoin des deux — votre KB contient des PDFs internes et un site de docs public. Installez les deux packs dans ce cas.

Quel est le piège opérationnel ?

Planification du throughput. Parsing visuel (Surya, Zerox, MinerU sur pages dures) fait 1-5 pages/seconde sur un GPU. Si vous avez 100k pages à ingérer, c'est des heures-à-jours. Lancez un petit benchmark avant de vous engager — beaucoup d'équipes découvrent trop tard que leur backfill prend un week-end, pas une après-midi.

PLUS DANS L'ARSENAL

12 packs · 80+ ressources sélectionnées

Découvrez tous les packs curatés sur la page d'accueil

Retour à tous les packs