[{"data":1,"prerenderedAt":-1},["ShallowReactive",2],{"pack-detail-document-ai-pipeline-fr":3,"seo:pack:document-ai-pipeline:fr":77},{"code":4,"message":5,"data":6},200,"操作成功",{"pack":7},{"slug":8,"icon":9,"tone":10,"status":11,"status_label":12,"title":13,"description":14,"items":15,"install_cmd":76},"document-ai-pipeline","📄","#BE123C","stable","Stable","Pipeline Document → IA","Surya, Zerox, MinerU, Docling, Unstructured, DocETL, MarkItDown — transformez tout PDF, scan ou fichier Office en input propre pour LLM.",[16,28,35,44,50,60,68],{"id":17,"uuid":18,"slug":19,"title":20,"description":21,"author_name":22,"view_count":23,"vote_count":24,"lang_type":25,"type":26,"type_label":27},263,"66bc0630-1be7-4da3-b227-f1fdb1faa065","surya-document-ocr-90-languages-66bc0630","Surya — Document OCR for 90+ Languages","Surya is a document OCR toolkit with 19.5K+ GitHub stars. Text recognition in 90+ languages, layout analysis, table detection, reading order, and LaTeX OCR. Benchmarks favorably against cloud OCR serv","Script Depot",501,0,"en","skill","Skill",{"id":29,"uuid":30,"slug":31,"title":32,"description":33,"author_name":22,"view_count":34,"vote_count":24,"lang_type":25,"type":26,"type_label":27},758,"3ac555d9-d75c-4208-ba46-974e4a717234","zerox-zero-shot-pdf-ocr-ai-pipelines-3ac555d9","Zerox — Zero-Shot PDF OCR for AI Pipelines","Extract text from any PDF using vision models as OCR. Zerox converts PDF pages to images then uses GPT-4o or Claude to extract clean markdown without training.",303,{"id":36,"uuid":37,"slug":38,"title":39,"description":40,"author_name":22,"view_count":41,"vote_count":24,"lang_type":25,"type":42,"type_label":43},413,"985fe0df-6ec5-4fd6-8d3d-3c1627b0e18d","mineru-extract-llm-ready-data-any-document-985fe0df","MinerU — Extract LLM-Ready Data from Any Document","Convert PDFs, scans, and complex documents into clean Markdown or JSON for RAG and LLM pipelines. 57K+ GitHub stars.",348,"script","Script",{"id":45,"uuid":46,"slug":47,"title":48,"description":49,"author_name":22,"view_count":17,"vote_count":24,"lang_type":25,"type":42,"type_label":43},173,"443e86c2-3811-496e-8e4d-6eef742ab219","docling-document-parsing-ai-443e86c2","Docling — Document Parsing for AI","IBM document parsing library. Converts PDFs, DOCX, PPTX, images, and HTML into structured markdown or JSON. Built for RAG pipelines and LLM ingestion.",{"id":51,"uuid":52,"slug":53,"title":54,"description":55,"author_name":56,"view_count":57,"vote_count":24,"lang_type":25,"type":58,"type_label":59},439,"c2ba9909-f624-414f-8aeb-fbd95c50766e","unstructured-document-etl-llm-pipelines-c2ba9909","Unstructured — Document ETL for LLM Pipelines","Extract clean data from PDFs, DOCX, HTML, images, and emails for RAG and LLM ingestion. 14K+ GitHub stars.","MCP Hub",344,"mcp","MCP",{"id":61,"uuid":62,"slug":63,"title":64,"description":65,"author_name":66,"view_count":67,"vote_count":24,"lang_type":25,"type":26,"type_label":27},417,"ef81583e-45e5-4134-b25b-04e486ae2d06","docetl-llm-powered-document-processing-pipelines-ef81583e","DocETL — LLM-Powered Document Processing Pipelines","Declarative YAML pipelines for LLM document analysis with map, reduce, and resolve operators. By UC Berkeley. 3.7K+ stars.","AI Open Source",291,{"id":69,"uuid":70,"slug":71,"title":72,"description":73,"author_name":74,"view_count":75,"vote_count":24,"lang_type":25,"type":26,"type_label":27},678,"6fdc90c2-bede-4d3a-98d7-faf751dfb41f","markitdown-convert-any-file-markdown-llms-6fdc90c2","MarkItDown — Convert Any File to Markdown for LLMs","Python library by Microsoft that converts PDF, DOCX, PPTX, XLSX, images, audio, and HTML to clean Markdown. Perfect for feeding documents into LLM context windows. 8,000+ stars.","Microsoft AI",353,"tokrepo install pack\u002Fdocument-ai-pipeline",{"pageType":78,"pageKey":8,"locale":79,"title":80,"metaDescription":81,"h1":13,"tldr":82,"bodyMarkdown":83,"faq":84,"schema":100,"internalLinks":110,"citations":123,"wordCount":136,"generatedAt":137},"pack","fr","Pipeline Document → IA : 7 Parsers PDF, Scan, Office","Surya, Zerox, MinerU, Docling, Unstructured, DocETL, MarkItDown — convertit PDF, scan ou Office en input propre LLM. Installez le pipeline via TokRepo.","Sept parsers open-source couvrant OCR, extraction de layout, reconstruction de tables et conversion Office-vers-Markdown. Ensemble ils transforment tout document humain en input propre pour LLM.","## Ce que contient ce pack\n\n| # | Parser | Excelle à | Sortie |\n|---|---|---|---|\n| 1 | Surya | OCR multilingue + layout, 90+ langues | texte + bounding boxes |\n| 2 | Zerox | parse page-par-page piloté par LLM visuel | markdown |\n| 3 | MinerU | PDFs scientifiques avec formules et tables | markdown + LaTeX |\n| 4 | Docling | parser tout-en-un IBM (PDF\u002FDOCX\u002FHTML\u002FPPTX) | DoclingDocument JSON |\n| 5 | Unstructured | prétraitement enterprise avec chunking | liste d'éléments prête pour embedding |\n| 6 | DocETL | ETL documentaire piloté LLM avec validation | enregistrements typés |\n| 7 | MarkItDown | convertisseur Office-vers-Markdown de Microsoft | markdown |\n\nLes sept parsers couvrent toutes les formes de \"ce fichier était pour les humains et un LLM doit maintenant le lire\". Certains spécialistes (Surya pour OCR, MinerU pour papers de maths) ; d'autres généralistes (Docling, Unstructured, MarkItDown). Choisissez selon votre mix de fichiers et budget de précision.\n\n## Pourquoi c'est important\n\nLes LLMs sont étonnamment mauvais à lire le texte brut de PDF. Les octets qui ressemblent à de la prose à vos yeux sont en réalité des glyphes éparpillés sans ordre de lecture — pdfplumber et PyMuPDF renvoient une sortie mélangée qui désoriente le modèle. Les tables sortent en lignes cassées. Headers et footers fuient dans le corps. Les layouts multi-colonnes lisent haut-en-bas la colonne gauche puis haut-en-bas la droite, ce qui n'a aucun sens pour un transformer.\n\nCe pack résout ça. Surya et Zerox utilisent des modèles de vision pour *voir* la page comme un humain et reconstruire l'ordre logique. Docling et Unstructured exécutent des pipelines layout-aware qui étiquettent chaque élément (titre, paragraphe, table, légende) pour que le chunking aval respecte la structure. MinerU est le seul outil open-source qui extrait de façon fiable équations et matrices de papers scientifiques.\n\nPour les fichiers Office (PowerPoint, Word, Excel), MarkItDown est la réponse. Microsoft l'a publié parce que leur propre Copilot interne avait besoin de Markdown propre depuis Office et les convertisseurs existants étaient mauvais.\n\n## Installer en une commande\n\n```bash\n# Installe tout le pack\ntokrepo install pack\u002Fdocument-ai-pipeline\n\n# Ou choisissez le parser qui correspond à votre mix\ntokrepo install docling\ntokrepo install surya\ntokrepo install markitdown\n```\n\nLa page TokRepo de chaque ressource liste les types de fichier supportés, les besoins GPU (Surya et Zerox veulent un GPU ; Docling et MarkItDown tournent sur CPU), et la stratégie de chunking qui s'associe bien aval.\n\n## Pièges courants\n\n- **OCR vs couche texte du PDF** : un PDF *avec* couche texte n'a pas besoin d'OCR. Lancez Docling d'abord ; si la couche texte est intacte, sautez Surya. L'OCR est 10-100x plus lent que l'extraction texte.\n- **Tables silencieusement cassées** : la plupart des parsers extraient les tables mais aplatissent mal les lignes. Échantillonnez toujours 10 sorties aléatoires et regardez à l'œil avant de faire confiance au pipeline.\n- **Ordre de lecture multi-colonnes** : documents juridiques et papers académiques à deux colonnes piègent les parsers naïfs. Docling et Surya gèrent ça ; pdfplumber non.\n- **Légendes d'image perdues** : les figures sont souvent la partie la plus dense en info d'un paper. Assurez-vous que votre parser garde la légende liée à la figure, pas flottante.\n- **Coût en tokens sur Zerox** : Zerox appelle un LLM visuel par page. Un PDF de 200 pages peut coûter 1-2 $ en API. Cachez agressivement et préférez Docling-puis-Zerox-fallback plutôt que tout passer par Zerox.\n\n## Relation avec les autres packs\n\nCe pack est la couche d'**ingestion** pour le retrieval. Il produit du texte propre et des éléments structurés ; le pack **Pipelines RAG** les chunke, les embedde et les sert. Pour les pages web au lieu de fichiers, basculez vers **Scraping pour IA**. Pour contenu vocal ou vidéo, ça passe par du speech-to-text d'abord (hors scope).\n\nUn stack production courant : MarkItDown pour Office → Docling pour PDFs → chunking Unstructured → vector DB → pipeline RAG. Les frontières entre packs sont assez nettes pour échanger une couche sans réécrire le reste.",[85,88,91,94,97],{"q":86,"a":87},"Cette stack est-elle gratuite ?","Les sept parsers sont open-source sous MIT, Apache 2.0 ou BSD. Le self-host est gratuit. Le coût caché c'est le temps GPU pour les parsers basés vision (Surya, Zerox) et les frais d'API LLM si vous utilisez Zerox ou DocETL avec des modèles hosted. Les options CPU-only (Docling, MarkItDown, Unstructured) sont essentiellement gratuites à toute échelle.",{"q":89,"a":90},"Docling ou Unstructured ?","Docling si vous voulez un parser unique qui gère PDF\u002FDOCX\u002FHTML\u002FPPTX avec un format unifié et le standard de qualité IBM. Unstructured si vous avez besoin d'intégrations enterprise profondes (S3, SharePoint, connecteurs Azure), de stratégies de chunking pluggables, et acceptez une surface de config plus raide. Beaucoup d'équipes utilisent les deux : Docling pour le parse, Unstructured pour le chunking.",{"q":92,"a":93},"Ça marche avec Cursor ou Codex CLI ?","Oui — Docling, Unstructured et MarkItDown ont des serveurs MCP ou sont exposés comme CLI tools que tout agent IA peut invoquer. Glissez la définition MCP dans les paramètres Cursor et le LLM peut convertir un PDF en markdown à la volée. Surya et Zerox sont plus lourds (GPU résidents) et tournent généralement comme microservice séparé.",{"q":95,"a":96},"En quoi diffère du pack AI Web Scraping ?","Le web scraping part d'une URL. Document AI part d'un fichier. La sortie des deux est du texte LLM-ready, mais l'entrée diffère fondamentalement. La plupart des corpora RAG production ont besoin des deux — votre KB contient des PDFs internes *et* un site de docs public. Installez les deux packs dans ce cas.",{"q":98,"a":99},"Quel est le piège opérationnel ?","Planification du throughput. Parsing visuel (Surya, Zerox, MinerU sur pages dures) fait 1-5 pages\u002Fseconde sur un GPU. Si vous avez 100k pages à ingérer, c'est des heures-à-jours. Lancez un petit benchmark avant de vous engager — beaucoup d'équipes découvrent trop tard que leur backfill prend un week-end, pas une après-midi.",{"@context":101,"@type":102,"name":103,"description":104,"numberOfItems":105,"publisher":106},"https:\u002F\u002Fschema.org","CollectionPage","Document AI Pipeline","Seven open-source parsers that turn PDFs, scans, and Office files into clean LLM input.",7,{"@type":107,"name":108,"url":109},"Organization","TokRepo","https:\u002F\u002Ftokrepo.com",[111,115,119],{"url":112,"anchor":113,"reason":114},"\u002Ffr\u002Fpacks\u002Fai-web-scraping","Scraping pour IA","ingestion web complémentaire",{"url":116,"anchor":117,"reason":118},"\u002Ffr\u002Fpacks\u002Frag-pipelines","Pipelines RAG","couche downstream retrieve+generate",{"url":120,"anchor":121,"reason":122},"\u002Ffr\u002Ftools\u002Fdocling","Docling","le parser d'IBM inclus dans ce pack",[124,128,132],{"claim":125,"source_name":126,"source_url":127},"Docling is IBM's open-source document conversion toolkit for AI workflows","DS4SD\u002Fdocling on GitHub","https:\u002F\u002Fgithub.com\u002FDS4SD\u002Fdocling",{"claim":129,"source_name":130,"source_url":131},"Unstructured.io provides open-source preprocessing for LLM-ready document chunks","Unstructured-IO\u002Funstructured","https:\u002F\u002Fgithub.com\u002FUnstructured-IO\u002Funstructured",{"claim":133,"source_name":134,"source_url":135},"MarkItDown converts Office, PDF, and other files to Markdown for LLM ingestion","microsoft\u002Fmarkitdown","https:\u002F\u002Fgithub.com\u002Fmicrosoft\u002Fmarkitdown",679,"2026-05-02T15:00:00Z"]