[{"data":1,"prerenderedAt":-1},["ShallowReactive",2],{"pack-detail-document-ai-pipeline-es":3,"seo:pack:document-ai-pipeline:es":78},{"code":4,"message":5,"data":6},200,"操作成功",{"pack":7},{"slug":8,"icon":9,"tone":10,"status":11,"status_label":12,"title":13,"description":14,"items":15,"install_cmd":77},"document-ai-pipeline","📄","#BE123C","stable","Estable","Pipeline Documento → IA","Surya, Zerox, MinerU, Docling, Unstructured, DocETL, MarkItDown — convierte cualquier PDF, escaneo u Office en input limpio para LLM.",[16,28,35,44,51,61,69],{"id":17,"uuid":18,"slug":19,"title":20,"description":21,"author_name":22,"view_count":23,"vote_count":24,"lang_type":25,"type":26,"type_label":27},263,"66bc0630-1be7-4da3-b227-f1fdb1faa065","surya-document-ocr-90-languages-66bc0630","Surya — Document OCR for 90+ Languages","Surya is a document OCR toolkit with 19.5K+ GitHub stars. Text recognition in 90+ languages, layout analysis, table detection, reading order, and LaTeX OCR. Benchmarks favorably against cloud OCR serv","Script Depot",501,0,"en","skill","Skill",{"id":29,"uuid":30,"slug":31,"title":32,"description":33,"author_name":22,"view_count":34,"vote_count":24,"lang_type":25,"type":26,"type_label":27},758,"3ac555d9-d75c-4208-ba46-974e4a717234","zerox-zero-shot-pdf-ocr-ai-pipelines-3ac555d9","Zerox — Zero-Shot PDF OCR for AI Pipelines","Extract text from any PDF using vision models as OCR. Zerox converts PDF pages to images then uses GPT-4o or Claude to extract clean markdown without training.",303,{"id":36,"uuid":37,"slug":38,"title":39,"description":40,"author_name":22,"view_count":41,"vote_count":24,"lang_type":25,"type":42,"type_label":43},413,"985fe0df-6ec5-4fd6-8d3d-3c1627b0e18d","mineru-extract-llm-ready-data-any-document-985fe0df","MinerU — Extract LLM-Ready Data from Any Document","Convert PDFs, scans, and complex documents into clean Markdown or JSON for RAG and LLM pipelines. 57K+ GitHub stars.",348,"script","Script",{"id":45,"uuid":46,"slug":47,"title":48,"description":49,"author_name":22,"view_count":50,"vote_count":24,"lang_type":25,"type":42,"type_label":43},173,"443e86c2-3811-496e-8e4d-6eef742ab219","docling-document-parsing-ai-443e86c2","Docling — Document Parsing for AI","IBM document parsing library. Converts PDFs, DOCX, PPTX, images, and HTML into structured markdown or JSON. Built for RAG pipelines and LLM ingestion.",262,{"id":52,"uuid":53,"slug":54,"title":55,"description":56,"author_name":57,"view_count":58,"vote_count":24,"lang_type":25,"type":59,"type_label":60},439,"c2ba9909-f624-414f-8aeb-fbd95c50766e","unstructured-document-etl-llm-pipelines-c2ba9909","Unstructured — Document ETL for LLM Pipelines","Extract clean data from PDFs, DOCX, HTML, images, and emails for RAG and LLM ingestion. 14K+ GitHub stars.","MCP Hub",344,"mcp","MCP",{"id":62,"uuid":63,"slug":64,"title":65,"description":66,"author_name":67,"view_count":68,"vote_count":24,"lang_type":25,"type":26,"type_label":27},417,"ef81583e-45e5-4134-b25b-04e486ae2d06","docetl-llm-powered-document-processing-pipelines-ef81583e","DocETL — LLM-Powered Document Processing Pipelines","Declarative YAML pipelines for LLM document analysis with map, reduce, and resolve operators. By UC Berkeley. 3.7K+ stars.","AI Open Source",291,{"id":70,"uuid":71,"slug":72,"title":73,"description":74,"author_name":75,"view_count":76,"vote_count":24,"lang_type":25,"type":26,"type_label":27},678,"6fdc90c2-bede-4d3a-98d7-faf751dfb41f","markitdown-convert-any-file-markdown-llms-6fdc90c2","MarkItDown — Convert Any File to Markdown for LLMs","Python library by Microsoft that converts PDF, DOCX, PPTX, XLSX, images, audio, and HTML to clean Markdown. Perfect for feeding documents into LLM context windows. 8,000+ stars.","Microsoft AI",353,"tokrepo install pack\u002Fdocument-ai-pipeline",{"pageType":79,"pageKey":8,"locale":80,"title":81,"metaDescription":82,"h1":13,"tldr":83,"bodyMarkdown":84,"faq":85,"schema":101,"internalLinks":111,"citations":124,"wordCount":137,"generatedAt":138},"pack","es","Pipeline Documento → IA: 7 Parsers PDF, Scan, Office","Surya, Zerox, MinerU, Docling, Unstructured, DocETL, MarkItDown — convierte PDF, scan u Office en input limpio para LLM. Instala el pipeline con TokRepo.","Siete parsers open-source que cubren OCR, extracción de layout, reconstrucción de tablas y conversión Office-a-Markdown. Juntos transforman cualquier documento humano en input limpio para LLM.","## Qué incluye este pack\n\n| # | Parser | Mejor en | Salida |\n|---|---|---|---|\n| 1 | Surya | OCR multilingüe + layout, 90+ idiomas | texto + bounding boxes |\n| 2 | Zerox | parse página-a-página dirigido por LLM visual | markdown |\n| 3 | MinerU | PDFs científicos con fórmulas y tablas | markdown + LaTeX |\n| 4 | Docling | parser todo-en-uno de IBM (PDF\u002FDOCX\u002FHTML\u002FPPTX) | DoclingDocument JSON |\n| 5 | Unstructured | preprocesado enterprise con chunking | lista de elementos lista para embedding |\n| 6 | DocETL | ETL documental dirigido por LLM con validación | registros tipados |\n| 7 | MarkItDown | conversor Office-a-Markdown de Microsoft | markdown |\n\nLos siete parsers cubren cada forma de \"este archivo era para humanos y ahora un LLM tiene que leerlo\". Algunos especialistas (Surya para OCR, MinerU para papers de matemáticas); otros generalistas (Docling, Unstructured, MarkItDown). Elige por mix de archivos y presupuesto de precisión.\n\n## Por qué importa\n\nLos LLMs son sorprendentemente malos leyendo texto crudo de PDF. Los bytes que parecen prosa son usualmente glifos desordenados sin orden de lectura — pdfplumber y PyMuPDF devuelven salida revuelta que confunde al modelo. Las tablas salen como filas rotas. Headers y footers se filtran al cuerpo. Layouts multi-columna leen arriba-abajo en la columna izquierda, luego arriba-abajo en la derecha, lo cual no tiene sentido para un transformer.\n\nEste pack resuelve eso. Surya y Zerox usan modelos de visión para *ver* la página como un humano y reconstruir el orden lógico. Docling y Unstructured corren pipelines layout-aware que etiquetan cada elemento (heading, párrafo, tabla, caption) para que el chunking downstream respete la estructura. MinerU es la única herramienta open-source que extrae fiablemente ecuaciones y matrices de papers científicos.\n\nPara archivos Office (PowerPoint, Word, Excel), MarkItDown es la respuesta. Microsoft lo publicó porque su propio Copilot interno necesitaba Markdown limpio desde Office y los conversores existentes eran terribles.\n\n## Instala en un comando\n\n```bash\n# Instala el pack completo\ntokrepo install pack\u002Fdocument-ai-pipeline\n\n# O elige el parser que encaje en tu mix de archivos\ntokrepo install docling\ntokrepo install surya\ntokrepo install markitdown\n```\n\nLa página TokRepo de cada recurso lista los tipos de archivo soportados, requisitos de GPU (Surya y Zerox quieren GPU; Docling y MarkItDown corren en CPU), y la estrategia de chunking que combina bien downstream.\n\n## Trampas comunes\n\n- **OCR vs capa de texto del PDF**: un PDF *con* capa de texto no necesita OCR. Corre Docling primero; si la capa de texto está intacta, salta Surya. El OCR es 10-100x más lento que la extracción de texto.\n- **Tablas silenciosamente rotas**: la mayoría de parsers extraen tablas pero aplastan filas mal. Muestrea siempre 10 outputs aleatorios y revisa visualmente antes de confiar en el pipeline.\n- **Orden de lectura multi-columna**: documentos legales y papers académicos a dos columnas confunden a parsers naïve. Docling y Surya lo manejan; pdfplumber no.\n- **Captions de imagen perdidos**: las figuras son a menudo la parte más densa en información de un paper. Asegúrate de que tu parser mantenga el caption ligado a la figura, no flotando.\n- **Coste de tokens en Zerox**: Zerox llama a un LLM visual por página. Un PDF de 200 páginas puede costar $1-2 en API. Cachea agresivamente y prefiere Docling-luego-Zerox-fallback antes que correr todo por Zerox.\n\n## Relación con otros packs\n\nEste pack es la capa de **ingestión** para retrieval. Produce texto limpio y elementos estructurados; el pack **Pipelines RAG** los chunkea, embebe y sirve. Para páginas web en lugar de archivos, cambia a **Scraping para IA**. Para contenido voz o vídeo, eso pasa por speech-to-text primero (fuera del scope).\n\nUn stack común de producción: MarkItDown para Office → Docling para PDFs → chunking Unstructured → vector DB → pipeline RAG. Las fronteras entre packs son lo bastante limpias para cambiar una capa sin reescribir el resto.",[86,89,92,95,98],{"q":87,"a":88},"¿Es gratis este stack?","Los siete parsers son open-source bajo MIT, Apache 2.0 o BSD. Self-host es gratis. El coste oculto es tiempo de GPU para los parsers basados en visión (Surya, Zerox) y costes de API LLM si usas Zerox o DocETL con modelos hosted. Las opciones CPU-only (Docling, MarkItDown, Unstructured) son esencialmente gratis a cualquier escala.",{"q":90,"a":91},"¿Docling o Unstructured?","Docling si quieres un único parser que maneje PDF\u002FDOCX\u002FHTML\u002FPPTX con formato unificado y la barra de calidad de IBM. Unstructured si necesitas integraciones enterprise profundas (S3, SharePoint, conectores Azure), estrategias de chunking pluggables, y no te importa una superficie de config más empinada. Muchos equipos corren ambos: Docling para parse, Unstructured para chunking.",{"q":93,"a":94},"¿Funcionan con Cursor o Codex CLI?","Sí — Docling, Unstructured y MarkItDown tienen MCP servers o se exponen como CLI tools que cualquier agente IA puede invocar. Mete la definición MCP en los ajustes de Cursor y el LLM puede convertir un PDF a markdown al vuelo. Surya y Zerox son más pesados (GPU residente) y usualmente corren como microservicio separado.",{"q":96,"a":97},"¿En qué difiere del pack AI Web Scraping?","Web scraping empieza desde una URL. Document AI empieza desde un archivo. La salida de ambos es texto LLM-ready, pero la entrada es fundamentalmente distinta. La mayoría de corpora RAG productivos necesitan ambos — tu KB tiene PDFs internos *y* un sitio público de docs. Instala los dos packs en ese caso.",{"q":99,"a":100},"¿Cuál es la trampa operativa?","Planificación de throughput. Parsing visual (Surya, Zerox, MinerU en páginas duras) hace 1-5 páginas\u002Fsegundo en una GPU. Si tienes 100k páginas a ingestar, son horas-a-días. Corre un benchmark pequeño antes de comprometerte — muchos equipos descubren tarde que su backfill toma un fin de semana, no una tarde.",{"@context":102,"@type":103,"name":104,"description":105,"numberOfItems":106,"publisher":107},"https:\u002F\u002Fschema.org","CollectionPage","Document AI Pipeline","Seven open-source parsers that turn PDFs, scans, and Office files into clean LLM input.",7,{"@type":108,"name":109,"url":110},"Organization","TokRepo","https:\u002F\u002Ftokrepo.com",[112,116,120],{"url":113,"anchor":114,"reason":115},"\u002Fes\u002Fpacks\u002Fai-web-scraping","Scraping para IA","ingestión web complementaria",{"url":117,"anchor":118,"reason":119},"\u002Fes\u002Fpacks\u002Frag-pipelines","Pipelines RAG","capa downstream de retrieve+generate",{"url":121,"anchor":122,"reason":123},"\u002Fes\u002Ftools\u002Fdocling","Docling","el parser de IBM incluido en este pack",[125,129,133],{"claim":126,"source_name":127,"source_url":128},"Docling is IBM's open-source document conversion toolkit for AI workflows","DS4SD\u002Fdocling on GitHub","https:\u002F\u002Fgithub.com\u002FDS4SD\u002Fdocling",{"claim":130,"source_name":131,"source_url":132},"Unstructured.io provides open-source preprocessing for LLM-ready document chunks","Unstructured-IO\u002Funstructured","https:\u002F\u002Fgithub.com\u002FUnstructured-IO\u002Funstructured",{"claim":134,"source_name":135,"source_url":136},"MarkItDown converts Office, PDF, and other files to Markdown for LLM ingestion","microsoft\u002Fmarkitdown","https:\u002F\u002Fgithub.com\u002Fmicrosoft\u002Fmarkitdown",651,"2026-05-02T15:00:00Z"]