Pipeline Documento → IA
Surya, Zerox, MinerU, Docling, Unstructured, DocETL, MarkItDown — convierte cualquier PDF, escaneo u Office en input limpio para LLM.
Qué incluye este pack
| # | Parser | Mejor en | Salida |
|---|---|---|---|
| 1 | Surya | OCR multilingüe + layout, 90+ idiomas | texto + bounding boxes |
| 2 | Zerox | parse página-a-página dirigido por LLM visual | markdown |
| 3 | MinerU | PDFs científicos con fórmulas y tablas | markdown + LaTeX |
| 4 | Docling | parser todo-en-uno de IBM (PDF/DOCX/HTML/PPTX) | DoclingDocument JSON |
| 5 | Unstructured | preprocesado enterprise con chunking | lista de elementos lista para embedding |
| 6 | DocETL | ETL documental dirigido por LLM con validación | registros tipados |
| 7 | MarkItDown | conversor Office-a-Markdown de Microsoft | markdown |
Los siete parsers cubren cada forma de "este archivo era para humanos y ahora un LLM tiene que leerlo". Algunos especialistas (Surya para OCR, MinerU para papers de matemáticas); otros generalistas (Docling, Unstructured, MarkItDown). Elige por mix de archivos y presupuesto de precisión.
Por qué importa
Los LLMs son sorprendentemente malos leyendo texto crudo de PDF. Los bytes que parecen prosa son usualmente glifos desordenados sin orden de lectura — pdfplumber y PyMuPDF devuelven salida revuelta que confunde al modelo. Las tablas salen como filas rotas. Headers y footers se filtran al cuerpo. Layouts multi-columna leen arriba-abajo en la columna izquierda, luego arriba-abajo en la derecha, lo cual no tiene sentido para un transformer.
Este pack resuelve eso. Surya y Zerox usan modelos de visión para ver la página como un humano y reconstruir el orden lógico. Docling y Unstructured corren pipelines layout-aware que etiquetan cada elemento (heading, párrafo, tabla, caption) para que el chunking downstream respete la estructura. MinerU es la única herramienta open-source que extrae fiablemente ecuaciones y matrices de papers científicos.
Para archivos Office (PowerPoint, Word, Excel), MarkItDown es la respuesta. Microsoft lo publicó porque su propio Copilot interno necesitaba Markdown limpio desde Office y los conversores existentes eran terribles.
Instala en un comando
# Instala el pack completo
tokrepo install pack/document-ai-pipeline
# O elige el parser que encaje en tu mix de archivos
tokrepo install docling
tokrepo install surya
tokrepo install markitdown
La página TokRepo de cada recurso lista los tipos de archivo soportados, requisitos de GPU (Surya y Zerox quieren GPU; Docling y MarkItDown corren en CPU), y la estrategia de chunking que combina bien downstream.
Trampas comunes
- OCR vs capa de texto del PDF: un PDF con capa de texto no necesita OCR. Corre Docling primero; si la capa de texto está intacta, salta Surya. El OCR es 10-100x más lento que la extracción de texto.
- Tablas silenciosamente rotas: la mayoría de parsers extraen tablas pero aplastan filas mal. Muestrea siempre 10 outputs aleatorios y revisa visualmente antes de confiar en el pipeline.
- Orden de lectura multi-columna: documentos legales y papers académicos a dos columnas confunden a parsers naïve. Docling y Surya lo manejan; pdfplumber no.
- Captions de imagen perdidos: las figuras son a menudo la parte más densa en información de un paper. Asegúrate de que tu parser mantenga el caption ligado a la figura, no flotando.
- Coste de tokens en Zerox: Zerox llama a un LLM visual por página. Un PDF de 200 páginas puede costar $1-2 en API. Cachea agresivamente y prefiere Docling-luego-Zerox-fallback antes que correr todo por Zerox.
Relación con otros packs
Este pack es la capa de ingestión para retrieval. Produce texto limpio y elementos estructurados; el pack Pipelines RAG los chunkea, embebe y sirve. Para páginas web en lugar de archivos, cambia a Scraping para IA. Para contenido voz o vídeo, eso pasa por speech-to-text primero (fuera del scope).
Un stack común de producción: MarkItDown para Office → Docling para PDFs → chunking Unstructured → vector DB → pipeline RAG. Las fronteras entre packs son lo bastante limpias para cambiar una capa sin reescribir el resto.
7 recursos listos para instalar
Preguntas frecuentes
¿Es gratis este stack?
Los siete parsers son open-source bajo MIT, Apache 2.0 o BSD. Self-host es gratis. El coste oculto es tiempo de GPU para los parsers basados en visión (Surya, Zerox) y costes de API LLM si usas Zerox o DocETL con modelos hosted. Las opciones CPU-only (Docling, MarkItDown, Unstructured) son esencialmente gratis a cualquier escala.
¿Docling o Unstructured?
Docling si quieres un único parser que maneje PDF/DOCX/HTML/PPTX con formato unificado y la barra de calidad de IBM. Unstructured si necesitas integraciones enterprise profundas (S3, SharePoint, conectores Azure), estrategias de chunking pluggables, y no te importa una superficie de config más empinada. Muchos equipos corren ambos: Docling para parse, Unstructured para chunking.
¿Funcionan con Cursor o Codex CLI?
Sí — Docling, Unstructured y MarkItDown tienen MCP servers o se exponen como CLI tools que cualquier agente IA puede invocar. Mete la definición MCP en los ajustes de Cursor y el LLM puede convertir un PDF a markdown al vuelo. Surya y Zerox son más pesados (GPU residente) y usualmente corren como microservicio separado.
¿En qué difiere del pack AI Web Scraping?
Web scraping empieza desde una URL. Document AI empieza desde un archivo. La salida de ambos es texto LLM-ready, pero la entrada es fundamentalmente distinta. La mayoría de corpora RAG productivos necesitan ambos — tu KB tiene PDFs internos y un sitio público de docs. Instala los dos packs en ese caso.
¿Cuál es la trampa operativa?
Planificación de throughput. Parsing visual (Surya, Zerox, MinerU en páginas duras) hace 1-5 páginas/segundo en una GPU. Si tienes 100k páginas a ingestar, son horas-a-días. Corre un benchmark pequeño antes de comprometerte — muchos equipos descubren tarde que su backfill toma un fin de semana, no una tarde.
12 packs · 80+ recursos seleccionados
Explora todos los packs curados en la página principal
Volver a todos los packs