TOKREPO · ARSENAL

Estable

Pipeline Documento → IA

Surya, Zerox, MinerU, Docling, Unstructured, DocETL, MarkItDown — convierte cualquier PDF, escaneo u Office en input limpio para LLM.

7 recursos

Sobre este pack

Qué incluye este pack

#	Parser	Mejor en	Salida
1	Surya	OCR multilingüe + layout, 90+ idiomas	texto + bounding boxes
2	Zerox	parse página-a-página dirigido por LLM visual	markdown
3	MinerU	PDFs científicos con fórmulas y tablas	markdown + LaTeX
4	Docling	parser todo-en-uno de IBM (PDF/DOCX/HTML/PPTX)	DoclingDocument JSON
5	Unstructured	preprocesado enterprise con chunking	lista de elementos lista para embedding
6	DocETL	ETL documental dirigido por LLM con validación	registros tipados
7	MarkItDown	conversor Office-a-Markdown de Microsoft	markdown

Los siete parsers cubren cada forma de "este archivo era para humanos y ahora un LLM tiene que leerlo". Algunos especialistas (Surya para OCR, MinerU para papers de matemáticas); otros generalistas (Docling, Unstructured, MarkItDown). Elige por mix de archivos y presupuesto de precisión.

Por qué importa

Los LLMs son sorprendentemente malos leyendo texto crudo de PDF. Los bytes que parecen prosa son usualmente glifos desordenados sin orden de lectura — pdfplumber y PyMuPDF devuelven salida revuelta que confunde al modelo. Las tablas salen como filas rotas. Headers y footers se filtran al cuerpo. Layouts multi-columna leen arriba-abajo en la columna izquierda, luego arriba-abajo en la derecha, lo cual no tiene sentido para un transformer.

Este pack resuelve eso. Surya y Zerox usan modelos de visión para ver la página como un humano y reconstruir el orden lógico. Docling y Unstructured corren pipelines layout-aware que etiquetan cada elemento (heading, párrafo, tabla, caption) para que el chunking downstream respete la estructura. MinerU es la única herramienta open-source que extrae fiablemente ecuaciones y matrices de papers científicos.

Para archivos Office (PowerPoint, Word, Excel), MarkItDown es la respuesta. Microsoft lo publicó porque su propio Copilot interno necesitaba Markdown limpio desde Office y los conversores existentes eran terribles.

Instala en un comando

# Instala el pack completo
tokrepo install pack/document-ai-pipeline

# O elige el parser que encaje en tu mix de archivos
tokrepo install docling
tokrepo install surya
tokrepo install markitdown

La página TokRepo de cada recurso lista los tipos de archivo soportados, requisitos de GPU (Surya y Zerox quieren GPU; Docling y MarkItDown corren en CPU), y la estrategia de chunking que combina bien downstream.

Trampas comunes

OCR vs capa de texto del PDF: un PDF con capa de texto no necesita OCR. Corre Docling primero; si la capa de texto está intacta, salta Surya. El OCR es 10-100x más lento que la extracción de texto.
Tablas silenciosamente rotas: la mayoría de parsers extraen tablas pero aplastan filas mal. Muestrea siempre 10 outputs aleatorios y revisa visualmente antes de confiar en el pipeline.
Orden de lectura multi-columna: documentos legales y papers académicos a dos columnas confunden a parsers naïve. Docling y Surya lo manejan; pdfplumber no.
Captions de imagen perdidos: las figuras son a menudo la parte más densa en información de un paper. Asegúrate de que tu parser mantenga el caption ligado a la figura, no flotando.
Coste de tokens en Zerox: Zerox llama a un LLM visual por página. Un PDF de 200 páginas puede costar $1-2 en API. Cachea agresivamente y prefiere Docling-luego-Zerox-fallback antes que correr todo por Zerox.

Relación con otros packs

Este pack es la capa de ingestión para retrieval. Produce texto limpio y elementos estructurados; el pack Pipelines RAG los chunkea, embebe y sirve. Para páginas web en lugar de archivos, cambia a Scraping para IA. Para contenido voz o vídeo, eso pasa por speech-to-text primero (fuera del scope).

Un stack común de producción: MarkItDown para Office → Docling para PDFs → chunking Unstructured → vector DB → pipeline RAG. Las fronteras entre packs son lo bastante limpias para cambiar una capa sin reescribir el resto.

INSTALAR · UN COMANDO

$ tokrepo install pack/document-ai-pipeline

pásalo a tu agente — o pégalo en tu terminal

Qué incluye

7 recursos listos para instalar

Script#01

Surya — Document OCR for 90+ Languages

Surya is a document OCR toolkit with 19.5K+ GitHub stars. Text recognition in 90+ languages, layout analysis, table detection, reading order, and LaTeX OCR. Benchmarks favorably against cloud OCR serv

by Script Depot·237 views

$ tokrepo install surya-document-ocr-90-languages-66bc0630

Script#02

Zerox — Zero-Shot PDF OCR for AI Pipelines

Extract text from any PDF using vision models as OCR. Zerox converts PDF pages to images then uses GPT-4o or Claude to extract clean markdown without training.

by Script Depot·97 views

$ tokrepo install zerox-zero-shot-pdf-ocr-ai-pipelines-3ac555d9

Script#03

MinerU — Extract LLM-Ready Data from Any Document

Convert PDFs, scans, and complex documents into clean Markdown or JSON for RAG and LLM pipelines. 57K+ GitHub stars.

by Script Depot·119 views

$ tokrepo install mineru-extract-llm-ready-data-any-document-985fe0df

Script#04

Docling — Document Parsing for AI

IBM document parsing library. Converts PDFs, DOCX, PPTX, images, and HTML into structured markdown or JSON. Built for RAG pipelines and LLM ingestion.

by Script Depot·92 views

$ tokrepo install docling-document-parsing-ai-443e86c2

MCP#05

Unstructured — Document ETL for LLM Pipelines

Extract clean data from PDFs, DOCX, HTML, images, and emails for RAG and LLM ingestion. 14K+ GitHub stars.

by MCP Hub·125 views

$ tokrepo install unstructured-document-etl-llm-pipelines-c2ba9909

Skill#06

DocETL — LLM-Powered Document Processing Pipelines

Declarative YAML pipelines for LLM document analysis with map, reduce, and resolve operators. By UC Berkeley. 3.7K+ stars.

by AI Open Source·133 views

$ tokrepo install docetl-llm-powered-document-processing-pipelines-ef81583e

Config#07

MarkItDown — Convert Any File to Markdown for LLMs

Python library by Microsoft that converts PDF, DOCX, PPTX, XLSX, images, audio, and HTML to clean Markdown. Perfect for feeding documents into LLM context windows. 8,000+ stars.

by Microsoft AI·114 views

$ tokrepo install markitdown-convert-any-file-markdown-llms-6fdc90c2

FAQ

Preguntas frecuentes

¿Es gratis este stack?

Los siete parsers son open-source bajo MIT, Apache 2.0 o BSD. Self-host es gratis. El coste oculto es tiempo de GPU para los parsers basados en visión (Surya, Zerox) y costes de API LLM si usas Zerox o DocETL con modelos hosted. Las opciones CPU-only (Docling, MarkItDown, Unstructured) son esencialmente gratis a cualquier escala.

¿Docling o Unstructured?

Docling si quieres un único parser que maneje PDF/DOCX/HTML/PPTX con formato unificado y la barra de calidad de IBM. Unstructured si necesitas integraciones enterprise profundas (S3, SharePoint, conectores Azure), estrategias de chunking pluggables, y no te importa una superficie de config más empinada. Muchos equipos corren ambos: Docling para parse, Unstructured para chunking.

¿Funcionan con Cursor o Codex CLI?

Sí — Docling, Unstructured y MarkItDown tienen MCP servers o se exponen como CLI tools que cualquier agente IA puede invocar. Mete la definición MCP en los ajustes de Cursor y el LLM puede convertir un PDF a markdown al vuelo. Surya y Zerox son más pesados (GPU residente) y usualmente corren como microservicio separado.

¿En qué difiere del pack AI Web Scraping?

Web scraping empieza desde una URL. Document AI empieza desde un archivo. La salida de ambos es texto LLM-ready, pero la entrada es fundamentalmente distinta. La mayoría de corpora RAG productivos necesitan ambos — tu KB tiene PDFs internos y un sitio público de docs. Instala los dos packs en ese caso.

¿Cuál es la trampa operativa?

Planificación de throughput. Parsing visual (Surya, Zerox, MinerU en páginas duras) hace 1-5 páginas/segundo en una GPU. Si tienes 100k páginas a ingestar, son horas-a-días. Corre un benchmark pequeño antes de comprometerte — muchos equipos descubren tarde que su backfill toma un fin de semana, no una tarde.

MÁS DEL ARSENAL

12 packs · 80+ recursos seleccionados

Explora todos los packs curados en la página principal

Volver a todos los packs