简介
MinerU 是 OpenDataLab 开源的文档提取工具,拥有 57,900+ GitHub stars,专为将复杂文档转换成 LLM 可用格式而设计。支持 PDF、扫描件和多栏布局,高保真保留表格、公式、图片和阅读顺序。输出为干净的 Markdown 或结构化 JSON,可直接用于 RAG 管线、微调数据集或 LLM 消费。
适用于:GPT-4、Claude、Gemini、Llama 等任何 LLM,以及 LangChain、LlamaIndex 等 RAG 框架。适合构建文档密集型 AI 应用的团队。
核心功能
布局感知解析
使用深度学习模型(LayoutLMv3)检测标题、段落、表格、图片和公式。
表格提取
将表格转换为 Markdown、HTML 或 LaTeX,支持合并单元格。
公式识别
使用 UniMERNet 将数学公式转换为 LaTeX 表示。
OCR 集成
PaddleOCR 支持 80+ 语言,Tesseract 作为后备方案。
批量处理
支持并发处理数百个 PDF 文件。