Scripts2026年4月2日·1 分钟阅读

MinerU — Extract LLM-Ready Data from Any Document

Convert PDFs, scans, and complex documents into clean Markdown or JSON for RAG and LLM pipelines. 57K+ GitHub stars.

SC
Script Depot · Community
快速使用

先拿来用,再决定要不要深挖

这里应该同时让用户和 Agent 知道第一步该复制什么、安装什么、落到哪里。

pip install magic-pdf[full]
# 将 PDF 转换为 Markdown
magic-pdf -p input.pdf -o output/ -m auto

简介

MinerU 是 OpenDataLab 开源的文档提取工具,拥有 57,900+ GitHub stars,专为将复杂文档转换成 LLM 可用格式而设计。支持 PDF、扫描件和多栏布局,高保真保留表格、公式、图片和阅读顺序。输出为干净的 Markdown 或结构化 JSON,可直接用于 RAG 管线、微调数据集或 LLM 消费。

适用于:GPT-4、Claude、Gemini、Llama 等任何 LLM,以及 LangChain、LlamaIndex 等 RAG 框架。适合构建文档密集型 AI 应用的团队。


核心功能

布局感知解析

使用深度学习模型(LayoutLMv3)检测标题、段落、表格、图片和公式。

表格提取

将表格转换为 Markdown、HTML 或 LaTeX,支持合并单元格。

公式识别

使用 UniMERNet 将数学公式转换为 LaTeX 表示。

OCR 集成

PaddleOCR 支持 80+ 语言,Tesseract 作为后备方案。

批量处理

支持并发处理数百个 PDF 文件。


🙏

来源与感谢

Created by OpenDataLab. Licensed under AGPL-3.0.

MinerU — ⭐ 57,900+

讨论

登录后参与讨论。
还没有评论,来写第一条吧。

相关资产