什么是 Docling?
Docling 是 IBM 开源的文档解析库,将 PDF、DOCX、PPTX 和图片转为结构化 Markdown 或 JSON,内置 AI 布局分析、表格提取和 OCR。
一句话总结:IBM 开源文档 AI,解析 PDF/DOCX/PPTX 为结构化 Markdown,内置表格提取和 OCR,15k+ GitHub stars。
适合人群:构建 RAG 管线需要文档摄入的 AI 团队。
核心功能
1. 多格式支持
PDF、DOCX、PPTX、图片、HTML 全覆盖。
2. 表格提取
AI 模型精确提取表格,支持合并单元格。
3. OCR
内置多语言 OCR,支持扫描文档。
4. RAG 分块
内置分块器,直接输出适合嵌入的文本块。
5. 框架集成
LangChain、LlamaIndex 一行接入。
常见问题
Q: 离线可用? A: 可以,所有模型本地运行。
Q: 和 PyMuPDF 比较? A: PyMuPDF 基于规则,Docling 用 AI 模型理解布局,处理复杂文档更好。
来源与致谢
docling-project/docling — 15k+ stars, MIT