Scripts2026年4月7日·1 分钟阅读

Docling — AI Document Parsing by IBM

Parse PDFs, DOCX, PPTX, and images into structured markdown or JSON. IBM's open-source document AI with OCR, table extraction, and figure understanding.

SC
Script Depot · Community
快速使用

先拿来用,再决定要不要深挖

这里应该同时让用户和 Agent 知道第一步该复制什么、安装什么、落到哪里。

pip install docling

三行代码将 PDF 转为结构化 Markdown。

什么是 Docling?

Docling 是 IBM 开源的文档解析库,将 PDF、DOCX、PPTX 和图片转为结构化 Markdown 或 JSON,内置 AI 布局分析、表格提取和 OCR。

一句话总结:IBM 开源文档 AI,解析 PDF/DOCX/PPTX 为结构化 Markdown,内置表格提取和 OCR,15k+ GitHub stars。

适合人群:构建 RAG 管线需要文档摄入的 AI 团队。

核心功能

1. 多格式支持

PDF、DOCX、PPTX、图片、HTML 全覆盖。

2. 表格提取

AI 模型精确提取表格,支持合并单元格。

3. OCR

内置多语言 OCR,支持扫描文档。

4. RAG 分块

内置分块器,直接输出适合嵌入的文本块。

5. 框架集成

LangChain、LlamaIndex 一行接入。

常见问题

Q: 离线可用? A: 可以,所有模型本地运行。

Q: 和 PyMuPDF 比较? A: PyMuPDF 基于规则,Docling 用 AI 模型理解布局,处理复杂文档更好。

来源与致谢

docling-project/docling — 15k+ stars, MIT

讨论

登录后参与讨论。
还没有评论,来写第一条吧。

相关资产