简介
Docling 是 IBM Research 开发的文档解析库,GitHub 18,000+ stars。将 PDF、DOCX、PPTX 等格式转换为干净的 Markdown 或 JSON,精确处理表格、图表、数学公式和复杂版面。适合构建 RAG 管道需要高保真文档解析的团队。
Parse PDF, DOCX, PPTX, HTML, and images into clean Markdown or JSON for LLM ingestion. Handles tables, figures, equations, and complex layouts. By IBM Research. 18,000+ stars.
这里应该同时让用户和 Agent 知道第一步该复制什么、安装什么、落到哪里。
pip install doclingfrom docling.document_converter import DocumentConverter
result = DocumentConverter().convert("report.pdf")
print(result.document.export_to_markdown())Docling 是 IBM Research 开发的文档解析库,GitHub 18,000+ stars。将 PDF、DOCX、PPTX 等格式转换为干净的 Markdown 或 JSON,精确处理表格、图表、数学公式和复杂版面。适合构建 RAG 管道需要高保真文档解析的团队。
Created by DS4SD / IBM Research. Licensed under MIT.
docling — ⭐ 18,000+