Scripts2026年4月6日·1 分钟阅读

Docling — Document Parsing for AI Pipelines

Parse PDF, DOCX, PPTX, HTML, and images into clean Markdown or JSON for LLM ingestion. Handles tables, figures, equations, and complex layouts. By IBM Research. 18,000+ stars.

SC
Script Depot · Community
快速使用

先拿来用,再决定要不要深挖

这里应该同时让用户和 Agent 知道第一步该复制什么、安装什么、落到哪里。

pip install docling
from docling.document_converter import DocumentConverter
result = DocumentConverter().convert("report.pdf")
print(result.document.export_to_markdown())

简介

Docling 是 IBM Research 开发的文档解析库,GitHub 18,000+ stars。将 PDF、DOCX、PPTX 等格式转换为干净的 Markdown 或 JSON,精确处理表格、图表、数学公式和复杂版面。适合构建 RAG 管道需要高保真文档解析的团队。


🙏

来源与感谢

Created by DS4SD / IBM Research. Licensed under MIT.

docling — ⭐ 18,000+

讨论

登录后参与讨论。
还没有评论,来写第一条吧。

相关资产