简介
MarkItDown 是微软开发的 Python 库,GitHub 8,000+ stars。将 PDF、DOCX、PPTX、XLSX、图片、音频和 HTML 转换为干净 Markdown。支持 10+ 格式,单一 API。适合构建需要摄取多种文档类型的 RAG 管道。
Python library by Microsoft that converts PDF, DOCX, PPTX, XLSX, images, audio, and HTML to clean Markdown. Perfect for feeding documents into LLM context windows. 8,000+ stars.
这里应该同时让用户和 Agent 知道第一步该复制什么、安装什么、落到哪里。
pip install markitdown
markitdown report.pdf > report.mdMarkItDown 是微软开发的 Python 库,GitHub 8,000+ stars。将 PDF、DOCX、PPTX、XLSX、图片、音频和 HTML 转换为干净 Markdown。支持 10+ 格式,单一 API。适合构建需要摄取多种文档类型的 RAG 管道。
Created by Microsoft. Licensed under MIT.
markitdown — stars 8,000+