什么是 Marker?
Marker 是基于深度学习的 PDF 转 Markdown 工具,精确提取表格、公式、代码块和多栏版式,支持扫描件 OCR。
一句话总结:深度学习 PDF 转 Markdown,精确处理表格/公式/代码/多栏,支持 50+ 语言和扫描件,比同类快 10x,19k+ stars。
适合人群:构建 RAG 管线或处理技术文档的 AI 团队。
核心功能
1. 高精度提取
表格 90%+,公式转 LaTeX,代码块识别。
2. 批量处理
多进程并行,支持 GPU 加速。
3. 多语言
50+ 语言自动检测,中文表现优秀。
常见问题
Q: 和 Zerox 比? A: Marker 本地运行无 API 费用,批量处理快得多。Zerox 用视觉模型按页收费。
Q: 支持扫描件? A: 支持,内置深度学习 OCR。
来源与致谢
VikParuchuri/marker — 19k+ stars, GPL-3.0