什么是 Zerox?
Zerox 是零样本 PDF OCR 工具,用视觉语言模型替代传统 OCR。将 PDF 页面转为图片,通过 GPT-4o 或 Claude 提取干净的 Markdown。
一句话总结:视觉模型 OCR,PDF 转 Markdown,支持 GPT-4o/Claude/Gemini,处理复杂版式和表格,7k+ stars。
适合人群:需要处理 PDF 的 RAG 和数据提取团队。
核心功能
1. 多模型支持
GPT-4o、Claude、Gemini 均可。
2. 页面选择
指定处理特定页面。
3. 自定义提示词
定制提取格式。
常见问题
Q: 多少钱? A: GPT-4o-mini 约 $0.01/页。
Q: 能处理扫描件? A: 这是主要场景,视觉模型可读取扫描文字和手写。
来源与致谢
getomni-ai/zerox — 7k+ stars, MIT