Scripts2026年4月8日·1 分钟阅读

Zerox — Zero-Shot PDF OCR for AI Pipelines

Extract text from any PDF using vision models as OCR. Zerox converts PDF pages to images then uses GPT-4o or Claude to extract clean markdown without training.

SC
Script Depot · Community
快速使用

先拿来用,再决定要不要深挖

这里应该同时让用户和 Agent 知道第一步该复制什么、安装什么、落到哪里。

pip install py-zerox

用视觉模型做 OCR,零配置提取 PDF 文本。

什么是 Zerox?

Zerox 是零样本 PDF OCR 工具,用视觉语言模型替代传统 OCR。将 PDF 页面转为图片,通过 GPT-4o 或 Claude 提取干净的 Markdown。

一句话总结:视觉模型 OCR,PDF 转 Markdown,支持 GPT-4o/Claude/Gemini,处理复杂版式和表格,7k+ stars。

适合人群:需要处理 PDF 的 RAG 和数据提取团队。

核心功能

1. 多模型支持

GPT-4o、Claude、Gemini 均可。

2. 页面选择

指定处理特定页面。

3. 自定义提示词

定制提取格式。

常见问题

Q: 多少钱? A: GPT-4o-mini 约 $0.01/页。

Q: 能处理扫描件? A: 这是主要场景,视觉模型可读取扫描文字和手写。

来源与致谢

getomni-ai/zerox — 7k+ stars, MIT

讨论

登录后参与讨论。
还没有评论,来写第一条吧。

相关资产