PDF + 论文 RAG 工具包
面向被一堆 PDF 和论文淹没的研究员、分析师、律师:围绕一条真正的 RAG 流水线挑的十件套——ingest → 解析(Zerox / OpenDataLoader / Surya)→ 嵌入+索引(Pinecone Assistant / PageIndex / Cherry Studio 知识库)→ 检索+对话(RAGFlow / Kotaemon)→ 重排(Cohere Rerank)→ 翻译非英文论文(PDFMathTranslate)。按顺序装,今晚就能把 200 篇 PDF 丢进一个文件夹然后跟它对话。
这个 pack 包含什么
如果你是研究员、分析师、律师,瓶颈不在搜索 — 在 PDF。论文、合同、备案、白皮书、监管备忘录。大多数都是 90 年代风格的 PDF:双栏排版、扫描页、嵌入表格、比正文还重要的脚注。直接丢给通用聊天机器人每次都败在三件事上:解析错、检索蠢、模型看不到对的 chunk。
这个 pack 按流水线组织,不是购物清单。每个工具只管一个阶段,安装顺序就是数据流动的顺序。和 PhD 博士研究者的文献 + 复现代码包 不同 — 后者解决文献检索和代码复现;本 pack 假设你已经攒了一堆 PDF,需要真的跟语料对话。
推荐安装顺序
阶段 1 — 解析(把 PDF 变成干净的 markdown)
- Zerox — 用视觉模型给任何 PDF 做 OCR。把页面截成图,让 GPT-4o 或 Claude 返回干净 markdown。脏扫描、双栏论文、合同等版式重要的场景胜出。打的赌是:前沿视觉模型在难 PDF 上吊打 2018 年的 OCR 栈,按调用次数付费。
- OpenDataLoader PDF — 文本优先、专为 AI 摄入调过的解析器。保留结构(章节、表格、列表)输出干净 JSON 或 markdown。对原生数字 PDF(arXiv 论文、近期合同)比 Zerox 快又便宜。先跑它,剩下 10% 失败的回落到 Zerox。
- Surya — 开源 OCR,支持 90+ 语言。如果语料里有中文、日文、阿拉伯文、俄文论文,这个是必备。本地跑 — 机密草稿不出本机。
阶段 2 — 索引(把解析后的文本嵌入并存下来)
- Cherry Studio 知识库 — 本地 RAG,原生支持 50+ 种格式。把一个 PDF 文件夹拖进去就能拿到带聊天界面的体验,全程在你笔记本上。除非要多用户或上云,从这里起步。
- Pinecone Assistant — 托管 RAG 服务,自动建索引。语料超过 ~10k 文档或者团队要共享访问时,Pinecone Assistant 把 ingest、嵌入、检索、引用全帮你封好。用隐私换规模。
- PageIndex — 面向推理型 RAG 的文档索引。不再是扁平 chunk 嵌入,而是按文档目录建层级索引。长论文(40+ 页)的检索质量明显更好,因为模型能推理「答案在文档的哪一部分」。
阶段 3 — 对话(用户面)
- RAGFlow — 深度文档理解 RAG 引擎。开源里表格、复杂版式、带引用回溯的答案做得最好的一档。自托管,Docker 跑,自带完整聊天 UI + 来源高亮。
- Kotaemon — 开源 RAG 文档对话(人们真的会留下来用的 ChatPDF 克隆)。比 RAGFlow 轻,部署更简单,LLM 可热插拔,多 PDF 对话开箱可用。
阶段 4 — 重排 + 翻译
- Cohere Rerank — 用 Rerank-3 拉高 RAG 准确率。塞在任何检索器前面。整个 RAG 栈里杠杆最高的 10 行代码 — 嘈杂语料上相关性提升 20-40% 是常态。
- PDFMathTranslate — 翻译 PDF 论文,保留原版式、公式、图表。如果你的阅读列表一半是外文,想在喂索引前对照原文 — 必备。
各阶段怎么协同
一个文件夹的 PDF
│
├─ OpenDataLoader (原生数字 PDF,快)
│
├─ Zerox (脏扫描、复杂版式)
│
└─ Surya (非英文 OCR)
│
▼
干净 markdown + 结构
│
├─ Cherry Studio 知识库 (本地,笔记本规模)
│
├─ Pinecone Assistant (云端,团队规模)
│
└─ PageIndex (长文档,推理感知)
│
▼
┌─────────────────┐
│ RAGFlow │
│ 或 Kotaemon │
│ (聊天 UI) │
└─────────────────┘
│
+ 检索前接 Cohere Rerank
+ 非英文论文 ingest 前过 PDFMathTranslate
关键洞察:绝大多数翻车的 RAG demo 死在解析阶段,不是检索阶段。如果你的表格出来只剩「表 1」没有数据,再聪明的检索器也救不回来。Day 1 砸在阶段 1,后面全都变简单。
你会遇到的取舍
- 本地 vs 云 — Cherry Studio 知识库和 Kotaemon 在笔记本上跑;Pinecone Assistant 把文本送到供应商。机密语料(法律、医疗、并购),坚持本地。
- RAGFlow vs Kotaemon — RAGFlow 表格解析和引用 UI 更强;Kotaemon 部署和定制更简单。语料表格重(财报、科学论文)选 RAGFlow;散文重(法律备忘录、白皮书)选 Kotaemon。
- Zerox 成本 — 视觉模型 OCR 在 GPT-4o 上大概 0.01-0.03 美元/页。200 篇平均 30 页的语料一次性大概 60-180 美元。持续流水线建议只把解析失败的回落到 Zerox。
- Cohere Rerank API key — 多了一个第三方依赖。如果不能接受,可以自托管重排器(BGE-reranker、Jina),但集成成本是真的。
常见踩坑
- chunk size 闭眼定 512 token — 一般文本可以,论文里 4000 token 一个 method section 就废了。chunk size 要按文档类型调。
- 聊天 UI 不带来源高亮 — 研究员看不到原页就不信答案。RAGFlow 和 Kotaemon 都做了,自建 UI 的话第一天就要上 citations。
- 解析没验证就开 ingest — 推 200 篇 PDF 进嵌入器之前,手动打开 5 篇随机的解析输出看一眼。坏解析污染索引是不可逆的。
- 忘了重排 — 几乎每个团队都是抱怨完检索质量后第 3 周才加 Cohere Rerank。第 1 周就加。
10 个资产打包就绪
常见问题
十个工具我必须全装吗?能不能先装 2-3 个?
先装三个:一个解析器(原生数字 PDF 选 OpenDataLoader PDF,脏扫描选 Zerox),一个索引(笔记本规模选 Cherry Studio 知识库),一个聊天 UI(Kotaemon)。这个三件套一下午就能跑起一个能用的多 PDF 对话。第二周觉得检索质量是瓶颈时加 Cohere Rerank,再加 PageIndex 应对长文档,最后用 PDFMathTranslate 处理外文论文。整套 10 个只在语料超过几百份时才有意义。
和「PhD 博士研究者文献 + 复现代码包」有啥区别?
研究流程的不同阶段。PhD 那个 pack 解决文献检索、文献管理、跑通论文代码(Zotero、arXiv MCP、GPT Researcher、JupyterLab、AI Scientist)。本 pack 假设你已经把 PDF 攒在文件夹里了,要从中规模化抽出结构化信息 — 这意味着一条真正的 RAG 流水线:解析、索引、检索、重排。很多研究者两个都用:PhD pack 收论文,本 pack 拷问它们。
法律合同、病例这种机密文档安全吗?
如果坚持本地优先的栈,安全。Surya 在本地跑 OCR;Cherry Studio 知识库和 Kotaemon 都能跑全本地(Ollama / llama.cpp 后端);RAGFlow 可以 Docker 自托管在内网。云端那几个(Pinecone Assistant、Cohere Rerank、Zerox via GPT-4o / Claude)会把文本送出去,只给非机密语料用。TokRepo 上的「律师 AI 合同审查工具包」对隐私优先的工具有更深的覆盖。
PDF 里的表格和图,这些工具真的能抽出来吗?
表格是 PDF 解析最难的部分。开源选项里 RAGFlow 自带的表格解析器最强;OpenDataLoader PDF 在源 PDF tag 良好时能把表格结构保留成 JSON;Zerox 因为视觉模型像人一样看页面,复杂版式能扛。图表和公式更难 — 公式当前 PDFMathTranslate 是开源最好的,图大多数团队的妥协是保留图片引用,让聊天 UI 跳到原页。
从一个 PDF 文件夹到可用聊天 UI,大概多久?
笔记本上用 Cherry Studio 知识库或 Kotaemon,小语料(50 篇以下原生数字 PDF)大概 30 分钟能开始对话 — 大部分时间花在首次解析和嵌入。大语料(500 篇带扫描和表格的)要几小时流水线工作:先用 OpenDataLoader 跑一遍,失败的回落 Zerox 再跑一遍,ingest 进 RAGFlow,然后调 chunk size 和重排器。之后加一篇新 PDF 的边际成本是秒级。