简介
FlashRAG 是面向 RAG 研究/迭代的 Python 工具箱:安装 flashrag-dev 预发布版本后,可构建 dense/sparse 检索索引,并用可复现脚本快速对比不同检索配置。
- 适合谁: 需要系统化对比检索方法、并做索引构建实验的 RAG 团队
- 可搭配: Python 3.10+;可选依赖(vLLM、sentence-transformers、pyserini、faiss/conda 等,见 README)
- 准备时间: 25–60 分钟
实战建议
- 量化信息:安装是一条命令(
pip install flashrag-dev --pre),索引构建可直接用python -m ...跑脚本复现。 - 量化信息:先固定一个 corpus,至少跑 3 组检索配置(dense/sparse/hybrid)建立基线再扩展。
可复现的 RAG 实验闭环
FlashRAG 更适合用“实验”的思路来做检索:
- 固定 corpus 快照(并做版本化)。
- 显式参数构建索引(batch size、pooling、FAISS type 等都写清楚)。
- 用固定问题集评测,每次运行都记录结果。
实战护栏
- 第一个索引别做太大,确保能在分钟级重建;跑通流程再扩展。
- 加可选依赖(faiss、pyserini)后,把环境写进配置文件,避免团队复现不了。
- 不要一轮里同时升级模型又改检索,尽量“一次只改一个变量”。
FAQ
只支持 dense 检索吗? 答:不是。README 同时覆盖 dense 与 BM25 等 sparse 索引构建。
为什么 faiss 建议用 conda? 答:README 提到 pip 安装存在兼容性问题,并给出 conda 安装方式。
第一步做什么? 答:先用最小 corpus 按示例格式建一个小索引,跑通一次评测闭环再扩展。