简介
DataFlow 用 operator/pipeline 方式生成、清洗、评估并过滤数据;用 uv 安装后可用 dataflow -v 校验,再用 dataflow webui 启动可视化流水线构建器。
- 适合谁: 需要做领域数据集(微调/RL/RAG),并希望流水线可复现的团队
- 可搭配: Python;uv;可选 vLLM extra;用于构建流水线的 WebUI(见 README)
- 准备时间: 20–45 分钟
实战建议
- 量化信息:README 示例里
dataflow -v输出包含 open-dataflow codebase version: 1.0.0。 - 量化信息:README 的 News 标注 WebUI 发布于 2026-02-02,适合纳入团队标准流程。
DataFlow 在 Agent 栈里的定位
如果你们已经在做 RAG 或微调,DataFlow 的价值是把“数据质量闭环”做成可复现的流水线:
- 生成候选数据(PDF、日志、低质 QA 等)。
- 用 operator 精炼(标准化、改写、去噪)。
- 评估与过滤,保留高信噪比样本。
最小可行的首条流水线
- 先选一个窄领域(例如“客服→某个产品”)。
- 先做 100–500 条样本,每周按同一条 pipeline 重跑一次。
- 追两项指标:过滤后的通过率,以及训练/RAG 更新后的质量提升幅度。
WebUI 能降低协作成本:不用每个人都去改代码也能一起搭 pipeline。
FAQ
必须有 GPU 才能开始吗? 答:不必须。README 提供可选 GPU/vLLM 安装;你可以先验证 CLI 与 pipeline 结构。
为什么推荐 uv? 答:README 推荐 uv 以加速安装并提升环境可复现性。
该量化什么? 答:过滤通过率与下游模型质量提升(按周重跑对比)。