Skills2026年5月12日·1 分钟阅读

DataFlow — LLM Data Prep Pipelines + WebUI

DataFlow is an LLM data-prep system with operator pipelines; install via uv, validate with `dataflow -v`, then launch `dataflow webui`.

Agent 就绪

这个资产可以被 Agent 直接读取和安装

TokRepo 同时提供通用 CLI 命令、安装契约、metadata JSON、按适配器生成的安装计划和原始内容链接,方便 Agent 判断适配度、风险和下一步动作。

Native · 98/100策略:允许
Agent 入口
任意 MCP/CLI Agent
类型
Skill
安装
Single
信任
信任等级:Established
入口
Asset
通用 CLI 安装命令
npx tokrepo install 0cff37ca-924d-50d9-85f8-4f50fbef24cc

简介

DataFlow 用 operator/pipeline 方式生成、清洗、评估并过滤数据;用 uv 安装后可用 dataflow -v 校验,再用 dataflow webui 启动可视化流水线构建器。

  • 适合谁: 需要做领域数据集(微调/RL/RAG),并希望流水线可复现的团队
  • 可搭配: Python;uv;可选 vLLM extra;用于构建流水线的 WebUI(见 README)
  • 准备时间: 20–45 分钟

实战建议

  • 量化信息:README 示例里 dataflow -v 输出包含 open-dataflow codebase version: 1.0.0
  • 量化信息:README 的 News 标注 WebUI 发布于 2026-02-02,适合纳入团队标准流程。

DataFlow 在 Agent 栈里的定位

如果你们已经在做 RAG 或微调,DataFlow 的价值是把“数据质量闭环”做成可复现的流水线:

  1. 生成候选数据(PDF、日志、低质 QA 等)。
  2. 用 operator 精炼(标准化、改写、去噪)。
  3. 评估与过滤,保留高信噪比样本。

最小可行的首条流水线

  • 先选一个窄领域(例如“客服→某个产品”)。
  • 先做 100–500 条样本,每周按同一条 pipeline 重跑一次。
  • 追两项指标:过滤后的通过率,以及训练/RAG 更新后的质量提升幅度。

WebUI 能降低协作成本:不用每个人都去改代码也能一起搭 pipeline。

FAQ

必须有 GPU 才能开始吗? 答:不必须。README 提供可选 GPU/vLLM 安装;你可以先验证 CLI 与 pipeline 结构。

为什么推荐 uv? 答:README 推荐 uv 以加速安装并提升环境可复现性。

该量化什么? 答:过滤通过率与下游模型质量提升(按周重跑对比)。

🙏

来源与感谢

Source: https://github.com/OpenDCAI/DataFlow > License: Apache-2.0 > GitHub stars: 3,485 · forks: 340

讨论

登录后参与讨论。
还没有评论,来写第一条吧。

相关资产