简介
把 promptfoo-action 接入 GitHub Actions:在 PR/Push 时跑 prompt/agent 评测,支持缓存与阈值失败,并产出可对比报告,降低迭代与上线风险。
- 适合谁(Best for): 在交付 prompts/agents 的团队,希望在 CI 里做回归检测,并在 PR 中生成可人工审阅的报告
- 兼容工具(Works with): GitHub Actions、promptfoo 配置(YAML/JSON),以及 actions/cache 缓存(仓库说明)
- 安装时间(Setup time): 13 分钟
量化信息
- GitHub stars + forks(已核验):见「来源与感谢」
- Action 会写出
output.json结果文件(仓库说明) - 配置约 13 分钟(workflow + 一个配置文件)
实战要点
最小可用做法:只对 prompts/** 相关 PR 触发评测,并把 output.json 作为产物保存。先用小规模测试集跑通,再逐步扩展覆盖面,直到报告格式适配你们的评审流程。
安全提示: 把评测配置当作代码来审:检查 provider key、红队用例和数据文件;避免把敏感信息打进日志。
FAQ
Q: 需要自建服务吗? A: 不需要。它直接在 GitHub Actions 里跑,底层调用 promptfoo。
Q: 能卡住合并吗? A: 可以。用阈值/失败策略,让成功率低于门槛时 CI 失败。
Q: 怎么控制成本? A: 启用缓存、限制并发,并把触发范围限定在 prompts 目录相关变更。