简介
Margin Eval 是开源评测运行时:可对 Claude Code、Codex、Gemini CLI 等 CLI 编码 Agent 做基准评测,记录准确率、token 用量、耗时与执行轨迹,便于复现与回归。
- 适合谁: 需要用统一框架对比多种 CLI Agent,并沉淀可复现评测记录的团队
- 可搭配: 需要 Docker + provider 的 API key 或 OAuth;可从 Git 仓库拉取 suite 并保存运行包
- 准备时间: 20 分钟
实战建议
- 准备时间约 20 分钟(安装 +
margin check+ 跑一次 dry-run) - 两项可量化检查:
margin --version可用;输出目录产生可复现 run bundle - GitHub stars / forks(已核验):见「来源与感谢」
Margin Eval 最适合用来把“成功标准”统一起来:
- 用共享 suite 仓库存放场景与夹具。
- agent 配置文件版本化(变更走 PR 审核)。
- 同一套 suite + eval 配置下做横向对比,结论才可复现。
当你同时跑多个 provider 时,把鉴权也当作评测的一部分:避免 key 进入日志,并把 dry-run 变成每个开发者的默认自检步骤。
FAQ
为什么要本地评测,不只在 CI 跑? 答:本地能缩短迭代回路:失败可立即复现与定位,再提交 PR。
一定要 Docker 吗? 答:README 的 Quickstart 把 Docker 列为前置条件。
长期应该保存什么? 答:建议保存 run bundle/trace 与简要摘要,便于之后对回归做审计与对比。