CLI Tools2026年5月11日·1 分钟阅读

Margin Eval — Local Evals for CLI Coding Agents

Margin Eval is an eval runtime that benchmarks CLI coding agents and records accuracy, token usage, runtime, and traces in a reproducible format.

Agent 就绪

这个资产可以被 Agent 直接读取和安装

TokRepo 同时提供通用 CLI 命令、安装契约、metadata JSON、按适配器生成的安装计划和原始内容链接,方便 Agent 判断适配度、风险和下一步动作。

Stage only · 29/100Stage only
Agent 入口
任意 MCP/CLI Agent
类型
CLI Tool
安装
Single
信任
信任等级:Established
入口
README.md
通用 CLI 安装命令
npx tokrepo install f4905383-abe8-46fb-8c5c-2cdcdb45b141

简介

Margin Eval 是开源评测运行时:可对 Claude Code、Codex、Gemini CLI 等 CLI 编码 Agent 做基准评测,记录准确率、token 用量、耗时与执行轨迹,便于复现与回归。

  • 适合谁: 需要用统一框架对比多种 CLI Agent,并沉淀可复现评测记录的团队
  • 可搭配: 需要 Docker + provider 的 API key 或 OAuth;可从 Git 仓库拉取 suite 并保存运行包
  • 准备时间: 20 分钟

实战建议

  • 准备时间约 20 分钟(安装 + margin check + 跑一次 dry-run)
  • 两项可量化检查:margin --version 可用;输出目录产生可复现 run bundle
  • GitHub stars / forks(已核验):见「来源与感谢」

Margin Eval 最适合用来把“成功标准”统一起来:

  • 用共享 suite 仓库存放场景与夹具。
  • agent 配置文件版本化(变更走 PR 审核)。
  • 同一套 suite + eval 配置下做横向对比,结论才可复现。

当你同时跑多个 provider 时,把鉴权也当作评测的一部分:避免 key 进入日志,并把 dry-run 变成每个开发者的默认自检步骤。

FAQ

为什么要本地评测,不只在 CI 跑? 答:本地能缩短迭代回路:失败可立即复现与定位,再提交 PR。

一定要 Docker 吗? 答:README 的 Quickstart 把 Docker 列为前置条件。

长期应该保存什么? 答:建议保存 run bundle/trace 与简要摘要,便于之后对回归做审计与对比。

🙏

来源与感谢

Source: https://github.com/Margin-Lab/evals > License: AGPL-3.0 > GitHub stars: 59 · forks: 1

讨论

登录后参与讨论。
还没有评论,来写第一条吧。

相关资产