What is Margin Eval — Local Evals for CLI Coding Agents?

Margin Eval is an eval runtime that benchmarks CLI coding agents and records accuracy, token usage, runtime, and traces in a reproducible format.

Is Margin Eval — Local Evals for CLI Coding Agents free to use?

Yes. Margin Eval — Local Evals for CLI Coding Agents is freely available on TokRepo. Check the Source & Thanks section on the asset page for the specific open-source license.

How do I install Margin Eval — Local Evals for CLI Coding Agents?

Visit the asset page on TokRepo and click "Copy for agent" to get the installation instructions. Most assets can be installed with a single command.

Margin Eval — Local Evals for CLI Coding Agents

简介

Margin Eval 是开源评测运行时：可对 Claude Code、Codex、Gemini CLI 等 CLI 编码 Agent 做基准评测，记录准确率、token 用量、耗时与执行轨迹，便于复现与回归。

适合谁： 需要用统一框架对比多种 CLI Agent，并沉淀可复现评测记录的团队
可搭配： 需要 Docker + provider 的 API key 或 OAuth；可从 Git 仓库拉取 suite 并保存运行包
准备时间： 20 分钟

实战建议

准备时间约 20 分钟（安装 + margin check + 跑一次 dry-run）
两项可量化检查：margin --version 可用；输出目录产生可复现 run bundle
GitHub stars / forks（已核验）：见「来源与感谢」

Margin Eval 最适合用来把“成功标准”统一起来：

用共享 suite 仓库存放场景与夹具。
agent 配置文件版本化（变更走 PR 审核）。
同一套 suite + eval 配置下做横向对比，结论才可复现。

当你同时跑多个 provider 时，把鉴权也当作评测的一部分：避免 key 进入日志，并把 dry-run 变成每个开发者的默认自检步骤。

FAQ

为什么要本地评测，不只在 CI 跑？ 答：本地能缩短迭代回路：失败可立即复现与定位，再提交 PR。

一定要 Docker 吗？ 答：README 的 Quickstart 把 Docker 列为前置条件。

长期应该保存什么？ 答：建议保存 run bundle/trace 与简要摘要，便于之后对回归做审计与对比。

Margin Eval — Local Evals for CLI Coding Agents

这个资产可以被 Agent 直接读取和安装

简介

实战建议

FAQ

来源与感谢

讨论

相关资产

Open Interpreter — Local Code Interpreter CLI

LLxprt Code — Multi-Provider AI Coding CLI

DSPy Micro Agent — CLI + FastAPI + Evals

Spikee — Prompt Injection Eval Kit (CLI)