Knowledge2026年5月11日·1 分钟阅读

SWE-bench — Benchmark for Coding Agents

Evaluate coding agents on real GitHub issues with SWE-bench, including a harness to run and score patch predictions. Compare models and tool stacks.

Agent 就绪

这个资产可以被 Agent 直接读取和安装

TokRepo 同时提供通用 CLI 命令、安装契约、metadata JSON、按适配器生成的安装计划和原始内容链接,方便 Agent 判断适配度、风险和下一步动作。

Native · 96/100策略:允许
Agent 入口
任意 MCP/CLI Agent
类型
Knowledge
安装
Single
信任
信任等级:Established
入口
README.md
通用 CLI 安装命令
npx tokrepo install 7fd5858d-76a8-4679-80d1-ee1191ad2977

简介

用 SWE-bench 在真实 GitHub issue 上评测代码 Agent:提供可复现的 harness 运行与补丁预测评分;适合对比不同模型、prompt 与工具栈的端到端表现与回归变化。

  • 适合谁(Best for): 想用可复现数据集与 harness 评分来评测 AI coding agent 的团队
  • 兼容工具(Works with): Python、基于 Docker 的评测流程、数据集 + predictions 文件、可选 Modal 执行
  • 安装时间(Setup time): 30 分钟

量化信息

  • 跑通约 30 分钟(安装 + Docker + 第一次 harness 运行)
  • GitHub stars + forks(已核验):见「来源与感谢」
  • README 资源建议:约 120GB 可用磁盘、8 核 CPU(完整评测)

实战要点

把 SWE-bench 当北极星评测:定义基线 agent(模型 + 工具),先用 SWE-bench Lite 快速迭代,只有在有把握时才跑更大套件。记录版本信息(模型、agent 代码、工具 prompt),让提升可审计且可复现。

安全提示: 强化评测环境:隔离 Docker、固定依赖版本,并避免在沙箱之外运行不可信代码。

FAQ

Q: 它只是数据集吗? A: 不是。SWE-bench 同时包含数据集与可复现的运行/评分 harness。

Q: 能用于回归测试吗? A: 可以。冻结一部分任务集,定期或在关键改动后运行 harness。

Q: 为什么需要这么多磁盘? A: 评测会在 Docker 中构建/运行大量仓库,镜像与日志会快速增长。


🙏

来源与感谢

GitHub:https://github.com/SWE-bench/SWE-bench Owner avatar:https://avatars.githubusercontent.com/u/139597579?v=4 许可证(SPDX):MIT GitHub stars(已通过 api.github.com/repos/SWE-bench/SWE-bench 核验):4,900 GitHub forks(已通过 api.github.com/repos/SWE-bench/SWE-bench 核验):856

讨论

登录后参与讨论。
还没有评论,来写第一条吧。

相关资产