Skills2026年5月11日·1 分钟阅读

AgentEval — .NET Toolkit for Agent Evaluation

AgentEval is a .NET evaluation toolkit for AI agents that validates tool usage, scores RAG quality, compares models, and exports regression-ready reports.

Agent 就绪

Agent 可直接安装

这个资产可安装;Agent 先选择当前运行时、检查安装计划,再运行匹配命令。

Native · 98/100策略:允许
Agent 入口
任意 MCP/CLI Agent
类型
Skill
安装
Single
信任
信任等级:Established
入口
Asset
直接安装命令
npx -y tokrepo@latest install 19beb569-331b-4aa8-a6f4-fe45cb89b6f3 --target codex

先 dry-run 确认安装计划,再运行此命令。

简介

AgentEval 是面向 .NET 的 Agent 评测工具箱:可校验工具调用、衡量 RAG 质量、做随机性/记忆基准,并输出可审计报告,让评测像单测一样进入工程流程与回归体系,适合 .NET 8+ 团队。

  • 适合谁: 用 .NET 构建工具型 Agent 的团队,希望把评测像单测一样纳入工程流程
  • 可搭配: .NET 8+ 应用;可与 agent 框架与 CI 集成;以 NuGet 包交付
  • 准备时间: 15 分钟

实战建议

  • 准备时间约 15 分钟(引入 NuGet + 跑通一个最小评测)
  • 可与单测同跑:最快的回归入口是 dotnet test + 评测断言
  • GitHub stars / forks(已核验):见「来源与感谢」

AgentEval 的关键价值在于:把“工具调用”变成契约。不要只评估最终文本,而要断言:

  • Agent 是否调用了期望的工具(同时没有调用禁用工具)。
  • 工具入参是否结构化且最小权限。
  • 检索回答是否有依据(RAG 检查能稳定通过)。

由于该项目在 README 中明确提示为预览/实验性质,建议在 CI 固定版本,并在升级前准备好基线分数与 golden traces 作为对照。

FAQ

能直接上生产吗? 答:README 提示为预览/实验性质。建议先在 CI 里使用并固定版本,自行验证后再用于关键流程。

能评估工具调用而不是只看文本吗? 答:可以。工具使用校验是项目的核心目标之一。

怎么最快落地? 答:引入 NuGet,按 Getting Started 跑通,然后把 1 个高风险工作流做成评测用例。

🙏

来源与感谢

Source: https://github.com/AgentEvalHQ/AgentEval > License: MIT > GitHub stars: 89 · forks: 8

讨论

登录后参与讨论。
还没有评论,来写第一条吧。

相关资产