简介
AgentEval 是面向 .NET 的 Agent 评测工具箱:可校验工具调用、衡量 RAG 质量、做随机性/记忆基准,并输出可审计报告,让评测像单测一样进入工程流程与回归体系,适合 .NET 8+ 团队。
- 适合谁: 用 .NET 构建工具型 Agent 的团队,希望把评测像单测一样纳入工程流程
- 可搭配: .NET 8+ 应用;可与 agent 框架与 CI 集成;以 NuGet 包交付
- 准备时间: 15 分钟
实战建议
- 准备时间约 15 分钟(引入 NuGet + 跑通一个最小评测)
- 可与单测同跑:最快的回归入口是
dotnet test+ 评测断言 - GitHub stars / forks(已核验):见「来源与感谢」
AgentEval 的关键价值在于:把“工具调用”变成契约。不要只评估最终文本,而要断言:
- Agent 是否调用了期望的工具(同时没有调用禁用工具)。
- 工具入参是否结构化且最小权限。
- 检索回答是否有依据(RAG 检查能稳定通过)。
由于该项目在 README 中明确提示为预览/实验性质,建议在 CI 固定版本,并在升级前准备好基线分数与 golden traces 作为对照。
FAQ
能直接上生产吗? 答:README 提示为预览/实验性质。建议先在 CI 里使用并固定版本,自行验证后再用于关键流程。
能评估工具调用而不是只看文本吗? 答:可以。工具使用校验是项目的核心目标之一。
怎么最快落地? 答:引入 NuGet,按 Getting Started 跑通,然后把 1 个高风险工作流做成评测用例。