简介
Agent Evaluation 是一个 Python 评测框架:用可复现的多轮对话+评分,把虚拟 Agent 的行为测试接入 CI,持续发现回归,并把分数/轨迹沉淀为可追踪的对比报告,便于持续迭代。
- 适合谁: 在生产环境迭代虚拟 Agent 的团队,需要“可回归、可量化”的评测框架
- 可搭配: 可通过 API/SDK 调用的任意目标 Agent;内置示例支持 Amazon Bedrock / Amazon Q Business / SageMaker
- 准备时间: 20 分钟
实战建议
- 准备时间约 20 分钟(建环境 + 安装 + 跑最小示例)
- 两项可量化检查:至少 1 组对话被评测,并且分数可用于跨提交对比
- GitHub stars / forks(已核验):见「来源与感谢」
核心原则:把“Agent 质量”当作测试套件,而不是演示。用 Agent Evaluation 把同一批场景反复跑出可对比结果(分数/轨迹/失败原因),再把它变成发布闸门。
建议落地路径:
- 先做 5–10 个可复现场景(工具调用、拒绝策略、RAG 事实性)。
- 固定 evaluator 配置与数据集,确保跨提交可对比。
- 每次 PR 都跑评测;分数回退或出现新失败模式就阻断合并。
如果你在迭代自研 Agent,先用 hooks 把工具行为守住(例如“禁止破坏性调用”“日志不泄密”),再谈模型优化。
FAQ
一定要用 AWS 吗? 答:不需要。仓库包含 AWS 相关集成示例,但“场景 + 评分 + CI 闸门”的方法适用于任何可调用的 Agent。
一开始做多少场景合适? 答:从 5–10 个高风险工作流开始,每周逐步扩展覆盖面。
应该量化哪些指标? 答:至少包括:通过率/失败原因、稳定分数、token 用量与耗时;并加入工具安全与数据泄露检查。