简介
Future AGI 是开源的 Agent 评测与可观测性平台:提供 OTel 追踪、50+ 指标评测、对话模拟、注入/越狱扫描护栏与 OpenAI 兼容网关,支持本地或 Docker 自托管闭环迭代。
- 适合谁: 想把评测、追踪与护栏做成闭环迭代的 LLM/Agent 团队
- 可搭配: Docker;Python 3.11+;OpenTelemetry;OpenAI 兼容网关层
- 准备时间: 15–40 分钟
实战建议
- README 给出基准:网关在 t3.xlarge 上约 29k req/s;开启护栏后 P99 ≤ 21 ms。
- README 标注:50+ 框架埋点(OTel 原生追踪)+ 50+ 评测指标。
- README 标注:内置注入/越狱/PII 扫描等护栏,可自托管把数据回流做闭环。
主要内容
落地建议(按优先级):
- 先埋点再优化。 在调提示词/工具前先打开追踪,让每次改动都有前后对比证据。
- 先做小规模评测集(10–30 条)。 覆盖:正常输入、边界情况、工具失败、合规敏感输入。
- 统一走网关。 把路由、护栏与日志收敛到一处,把它当作 agent 的“控制平面”。
- 每周闭环一次。 用 traces + eval 失败样本决定下一轮改 prompt / tool / fallback。
如果你已有 OpenTelemetry 体系,建议统一 service name / environment / trace ID,便于把 agent span 跟 API/DB span 串起来定位瓶颈。
FAQ
它只做评测吗? 答:不是。README 里包含追踪/可观测性、模拟、护栏与网关,目标是跑通端到端闭环。
怎么从小规模开始? 答:先自托管,再只接入一个 agent,并用 10–30 条用例跑通评测;数据可信后再扩容。
优先监控哪些指标? 答:延迟、token/成本近似、工具调用成功率,以及主要失败类型(幻觉、注入、越权/不安全输出)。