Workflows2026年5月12日·1 分钟阅读

Future AGI — Evals + Tracing for Agents

Future AGI is an open-source platform for self-improving agents: tracing, evals, simulations, guardrails, and an OpenAI-compatible gateway to self-host.

Agent 就绪

这个资产可以被 Agent 直接读取和安装

TokRepo 同时提供通用 CLI 命令、安装契约、metadata JSON、按适配器生成的安装计划和原始内容链接,方便 Agent 判断适配度、风险和下一步动作。

Native · 94/100策略:允许
Agent 入口
任意 MCP/CLI Agent
类型
Cli
安装
Manual
信任
信任等级:Established
入口
./bin/install
通用 CLI 安装命令
npx tokrepo install 8c7b4d7d-b353-52bf-adc8-654c43f36edf

简介

Future AGI 是开源的 Agent 评测与可观测性平台:提供 OTel 追踪、50+ 指标评测、对话模拟、注入/越狱扫描护栏与 OpenAI 兼容网关,支持本地或 Docker 自托管闭环迭代。

  • 适合谁: 想把评测、追踪与护栏做成闭环迭代的 LLM/Agent 团队
  • 可搭配: Docker;Python 3.11+;OpenTelemetry;OpenAI 兼容网关层
  • 准备时间: 15–40 分钟

实战建议

  • README 给出基准:网关在 t3.xlarge 上约 29k req/s;开启护栏后 P99 ≤ 21 ms。
  • README 标注:50+ 框架埋点(OTel 原生追踪)+ 50+ 评测指标。
  • README 标注:内置注入/越狱/PII 扫描等护栏,可自托管把数据回流做闭环。

主要内容

落地建议(按优先级):

  1. 先埋点再优化。 在调提示词/工具前先打开追踪,让每次改动都有前后对比证据。
  2. 先做小规模评测集(10–30 条)。 覆盖:正常输入、边界情况、工具失败、合规敏感输入。
  3. 统一走网关。 把路由、护栏与日志收敛到一处,把它当作 agent 的“控制平面”。
  4. 每周闭环一次。 用 traces + eval 失败样本决定下一轮改 prompt / tool / fallback。

如果你已有 OpenTelemetry 体系,建议统一 service name / environment / trace ID,便于把 agent span 跟 API/DB span 串起来定位瓶颈。

FAQ

它只做评测吗? 答:不是。README 里包含追踪/可观测性、模拟、护栏与网关,目标是跑通端到端闭环。

怎么从小规模开始? 答:先自托管,再只接入一个 agent,并用 10–30 条用例跑通评测;数据可信后再扩容。

优先监控哪些指标? 答:延迟、token/成本近似、工具调用成功率,以及主要失败类型(幻觉、注入、越权/不安全输出)。

🙏

来源与感谢

Source: https://github.com/future-agi/future-agi > License: Apache-2.0 > GitHub stars: 938 · forks: 179

讨论

登录后参与讨论。
还没有评论,来写第一条吧。

相关资产