Main
把边界画清楚:把 tool result 当作不可信输入,并在进入模型上下文前先做防护与裁决。
先保守再放开:先对高风险直接拦截,再按工具字段做白名单/覆盖,逐步降低误报。
记录证据:持久化
riskLevel、tier2Score与命中的 detections,便于后续安全调参。
Source-backed notes
- README 写明 ONNX 模型(约 22MB)随包提供,无需额外下载。
- README 描述两层防线(规则检测 + ML 分类器),并提到热身后约 ~10ms/样本的延迟量级。
- README 将其定位为 MCP/CLI/tool-call agent 的工具结果防护层,可在进入 LLM 前清洗与裁决。
FAQ
- 能替代安全提示词吗?:不能。它是额外 guardrail;仍要做好 system prompt 与工具权限控制。
- 会拖慢 agent 吗?:README 提到热身后约 ~10ms/样本;请按你的负载实测,并尽量做缓存/批处理。
- 应该放在链路哪里?:放在边界处:拿到工具输出后立刻处理,然后再进入模型上下文。