Prompts2026年5月14日·1 分钟阅读

Defender — Prompt Injection Guardrails for Agents

Defender is an OSS library to detect and neutralize prompt injection in tool outputs; verified 97★ and bundles a ~22MB ONNX model.

Agent 就绪

这个资产可以被 Agent 直接读取和安装

TokRepo 同时提供通用 CLI 命令、安装契约、metadata JSON、按适配器生成的安装计划和原始内容链接,方便 Agent 判断适配度、风险和下一步动作。

Native · 96/100策略:允许
Agent 入口
任意 MCP/CLI Agent
类型
Prompt
安装
Single
信任
信任等级:Community
入口
Asset
通用 CLI 安装命令
npx tokrepo install 21666b2c-58cb-50da-b8ac-5a3b476463b1
介绍

Defender 是用于检测与消解工具输出(邮件/文档/PR 等)中 prompt injection 的开源防护库;已验证 97★,自带约 22MB ONNX 模型,热身后约 10ms/样本。

Best for: 会把邮件/文档/PR 等工具结果送入 LLM 的 agent 开发者,需要在进模型前做注入防护

Works with: Node.js/TypeScript agent(MCP/CLI/函数调用),可在调用 LLM 前对工具输出做防护

Setup time: 6-15 minutes

Key facts (verified)

  • GitHub:97 stars · 9 forks;最近更新 2026-05-13。
  • 许可证:Apache-2.0;作者头像与仓库链接均已通过 GitHub API 复核。
  • README 中可对照的入口命令:npm install @stackone/defender

Main

  • 把边界画清楚:把 tool result 当作不可信输入,并在进入模型上下文前先做防护与裁决。

  • 先保守再放开:先对高风险直接拦截,再按工具字段做白名单/覆盖,逐步降低误报。

  • 记录证据:持久化 riskLeveltier2Score 与命中的 detections,便于后续安全调参。

Source-backed notes

  • README 写明 ONNX 模型(约 22MB)随包提供,无需额外下载。
  • README 描述两层防线(规则检测 + ML 分类器),并提到热身后约 ~10ms/样本的延迟量级。
  • README 将其定位为 MCP/CLI/tool-call agent 的工具结果防护层,可在进入 LLM 前清洗与裁决。

FAQ

  • 能替代安全提示词吗?:不能。它是额外 guardrail;仍要做好 system prompt 与工具权限控制。
  • 会拖慢 agent 吗?:README 提到热身后约 ~10ms/样本;请按你的负载实测,并尽量做缓存/批处理。
  • 应该放在链路哪里?:放在边界处:拿到工具输出后立刻处理,然后再进入模型上下文。
🙏

来源与感谢

Source: https://github.com/StackOneHQ/defender > License: Apache-2.0 > GitHub stars: 97 · forks: 9

讨论

登录后参与讨论。
还没有评论,来写第一条吧。

相关资产