Main
把它当安全实验室:在隔离环境里跑实验,并记录精确依赖版本,保证可复现。
用它生成测试用例:把木马知识场景沉淀成检索/工具链的回归测试。
拆分攻击面:区分静态文档、检索语料、工具输出三类污染来源,针对性加固。
把结果导出成可审计工件:日志、prompts、configs 与代码同等重要。
README (excerpt)
[ICML 2026] CKA-Agent: Bypassing LLM Guardrails via Harmless Prompt Weaving and Adaptive Tree Search
🛡️ Defense towards CKA
TurnGate is a response-aware defense mechanism designed to detect and mitigate hidden malicious intent in multi-turn dialogue systems. Defending state-of-the-art multi-turn malicious attacks like CKA-Agent, achieving great defense performance while avoiding overrefusal.
🔥 Latest Results on Frontier Models (Dec 2025)
CKA-Agent demonstrates consistent high attack success rates against the latest frontier models, including GPT-5.2, Gemini-3.0-Pro, and Claude-Haiku-4.5. The results are summarized below:
Source-backed notes
- README 给出
uv pip install命令用于安装实验依赖。 - 仓库为 AGPL-3.0 许可证(已通过 GitHub API 复核)。
- 仓库 README 将其定位为可复现实验实现,用于 agent 安全研究。
FAQ
- 适合直接上生产吗?:主要面向研究;更适合用来评估并加固你自己的系统。
- 依赖怎么装?:按 README 的
uv pip install ...说明安装,并建议锁定版本以保证复现。 - 许可证是什么?:AGPL-3.0(已通过 GitHub 许可证元数据复核)。
| Model | HarmBench | StrongREJECT | ||||||
|---|---|---|---|---|---|---|---|---|
| FS ↑ | PS ↑ | V ↓ | R ↓ | FS ↑ | PS ↑ | V ↓ | R ↓ | |
| 🟢 GPT-5.2 | 0.889 | 0.079 | 0.024 | 0.008 | 0.932 | 0.056 | 0.006 | 0.006 |
| 🟣 Gemini-3.0-Pro | 0.881 | 0.087 | ||||||