Skills2026年5月11日·1 分钟阅读

Presidio — Detect and Anonymize PII

Detect and anonymize PII in text with Microsoft Presidio, then feed sanitized inputs to LLMs to reduce leakage risk. Works via pip or Docker deployments.

Agent 就绪

这个资产可以被 Agent 直接读取和安装

TokRepo 同时提供通用 CLI 命令、安装契约、metadata JSON、按适配器生成的安装计划和原始内容链接,方便 Agent 判断适配度、风险和下一步动作。

Native · 98/100策略:允许
Agent 入口
任意 MCP/CLI Agent
类型
Skill
安装
Single
信任
信任等级:Established
入口
Asset
通用 CLI 安装命令
npx tokrepo install d4d3e9a3-9494-4b05-bf05-74368b2ff338

简介

用 Microsoft Presidio 在文本中检测并匿名化 PII,再把脱敏后的内容交给 LLM,降低数据泄露风险;同时支持 pip 安装与 Docker 部署,便于在生产链路稳定落地。

  • 适合谁(Best for): 会处理客户数据的 LLM 应用,需要在 prompt/日志/向量化前做 PII 脱敏的团队
  • 兼容工具(Works with): Python、文本处理流水线、用于 prompt/日志/索引前的预处理;也可用 Docker 服务化
  • 安装时间(Setup time): 18 分钟

量化信息

  • 跑通约 18 分钟(pip 安装 + 按需下载一个 NLP 模型)
  • GitHub stars + forks(已核验):见「来源与感谢」
  • 常见做法:输入脱敏 + 输出脱敏 + 日志脱敏(3 个强制点)

实战要点

生产落地要把 PII 脱敏当成“策略”:明确你领域里的 PII 范围,为非敏感标识符建立白名单,并用接近真实的数据写回归测试。把 Presidio 放在 prompt 与向量化之前做预处理;用户粘贴机密时,也建议对输出再做一次脱敏。

安全提示: PII 检测具有概率性;对高风险数据流需结合规则、测试与人工复核。

FAQ

Q: 为什么要和 LLM 一起用? A: 可以降低个人信息泄露到模型供应商、日志或下游工具的概率。

Q: 它只支持文本吗? A: 仓库主要提供 PII 匿名化工具链;具体支持范围与部署方式以官方文档为准。

Q: 应该集成在哪? A: 建议在请求入口做中间件,并在落库/向量化前对对话记录再做一次脱敏。


🙏

来源与感谢

GitHub:https://github.com/microsoft/presidio Owner avatar:https://avatars.githubusercontent.com/u/6154722?v=4 许可证(SPDX):MIT GitHub stars(已通过 api.github.com/repos/microsoft/presidio 核验):8,019 GitHub forks(已通过 api.github.com/repos/microsoft/presidio 核验):1,041

讨论

登录后参与讨论。
还没有评论,来写第一条吧。

相关资产