简介
用 Microsoft Presidio 在文本中检测并匿名化 PII,再把脱敏后的内容交给 LLM,降低数据泄露风险;同时支持 pip 安装与 Docker 部署,便于在生产链路稳定落地。
- 适合谁(Best for): 会处理客户数据的 LLM 应用,需要在 prompt/日志/向量化前做 PII 脱敏的团队
- 兼容工具(Works with): Python、文本处理流水线、用于 prompt/日志/索引前的预处理;也可用 Docker 服务化
- 安装时间(Setup time): 18 分钟
量化信息
- 跑通约 18 分钟(pip 安装 + 按需下载一个 NLP 模型)
- GitHub stars + forks(已核验):见「来源与感谢」
- 常见做法:输入脱敏 + 输出脱敏 + 日志脱敏(3 个强制点)
实战要点
生产落地要把 PII 脱敏当成“策略”:明确你领域里的 PII 范围,为非敏感标识符建立白名单,并用接近真实的数据写回归测试。把 Presidio 放在 prompt 与向量化之前做预处理;用户粘贴机密时,也建议对输出再做一次脱敏。
安全提示: PII 检测具有概率性;对高风险数据流需结合规则、测试与人工复核。
FAQ
Q: 为什么要和 LLM 一起用? A: 可以降低个人信息泄露到模型供应商、日志或下游工具的概率。
Q: 它只支持文本吗? A: 仓库主要提供 PII 匿名化工具链;具体支持范围与部署方式以官方文档为准。
Q: 应该集成在哪? A: 建议在请求入口做中间件,并在落库/向量化前对对话记录再做一次脱敏。