律师的 AI 合同审查工具包
面向公司法务、律所 associate 和独立律师:用 AI 审改合同、建条款库、处理 NDA/MSA 的十件套,全程考虑保密。归档 → OCR → 本地大模型(机密草稿不出本机)→ 条款 RAG → 调云端时的脱敏代理 → 电子签。按顺序装。
这个 pack 包含什么
这是给「不情愿地承认 AI 确实能在合同审查上省几小时、又被把 MSA 草稿粘进公网 chatbot 的合规风险吓退」的律师准备的栈。整套围绕一条原则建:文档越敏感、处理越本地化。云端大模型还在,但只能走脱敏代理、只能用于非机密或已经脱敏的内容。
本 kit 里没有任何东西是法律意见,也没有任何东西能替代律师的专业判断。这些是基础设施 — 让你这位律师能在机械性的部分(抽取当事人、找赔偿条款、标记缺失的通知条款)跑得更快,把可计费小时数留给真正需要专业判断的部分(管辖法纠纷、商业风险、客户策略)。
推荐安装顺序(收 → 审 → 条款库 → 改 → 出)
- Claude Code Agent: Legal Advisor — 针对法律文档和合规任务的子 agent profile。当编排器用:它知道什么时候要问文档类型、要抽取哪些字段、怎么组织 review 输出。不是律师的替代品;当成「会写第一稿的初级 paralegal」用。
- Papra — 极简自托管文档归档。所有传进来的合同先进这里。自托管 = 客户文档落在你自己的基础设施上,不在第三方 SaaS。按对手方、matter、状态打标签。
- Paperless-ngx — 带 OCR 和自动打标签的完整文档管理系统。Papra 不够用时(你有几百份已签约合同,要在正文里全文搜索而不只是文件名)就上 Paperless-ngx。
- Claude Official Skill: PDF — 在 Claude Code 里读、建、改 PDF。日常工具:打开对手方草稿、抽签字块、把批注写回同一份文件。
- Zerox — 为 AI 流水线设计的零样本 PDF OCR。专门处理「传真的复印的传真件」级别的烂扫描件,输出结构化文本可直接送给后续 LLM 审改,不用手工清洗。
- Jan — 完全本地、完全隐私的桌面 AI 应用。机密草稿真正住在这里做 review。不联网、不落云端日志。模型在你机器上跑、文档不出本机。
- Ollama — 跑 Jan(以及其它一切本地任务)背后的开源大模型。Llama 3.x 或 Qwen 合理量化版能很好地完成常规条款比对和抽取;前沿云端模型留给真正难的推理,并且走下面的脱敏代理。
- Cherry Studio Knowledge Base — 50+ 文件格式的本地 RAG。这是你的条款库:把你所在所偏好的赔偿条款语言、所有你签过的 MSA、你的家用 NDA 模板都喂进去。agent 用相似度检索先例,不用瞎猜。
- pasteguard — AI 工具的本地隐私代理。当某个任务确实需要前沿云端模型时,pasteguard 坐在你和 API 之间,在请求离开本机之前抹掉姓名、地址、金额和其它可配置的 pattern;响应回来时再还原。
- Documenso — 开源 DocuSign 替代品。改完定稿后,最终文件走一个你自托管的电子签平台。审计链路留在你自己的基础设施上,关于这个 matter 的痕迹不会落在你不控制的 SaaS 日志里。
它们怎么协同
对手方草稿 ─► Papra / Paperless-ngx (收件 + OCR + 归档)
│
▼
Claude PDF Skill / Zerox
(抽取文本 + 结构化)
│
▼
┌───── Legal Advisor agent ─────┐
│ (编排整个 review) │
│ ▲ │
│ │ 检索先例 │
│ └─ Cherry Studio(条款 RAG)│
└───────────────┬────────────────┘
▼
┌─ 本地审改路径 ─┐ ┌─ 云端路径(少用)─┐
│ Jan + Ollama │ │ pasteguard ──► API│
│ (机密文档) │ │ (脱敏→调用→还原) │
└────────┬───────┘ └────────┬─────────┘
└────────┬───────────────┘
▼
Documenso
(自托管电子签)
你会遇到的取舍
- 云端 vs 本地处理机密文档。云端前沿模型今天在长上下文法律推理上更强;本地模型在「不泄漏你客户的并购草稿」上压倒性更强。本 pack 偏本地,因为泄漏的代价(特免权放弃、过失追偿)是不对称的。默认本地;只在 pasteguard 后面、只在非敏感内容上用云端。
- AI 审改 vs 人工审改。AI 稳定地擅长找「该有但没有的东西」(缺通知条款、没管辖法)、抽结构化数据、比对两版草稿。它不稳定地擅长判断某处偏离是否重要 — 那还是律师的活。让 agent 做第一稿;输出永远不能不读就接受。
- 自托管 DMS vs Clio / iManage。Papra 和 Paperless-ngx 赢在数据主权和成本;输在和法律 tech 生态(计时、计费、利益冲突检查)的集成。已经在用托管 DMS 的话,留着它,本栈只挂一层 AI 增强进去。
- 一个本地模型 vs 前沿模型。7B–14B 本地模型在大多数条款级任务上够用。它会漏 200B+ 前沿模型能抓到的微妙之处。这对 triage 可以接受;作为终审不行。本 pack 假定你 — 这个人类律师 — 仍然是最后一步。
常见踩坑
- 用云端聊天导致特免权放弃的风险。把受特免权保护的内容粘进消费级 chatbot — 取决于管辖法和条款 — 可能构成向第三方披露。pasteguard 加本地优先的模型就是为了把这个风险去掉;不要因为觉得「多此一举」就跳过这两层。
- 盲信 AI 对辖区法的细节。前沿模型会自信地用纽约州的逻辑回答特拉华州的问题。永远先看 governing-law 条款,引用的规则永远去查原始文献核对。
- 把抽取当成判断。agent 标出一个不寻常的赔偿上限,不代表这个上限对当前交易就不合理。抽取是机械动作;定性风险是专业判断。在工作流里把两步分开。
- 条款库没有版本控制。Cherry Studio 装着你的先例语料。备份、版本化。如果一个 junior 不小心把对手方的机密条款喂进了你的库,下次交易里冒出来,你麻烦了。
- 跳过 OCR。直接对一份扫描 PDF 跑 LLM 是在烧 token 还产生垃圾抽取。先 Zerox 或 Paperless-ngx 的 OCR;再 LLM。
10 个资产打包就绪
常见问题
对一份机密合同用云端 LLM 到底合不合规?
取决于你的管辖法、服务商的条款(企业级 zero-retention 计划和消费级免费版完全是两回事)、以及保密义务的类型。可辩护的默认值:假设任何消费级 chatbot 都可能拿你的输入做训练或留存,把这件事当成对第三方披露,只对经 pasteguard 这类工具脱敏过的文档、或在合同里写明 zero-retention 的企业计划上才用云端模型。本 pack 偏本地优先,就是因为这个姿态从根上把这个问题绕开了。
我能不能把 agent 的审改结果当成终审?
不能。本 kit 里的任何工具 — 不论 Claude、Llama 还是任何现役前沿模型 — 都不应该是你正在出意见的合同的最后一双眼。它们在抽取、比对、找明显缺失上很强;在判断某处具体偏离是否构成商业或法律风险上不可靠。把 AI 输出当作初级 associate 的第一稿:有用、经常是对的、但永远不能不经你读就接受。
今晚就能在笔记本上跑起来的最小版本是什么?
三件套:Ollama(一条安装命令,拉一个 Llama 3 或 Qwen 量化版)+ Jan(和 Ollama 对话的桌面 UI)+ Claude Official Skill: PDF(你已经在用 Claude Code 的话)。这就能在桌面应用里拖入文档、做完全本地的条款比对和审改 — 还没有归档、没有条款库 RAG、没有电子签,但够你感受本地 LLM 审改是不是适合你的实务,再决定是否把剩下的搭起来。
为啥两个文档工具 Papra 和 Paperless-ngx 都要?
规模不一样。Papra 是极简归档 — 上手快、UI 友好,适合独立律师或小型 in-house 团队,只是要一个打了标签的合同收件箱。Paperless-ngx 是带 OCR、自动打标、正文全文搜索的完整 DMS — 每月十份合同时它过重,几千份时它必不可少。大多数律师从 Papra 起步、规模上来后迁到 Paperless-ngx;有些人两套都跑(Papra 跑活跃 matter、Paperless-ngx 当长期档案)。
Cherry Studio 的条款库和 Brightflag、Heretto 这种先例管理产品比怎么样?
Cherry Studio 是本地 RAG 工具,不是法律 tech 产品。它能吃你所偏好条款的 Word 文件、过往已执行协议、家用 playbook,在 review 时检索相关先例。它不处理利益冲突检查、计费规则,或专门的先例管理产品自带的工作流功能。适用场景:独立律师和小型 in-house 团队,想要不签企业级法律 tech 合同的、私有、本地的先例搜索。