本地优先 AI — 数据不出本机
九个开源工具,搭一套完整 AI 工作流 — 聊天、个人文档 RAG、写代码、语音转写、图片生成 — 全在自己机器上跑。不用 OpenAI key、不烧 token、日记不被拿去训练别人的模型。
这个 pack 包含什么
这是你想清楚「我的日记 / 客户录音 / 半成品代码不要进别人训练集」之后会搭的那一套。每个工具都开源、活跃维护、模型下载完后完全不需要外网就能用。
动机基本不是抽象的「隐私」三个字。是三件具体的事叠在一起:(1) 月度 token 账单跟你的好奇心成正比涨;(2) 服务条款随时改;(3) 突然意识到你已经把整个收件箱粘到一个公开承认会做索引的聊天框里了。本地一套永久解决这三件事。
这套 pack 不等于 TokRepo 上已有的 self-hosted-ai pack —— 那一套是为「在自己服务器上跑 SaaS」准备的(Tabby / Onyx / LibreChat / n8n)。这一套是为个人准备的:希望在自己电脑上有个私有 AI,包括非开发者也用得上的会议转写、笔记 app。
推荐安装顺序
- Ollama — model runner,从这里开始。一行命令装(
curl -fsSL ollama.com/install.sh | sh),ollama pull llama3.1拉模型,在localhost:11434暴露 OpenAI 兼容 API。后面所有工具都指向它。 - GPT4All — 带 GUI 的 model runner。如果不常进终端,用这个代替(或并装)Ollama。同样的事,对非开发者更友好。
- Open WebUI — 本地 ChatGPT 替代品。开箱即对接 Ollama,多轮对话、上传文件做 RAG、网页搜索插件都支持。「我就想问个问题」80% 的场景在这里发生。
- Continue — 本地编码助手,VS Code 和 JetBrains 都有。配置成调本地 Ollama 而不是 Copilot 服务器。内联编辑、对话、重构 — 全部在本机。比 Copilot 慢,但你的私仓不出机器。
- Khoj — AI second brain。索引你的 Markdown 笔记、PDF、org-mode、甚至 Notion 导出,然后通过本地 LLM 跟它聊。这是给你生活的 RAG 层,不是给代码库的。
- Faster Whisper — 语音转文字。比官方 Whisper 快 4 倍,CPU/GPU 都能跑,精度跟 OpenAI Whisper 一样。丢音频进去,吐文本出来。下一个工具的基础。
- Meetily — 隐私优先的会议助手。本地录音、本地 Whisper 转写、本地 LLM 摘要。Zoom/Meet 录音不出云。
- ComfyUI — 基于 Stable Diffusion 的本地出图。节点式界面,Apple Silicon 和 CUDA 都快,能跑 SDXL / Flux / SD3。没有 prompt 日志、没有内容审查、没有次数上限。
- Joplin — 隐私笔记 app,可选端到端加密。这里是你本地 AI 要读的原始素材。Markdown、插件、用自己的存储跨设备同步。
它们怎么协同
┌─────────────────────────────────────┐
│ 你的笔记本(无外发请求) │
└─────────────────────────────────────┘
│
┌────────────────────┴────────────────────┐
│ │
Ollama / GPT4All ◄──── OpenAI 兼容 API ──────────┐
(model runner) │
│ │
├─► Open WebUI ─── 浏览器里聊天 │
│ │
├─► Continue ─── VS Code 写代码 │
│ │
├─► Khoj ─── 跟你的笔记对话 ◄── Joplin │
│ │
└─► Meetily ─── 会议摘要 ◄── Faster Whisper │
│
ComfyUI ── 独立运行(自带模型 runtime)─────────────┘
关键技巧:所有 6 个客户端工具(Open WebUI、Continue、Khoj、Meetily 加你后续接的任何东西)都指向同一个 Ollama 端点。模型只下一次,每个 app 复用。要看的预算是磁盘和内存,不是 API 配额。
你会遇到的取舍
- 云端质量 vs 本地质量 —— 实话讲:GPT-5 / Claude 4.5 在前沿推理、长上下文、不熟代码库的代码生成上仍然碾压任何 8B 量化本地模型。本地赢在隐私、短 prompt 延迟、规模化的成本、离线可用。正确心智模型是「日常 80% 用本地,难的 20% 用云」,而不是「本地替代云」。
- Apple Silicon vs NVIDIA —— M2/M3/M4 + 32 GB 以上统一内存,13B 模型走 Metal/MPS 跑得很舒服。NVIDIA + 16 GB 以上显存在大模型上更快,但更吵、更热、更贵。这套 pack 大部分在 2K 美元的 Mac 上都能跑;ComfyUI 和 70B 模型才会真正需要独立 GPU。
- 量化 vs 全精度 —— Ollama 默认拉 Q4_K_M(4-bit 量化)。精度大约掉 2-3%,换 4x 内存节省。永远先用量化版。只在你能测出有意义的质量差距时再上全精度。
常见踩坑
- 内存炸 —— Open WebUI + Continue + Khoj 同时开,每个都在内存里压着模型,16 GB 机器必 OOM。配
OLLAMA_MAX_LOADED_MODELS=1,让 Ollama 自己换进换出。 - 模型文件巨大 —— Llama 3.1 70B 占盘 40 GB。在
ollama pull所有看着有意思的东西之前先想好存储预算。维护一个删除清单。 - MPS vs CUDA 混乱 —— 大部分安装指南假设你用 NVIDIA。Apple Silicon 上要找每个工具的
-metal或mps变种。ComfyUI 尤其要装对 Python wheel。 - 「这件事我还是得用云端」 —— 别纠结,认了。把前沿难度的 query 通过一个隐私友好的客户端(关掉日志的 LibreChat、或者只用 API + Bearer 不带 organization ID)路由给 Claude/GPT,是理智的混合方案。
- 语音 agent 野心 —— Meetily + Faster Whisper 处理批量转写很漂亮。真正的实时对话语音(< 500ms 延迟 + 可打断)目前本地仍然非常难。第一周别给自己许这个愿。
9 个资产打包就绪
常见问题
从 Hugging Face / Ollama 拉模型,本地 AI 还算真隐私吗?
算 —— 模型下载是一次性拉权重。文件落盘以后,模型完全离线跑。任何 prompt、文档、转写记录都不会发回 Hugging Face 或 Ollama 服务器。不放心的话用 Little Snitch 或 lsof -i 自己验证。信任边界是开源模型本身,不是分发渠道。
搭这套到底需要什么硬件?
舒服级别:Apple Silicon Mac + 32 GB 统一内存,或者 Windows/Linux + 16 GB 以上显存的 NVIDIA GPU。最低可用:16 GB 内存的 Mac 跑 7-8B 模型和 Faster Whisper 没问题,但你得一次只开一个模型。ComfyUI(出图)是最吃硬件的部分;其它都能在四年前的笔记本上跑起来。
这套跟 TokRepo 已有的 self-hosted-ai pack 有什么不同?
self-hosted-ai 是 dev-infra 角度:Tabby(编码服务)、Onyx(RAG-as-a-Service)、LibreChat(多用户聊天)、n8n(工作流自动化)。那是你想给团队部署一个私有 ChatGPT 时往服务器上装的东西。这一套是个人角度:Open WebUI 个人聊天、Khoj 个人笔记 RAG、Meetily 自己的会议、ComfyUI 自己的出图。解决的是不同问题,没有任何重叠的 pick。
Llama 3 / Mistral / Qwen — 第一个该拉哪个模型?
聊天和通用:llama3.1:8b-instruct-q4_K_M(4.7 GB,快,意外地好用)。Continue 写代码:qwen2.5-coder:7b(4.7 GB,同尺寸下代码比 Llama 强)。Khoj 做 RAG:同样的 Llama 3.1 8B 够用。先别碰 70B,等你真测出 8B 在实际任务上不行了再说 — 大多数人用不上。
还能用 Claude 或 GPT 做难的事吗?
当然,应该用。这套的意义不是原教旨主义 — 而是默认走本地。遇到 70B 量化明显搞不定的问题(陌生大仓的深度重构、前沿推理、冷门语言),那一个 query 走前沿模型。混合方案才是现实终点;纯本地包打天下是玩家陷阱。