本地部署 AI
Tabby / Onyx / LibreChat + n8n 启动器 — 数据全留自己机器上。
这个 pack 装了什么
这个 pack 收齐了六个自托管 AI 资产,是团队为合规、成本或主权原因离开 SaaS 时反复出现的选择。三个是编码 / 聊天替代品(Tabby / LibreChat / Onyx),三个是基础设施块(n8n AI 启动器、本地 STT、模型网关)。
| # | 资产 | 类型 | 替代什么 |
|---|---|---|---|
| 1 | Tabby | 自托管服务 | GitHub Copilot |
| 2 | Onyx | 自托管服务 | Glean / 企业版 ChatGPT |
| 3 | LibreChat | 自托管 UI | 团队的 ChatGPT |
| 4 | n8n AI 启动器 | docker-compose | 带 AI 节点的 Zapier |
| 5 | Whisper STT(本地) | 服务 | Otter / Rev / 云 STT |
| 6 | 本地模型网关 | 服务 | LiteLLM 本地优先路由 |
为什么要装
2026 年默认 AI 栈假设你愿意把代码、聊天、客户数据发给 OpenAI / Anthropic / Google。多数 C 端应用没问题。但医疗 / 金融 / 法律等受监管行业、政府工作,或者团队的 IP 就是产品的,根本不能。这个 pack 给出组装好的答案:一个能在单工作站或小 K8s 集群跑的栈,给你 Copilot 级开发工具、ChatGPT 级聊天、企业搜索级检索 —— 全在自己硬件上。
三个头部替代品:
- Tabby 是 Copilot 的替代。自托管、IDE 指过来,你得到由本地模型(DeepSeek-Coder / Qwen-Coder 等)支撑的内联补全。一张 3090 多数语言能匹配 Copilot 质量。
- Onyx(前身 Danswer)是企业搜索的替代。接上你的 Confluence / Notion / GitHub / Slack,搭一个内部 ChatGPT 从你的文档里答问。向量 + 关键词混合搜索带引用。
- LibreChat 是团队 ChatGPT 替代。多用户、多模型(搭本地 Ollama 或云 API 兜底)、对话历史、prompt 库。要给团队一个「ChatGPT」又不想按席位付费,就用这个。
三个基础设施块补缺口。n8n 启动器给你 n8n + Postgres + Qdrant + 本地模型的 docker-compose —— 自家机器上的工作流自动化。本地 Whisper 让会议转写和语音备忘永不离开你的网。模型网关在本地和云模型间路由,本地搞不定时再回退到 Claude。
一条命令装齐
# 装整个 pack
tokrepo install pack/self-hosted-ai
# 或挑你真要的
tokrepo install tabby
tokrepo install onyx
tokrepo install librechat
tokrepo install n8n-ai-starter-kit
TokRepo CLI 装好 docker-compose 文件、环境模板,以及给你 AI 工具的规则 / subagent —— 告诉它什么时候调本地栈、什么时候上云。装完 docker compose up -d,服务在 localhost 就通了。
常见坑
- 别用 16GB 显存跑 70B 模型。模型大小对显卡。Tabby 的 DeepSeek-Coder-7B 12GB 卡能跑,补全足够。聊天用 4-bit Qwen-2.5-32B 在 24GB 是甜点。
- Onyx 连接器会静默限速。把 Onyx 指向 5 万页 Confluence 时,首次同步几小时起步,部分连接器会暂停。盯日志;前 24 小时别信 UI 进度条。
- n8n + AI 工作流会泄露凭据。启动器默认 Postgres 密码明文。改掉,并在暴露前把 n8n 放 Cloudflare Tunnel 或带认证的反代后面。
- LibreChat 默认权限扁平。开箱每个用户能看每个对话。上团队前先配 RBAC 和按用户的模型白名单。
- 备份不是自动的。自托管 = 自备份。给 LibreChat / Onyx 排 pg_dump,给 Tabby 模型缓存做快照;存储预算按活跃数据 3 倍算还原点。
跟其他 pack 的关系
这个 pack 跟两个 pack 天然搭配。MCP 服务器全家桶 给你协议层连接器(文件系统 / 浏览器 / 数据库 MCP server)路由经过你本地模型网关 —— 这样连 Claude Code 都能调你的本地服务。LLM 可观测性 这里比云 API 更重要,因为故障面是你自己的;那个 pack 里的 Langfuse 自托管版能干净接入 Onyx 和 LibreChat。
从零起的话,装顺序:1) LibreChat(即时用户价值);2) Tabby(开发者价值);3) Onyx(组织级搜索);4) 在上面建自动化时再装 n8n + 网关。
6 个资产打包就绪
常见问题
Tabby 免费吗?
免费。Tabby 开源 Apache 2.0,自托管 Community 版免费。有付费 Enterprise 版含 SSO、审计日志、SLA,但 Community 版功能完整够个人和小团队用。你只付跑它的 GPU 钱。Onyx / LibreChat / n8n 都是同模型 —— 全开源,可选付费。
Cursor 或 Codex CLI 能用吗?
自托管服务工具无关 —— Tabby 暴露 Copilot 兼容 API,任何支持 Copilot 的 IDE 都能接(VS Code / JetBrains / Vim)。LibreChat 是 web UI 工具独立。TokRepo CLI 装对应工具的配置(Cursor 规则 / AGENTS.md / Claude Code subagent)告诉 agent 本地服务存在。
Tabby 跟 Cursor + 本地模型怎么选?
Cursor 本地模型支持限于特定端点;Tabby 是为自托管代码补全专门设计的,带遥测、模型预热、真后端。要 IDE 无关、多团队自托管 Copilot,Tabby 赢。要 Cursor 的 UX 后面接本地模型,看这个 pack 里的本地模型网关 —— 能扮 Cursor 兼容端点。
跟 MCP 服务器全家桶 pack 有啥区别?
MCP 全家桶讲协议层连接器,让 AI 工具能读你的文件系统 / 浏览器 / 数据库。本地部署 AI 是把云 LLM / UI / IDE 助手整体替换成自家硬件上的服务。两者互补:MCP server 可配置成路由经过你本地模型网关,给你完全自有 agent 栈。
什么时候*不*该自托管?
延迟比主权更重要时(实时语音、小模型 sub-300ms 代码补全难);用量低到 GPU 划不来(每月 $100 API 调用比 4090 三年摊销便宜);或没运维支持搞备份、模型升级、和注定的凌晨 2 点 OOM。自托管是真运维活,预算要算上。