本机跑 LLM
Ollama / GPT4All / MLC-LLM / Jan / Open WebUI / Text Generation WebUI / TGI — "不要 API key,用我的 GPU" 全方案。
这个 pack 装了什么
| # | 运行器 | 最适合 | 后端 |
|---|---|---|---|
| 1 | Ollama | Mac/Linux/Windows 一行 CLI | llama.cpp |
| 2 | GPT4All | 桌面应用,不要 GPU | llama.cpp + GGUF |
| 3 | MLC-LLM | iOS / Android / WebGPU | TVM 编译器 |
| 4 | Jan | 桌面版 ChatGPT 替代 | llama.cpp + 远程 API |
| 5 | Open WebUI | 给任意 OpenAI 兼容运行器套 ChatGPT 风格 UI | 反向代理 Ollama/vLLM/TGI |
| 6 | Text Generation WebUI | 研究级 UI,可做 LoRA 训练 | transformers + ExLlama + llama.cpp |
| 7 | Hugging Face TGI | 生产级服务,支持连续批处理 | Rust + Python,多 GPU |
七个运行器把全光谱覆盖了:从「想在笔记本上有个聊天窗口」到「Llama 3 要塞在负载均衡后撑 10k QPS」。
为什么 2026 年要本地化
三股力量把云 API 和自托管推理的成本差抹平了。
第一,模型质量。Meta(Llama)、Mistral、Qwen、DeepSeek 的开源权重在多数推理和编码任务上已经追上 GPT-4 级别。不付 OpenAI 钱不再意味着质量打折。
第二,硬件。一张 RTX 4090 用 llama.cpp 的 GGUF Q4 量化跑 Llama 3 70B 速度可用。Apple Silicon 终于上了统一内存 —— M3 Max 跑 70B 不发热掉速。中端游戏本也能流畅跑 8B。
第三,隐私合规。医疗、法律、金融、欧盟 GDPR 圈的公司不能把 PII 发给第三方 API,本地推理是唯一合法路径。编码 agent 同理 —— 多数企业禁止 Cursor/Copilot 接触私有仓库。
一条命令装齐
# 装整个 pack
tokrepo install pack/local-llm-runners
# 或者只装真正需要的那个
tokrepo install ollama
tokrepo install open-webui
tokrepo install tgi
每个资产的 TokRepo 页面都打包好了安装命令、推荐配置,以及主流 Llama / Qwen / DeepSeek 权重的 model-pull 命令。
常见坑
- 显存账要算清楚:「7B」模型 FP16 大约 14 GB,Q4 大约 4 GB。下载前先看量化后缀
- 上下文窗口 vs 显存:7B 模型开 32k 上下文,KV cache 可能跟权重一样大。OOM 就先把上下文压低
- Open WebUI 套在 Ollama 上:Open WebUI 走 OpenAI 协议,必须在 Ollama 上开 OpenAI 兼容端点(
OLLAMA_HOST=0.0.0.0),多数教程跳过了这步 - TGI vs vLLM:HuggingFace 分片权重选 TGI,纯吞吐选 vLLM。不要因为 TGI 老就默认选它
- 模型许可:Llama 3 是宽松但不是 MIT。商用部署前看许可证,做下游 fine-tune 尤其要看
跟其他 pack 的关系
local-llm-runners 是运行时层。要端到端可用,要搭配:
- 配 AI 第二大脑 pack —— Logseq + Khoj 把笔记索引进本地 Ollama
- 配 LLM 评测 & 护栏 —— 验证本地模型相对闭源基线没退化
- 配 文档 AI 流水线 —— 把 PDF 喂进本地推理而不是发给 vendor
三个 pack 凑起来就是完全断网也能跑、不回拨厂商的知识栈。边界清楚:运行器做推理,评测 pack 打分,第二大脑 pack 做检索,文档流水线把文件切块。按隐私和延迟目标自由组合,下层垫 Ollama 或 TGI 当引擎。
怎么挑哪个运行器
- 单人笔记本、主要聊天:Ollama + Jan 当 UI。五分钟装好,GGUF Q4 权重,飞机上离线也能跑
- VPN 后团队共享 GPU 服务器:TGI 或 vLLM 套在负载均衡后,Open WebUI 当团队前端 + SSO。一个模型多用户用,省掉按座位的 OpenAI 账单
- 移动端 demo 或纯浏览器推理:MLC-LLM。把权重编译到 WebGPU/Metal/Vulkan,完全无服务器跑 —— 离线移动端原型最好用
- 研究实验室在消费级 GPU 上做 fine-tune:Text Generation WebUI。内建 LoRA 训练、ExLlama 后端,还能加载 HuggingFace 每周丢出来那些半坏的 checkpoint
7 个资产打包就绪
常见问题
这套真免费?还是有隐藏成本?
七个运行器全开源免费。成本是硬件 —— 选模型权重要看你 GPU 显存够不够。消费级 RTX 3090/4090(24GB)跑 7B-13B 流畅,70B 配合激进量化可用。M 系列 Mac 走 Metal。要 GPU 算力可以租 Runpod 或 Vast.ai,长跑成本远低于 OpenAI API。
Ollama 还是 Jan 该从哪个开始?
你常驻终端、想要 OpenAI 兼容 HTTP 给应用调用,选 Ollama。想要一键桌面聊天像 ChatGPT 那样的体验,选 Jan。很多人两个一起跑:Ollama 当引擎,Jan 或 Open WebUI 当 UI。它们共享 Ollama 本地的 GGUF 模型库。
能搭 Cursor / Codex CLI 用吗?
可以 —— Cursor 和 Codex CLI 都接受任意 OpenAI 兼容端点。在设置里把 URL 指向 http://localhost:11434/v1(Ollama)或对应端口。Cursor 设置里叫 Custom OpenAI URL。注意:本地 7B 跟 GPT-4 在长上下文重构上有差距,要生产级代码改动建议用 70B+。
跟 LLM 评测 & 护栏 pack 有啥区别?
本 pack 是负责跑模型的运行时,评测 pack 是给模型输出打分的。两者互补:先在这装个运行器,然后用 DeepEval/Promptfoo 跑分,确保把云模型换成本地模型不会退化。多数想本地化的团队两个 pack 都要装。
装完最大的坑是什么?
上下文窗口没设到符合显存预算。默认值保守(2k-4k),但如果你加载一个 32k 训练的模型再喂满上下文,KV cache 会爆掉,跑一半 OOM。上线前永远在真实负载下看一眼 nvidia-smi。