TOKREPO · 主题包
稳定

本机跑 LLM

Ollama / GPT4All / MLC-LLM / Jan / Open WebUI / Text Generation WebUI / TGI — "不要 API key,用我的 GPU" 全方案。

7 个资产

这个 pack 装了什么

# 运行器 最适合 后端
1 Ollama Mac/Linux/Windows 一行 CLI llama.cpp
2 GPT4All 桌面应用,不要 GPU llama.cpp + GGUF
3 MLC-LLM iOS / Android / WebGPU TVM 编译器
4 Jan 桌面版 ChatGPT 替代 llama.cpp + 远程 API
5 Open WebUI 给任意 OpenAI 兼容运行器套 ChatGPT 风格 UI 反向代理 Ollama/vLLM/TGI
6 Text Generation WebUI 研究级 UI,可做 LoRA 训练 transformers + ExLlama + llama.cpp
7 Hugging Face TGI 生产级服务,支持连续批处理 Rust + Python,多 GPU

七个运行器把全光谱覆盖了:从「想在笔记本上有个聊天窗口」到「Llama 3 要塞在负载均衡后撑 10k QPS」。

为什么 2026 年要本地化

三股力量把云 API 和自托管推理的成本差抹平了。

第一,模型质量。Meta(Llama)、Mistral、Qwen、DeepSeek 的开源权重在多数推理和编码任务上已经追上 GPT-4 级别。不付 OpenAI 钱不再意味着质量打折。

第二,硬件。一张 RTX 4090 用 llama.cpp 的 GGUF Q4 量化跑 Llama 3 70B 速度可用。Apple Silicon 终于上了统一内存 —— M3 Max 跑 70B 不发热掉速。中端游戏本也能流畅跑 8B。

第三,隐私合规。医疗、法律、金融、欧盟 GDPR 圈的公司不能把 PII 发给第三方 API,本地推理是唯一合法路径。编码 agent 同理 —— 多数企业禁止 Cursor/Copilot 接触私有仓库。

一条命令装齐

# 装整个 pack
tokrepo install pack/local-llm-runners

# 或者只装真正需要的那个
tokrepo install ollama
tokrepo install open-webui
tokrepo install tgi

每个资产的 TokRepo 页面都打包好了安装命令、推荐配置,以及主流 Llama / Qwen / DeepSeek 权重的 model-pull 命令。

常见坑

  • 显存账要算清楚:「7B」模型 FP16 大约 14 GB,Q4 大约 4 GB。下载前先看量化后缀
  • 上下文窗口 vs 显存:7B 模型开 32k 上下文,KV cache 可能跟权重一样大。OOM 就先把上下文压低
  • Open WebUI 套在 Ollama 上:Open WebUI 走 OpenAI 协议,必须在 Ollama 上开 OpenAI 兼容端点(OLLAMA_HOST=0.0.0.0),多数教程跳过了这步
  • TGI vs vLLM:HuggingFace 分片权重选 TGI,纯吞吐选 vLLM。不要因为 TGI 老就默认选它
  • 模型许可:Llama 3 是宽松但不是 MIT。商用部署前看许可证,做下游 fine-tune 尤其要看

跟其他 pack 的关系

local-llm-runners 是运行时层。要端到端可用,要搭配:

  • AI 第二大脑 pack —— Logseq + Khoj 把笔记索引进本地 Ollama
  • LLM 评测 & 护栏 —— 验证本地模型相对闭源基线没退化
  • 文档 AI 流水线 —— 把 PDF 喂进本地推理而不是发给 vendor

三个 pack 凑起来就是完全断网也能跑、不回拨厂商的知识栈。边界清楚:运行器做推理,评测 pack 打分,第二大脑 pack 做检索,文档流水线把文件切块。按隐私和延迟目标自由组合,下层垫 Ollama 或 TGI 当引擎。

怎么挑哪个运行器

  • 单人笔记本、主要聊天:Ollama + Jan 当 UI。五分钟装好,GGUF Q4 权重,飞机上离线也能跑
  • VPN 后团队共享 GPU 服务器:TGI 或 vLLM 套在负载均衡后,Open WebUI 当团队前端 + SSO。一个模型多用户用,省掉按座位的 OpenAI 账单
  • 移动端 demo 或纯浏览器推理:MLC-LLM。把权重编译到 WebGPU/Metal/Vulkan,完全无服务器跑 —— 离线移动端原型最好用
  • 研究实验室在消费级 GPU 上做 fine-tune:Text Generation WebUI。内建 LoRA 训练、ExLlama 后端,还能加载 HuggingFace 每周丢出来那些半坏的 checkpoint
安装 · 一行命令
$ tokrepo install pack/local-llm-runners
丢给 agent,或粘到终端
包内含什么

7 个资产打包就绪

Skill#01
Ollama Model Library — Best AI Models for Local Use

Curated guide to the best models available on Ollama for coding, chat, and reasoning. Compare Llama, Mistral, Gemma, Phi, and Qwen models for local AI development.

by Skill Factory·160 views
$ tokrepo install ollama-model-library-best-ai-models-local-use-4cecf968
Config#02
GPT4All — Run LLMs Privately on Your Desktop

GPT4All runs large language models privately on everyday desktops and laptops without GPUs or API calls. 77.2K+ GitHub stars. Desktop app + Python SDK, LocalDocs for private data. MIT licensed.

by AI Open Source·128 views
$ tokrepo install gpt4all-run-llms-privately-your-desktop-f493abd9
Script#03
MLC-LLM — Universal LLM Deployment Engine

Deploy any LLM on any hardware — phones, browsers, GPUs, CPUs. Compiles models for native performance on iOS, Android, WebGPU, CUDA, Metal, and Vulkan. 22K+ stars.

by Script Depot·102 views
$ tokrepo install mlc-llm-universal-llm-deployment-engine-735f5a27
Config#04
Text Generation WebUI — Local LLM Chat Interface

Text Generation WebUI is a Gradio interface for running LLMs locally. 46.4K+ GitHub stars. Multiple backends, vision, training, image gen, OpenAI-compatible API. 100% offline.

by AI Open Source·104 views
$ tokrepo install text-generation-webui-local-llm-chat-interface-11107806
Config#05
Jan — Offline AI Desktop App with Full Privacy

Jan is an open-source ChatGPT alternative that runs LLMs locally with full privacy. 41.4K+ GitHub stars. Desktop app for Windows/macOS/Linux, OpenAI-compatible API, MCP support. Apache 2.0.

by AI Open Source·103 views
$ tokrepo install jan-offline-ai-desktop-app-full-privacy-7b703194
Script#06
Open WebUI — Self-Hosted AI Chat Interface

User-friendly, self-hosted AI chat interface. Supports Ollama, OpenAI, Anthropic, and any OpenAI-compatible API. RAG, web search, voice, image gen, and plugins. 129K+ stars.

by Script Depot·96 views
$ tokrepo install open-webui-self-hosted-ai-chat-interface-5d37ffb8
Script#07
Text Generation Inference (TGI) — Hugging Face Production LLM Server

TGI is Hugging Face's production-grade LLM inference server. It powers HF Inference Endpoints with continuous batching, tensor parallelism, quantization, and OpenAI-compatible APIs — handling thousands of requests per second.

by Hugging Face·161 views
$ tokrepo install text-generation-inference-tgi-hugging-face-production-llm-e08ad222
FAQ

常见问题

这套真免费?还是有隐藏成本?

七个运行器全开源免费。成本是硬件 —— 选模型权重要看你 GPU 显存够不够。消费级 RTX 3090/4090(24GB)跑 7B-13B 流畅,70B 配合激进量化可用。M 系列 Mac 走 Metal。要 GPU 算力可以租 Runpod 或 Vast.ai,长跑成本远低于 OpenAI API。

Ollama 还是 Jan 该从哪个开始?

你常驻终端、想要 OpenAI 兼容 HTTP 给应用调用,选 Ollama。想要一键桌面聊天像 ChatGPT 那样的体验,选 Jan。很多人两个一起跑:Ollama 当引擎,Jan 或 Open WebUI 当 UI。它们共享 Ollama 本地的 GGUF 模型库。

能搭 Cursor / Codex CLI 用吗?

可以 —— Cursor 和 Codex CLI 都接受任意 OpenAI 兼容端点。在设置里把 URL 指向 http://localhost:11434/v1(Ollama)或对应端口。Cursor 设置里叫 Custom OpenAI URL。注意:本地 7B 跟 GPT-4 在长上下文重构上有差距,要生产级代码改动建议用 70B+。

跟 LLM 评测 & 护栏 pack 有啥区别?

本 pack 是负责跑模型的运行时,评测 pack 是给模型输出打分的。两者互补:先在这装个运行器,然后用 DeepEval/Promptfoo 跑分,确保把云模型换成本地模型不会退化。多数想本地化的团队两个 pack 都要装。

装完最大的坑是什么?

上下文窗口没设到符合显存预算。默认值保守(2k-4k),但如果你加载一个 32k 训练的模型再喂满上下文,KV cache 会爆掉,跑一半 OOM。上线前永远在真实负载下看一眼 nvidia-smi

更多主题包

12 个主题包 · 80+ 精选资产

回首页浏览全部精选合集

返回主题包总览