TOKREPO · 主题包

稳定

本地优先 AI — 数据不出本机

九个开源工具，搭一套完整 AI 工作流 — 聊天、个人文档 RAG、写代码、语音转写、图片生成 — 全在自己机器上跑。不用 OpenAI key、不烧 token、日记不被拿去训练别人的模型。

9 个资产

关于这个主题包

这个 pack 包含什么

这是你想清楚「我的日记 / 客户录音 / 半成品代码不要进别人训练集」之后会搭的那一套。每个工具都开源、活跃维护、模型下载完后完全不需要外网就能用。

动机基本不是抽象的「隐私」三个字。是三件具体的事叠在一起：(1) 月度 token 账单跟你的好奇心成正比涨；(2) 服务条款随时改；(3) 突然意识到你已经把整个收件箱粘到一个公开承认会做索引的聊天框里了。本地一套永久解决这三件事。

这套 pack 不等于 TokRepo 上已有的 self-hosted-ai pack —— 那一套是为「在自己服务器上跑 SaaS」准备的（Tabby / Onyx / LibreChat / n8n）。这一套是为个人准备的：希望在自己电脑上有个私有 AI，包括非开发者也用得上的会议转写、笔记 app。

它们怎么协同

        ┌─────────────────────────────────────┐
        │   你的笔记本（无外发请求）            │
        └─────────────────────────────────────┘
                       │
  ┌────────────────────┴────────────────────┐
  │                                          │
Ollama / GPT4All  ◄──── OpenAI 兼容 API ──────────┐
  (model runner)                                  │
  │                                                │
  ├─► Open WebUI  ─── 浏览器里聊天                  │
  │                                                │
  ├─► Continue    ─── VS Code 写代码               │
  │                                                │
  ├─► Khoj        ─── 跟你的笔记对话 ◄── Joplin     │
  │                                                │
  └─► Meetily     ─── 会议摘要 ◄── Faster Whisper   │
                                                   │
ComfyUI ── 独立运行（自带模型 runtime）─────────────┘

关键技巧：所有 6 个客户端工具（Open WebUI、Continue、Khoj、Meetily 加你后续接的任何东西）都指向同一个 Ollama 端点。模型只下一次，每个 app 复用。要看的预算是磁盘和内存，不是 API 配额。

你会遇到的取舍

云端质量 vs 本地质量 —— 实话讲：GPT-5 / Claude 4.5 在前沿推理、长上下文、不熟代码库的代码生成上仍然碾压任何 8B 量化本地模型。本地赢在隐私、短 prompt 延迟、规模化的成本、离线可用。正确心智模型是「日常 80% 用本地，难的 20% 用云」，而不是「本地替代云」。
Apple Silicon vs NVIDIA —— M2/M3/M4 + 32 GB 以上统一内存，13B 模型走 Metal/MPS 跑得很舒服。NVIDIA + 16 GB 以上显存在大模型上更快，但更吵、更热、更贵。这套 pack 大部分在 2K 美元的 Mac 上都能跑；ComfyUI 和 70B 模型才会真正需要独立 GPU。
量化 vs 全精度 —— Ollama 默认拉 Q4_K_M（4-bit 量化）。精度大约掉 2-3%，换 4x 内存节省。永远先用量化版。只在你能测出有意义的质量差距时再上全精度。

常见踩坑

内存炸 —— Open WebUI + Continue + Khoj 同时开，每个都在内存里压着模型，16 GB 机器必 OOM。配 OLLAMA_MAX_LOADED_MODELS=1，让 Ollama 自己换进换出。
模型文件巨大 —— Llama 3.1 70B 占盘 40 GB。在 ollama pull 所有看着有意思的东西之前先想好存储预算。维护一个删除清单。
MPS vs CUDA 混乱 —— 大部分安装指南假设你用 NVIDIA。Apple Silicon 上要找每个工具的 -metal 或 mps 变种。ComfyUI 尤其要装对 Python wheel。
「这件事我还是得用云端」 —— 别纠结，认了。把前沿难度的 query 通过一个隐私友好的客户端（关掉日志的 LibreChat、或者只用 API + Bearer 不带 organization ID）路由给 Claude/GPT，是理智的混合方案。
语音 agent 野心 —— Meetily + Faster Whisper 处理批量转写很漂亮。真正的实时对话语音（< 500ms 延迟 + 可打断）目前本地仍然非常难。第一周别给自己许这个愿。

安装 · 一行命令

$ tokrepo install pack/local-first-ai

丢给 agent，或粘到终端

包内含什么

9 个资产打包就绪

Skill#01

Ollama — Run LLMs Locally

Run large language models locally on your machine. Supports Llama 3, Mistral, Gemma, Phi, and dozens more. One-command install, OpenAI-compatible API.

by Script Depot·384 views

$ tokrepo install ollama-run-llms-locally-0eefb7ad

Skill#02

GPT4All — Run LLMs Privately on Your Desktop

GPT4All runs large language models privately on everyday desktops and laptops without GPUs or API calls. 77.2K+ GitHub stars. Desktop app + Python SDK, LocalDocs for private data. MIT licensed.

by AI Open Source·353 views

$ tokrepo install gpt4all-run-llms-privately-your-desktop-f493abd9

Skill#03

Open WebUI — Self-Hosted AI Chat Interface

User-friendly, self-hosted AI chat interface. Supports Ollama, OpenAI, Anthropic, and any OpenAI-compatible API. RAG, web search, voice, image gen, and plugins. 129K+ stars.

by Script Depot·417 views

$ tokrepo install open-webui-self-hosted-ai-chat-interface-5d37ffb8

Skill#04

Continue — Open-Source AI Code Assistant

Open-source AI code assistant for VS Code and JetBrains. Tab autocomplete, chat, inline editing with any model — OpenAI, Anthropic, Ollama, or self-hosted.

by Continue·403 views

$ tokrepo install continue-open-source-ai-code-assistant-8040c0e5

Skill#05

Khoj — Your AI Second Brain

Khoj is a personal AI app for chat, search, and knowledge management. 33.8K+ stars. Multi-LLM, docs, Obsidian, WhatsApp, custom agents. AGPL-3.0.

by AI Open Source·259 views

$ tokrepo install khoj-your-ai-second-brain-4cbd3b7b

Skill#06

Faster Whisper — 4x Faster Speech-to-Text

Faster Whisper is a reimplementation of OpenAI Whisper using CTranslate2, up to 4x faster with less memory. 21.8K+ GitHub stars. GPU/CPU, 8-bit quantization, word timestamps, VAD. MIT licensed.

by Script Depot·374 views

$ tokrepo install faster-whisper-4x-faster-speech-text-24576b2c

Skill#07

Meetily — Privacy-First AI Meeting Assistant with Local Transcription

An open-source, self-hosted AI meeting assistant that provides real-time transcription, speaker diarization, and local summarization using Whisper and Ollama, with no cloud dependency.

by AI Open Source·294 views

$ tokrepo install meetily-privacy-first-ai-meeting-assistant-local-3270e558

Skill#08

ComfyUI — Node-Based AI Image Generation

The most powerful modular AI image generation GUI with a node/graph editor. Supports Stable Diffusion, Flux, SDXL, ControlNet, and 1000+ custom nodes. 107K+ stars.

by AI Open Source·422 views

$ tokrepo install comfyui-node-based-ai-image-generation-02888d06

Skill#09

Joplin — Privacy-Focused Open-Source Note Taking App

Joplin is a privacy-focused note taking app with sync capabilities for Windows, macOS, Linux, Android, and iOS. Markdown-based, end-to-end encrypted sync, supports Nextcloud, Dropbox, OneDrive, S3, and WebDAV. The open-source alternative to Evernote.

by Script Depot·322 views

$ tokrepo install joplin-privacy-focused-open-source-note-taking-app-42403801

常见问题

从 Hugging Face / Ollama 拉模型，本地 AI 还算真隐私吗？

算 —— 模型下载是一次性拉权重。文件落盘以后，模型完全离线跑。任何 prompt、文档、转写记录都不会发回 Hugging Face 或 Ollama 服务器。不放心的话用 Little Snitch 或 lsof -i 自己验证。信任边界是开源模型本身，不是分发渠道。

搭这套到底需要什么硬件？

舒服级别：Apple Silicon Mac + 32 GB 统一内存，或者 Windows/Linux + 16 GB 以上显存的 NVIDIA GPU。最低可用：16 GB 内存的 Mac 跑 7-8B 模型和 Faster Whisper 没问题，但你得一次只开一个模型。ComfyUI（出图）是最吃硬件的部分；其它都能在四年前的笔记本上跑起来。

这套跟 TokRepo 已有的 self-hosted-ai pack 有什么不同？

self-hosted-ai 是 dev-infra 角度：Tabby（编码服务）、Onyx（RAG-as-a-Service）、LibreChat（多用户聊天）、n8n（工作流自动化）。那是你想给团队部署一个私有 ChatGPT 时往服务器上装的东西。这一套是个人角度：Open WebUI 个人聊天、Khoj 个人笔记 RAG、Meetily 自己的会议、ComfyUI 自己的出图。解决的是不同问题，没有任何重叠的 pick。

Llama 3 / Mistral / Qwen — 第一个该拉哪个模型？

聊天和通用：llama3.1:8b-instruct-q4_K_M（4.7 GB，快，意外地好用）。Continue 写代码：qwen2.5-coder:7b（4.7 GB，同尺寸下代码比 Llama 强）。Khoj 做 RAG：同样的 Llama 3.1 8B 够用。先别碰 70B，等你真测出 8B 在实际任务上不行了再说 — 大多数人用不上。

还能用 Claude 或 GPT 做难的事吗？

当然，应该用。这套的意义不是原教旨主义 — 而是默认走本地。遇到 70B 量化明显搞不定的问题（陌生大仓的深度重构、前沿推理、冷门语言），那一个 query 走前沿模型。混合方案才是现实终点；纯本地包打天下是玩家陷阱。

更多主题包

12 个主题包 · 80+ 精选资产

回首页浏览全部精选合集

返回主题包总览