[{"data":1,"prerenderedAt":-1},["ShallowReactive",2],{"pack-detail-local-first-ai-zh":3,"seo:pack:local-first-ai:zh":85},{"code":4,"message":5,"data":6},200,"操作成功",{"pack":7},{"slug":8,"icon":9,"tone":10,"status":11,"status_label":12,"title":13,"description":14,"items":15,"install_cmd":84},"local-first-ai","🔒","#1E40AF","new","本周新建","本地优先 AI — 数据不出本机","九个开源工具，搭一套完整 AI 工作流 — 聊天、个人文档 RAG、写代码、语音转写、图片生成 — 全在自己机器上跑。不用 OpenAI key、不烧 token、日记不被拿去训练别人的模型。",[16,28,36,43,50,57,63,70,77],{"id":17,"uuid":18,"slug":19,"title":20,"description":21,"author_name":22,"view_count":23,"vote_count":24,"lang_type":25,"type":26,"type_label":27},162,"0eefb7ad-754e-4f35-8967-586ebf4c2a6a","ollama-run-llms-locally-0eefb7ad","Ollama — Run LLMs Locally","Run large language models locally on your machine. Supports Llama 3, Mistral, Gemma, Phi, and dozens more. One-command install, OpenAI-compatible API.","Script Depot",190,0,"en","skill","Skill",{"id":29,"uuid":30,"slug":31,"title":32,"description":33,"author_name":34,"view_count":35,"vote_count":24,"lang_type":25,"type":26,"type_label":27},274,"f493abd9-0870-49b3-a04b-719ee2a5df0f","gpt4all-run-llms-privately-your-desktop-f493abd9","GPT4All — Run LLMs Privately on Your Desktop","GPT4All runs large language models privately on everyday desktops and laptops without GPUs or API calls. 77.2K+ GitHub stars. Desktop app + Python SDK, LocalDocs for private data. MIT licensed.","AI Open Source",225,{"id":37,"uuid":38,"slug":39,"title":40,"description":41,"author_name":22,"view_count":42,"vote_count":24,"lang_type":25,"type":26,"type_label":27},218,"5d37ffb8-d351-4fb1-8665-bef4db25b275","open-webui-self-hosted-ai-chat-interface-5d37ffb8","Open WebUI — Self-Hosted AI Chat Interface","User-friendly, self-hosted AI chat interface. Supports Ollama, OpenAI, Anthropic, and any OpenAI-compatible API. RAG, web search, voice, image gen, and plugins. 129K+ stars.",202,{"id":44,"uuid":45,"slug":46,"title":47,"description":48,"author_name":49,"view_count":37,"vote_count":24,"lang_type":25,"type":26,"type_label":27},163,"8040c0e5-69f3-446b-bfa2-9800b79fcf08","continue-open-source-ai-code-assistant-8040c0e5","Continue — Open-Source AI Code Assistant","Open-source AI code assistant for VS Code and JetBrains. Tab autocomplete, chat, inline editing with any model — OpenAI, Anthropic, Ollama, or self-hosted.","Continue",{"id":51,"uuid":52,"slug":53,"title":54,"description":55,"author_name":34,"view_count":56,"vote_count":24,"lang_type":25,"type":26,"type_label":27},323,"4cbd3b7b-5251-4a16-a4ef-d7c1f9600d52","khoj-your-ai-second-brain-4cbd3b7b","Khoj — Your AI Second Brain","Khoj is a personal AI app for chat, search, and knowledge management. 33.8K+ stars. Multi-LLM, docs, Obsidian, WhatsApp, custom agents. AGPL-3.0.",158,{"id":58,"uuid":59,"slug":60,"title":61,"description":62,"author_name":22,"view_count":4,"vote_count":24,"lang_type":25,"type":26,"type_label":27},270,"24576b2c-a9d1-4f7a-9696-b1e5c50a17f3","faster-whisper-4x-faster-speech-text-24576b2c","Faster Whisper — 4x Faster Speech-to-Text","Faster Whisper is a reimplementation of OpenAI Whisper using CTranslate2, up to 4x faster with less memory. 21.8K+ GitHub stars. GPU\u002FCPU, 8-bit quantization, word timestamps, VAD. MIT licensed.",{"id":64,"uuid":65,"slug":66,"title":67,"description":68,"author_name":34,"view_count":69,"vote_count":24,"lang_type":25,"type":26,"type_label":27},2101,"3270e558-4080-11f1-9bc6-00163e2b0d79","meetily-privacy-first-ai-meeting-assistant-local-3270e558","Meetily — Privacy-First AI Meeting Assistant with Local Transcription","An open-source, self-hosted AI meeting assistant that provides real-time transcription, speaker diarization, and local summarization using Whisper and Ollama, with no cloud dependency.",142,{"id":71,"uuid":72,"slug":73,"title":74,"description":75,"author_name":34,"view_count":76,"vote_count":24,"lang_type":25,"type":26,"type_label":27},208,"02888d06-d950-42f4-bc45-960c1f604ee4","comfyui-node-based-ai-image-generation-02888d06","ComfyUI — Node-Based AI Image Generation","The most powerful modular AI image generation GUI with a node\u002Fgraph editor. Supports Stable Diffusion, Flux, SDXL, ControlNet, and 1000+ custom nodes. 107K+ stars.",193,{"id":78,"uuid":79,"slug":80,"title":81,"description":82,"author_name":22,"view_count":83,"vote_count":24,"lang_type":25,"type":26,"type_label":27},1110,"42403801-364b-11f1-9bc6-00163e2b0d79","joplin-privacy-focused-open-source-note-taking-app-42403801","Joplin — Privacy-Focused Open-Source Note Taking App","Joplin is a privacy-focused note taking app with sync capabilities for Windows, macOS, Linux, Android, and iOS. Markdown-based, end-to-end encrypted sync, supports Nextcloud, Dropbox, OneDrive, S3, and WebDAV. The open-source alternative to Evernote.",151,"tokrepo install pack\u002Flocal-first-ai",{"pageType":86,"pageKey":8,"locale":87,"title":88,"metaDescription":89,"h1":90,"tldr":91,"bodyMarkdown":92,"faq":93,"schema":109,"internalLinks":116,"citations":129,"wordCount":142,"generatedAt":143},"pack","zh","本地优先 AI — 9 个开源工具让数据不出本机","Ollama \u002F GPT4All \u002F Open WebUI \u002F Continue \u002F Khoj \u002F Faster Whisper \u002F Meetily \u002F ComfyUI \u002F Joplin — 一套完整 AI 工作流，全部离线跑。聊天、个人文档 RAG、写代码、转写、出图，不用 OpenAI key，不烧 token，日记不被拿去训练别人的模型。","本地优先 AI — 一台笔记本上的完整私有 AI 工作流","九个开源工具，把聊天、写代码、对个人文档做 RAG、语音转写、图片生成全搬到自己机器上。先装 model runner，再装聊天 UI，再装各专项 — 每一个字节都留在本地。","## 这个 pack 包含什么\n\n这是你想清楚「我的日记 \u002F 客户录音 \u002F 半成品代码不要进别人训练集」之后会搭的那一套。每个工具都**开源**、**活跃维护**、模型下载完后**完全不需要外网**就能用。\n\n动机基本不是抽象的「隐私」三个字。是三件具体的事叠在一起：(1) 月度 token 账单跟你的好奇心成正比涨；(2) 服务条款随时改；(3) 突然意识到你已经把整个收件箱粘到一个公开承认会做索引的聊天框里了。本地一套永久解决这三件事。\n\n这套 pack **不等于** TokRepo 上已有的 `self-hosted-ai` pack —— 那一套是为「在自己服务器上跑 SaaS」准备的（Tabby \u002F Onyx \u002F LibreChat \u002F n8n）。**这一套是为个人**准备的：希望在自己电脑上有个私有 AI，包括非开发者也用得上的会议转写、笔记 app。\n\n## 推荐安装顺序\n\n1. **Ollama** — model runner，从这里开始。一行命令装（`curl -fsSL ollama.com\u002Finstall.sh | sh`），`ollama pull llama3.1` 拉模型，在 `localhost:11434` 暴露 OpenAI 兼容 API。后面所有工具都指向它。\n2. **GPT4All** — 带 GUI 的 model runner。如果不常进终端，用这个代替（或并装）Ollama。同样的事，对非开发者更友好。\n3. **Open WebUI** — 本地 ChatGPT 替代品。开箱即对接 Ollama，多轮对话、上传文件做 RAG、网页搜索插件都支持。「我就想问个问题」80% 的场景在这里发生。\n4. **Continue** — 本地编码助手，VS Code 和 JetBrains 都有。配置成调本地 Ollama 而不是 Copilot 服务器。内联编辑、对话、重构 — 全部在本机。比 Copilot 慢，但你的私仓不出机器。\n5. **Khoj** — AI second brain。索引你的 Markdown 笔记、PDF、org-mode、甚至 Notion 导出，然后通过本地 LLM 跟它聊。这是给你**生活**的 RAG 层，不是给代码库的。\n6. **Faster Whisper** — 语音转文字。比官方 Whisper 快 4 倍，CPU\u002FGPU 都能跑，精度跟 OpenAI Whisper 一样。丢音频进去，吐文本出来。下一个工具的基础。\n7. **Meetily** — 隐私优先的会议助手。本地录音、本地 Whisper 转写、本地 LLM 摘要。Zoom\u002FMeet 录音不出云。\n8. **ComfyUI** — 基于 Stable Diffusion 的本地出图。节点式界面，Apple Silicon 和 CUDA 都快，能跑 SDXL \u002F Flux \u002F SD3。没有 prompt 日志、没有内容审查、没有次数上限。\n9. **Joplin** — 隐私笔记 app，可选端到端加密。这里是你本地 AI 要读的原始素材。Markdown、插件、用自己的存储跨设备同步。\n\n## 它们怎么协同\n\n```\n        ┌─────────────────────────────────────┐\n        │   你的笔记本（无外发请求）            │\n        └─────────────────────────────────────┘\n                       │\n  ┌────────────────────┴────────────────────┐\n  │                                          │\nOllama \u002F GPT4All  ◄──── OpenAI 兼容 API ──────────┐\n  (model runner)                                  │\n  │                                                │\n  ├─► Open WebUI  ─── 浏览器里聊天                  │\n  │                                                │\n  ├─► Continue    ─── VS Code 写代码               │\n  │                                                │\n  ├─► Khoj        ─── 跟你的笔记对话 ◄── Joplin     │\n  │                                                │\n  └─► Meetily     ─── 会议摘要 ◄── Faster Whisper   │\n                                                   │\nComfyUI ── 独立运行（自带模型 runtime）─────────────┘\n```\n\n关键技巧：**所有 6 个客户端工具（Open WebUI、Continue、Khoj、Meetily 加你后续接的任何东西）都指向同一个 Ollama 端点**。模型只下一次，每个 app 复用。要看的预算是磁盘和内存，不是 API 配额。\n\n## 你会遇到的取舍\n\n- **云端质量 vs 本地质量** —— 实话讲：GPT-5 \u002F Claude 4.5 在前沿推理、长上下文、不熟代码库的代码生成上仍然碾压任何 8B 量化本地模型。本地赢在**隐私、短 prompt 延迟、规模化的成本、离线可用**。正确心智模型是「日常 80% 用本地，难的 20% 用云」，而不是「本地替代云」。\n- **Apple Silicon vs NVIDIA** —— M2\u002FM3\u002FM4 + 32 GB 以上统一内存，13B 模型走 Metal\u002FMPS 跑得很舒服。NVIDIA + 16 GB 以上显存在大模型上更快，但更吵、更热、更贵。这套 pack 大部分在 2K 美元的 Mac 上都能跑；ComfyUI 和 70B 模型才会真正需要独立 GPU。\n- **量化 vs 全精度** —— Ollama 默认拉 Q4_K_M（4-bit 量化）。精度大约掉 2-3%，换 4x 内存节省。永远先用量化版。只在你能测出有意义的质量差距时再上全精度。\n\n## 常见踩坑\n\n- **内存炸** —— Open WebUI + Continue + Khoj 同时开，每个都在内存里压着模型，16 GB 机器必 OOM。配 `OLLAMA_MAX_LOADED_MODELS=1`，让 Ollama 自己换进换出。\n- **模型文件巨大** —— Llama 3.1 70B 占盘 40 GB。在 `ollama pull` 所有看着有意思的东西之前先想好存储预算。维护一个删除清单。\n- **MPS vs CUDA 混乱** —— 大部分安装指南假设你用 NVIDIA。Apple Silicon 上要找每个工具的 `-metal` 或 `mps` 变种。ComfyUI 尤其要装对 Python wheel。\n- **「这件事我还是得用云端」** —— 别纠结，认了。把前沿难度的 query 通过一个隐私友好的客户端（关掉日志的 LibreChat、或者只用 API + Bearer 不带 organization ID）路由给 Claude\u002FGPT，是理智的混合方案。\n- **语音 agent 野心** —— Meetily + Faster Whisper 处理批量转写很漂亮。真正的实时对话语音（\u003C 500ms 延迟 + 可打断）目前本地仍然非常难。第一周别给自己许这个愿。",[94,97,100,103,106],{"q":95,"a":96},"从 Hugging Face \u002F Ollama 拉模型，本地 AI 还算真隐私吗？","算 —— 模型下载是一次性拉权重。文件落盘以后，模型完全离线跑。任何 prompt、文档、转写记录都不会发回 Hugging Face 或 Ollama 服务器。不放心的话用 Little Snitch 或 `lsof -i` 自己验证。信任边界是开源模型本身，不是分发渠道。",{"q":98,"a":99},"搭这套到底需要什么硬件？","舒服级别：Apple Silicon Mac + 32 GB 统一内存，或者 Windows\u002FLinux + 16 GB 以上显存的 NVIDIA GPU。最低可用：16 GB 内存的 Mac 跑 7-8B 模型和 Faster Whisper 没问题，但你得一次只开一个模型。ComfyUI（出图）是最吃硬件的部分；其它都能在四年前的笔记本上跑起来。",{"q":101,"a":102},"这套跟 TokRepo 已有的 self-hosted-ai pack 有什么不同？","self-hosted-ai 是 dev-infra 角度：Tabby（编码服务）、Onyx（RAG-as-a-Service）、LibreChat（多用户聊天）、n8n（工作流自动化）。那是你想给团队部署一个私有 ChatGPT 时往服务器上装的东西。这一套是个人角度：Open WebUI 个人聊天、Khoj 个人笔记 RAG、Meetily 自己的会议、ComfyUI 自己的出图。解决的是不同问题，没有任何重叠的 pick。",{"q":104,"a":105},"Llama 3 \u002F Mistral \u002F Qwen — 第一个该拉哪个模型？","聊天和通用：`llama3.1:8b-instruct-q4_K_M`（4.7 GB，快，意外地好用）。Continue 写代码：`qwen2.5-coder:7b`（4.7 GB，同尺寸下代码比 Llama 强）。Khoj 做 RAG：同样的 Llama 3.1 8B 够用。先别碰 70B，等你真测出 8B 在实际任务上不行了再说 — 大多数人用不上。",{"q":107,"a":108},"还能用 Claude 或 GPT 做难的事吗？","当然，应该用。这套的意义不是原教旨主义 — 而是**默认**走本地。遇到 70B 量化明显搞不定的问题（陌生大仓的深度重构、前沿推理、冷门语言），那一个 query 走前沿模型。混合方案才是现实终点；纯本地包打天下是玩家陷阱。",{"@context":110,"@type":111,"name":112,"description":113,"numberOfItems":114,"inLanguage":115},"https:\u002F\u002Fschema.org","ItemList","本地优先 AI","九个开源工具，搭一套完整的私有 AI 工作流，全部在自己笔记本上跑 — 聊天、写代码、对个人文档做 RAG、语音转写、图片生成。",9,"zh-CN",[117,121,125],{"url":118,"anchor":119,"reason":120},"\u002Fzh\u002Flocal-llm","本地 LLM runner 横向对比","Ollama \u002F llama.cpp \u002F LM Studio 等更深入的对比",{"url":122,"anchor":123,"reason":124},"\u002Fzh\u002Fai-memory","AI 记忆层与个人知识库","Khoj 是入口；完整 pack 还覆盖 Mem0 \u002F Zep 和端上替代方案",{"url":126,"anchor":127,"reason":128},"\u002Fzh\u002Ffeatured","TokRepo 精选资产","这九个工具属于更大的精选目录",[130,134,138],{"claim":131,"source_name":132,"source_url":133},"Ollama 提供一行命令安装本地 LLM 和 OpenAI 兼容 API","Ollama 官网","https:\u002F\u002Follama.com\u002F",{"claim":135,"source_name":136,"source_url":137},"Open WebUI 是对接本地 model runner 的自托管聊天界面","Open WebUI","https:\u002F\u002Fopenwebui.com\u002F",{"claim":139,"source_name":140,"source_url":141},"Faster Whisper 是基于 CTranslate2 的 OpenAI Whisper 重实现，4 倍加速","faster-whisper GitHub","https:\u002F\u002Fgithub.com\u002FSYSTRAN\u002Ffaster-whisper",850,"2026-05-22T00:00:00Z"]