tutorial18 min read

如何在本地自托管 AI:Ollama、Open WebUI 完全指南(2026)

2026 年自托管 AI 完全指南。安装 Ollama、Open WebUI,搭建私有 AI 技术栈,包含 RAG、代码补全、知识库——全部运行在你自己的硬件上。

WI
William Wang · Apr 11, 2026

William Wang — TokRepo & GEOScore AI 创始人,专注 AI 开发者工具和搜索可见性。

一句话答案

2026 年自托管 AI 的标准组合:Ollama(模型运行时)+ Open WebUI(类 ChatGPT 界面),可选 RAG、代码补全和监控扩展。最低配置:16GB 内存 + 8GB 显存的显卡跑 7B 模型;64GB 内存 + 48GB 显存跑 70B 模型。总安装时间 30 分钟以内。零 API 成本、完全数据隐私,模型能力在大多数任务上媲美 GPT-4。

目录

2026 年自托管 AI 变得异常简单。以前需要 Python 依赖、CUDA 配置、手动模型转换的事情,现在一条命令就搞定。本指南带你走完整的自托管 AI 技术栈:从 60 秒安装 Ollama,到搭建生产级的私有 AI 系统,包含 RAG、代码补全和监控。

完成本指南后你会拥有:

  • 运行在你自己硬件上的本地 LLM
  • 类 ChatGPT 的 Web 界面
  • 可选的文档问答、代码补全、监控扩展
  • 零 API 成本和完全数据隐私

为什么 2026 年要自托管 AI?

云 AI API 仍然主导市场,但自托管有它独特的优势:

隐私与合规 — 数据永远不离开你的基础设施。医疗(HIPAA)、法律(律师-客户特权)、金融(敏感财务数据)和任何处理专有信息的企业都是刚需。很多受监管行业现在强制要求特定场景使用自托管 AI。

成本可预测 — 云 API 成本跟使用量成正比。一个繁忙的团队轻松每月花 5000+ 美元在 Claude 或 GPT-4 上。自托管 AI 硬件一次性投入,之后每次查询边际成本为零。

模型自由 — 可以跑任何开源模型:Llama 3.1、Qwen 2.5、Mistral、Gemma、DeepSeek Coder 等几十种。根据任务切换模型不用改代码。在自己的数据上微调模型而不暴露给第三方。

离线能力 — 你的 AI 不需要互联网。对隔离环境、偏远地区或禁止外部连接的合规场景至关重要。

2026 年可用的完整自托管 AI 工具清单,包括其他模型运行时和聊天界面,在 TokRepo 目录里浏览。

前置条件

开始前确保你有:

  • 硬件:16GB+ 内存、50GB+ 磁盘空间,最好有 8GB+ 显存的显卡(非必需但快 10 倍)
  • 操作系统:macOS 12+、Linux(Ubuntu 22.04+、Fedora 38+)或 Windows 10/11(WSL2)
  • 终端:基础命令行使用经验
  • Docker(可选但建议,用于 Open WebUI)
💡

第 1 步:安装 Ollama(5 分钟)

Ollama 是自托管 AI 技术栈的基础。它用单个二进制文件处理模型下载、量化和推理。

macOS / Linux

curl -fsSL https://ollama.com/install.sh | sh

Windows

从 ollama.com/download 下载安装包运行。Ollama 作为后台服务安装。

验证安装

ollama --version
# ollama version is 0.5.x

第 2 步:下载第一个模型(2 分钟)

Ollama 像 Docker 管理镜像一样管理模型。一条命令拉取:

# 先从 Llama 3.1 8B 开始——质量和速度平衡很好
ollama pull llama3.1:8b

# 硬件够的话上大模型
ollama pull llama3.1:70b    # 需要 64GB+ 内存
ollama pull qwen2.5:32b     # 编码特别强,32B 规模
ollama pull mistral:7b      # 快速、通用

终端里直接测试模型:

ollama run llama3.1:8b
>>> 为什么要自托管 AI?

本地 LLM 跑起来了。但终端界面日常用不方便,加个正经的 Web UI。

第 3 步:安装 Open WebUI(10 分钟)

Open WebUI 提供类 ChatGPT 的界面给你的自托管模型。支持多模型切换、文件上传、RAG 和多用户。

Docker 安装(推荐)

docker run -d -p 3000:8080 \
  --add-host=host.docker.internal:host-gateway \
  -v open-webui:/app/backend/data \
  --name open-webui \
  --restart always \
  ghcr.io/open-webui/open-webui:main

访问界面

浏览器打开 http://localhost:3000。创建管理员账号(本地存储),然后:

  1. 点左上角模型选择器
  2. 选 Ollama 模型(如 llama3.1:8b
  3. 开始聊天

Open WebUI 自动发现 Ollama 里安装的模型。加新模型只要 ollama pull <model-name>,会自动出现在下拉菜单里。

⚠️

第 4 步:加 RAG 做文档问答(15 分钟)

现在让你的 AI 真正对工作有用。检索增强生成(RAG) 让 AI 基于你的文档回答问题——合同、手册、代码库或知识库。

Open WebUI 内置 RAG 支持。三步启用:

1. 安装嵌入模型

ollama pull nomic-embed-text

Nomic Embed 是为检索任务优化的小快嵌入模型。

2. 配置 Open WebUI

在 Open WebUI 里:

  1. 打开 Settings → Documents
  2. Embedding Model 设为 nomic-embed-text
  3. Chunk Size 设为 1000Chunk Overlap 设为 200

3. 上传文档

点输入框的 # 图标上传 PDF、Word、Markdown 或整个文件夹。Open WebUI 自动分块、嵌入和索引。

现在可以问:

  • "总结我刚上传的合同第 3 节"
  • "API 文档里说限流是怎么处理的?"
  • "这两份政策文档之间有什么矛盾?"

生产级 RAG 流水线(混合搜索、重排序、自定义分块)需要更多控制,看 TokRepo 上的专用框架 RAGFlow、Haystack、Kotaemon

第 5 步:加代码补全 Tabby(可选,10 分钟)

如果你是开发者,Tabby 是自托管的 GitHub Copilot 替代,集成到 IDE,完全运行在你的硬件上。

安装 Tabby

docker run -it \
  --gpus all -p 8080:8080 \
  -v $HOME/.tabby:/data \
  tabbyml/tabby \
  serve --model StarCoder2-3B --device cuda

纯 CPU:把 --device cuda 换成 --device cpu。Apple Silicon:用 GitHub releases 的原生二进制。

连接编辑器

在 VS Code、JetBrains、Neovim 或 Emacs 装 Tabby 插件。指向 http://localhost:8080,就能获得行内代码补全——代码完全不离开本机。

这对不允许用 GitHub Copilot 的私有代码团队是革命性的。更多 AI 编码工具 和替代品在 TokRepo 目录。

第 6 步:监控本地 AI(可选)

自托管 AI 处理真实负载后,你会想知道性能怎么样。关键指标:

  • 延迟 — 每次查询多久
  • 吞吐 — 峰值每秒查询数
  • 质量 — 回答准确吗?用户满意吗?
  • 硬件 — GPU/CPU 利用率、内存、磁盘 I/O

完整的 AI 监控与可观测性

  • Langfuse / Opik — LLM 专用可观测性,带提示词日志和评估
  • Uptime Kuma — Ollama 和 Open WebUI 端点的简单运行监控
  • Grafana + Prometheus — 硬件指标和自定义仪表盘
💡

第 7 步:保护自托管 AI

在自己的基础设施上跑 AI 意味着 安全 是你的责任。必要步骤:

  1. 防火墙规则 — 不要把 Ollama(端口 11434)或 Open WebUI(端口 3000)直接暴露到互联网
  2. HTTPS 反代 — 用 Caddy 或 Nginx 带 Let's Encrypt 自动证书
  3. 认证 — Open WebUI 内置用户管理;多用户场景启用它
  4. 网络隔离 — 一切放私有 VLAN 或 Tailscale 网络给团队访问

企业部署考虑 AI 安全工具 审计配置、在漏洞被利用前发现。

完整自托管 AI 技术栈

2026 年完整的自托管 AI 配置长这样:

工具用途
模型运行时Ollama下载、量化、运行 LLM
聊天界面Open WebUI类 ChatGPT 多模型 UI
嵌入nomic-embed-text文本转向量做 RAG
RAGOpen WebUI 内置或 RAGFlow文档问答
代码补全Tabby自托管 Copilot 替代
搜索SearXNG私有搜索引擎
监控Langfuse + Uptime Kuma可观测性和健康检查

这套栈在一台硬件过关的服务器上就能跑,支持几十个并发用户,每次查询零成本。AI 基础设施端到端全归你。

推荐硬件配置

根据场景:

单人开发者 / 小团队(5 人以内)

  • Apple M2 Pro Mac Mini 32GB 内存($1,500)
  • 或:台式机 RTX 4060 Ti 16GB + 32GB 内存($1,200)
  • 流畅跑 7B-13B 模型

创业公司 / 中型团队(10-50 人)

  • 服务器 RTX A6000 48GB + 128GB 内存($6,000)
  • 跑 70B 模型带并发用户
  • 处理生产 RAG 负载

企业(100+ 人)

  • 专用 GPU 集群,4-8 张 A100 或 H100
  • Kubernetes 部署带模型分片
  • 需要专业 DevOps,看 DevOps AI 工具 做编排

常见问题排查

"CUDA out of memory" — 模型对显卡太大。试小一点的版本(如 llama3.1:8b 而不是 70b),或用量化版本(llama3.1:70b-q4_0)。

响应慢 — 用 nvidia-smi 检查 GPU 利用率。如果 GPU 没被用,Ollama 回退到 CPU。重装带 CUDA 支持或用小模型。

模型返回乱码 — 上下文长度或 prompt 格式不对。每个模型有特定格式要求——用 Ollama 默认模板。

磁盘不够 — 模型很大(7B ≈ 4GB,70B ≈ 40GB)。ollama rm <model-name> 清理,df -h 监控。

下一步

自托管 AI 技术栈跑起来了。接下来:

  1. 构建 AI Agent 用你的自托管模型——看 如何构建 AI Agent
  2. 加知识图谱 做复杂推理——看 AI 知识图谱工具
  3. 接数据库 — 看 AI 数据库工具,包括 PostgreSQL、MySQL、MongoDB 的 MCP 服务器
  4. 浏览完整的自托管目录 — 技术栈每一层的替代工具

2026 年自托管 AI 已经不只是隐私爱好者的选择。有了 Ollama 和 Open WebUI,它成为任何想控制 AI 基础设施、预算可控、数据主权完整的人的实用选择。

生态每个月都在变好。收藏 TokRepo 自托管 AI 目录,定期回来看新工具、新模型、新部署模式。

常见问题

为什么要自托管 AI 而不是用云 API?+

三个原因:隐私(数据永远不离开你的基础设施——对医疗、法律、企业场景至关重要)、成本(零 API 费用无限使用)、控制(可选任何模型、离线运行、无厂商锁定)。代价是你要自己管硬件和更新。

自托管 AI 需要什么硬件?+

跑 7B 参数模型(能处理大部分任务):16GB 内存 + 8GB 显存的显卡(RTX 3060/4060 或 Apple M2)。跑 70B 模型(GPT-4 级别):64GB 内存 + 48GB 显存(A6000 或双卡 3090/4090)。Apple Silicon Mac 32GB+ 统一内存特别合适——无需独显就能流畅跑 70B 模型。

Ollama 可以商用吗?+

可以。Ollama 是 MIT 协议,任何用途包括商用都免费。但你跑的模型有各自的协议——Llama 3.1 和 Qwen 2.5 在一定阈值内可商用;Mistral 和 Gemma 条款不同。具体场景要查模型协议。

自托管 AI 和 GPT-4、Claude 比差距多大?+

开源模型如 Llama 3.1 70B 和 Qwen 2.5 72B 在大多数基准上媲美 GPT-4——编码、推理、分析、通用问答。复杂多步推理和创意写作上还是 Claude Opus 和 GPT-4o 领先。90% 的商业场景下自托管模型

自托管 AI 能做代码补全吗(类似 GitHub Copilot)?+

可以。Tabby 是自托管的 Copilot 替代品,完全在你的基础设施上运行。和 Ollama 一起装,连 VS Code/JetBrains/Neovim,就能获得行内代码建议,代码不离开本机。特别适合不允许用 GitHub Copilot 的私有代码库。