本地 LLM / 自部署

本地 LLM 运行指南：9 款自部署工具对比（Ollama / vLLM / llama.cpp / MLX）

2026 本地部署 LLM 全景：从桌面一键启动（Ollama/LM Studio）到数据中心级吞吐（vLLM/llama.cpp）——9 款主流工具并排对比，含硬件要求、模型兼容性与实测吞吐。

Ollama — 一行命令本地运行 LLM（2026 指南）

Ollama 是本地运行大模型最主流的方式。一条 CLI 即可下载、量化、用 OpenAI 兼容 API 对外服务——2026 年进入自部署 AI 的最低门槛。

DesktopCLIOne-click

LM Studio — 本地 LLM 桌面 GUI（Windows / Mac / Linux）

LM Studio 是最主流的本地 LLM 桌面 GUI——内置模型浏览器、OpenAI 兼容本地服务、Windows/Mac/Linux 打磨到位。非命令行用户的最佳入口。

DesktopGUIWindows/Mac

LocalAI — 自有硬件上的 OpenAI 兼容替代

LocalAI 是开源的 OpenAI API 替代方案——一个 Docker 容器本地跑 LLM、嵌入、图像、语音、视觉模型。多后端、多模态、生产可用。

OpenAI-compatibleMulti-backend

vLLM — 高吞吐 GPU 推理服务（生产规模）

vLLM 是面向规模化部署的开源推理引擎。PagedAttention、连续批处理、前缀缓存让它成为 GPU 生产多用户服务的最高吞吐选项。

DatacenterProductionGPU

llama.cpp — Ollama / LM Studio 等本地 LLM 共同依赖的 C++ 推理引擎

llama.cpp 是 Georgi Gerganov 开源的 C++ Llama 推理实现——多数本地 LLM 工具的底层引擎。支持 CPU、CUDA、ROCm、Metal、Vulkan，以及激进量化以适配各种硬件。

C++ corePortableQuantized

text-generation-webui（oobabooga）— 研究者爱用的本地 LLM 瑞士军刀

text-generation-webui 是研究者常用的 Gradio UI——多推理后端、LoRA 训练、量化实验、插件生态、熟悉的聊天界面一站齐备。

ResearchSwiss-armyLoRA

Jan — 完全离线运行的开源 ChatGPT 替代品

Jan 是 MIT 许可证的桌面应用，像 ChatGPT 一样本地运行大模型。内置模型库、Assistant、插件与 OpenAI 兼容本地服务——相对 LM Studio 的开源替代。

Desktop appOffline-first

GPT4All — Nomic AI 出品的隐私优先桌面 LLM

GPT4All 是开源桌面 LLM，专注 CPU 上的隐私运行——无需 GPU、无遥测、简洁聊天界面，内置本地向量库索引文档。由 Nomic AI 维护。

DesktopCPU-friendly

MLX — 苹果为 Apple Silicon 打造的机器学习框架

MLX 是苹果开源的机器学习框架，专为 Apple Silicon 的统一内存架构设计。MLX-LM 在 M 系列 Mac 上是最快的 LLM 推理方案。

Apple SiliconFastest on Mac

三种部署层次

桌面一键启动。Ollama、LM Studio、Jan 和 GPT4All 都瞄准“想离线使用 ChatGPT 的笔记本用户”这一场景。零配置，GUI 或一行命令，OpenAI 兼容 API 方便开发集成。按偏好挑：CLI 优先选 Ollama，Windows/Mac GUI 加模型浏览器选 LM Studio，单 App 一站式体验选 Jan/GPT4All。

服务器级单机部署。llama.cpp 是大多数桌面工具底层使用的 C++ 引擎，也可以直接作为 server 运行，具备激进的量化和最强的可移植性（CPU、CUDA、ROCm、Metal、Vulkan）。专门针对 Apple Silicon 时，MLX 通过原生使用统一内存架构，在 tokens/sec 上常常超过 llama.cpp。

数据中心级吞吐。vLLM 是面向 GPU 集群的生产级推理服务器——连续批处理、PagedAttention，多 GPU 接近线性扩展。LocalAI 在 OpenAI 兼容 API 后封装多种后端，介于桌面和数据中心之间。Text-generation-webui（oobabooga）在研究者中仍受欢迎，提供从 LoRA 训练、量化实验到聊天的瑞士军刀式 UI。

常见问题

本地 LLM 和云 LLM 如何选？+

隐私/合规/可控成本选本地；前沿能力/短期试错选云。现实往往是“开发用云，生产按数据敏感度拆”——非敏感请求走 API，敏感数据走本地模型（Llama 3.3、Qwen 2.5、DeepSeek）。

没有 GPU 能跑吗？+

能。llama.cpp、Ollama、LM Studio、GPT4All 都有 CPU + 量化方案。7B 模型在 16GB 内存 MacBook 上能跑到 10-30 tokens/s，足够日常聊天。大模型（70B+）不推荐纯 CPU。

Ollama 和 LM Studio 哪个好？+

都好。Ollama：CLI + 最佳 API 兼容性 + Docker/服务器部署。LM Studio：GUI + 内置模型浏览器 + Windows/Mac 体验更完整。同时装两个是常见选择——LM Studio 当模型超市，Ollama 当运行时。

苹果 M 系列芯片上哪个最快？+

MLX > llama.cpp Metal >= Ollama（基于 llama.cpp）。M4 Max 上 MLX 运行 Llama 3.3 70B 4-bit 能到 ~30 tokens/s，llama.cpp 一般 20-25，Ollama 约等于 llama.cpp。追极限跑 MLX，要 API 兼容性跑 Ollama。

生产环境多用户并发选什么？+

vLLM。PagedAttention + 连续批处理是目前开源中最强的 GPU 吞吐方案，单 A100 上 Llama 3.3 70B 4-bit 可达 1500+ tokens/s 总吞吐。llama.cpp server 适合单机少量用户。