本地 LLM / 自部署

本地 LLM 运行指南:9 款自部署工具对比(Ollama / vLLM / llama.cpp / MLX)

2026 本地部署 LLM 全景:从桌面一键启动(Ollama/LM Studio)到数据中心级吞吐(vLLM/llama.cpp)——9 款主流工具并排对比,含硬件要求、模型兼容性与实测吞吐。

Ollama — Run LLMs Locally with One Command (2026 Guide) logo

Ollama — 一行命令本地运行 LLM(2026 指南)

Ollama 是本地运行大模型最主流的方式。一条 CLI 即可下载、量化、用 OpenAI 兼容 API 对外服务——2026 年进入自部署 AI 的最低门槛。

DesktopCLIOne-click
LM Studio — Desktop GUI for Local LLMs (Windows, Mac, Linux) logo

LM Studio — 本地 LLM 桌面 GUI(Windows / Mac / Linux)

LM Studio 是最主流的本地 LLM 桌面 GUI——内置模型浏览器、OpenAI 兼容本地服务、Windows/Mac/Linux 打磨到位。非命令行用户的最佳入口。

DesktopGUIWindows/Mac
LocalAI — Drop-in OpenAI API for Your Own Hardware logo

LocalAI — 自有硬件上的 OpenAI 兼容替代

LocalAI 是开源的 OpenAI API 替代方案——一个 Docker 容器本地跑 LLM、嵌入、图像、语音、视觉模型。多后端、多模态、生产可用。

OpenAI-compatibleMulti-backend
vLLM — High-Throughput GPU Inference Server (Production Scale) logo

vLLM — 高吞吐 GPU 推理服务(生产规模)

vLLM 是面向规模化部署的开源推理引擎。PagedAttention、连续批处理、前缀缓存让它成为 GPU 生产多用户服务的最高吞吐选项。

DatacenterProductionGPU
llama.cpp — The C++ Engine Under Ollama, LM Studio, and Most Local LLMs logo

llama.cpp — Ollama / LM Studio 等本地 LLM 共同依赖的 C++ 推理引擎

llama.cpp 是 Georgi Gerganov 开源的 C++ Llama 推理实现——多数本地 LLM 工具的底层引擎。支持 CPU、CUDA、ROCm、Metal、Vulkan,以及激进量化以适配各种硬件。

C++ corePortableQuantized
text-generation-webui (oobabooga) — Swiss-Army Local LLM UI logo

text-generation-webui(oobabooga)— 研究者爱用的本地 LLM 瑞士军刀

text-generation-webui 是研究者常用的 Gradio UI——多推理后端、LoRA 训练、量化实验、插件生态、熟悉的聊天界面一站齐备。

ResearchSwiss-armyLoRA
Jan — Open-source ChatGPT Alternative That Runs Offline logo

Jan — 完全离线运行的开源 ChatGPT 替代品

Jan 是 MIT 许可证的桌面应用,像 ChatGPT 一样本地运行大模型。内置模型库、Assistant、插件与 OpenAI 兼容本地服务——相对 LM Studio 的开源替代。

Desktop appOffline-first
GPT4All — Privacy-First Desktop LLM App by Nomic AI logo

GPT4All — Nomic AI 出品的隐私优先桌面 LLM

GPT4All 是开源桌面 LLM,专注 CPU 上的隐私运行——无需 GPU、无遥测、简洁聊天界面,内置本地向量库索引文档。由 Nomic AI 维护。

DesktopCPU-friendly
MLX — Apple’s Machine Learning Framework for Apple Silicon logo

MLX — 苹果为 Apple Silicon 打造的机器学习框架

MLX 是苹果开源的机器学习框架,专为 Apple Silicon 的统一内存架构设计。MLX-LM 在 M 系列 Mac 上是最快的 LLM 推理方案。

Apple SiliconFastest on Mac

三种部署层次

桌面一键启动。OllamaLM StudioJanGPT4All 都瞄准“想离线使用 ChatGPT 的笔记本用户”这一场景。零配置,GUI 或一行命令,OpenAI 兼容 API 方便开发集成。按偏好挑:CLI 优先选 Ollama,Windows/Mac GUI 加模型浏览器选 LM Studio,单 App 一站式体验选 Jan/GPT4All。

服务器级单机部署。llama.cpp 是大多数桌面工具底层使用的 C++ 引擎,也可以直接作为 server 运行,具备激进的量化和最强的可移植性(CPU、CUDA、ROCm、Metal、Vulkan)。专门针对 Apple Silicon 时,MLX 通过原生使用统一内存架构,在 tokens/sec 上常常超过 llama.cpp。

数据中心级吞吐。vLLM 是面向 GPU 集群的生产级推理服务器——连续批处理、PagedAttention,多 GPU 接近线性扩展。LocalAI 在 OpenAI 兼容 API 后封装多种后端,介于桌面和数据中心之间。Text-generation-webui(oobabooga) 在研究者中仍受欢迎,提供从 LoRA 训练、量化实验到聊天的瑞士军刀式 UI。

常见问题

本地 LLM 和云 LLM 如何选?+

隐私/合规/可控成本选本地;前沿能力/短期试错选云。现实往往是“开发用云,生产按数据敏感度拆”——非敏感请求走 API,敏感数据走本地模型(Llama 3.3、Qwen 2.5、DeepSeek)。

没有 GPU 能跑吗?+

能。llama.cpp、Ollama、LM Studio、GPT4All 都有 CPU + 量化方案。7B 模型在 16GB 内存 MacBook 上能跑到 10-30 tokens/s,足够日常聊天。大模型(70B+)不推荐纯 CPU。

Ollama 和 LM Studio 哪个好?+

都好。Ollama:CLI + 最佳 API 兼容性 + Docker/服务器部署。LM Studio:GUI + 内置模型浏览器 + Windows/Mac 体验更完整。同时装两个是常见选择——LM Studio 当模型超市,Ollama 当运行时。

苹果 M 系列芯片上哪个最快?+

MLX > llama.cpp Metal >= Ollama(基于 llama.cpp)。M4 Max 上 MLX 运行 Llama 3.3 70B 4-bit 能到 ~30 tokens/s,llama.cpp 一般 20-25,Ollama 约等于 llama.cpp。追极限跑 MLX,要 API 兼容性跑 Ollama。

生产环境多用户并发选什么?+

vLLM。PagedAttention + 连续批处理是目前开源中最强的 GPU 吞吐方案,单 A100 上 Llama 3.3 70B 4-bit 可达 1500+ tokens/s 总吞吐。llama.cpp server 适合单机少量用户。