本地 LLM / 自部署

本地 LLM 运行指南:9 款自部署工具对比(Ollama / vLLM / llama.cpp / MLX)

2026 本地部署 LLM 全景:从桌面一键启动(Ollama/LM Studio)到数据中心级吞吐(vLLM/llama.cpp)——9 款主流工具并排对比,含硬件要求、模型兼容性与实测吞吐。

Ollama — Run LLMs Locally with One Command (2026 Guide) logo

Ollama — 一行命令本地运行 LLM(2026 指南)

Ollama 是本地运行大模型最主流的方式。一条 CLI 即可下载、量化、用 OpenAI 兼容 API 对外服务——2026 年进入自部署 AI 的最低门槛。

DesktopCLIOne-click
LM Studio — Desktop GUI for Local LLMs (Windows, Mac, Linux) logo

LM Studio — 本地 LLM 桌面 GUI(Windows / Mac / Linux)

LM Studio 是最主流的本地 LLM 桌面 GUI——内置模型浏览器、OpenAI 兼容本地服务、Windows/Mac/Linux 打磨到位。非命令行用户的最佳入口。

DesktopGUIWindows/Mac
LocalAI — Drop-in OpenAI API for Your Own Hardware logo

LocalAI — 自有硬件上的 OpenAI 兼容替代

LocalAI 是开源的 OpenAI API 替代方案——一个 Docker 容器本地跑 LLM、嵌入、图像、语音、视觉模型。多后端、多模态、生产可用。

OpenAI-compatibleMulti-backend
vLLM — High-Throughput GPU Inference Server (Production Scale) logo

vLLM — 高吞吐 GPU 推理服务(生产规模)

vLLM 是面向规模化部署的开源推理引擎。PagedAttention、连续批处理、前缀缓存让它成为 GPU 生产多用户服务的最高吞吐选项。

DatacenterProductionGPU
llama.cpp — The C++ Engine Under Ollama, LM Studio, and Most Local LLMs logo

llama.cpp — Ollama / LM Studio 等本地 LLM 共同依赖的 C++ 推理引擎

llama.cpp 是 Georgi Gerganov 开源的 C++ Llama 推理实现——多数本地 LLM 工具的底层引擎。支持 CPU、CUDA、ROCm、Metal、Vulkan,以及激进量化以适配各种硬件。

C++ corePortableQuantized
text-generation-webui (oobabooga) — Swiss-Army Local LLM UI logo

text-generation-webui(oobabooga)— 研究者爱用的本地 LLM 瑞士军刀

text-generation-webui 是研究者常用的 Gradio UI——多推理后端、LoRA 训练、量化实验、插件生态、熟悉的聊天界面一站齐备。

ResearchSwiss-armyLoRA
Jan — Open-source ChatGPT Alternative That Runs Offline logo

Jan — 完全离线运行的开源 ChatGPT 替代品

Jan 是 MIT 许可证的桌面应用,像 ChatGPT 一样本地运行大模型。内置模型库、Assistant、插件与 OpenAI 兼容本地服务——相对 LM Studio 的开源替代。

Desktop appOffline-first
GPT4All — Privacy-First Desktop LLM App by Nomic AI logo

GPT4All — Nomic AI 出品的隐私优先桌面 LLM

GPT4All 是开源桌面 LLM,专注 CPU 上的隐私运行——无需 GPU、无遥测、简洁聊天界面,内置本地向量库索引文档。由 Nomic AI 维护。

DesktopCPU-friendly
MLX — Apple’s Machine Learning Framework for Apple Silicon logo

MLX — 苹果为 Apple Silicon 打造的机器学习框架

MLX 是苹果开源的机器学习框架,专为 Apple Silicon 的统一内存架构设计。MLX-LM 在 M 系列 Mac 上是最快的 LLM 推理方案。

Apple SiliconFastest on Mac

三种部署层次

Desktop one-click. Ollama, LM Studio, Jan, and GPT4All all target the "laptop user who wants ChatGPT offline" use case. Zero config, GUI or single command, OpenAI-compatible API for developer integration. Pick based on preference: Ollama for CLI-first, LM Studio for Windows/Mac GUI with model browser, Jan/GPT4All for one-app experience.

Server-grade single-node. llama.cpp is the C++ engine underneath most desktop tools; it also runs directly as a server with aggressive quantization and maximum portability (CPU, CUDA, ROCm, Metal, Vulkan). For Apple Silicon specifically, MLX often beats llama.cpp on tokens/sec by using the unified memory architecture natively.

Datacenter throughput. vLLM is the production inference server for GPU fleets — continuous batching, PagedAttention, and near-linear scaling across multiple GPUs. LocalAI wraps multiple backends behind an OpenAI-compatible API and fits somewhere between the desktop and datacenter tiers. Text-generation-webui (oobabooga) remains popular with researchers who want a swiss-army UI across LoRA training, quantization experimentation, and chat.

常见问题

本地 LLM 和云 LLM 如何选?+

隐私/合规/可控成本选本地;前沿能力/短期试错选云。现实往往是"开发用云,生产按数据敏感度拆"——非敏感请求走 API,敏感数据走本地模型(Llama 3.3、Qwen 2.5、DeepSeek)。

没有 GPU 能跑吗?+

能。llama.cpp、Ollama、LM Studio、GPT4All 都有 CPU + 量化方案。7B 模型在 16GB 内存 MacBook 上能跑到 10-30 tokens/s,足够日常聊天。大模型(70B+)不推荐纯 CPU。

Ollama 和 LM Studio 哪个好?+

都好。Ollama:CLI + 最佳 API 兼容性 + Docker/服务器部署。LM Studio:GUI + 内置模型浏览器 + Windows/Mac 体验更完整。同时装两个是常见选择——LM Studio 当模型超市,Ollama 当运行时。

苹果 M 系列芯片上哪个最快?+

MLX > llama.cpp Metal >= Ollama(基于 llama.cpp)。M4 Max 上 MLX 运行 Llama 3.3 70B 4-bit 能到 ~30 tokens/s,llama.cpp 一般 20-25,Ollama 约等于 llama.cpp。追极限跑 MLX,要 API 兼容性跑 Ollama。

生产环境多用户并发选什么?+

vLLM。PagedAttention + 连续批处理是目前开源中最强的 GPU 吞吐方案,单 A100 上 Llama 3.3 70B 4-bit 可达 1500+ tokens/s 总吞吐。llama.cpp server 适合单机少量用户。