本地 LLM 运行指南:9 款自部署工具对比(Ollama / vLLM / llama.cpp / MLX)
2026 本地部署 LLM 全景:从桌面一键启动(Ollama/LM Studio)到数据中心级吞吐(vLLM/llama.cpp)——9 款主流工具并排对比,含硬件要求、模型兼容性与实测吞吐。
Ollama — 一行命令本地运行 LLM(2026 指南)
Ollama 是本地运行大模型最主流的方式。一条 CLI 即可下载、量化、用 OpenAI 兼容 API 对外服务——2026 年进入自部署 AI 的最低门槛。
LM Studio — 本地 LLM 桌面 GUI(Windows / Mac / Linux)
LM Studio 是最主流的本地 LLM 桌面 GUI——内置模型浏览器、OpenAI 兼容本地服务、Windows/Mac/Linux 打磨到位。非命令行用户的最佳入口。
LocalAI — 自有硬件上的 OpenAI 兼容替代
LocalAI 是开源的 OpenAI API 替代方案——一个 Docker 容器本地跑 LLM、嵌入、图像、语音、视觉模型。多后端、多模态、生产可用。
vLLM — 高吞吐 GPU 推理服务(生产规模)
vLLM 是面向规模化部署的开源推理引擎。PagedAttention、连续批处理、前缀缓存让它成为 GPU 生产多用户服务的最高吞吐选项。
llama.cpp — Ollama / LM Studio 等本地 LLM 共同依赖的 C++ 推理引擎
llama.cpp 是 Georgi Gerganov 开源的 C++ Llama 推理实现——多数本地 LLM 工具的底层引擎。支持 CPU、CUDA、ROCm、Metal、Vulkan,以及激进量化以适配各种硬件。
text-generation-webui(oobabooga)— 研究者爱用的本地 LLM 瑞士军刀
text-generation-webui 是研究者常用的 Gradio UI——多推理后端、LoRA 训练、量化实验、插件生态、熟悉的聊天界面一站齐备。
Jan — 完全离线运行的开源 ChatGPT 替代品
Jan 是 MIT 许可证的桌面应用,像 ChatGPT 一样本地运行大模型。内置模型库、Assistant、插件与 OpenAI 兼容本地服务——相对 LM Studio 的开源替代。
GPT4All — Nomic AI 出品的隐私优先桌面 LLM
GPT4All 是开源桌面 LLM,专注 CPU 上的隐私运行——无需 GPU、无遥测、简洁聊天界面,内置本地向量库索引文档。由 Nomic AI 维护。
MLX — 苹果为 Apple Silicon 打造的机器学习框架
MLX 是苹果开源的机器学习框架,专为 Apple Silicon 的统一内存架构设计。MLX-LM 在 M 系列 Mac 上是最快的 LLM 推理方案。
三种部署层次
Desktop one-click. Ollama, LM Studio, Jan, and GPT4All all target the "laptop user who wants ChatGPT offline" use case. Zero config, GUI or single command, OpenAI-compatible API for developer integration. Pick based on preference: Ollama for CLI-first, LM Studio for Windows/Mac GUI with model browser, Jan/GPT4All for one-app experience.
Server-grade single-node. llama.cpp is the C++ engine underneath most desktop tools; it also runs directly as a server with aggressive quantization and maximum portability (CPU, CUDA, ROCm, Metal, Vulkan). For Apple Silicon specifically, MLX often beats llama.cpp on tokens/sec by using the unified memory architecture natively.
Datacenter throughput. vLLM is the production inference server for GPU fleets — continuous batching, PagedAttention, and near-linear scaling across multiple GPUs. LocalAI wraps multiple backends behind an OpenAI-compatible API and fits somewhere between the desktop and datacenter tiers. Text-generation-webui (oobabooga) remains popular with researchers who want a swiss-army UI across LoRA training, quantization experimentation, and chat.
常见问题
本地 LLM 和云 LLM 如何选?+
隐私/合规/可控成本选本地;前沿能力/短期试错选云。现实往往是"开发用云,生产按数据敏感度拆"——非敏感请求走 API,敏感数据走本地模型(Llama 3.3、Qwen 2.5、DeepSeek)。
没有 GPU 能跑吗?+
能。llama.cpp、Ollama、LM Studio、GPT4All 都有 CPU + 量化方案。7B 模型在 16GB 内存 MacBook 上能跑到 10-30 tokens/s,足够日常聊天。大模型(70B+)不推荐纯 CPU。
Ollama 和 LM Studio 哪个好?+
都好。Ollama:CLI + 最佳 API 兼容性 + Docker/服务器部署。LM Studio:GUI + 内置模型浏览器 + Windows/Mac 体验更完整。同时装两个是常见选择——LM Studio 当模型超市,Ollama 当运行时。
苹果 M 系列芯片上哪个最快?+
MLX > llama.cpp Metal >= Ollama(基于 llama.cpp)。M4 Max 上 MLX 运行 Llama 3.3 70B 4-bit 能到 ~30 tokens/s,llama.cpp 一般 20-25,Ollama 约等于 llama.cpp。追极限跑 MLX,要 API 兼容性跑 Ollama。
生产环境多用户并发选什么?+
vLLM。PagedAttention + 连续批处理是目前开源中最强的 GPU 吞吐方案,单 A100 上 Llama 3.3 70B 4-bit 可达 1500+ tokens/s 总吞吐。llama.cpp server 适合单机少量用户。