Cette page est affichée en anglais. Une traduction française est en cours.
LLM local / Self-hosted

Exécuter des LLM en local — 9 outils self-hosted comparés (Ollama, vLLM, llama.cpp, MLX et plus)

Le panorama 2026 de l'exécution de LLM sur votre propre matériel — du desktop en un clic (Ollama, LM Studio) au throughput datacenter (vLLM, llama.cpp). 9 outils comparés avec leurs besoins matériels, compatibilité de modèles et benchmarks tokens/sec.

Ollama — Run LLMs Locally with One Command (2026 Guide) logo

Ollama — Run LLMs Locally with One Command (2026 Guide)

Ollama is the most popular way to run large language models locally. A single CLI downloads, quantizes, and serves models with an OpenAI-compatible API — the easiest on-ramp to self-hosted AI in 2026.

DesktopCLIOne-click
LM Studio — Desktop GUI for Local LLMs (Windows, Mac, Linux) logo

LM Studio — Desktop GUI for Local LLMs (Windows, Mac, Linux)

LM Studio is the leading desktop GUI for running LLMs locally — built-in model browser, OpenAI-compatible local server, and polished Windows/Mac/Linux experience. The easiest way in for non-terminal users.

DesktopGUIWindows/Mac
LocalAI — Drop-in OpenAI API for Your Own Hardware logo

LocalAI — Drop-in OpenAI API for Your Own Hardware

LocalAI is an open-source drop-in replacement for the OpenAI API — runs LLMs, embeddings, image, audio, and vision models locally with a single Docker container. Multi-backend, multi-modal, production-grade.

OpenAI-compatibleMulti-backend
vLLM — High-Throughput GPU Inference Server (Production Scale) logo

vLLM — High-Throughput GPU Inference Server (Production Scale)

vLLM is the open-source inference engine for serving LLMs at scale. PagedAttention, continuous batching, and prefix caching make it the highest-throughput option for production multi-user serving on GPU hardware.

DatacenterProductionGPU
llama.cpp — The C++ Engine Under Ollama, LM Studio, and Most Local LLMs logo

llama.cpp — The C++ Engine Under Ollama, LM Studio, and Most Local LLMs

llama.cpp is Georgi Gerganov’s MIT-licensed C++ implementation of Llama-family inference — the engine most local LLM tools build on. Supports CPU, CUDA, ROCm, Metal, Vulkan, and aggressive quantization for any hardware.

C++ corePortableQuantized
text-generation-webui (oobabooga) — Swiss-Army Local LLM UI logo

text-generation-webui (oobabooga) — Swiss-Army Local LLM UI

text-generation-webui is the Gradio-based multi-loader UI that researchers reach for when they need everything — multiple backends, LoRA training, quantization experiments, extensions, and a familiar chat UI in one package.

ResearchSwiss-armyLoRA
Jan — Open-source ChatGPT Alternative That Runs Offline logo

Jan — Open-source ChatGPT Alternative That Runs Offline

Jan is an MIT-licensed desktop app that runs LLMs locally with a ChatGPT-like experience. Built-in model hub, assistants, extensions, and a local OpenAI-compatible server — the OSS alternative to LM Studio.

Desktop appOffline-first
GPT4All — Privacy-First Desktop LLM App by Nomic AI logo

GPT4All — Privacy-First Desktop LLM App by Nomic AI

GPT4All is an open-source desktop app focused on running LLMs privately on CPUs — no GPU required, no telemetry, clean chat UI, and a local vector DB for your documents. Maintained by Nomic AI.

DesktopCPU-friendly
MLX — Apple’s Machine Learning Framework for Apple Silicon logo

MLX — Apple’s Machine Learning Framework for Apple Silicon

MLX is Apple’s open-source ML framework designed specifically for Apple Silicon’s unified memory architecture. MLX-LM gives you the fastest LLM inference available on M-series Macs.

Apple SiliconFastest on Mac

Trois niveaux de LLM local

Desktop en un clic. Ollama, LM Studio, Jan et GPT4All ciblent tous le cas d'usage « utilisateur de laptop qui veut ChatGPT hors-ligne ». Zero config, GUI ou commande unique, API compatible OpenAI pour l'intégration développeur. Choisissez selon vos préférences : Ollama pour le CLI, LM Studio pour une GUI Windows/Mac avec navigateur de modèles, Jan/GPT4All pour une expérience tout-en-un.

Serveur single-node. llama.cpp est le moteur C++ qui propulse la plupart des outils desktop ; il fonctionne aussi directement comme serveur avec quantization agressive et portabilité maximale (CPU, CUDA, ROCm, Metal, Vulkan). Sur Apple Silicon spécifiquement, MLX bat souvent llama.cpp en tokens/sec en exploitant nativement l'architecture mémoire unifiée.

Throughput datacenter. vLLM est le serveur d'inférence en production pour les flottes GPU — continuous batching, PagedAttention et scaling quasi-linéaire sur plusieurs GPU. LocalAI encapsule plusieurs backends derrière une API compatible OpenAI et se situe entre les niveaux desktop et datacenter. Text-generation-webui (oobabooga) reste populaire chez les chercheurs qui veulent une UI couteau suisse pour l'entraînement LoRA, l'expérimentation de quantization et le chat.

Questions fréquentes

LLM local vs cloud — comment choisir ?+

Local quand la confidentialité, la conformité ou la prévisibilité des coûts comptent. Cloud pour les capacités frontières et l'itération rapide. La plupart des setups réels sont hybrides : requêtes non sensibles vers l'API, données sensibles vers des modèles locaux (Llama 3.3, Qwen 2.5, DeepSeek).

Puis-je faire tourner des LLM sans GPU ?+

Oui. llama.cpp, Ollama, LM Studio et GPT4All supportent tous CPU + quantization. Un modèle 7B sur un MacBook 16 Go atteint 10-30 tokens/s — largement suffisant pour du chat. Les modèles 70B+ ne sont pas recommandés sur CPU seul.

Ollama ou LM Studio ?+

Les deux sont excellents. Ollama : CLI-first, excellente compatibilité avec l'API OpenAI, déploiements Docker et serveur. LM Studio : GUI avec navigateur de modèles intégré, plus fluide sur Windows/macOS pour les utilisateurs non techniques. Beaucoup installent les deux — LM Studio comme navigateur de modèles, Ollama comme runtime.

Qu'est-ce qui tourne le plus vite sur Apple Silicon ?+

MLX > llama.cpp Metal ≥ Ollama (qui encapsule llama.cpp). Sur un M4 Max, MLX fait tourner un quant 4-bit de Llama 3.3 70B autour de 30 tokens/s ; llama.cpp autour de 20-25 ; Ollama proche de llama.cpp. Performance maximale : MLX. Meilleure compatibilité API + écosystème : Ollama.

Quel choix pour la concurrence multi-utilisateur en production ?+

vLLM. PagedAttention + continuous batching constituent la meilleure histoire de throughput GPU open-source — un seul A100 peut servir 1500+ tokens/s en agrégat sur un quant 4-bit de Llama 3.3 70B. Le serveur llama.cpp convient pour un petit nombre d'utilisateurs sur une seule machine.