Ollama — exécutez des LLM en local avec une seule commande (guide 2026)
Ollama est la manière la plus populaire d’exécuter des grands modèles de langage en local. Une seule CLI télécharge, quantifie et expose les modèles via une API compatible OpenAI — la voie d’accès la plus simple à l’AI auto-hébergée en 2026.
Why Ollama
Ollama a gagné par la simplicité. ollama run llama3.2 télécharge un modèle quantifié, démarre un serveur local et vous lance dans une conversation — le tout en une seule commande. Sous le capot, c’est llama.cpp avec une gestion de modèles soignée, une API HTTP compatible OpenAI et un support de premier ordre sur macOS, Linux et Windows. L’expérience est nettement plus fluide qu’une installation maison de llama.cpp.
Le pari a payé. En 2026, Ollama est le choix par défaut pour « je veux un LLM local sur mon laptop ». Tous les outils dev populaires (Cursor, Claude Code, Zed, plugins Obsidian, de nombreuses extensions VS Code) supportent Ollama comme fournisseur d’origine, car l’API HTTP est identique à celle d’OpenAI. Vous installez Ollama, téléchargez un modèle, pointez votre outil sur http://localhost:11434, et c’est terminé.
Là où Ollama n’est pas la bonne réponse : servir de nombreux utilisateurs simultanés (utilisez vLLM), débit maximal sur Apple Silicon (utilisez MLX), ou outils de recherche comme l’entraînement LoRA (utilisez text-generation-webui). Pour l’inférence personnelle ou en petite équipe, Ollama reste presque toujours le bon premier choix.
Quick Start — Install, Pull, Use
ollama run télécharge le modèle au premier usage et vous lance dans un chat interactif. ollama serve expose l’API HTTP (port 11434 par défaut). Tous les principaux clients compatibles Ollama utilisent le chemin /v1/chat/completions sous cette URL de base.
# 1. Install (macOS / Linux / Windows)
curl -fsSL https://ollama.com/install.sh | sh
# or: brew install ollama # macOS homebrew
# Windows: download installer from ollama.com
# 2. Run a model — downloads ~2-5GB the first time
ollama run llama3.2 # Meta Llama 3.2 3B, quantized
ollama run qwen2.5:14b # Alibaba Qwen 2.5 14B
ollama run deepseek-r1 # DeepSeek R1 reasoning model
# 3. Use the OpenAI-compatible API from any client
# The server listens on localhost:11434 after 'ollama serve' (auto on install)
# Python with the OpenAI SDK:
python - <<'PY'
from openai import OpenAI
client = OpenAI(base_url="http://localhost:11434/v1", api_key="ollama")
r = client.chat.completions.create(
model="llama3.2",
messages=[{"role":"user","content":"Name one Go stdlib package you underrate."}],
)
print(r.choices[0].message.content)
PY
# Use the same endpoint with Cursor, Claude Code, Zed — configure as an
# OpenAI-compatible provider with base URL http://localhost:11434/v1.Fonctionnalités clés
Installation et exécution en une commande
Un seul binaire, une seule commande pour tester un modèle. Pas d’environnement Python, pas de bidouille CUDA sous Linux, pas de scripts de conversion de modèles. L’expérience LLM locale avec le moins de friction possible.
API compatible OpenAI
Chat completions, streaming, appel d’outils et endpoints d’embeddings respectent tous la forme OpenAI. Tout SDK OpenAI ou outil acceptant la surcharge de base_url fonctionne avec Ollama sans modification.
Bibliothèque de modèles
ollama.com/library propose des modèles populaires avec des quantifications prêtes à l’emploi. Llama 3.x, Qwen 2.5, Mistral, Gemma, Phi, DeepSeek et bien d’autres — tous à une commande de distance.
Système Modelfile
Créez des modèles personnalisés en écrivant un Modelfile (prompt système, température, modèle de base). ollama create mybot -f Modelfile. Facile pour partager des personnalités fine-tunées au sein d’une équipe.
Support natif Apple / CUDA / ROCm
Utilise Metal sur macOS, CUDA sur NVIDIA, ROCm sur AMD, CPU partout. Choisit automatiquement le meilleur backend.
Embeddings et multimodal
Sert également des modèles d’embeddings et des modèles vision-langage (LLaVA, Qwen-VL, Gemma 3 vision). API unifiée, gestion de modèles unifiée.
Comparaison
| Install Complexity | API Compatibility | Throughput | Best For | |
|---|---|---|---|---|
| Ollamacelui-ci | Very low | OpenAI-compatible (native) | Good (llama.cpp backend) | Desktop + small-team servers |
| LM Studio | Low (GUI) | OpenAI-compatible | Good | Windows/Mac GUI users |
| llama.cpp (server) | Medium | OpenAI-compatible | Good | Full control, portability |
| vLLM | High | OpenAI-compatible | Excellent (GPU) | Production multi-user GPU |
Cas d'usage
01. Assistant développeur personnel
Pointez Cursor/Claude Code/Zed sur Ollama pour des suggestions de code hors ligne sur un laptop. Confidentialité, pas de facture API, qualité suffisante pour les tâches courantes.
02. LLM interne d’équipe
Déployez Ollama sur un serveur GPU partagé et exposez http://server:11434 en interne. Les petites équipes (<20 personnes) peuvent se partager une seule instance avec une latence acceptable.
03. Environnements dev/staging
La même API qu’OpenAI permet d’échanger base_url dans la configuration pour pointer sur Ollama en dev et OpenAI en production — pratique pour tester sans consommer de budget API.
Tarification et licence
Ollama : open source sous licence MIT. Utilisation commerciale gratuite. Aucune télémétrie par défaut ; opt-in explicite pour les statistiques d’usage.
Coût matériel : Ollama est gratuit en lui-même. La qualité du modèle évolue avec la RAM/VRAM : les modèles 7B tournent sur des machines de 8 Go (quant. 4-bit), les 70B nécessitent 32 Go+ de RAM ou 48 Go de VRAM. Voir les pages dédiées pour les prérequis de chaque modèle.
Coût en temps : les téléchargements initiaux vont de 2 à 50 Go selon la taille du modèle. Ensuite, l’usage local est gratuit (sauf si vous comptez l’électricité).
Assets associés sur TokRepo
Ollama Model Library — Best AI Models for Local Use
Curated guide to the best models available on Ollama for coding, chat, and reasoning. Compare Llama, Mistral, Gemma, Phi, and Qwen models for local AI development.
Ollama — Run LLMs Locally
Run large language models locally on your machine. Supports Llama 3, Mistral, Gemma, Phi, and dozens more. One-command install, OpenAI-compatible API.
VULNRΞPO — Privacy-First Vuln Report Manager (Ollama)
VULNRΞPO is a client-side vulnerability report manager: it encrypts data in-browser, supports imports/exports, and can use local Ollama for AI writing.
Pal MCP Server — Multi-Model AI Gateway for Claude Code
MCP server that lets Claude Code use Gemini, OpenAI, Grok, and Ollama as a unified AI dev team. Features model routing, CLI-to-CLI bridge, and conversation continuity across 7+ providers.
Questions fréquentes
Ollama fonctionne-t-il hors ligne ?+
Oui — après le téléchargement initial du modèle, tout tourne en local. Aucune connexion Internet nécessaire pour l’inférence. Utile en avion, dans des environnements sécurisés et pour le travail sur données sensibles.
Ollama vs LM Studio ?+
Les deux encapsulent llama.cpp avec une excellente DX. Ollama est avant tout CLI avec une vraie histoire Docker/serveur. LM Studio est avant tout GUI avec un navigateur de modèles intégré. Beaucoup installent les deux. Pour les scénarios scriptés / automatisés / en équipe, Ollama l’emporte. Pour « mon collègue qui ne touche pas à un terminal », c’est LM Studio.
Ollama gère-t-il les tool calls / function calling ?+
Oui — depuis la v0.4. Le support des outils varie selon le modèle. Llama 3.1/3.2, Qwen 2.5 et Mistral v0.3+ embarquent des poids fine-tunés pour les tool calls. Utilisez le paramètre standard OpenAI tools= via l’endpoint chat completions.
Comment faire tourner Ollama en production ?+
L’image Docker est officielle et bien maintenue. Exposez le port 11434 derrière un reverse proxy avec authentification. Utilisez les variables d’environnement OLLAMA_HOST et OLLAMA_MODELS pour l’adresse de bind et le cache de modèles. Pour la concurrence multi-utilisateurs, limitez OLLAMA_NUM_PARALLEL et envisagez de basculer sur vLLM si vous dépassez 5-10 requêtes simultanées.
Quels modèles sont les meilleurs pour le code ?+
En 2026, Qwen 2.5 Coder 32B et DeepSeek Coder V2 sont les meilleures options ouvertes ; les deux tournent confortablement sur 24 Go de VRAM ou 32 Go de mémoire unifiée Apple Silicon avec une quantification 4-bit. Pour du matériel plus modeste, essayez Qwen 2.5 Coder 7B ou deepseek-r1-distill-qwen-14b.
Ollama peut-il servir des modèles d’embeddings ?+
Oui — ollama pull nomic-embed-text ou mxbai-embed-large, puis POST sur /api/embed. Même serveur HTTP, même concept de Modelfile, endpoint différent.