LLMs en Local
Ollama, GPT4All, MLC-LLM, Jan, Open WebUI, Text Generation WebUI, TGI — toutes les variantes de "sans clé API, mon GPU."
Ce que contient ce pack
| # | Runner | Idéal pour | Backend |
|---|---|---|---|
| 1 | Ollama | CLI une ligne sur Mac/Linux/Windows | llama.cpp |
| 2 | GPT4All | app desktop, pas besoin de GPU | llama.cpp + GGUF |
| 3 | MLC-LLM | iOS, Android, WebGPU | compilateur TVM |
| 4 | Jan | remplaçant desktop de ChatGPT | llama.cpp + APIs distantes |
| 5 | Open WebUI | UI style ChatGPT sur tout runner OpenAI-compatible | proxy de Ollama/vLLM/TGI |
| 6 | Text Generation WebUI | UI recherche avec entraînement LoRA | transformers + ExLlama + llama.cpp |
| 7 | Hugging Face TGI | serving production avec batching continu | Rust + Python, multi-GPU |
Ces sept runners couvrent tout le spectre : de "je veux une fenêtre de chat sur mon laptop" à "je mets Llama 3 derrière un load balancer pour 10k QPS".
Pourquoi le local compte en 2026
Trois forces ont effacé l'écart de coût entre APIs cloud et inférence self-hosted.
D'abord, la qualité des modèles. Les poids ouverts de Meta (Llama), Mistral, Qwen et DeepSeek atteignent désormais le niveau GPT-4 sur la plupart des tâches de raisonnement et de code. Plus de pénalité de qualité à ne pas payer OpenAI.
Ensuite, le hardware. Une seule RTX 4090 fait tourner Llama 3 70B à vitesse utilisable via la quantization GGUF Q4 de llama.cpp. Apple Silicon a enfin obtenu la mémoire unifiée — un M3 Max fait tourner 70B en local sans thermal throttle. Même les laptops gaming milieu de gamme gèrent les modèles 8B en temps réel.
Enfin, vie privée et conformité. Santé, juridique, finance et entreprises sous RGPD UE ne peuvent pas envoyer de PII à une API tierce. L'inférence locale est la seule voie légale. Idem pour les agents de code — la plupart des entreprises interdisent à Cursor/Copilot de toucher aux dépôts propriétaires.
Installer en une commande
# Installe tout le pack
tokrepo install pack/local-llm-runners
# Ou choisissez le runner dont vous avez vraiment besoin
tokrepo install ollama
tokrepo install open-webui
tokrepo install tgi
La page TokRepo de chaque ressource inclut la commande d'installation, la configuration recommandée, et la commande model-pull pour les poids Llama / Qwen / DeepSeek les plus courants.
Pièges courants
- Comptabilité VRAM : un modèle "7B" utilise ~14 GB en FP16, ~4 GB en Q4. Vérifiez toujours le suffixe de quantization avant de télécharger.
- Fenêtre de contexte vs RAM : 32k de contexte sur un 7B peut consommer autant de VRAM que les poids. Réduisez le contexte si OOM.
- Open WebUI sur Ollama : Open WebUI parle le protocole OpenAI, vous devez donc activer l'endpoint compatible OpenAI sur Ollama (
OLLAMA_HOST=0.0.0.0) — beaucoup de tutos sautent cette étape. - TGI vs vLLM : TGI brille pour les modèles HuggingFace à poids sharded ; vLLM est plus rapide en throughput pur. Ne choisissez pas TGI juste parce qu'il est plus ancien.
- Licences modèle : Llama 3 est permissif mais pas MIT. Vérifiez la licence avant déploiement commercial, surtout pour les fine-tunes downstream.
Relation avec les autres packs
Le pack local-llm-runners est la couche runtime. Pour le rendre utile end-to-end :
- Associez-le au pack Second Cerveau IA — Logseq + Khoj indexant vos notes face à un Ollama local
- Associez-le à Eval & Guardrails LLM pour vérifier que votre modèle local ne régresse pas vs la baseline fermée
- Associez-le au Pipeline Document → IA pour alimenter les PDFs vers l'inférence locale au lieu du vendor
Ensemble ces trois packs vous donnent une stack de connaissance totalement air-gapped qui n'appelle jamais à la maison. La frontière est nette : les runners font l'inférence, le pack eval score la qualité, le second-cerveau gère le retrieval, et le pipeline doc transforme les fichiers en chunks. Mélangez selon vos cibles de privacité et latence, puis posez Ollama ou TGI dessous comme moteur.
Quel runner choisir
- Laptop de dev solo, surtout chat : Ollama plus Jan en UI. Installation cinq minutes, poids GGUF Q4, fonctionne offline en avion.
- Équipe derrière VPN, serveur GPU partagé : TGI ou vLLM derrière un load balancer, Open WebUI comme front-end équipe avec SSO. Un modèle, plusieurs utilisateurs, zéro facture OpenAI par siège.
- Démo d'app mobile ou inférence navigateur seul : MLC-LLM. Compile les poids vers WebGPU/Metal/Vulkan et tourne sans serveur — utile pour prototypes mobiles offline.
- Labo de recherche fine-tunant sur GPUs grand public : Text Generation WebUI. Entraînement LoRA intégré, backend ExLlama, loaders exotiques pour les checkpoints à moitié cassés que HuggingFace publie chaque semaine.
7 ressources prêtes à installer
Questions fréquentes
Est-ce vraiment gratuit ou y a-t-il des coûts cachés ?
Les sept runners sont open-source et gratuits à installer. Le coût c'est le hardware — il vous faut un GPU avec assez de VRAM pour les poids choisis. Une RTX 3090/4090 grand public (24GB) gère les modèles 7B-13B avec fluidité et 70B avec quantization agressive. Les Macs série M fonctionnent via Metal. La location GPU cloud sur Runpod ou Vast.ai reste bien sous le prix de l'API OpenAI pour des charges soutenues.
Par lequel commencer — Ollama ou Jan ?
Ollama si vous vivez dans le terminal et voulez du HTTP compatible OpenAI pour vos apps. Jan si vous voulez une expérience desktop en un clic qui imite ChatGPT. Beaucoup utilisent les deux : Ollama comme moteur, Jan ou Open WebUI comme UI. Ils partagent les fichiers GGUF via le store local d'Ollama.
Ça marche avec Cursor ou Codex CLI ?
Oui — Cursor comme Codex CLI acceptent tout endpoint OpenAI-compatible. Pointez-les vers http://localhost:11434/v1 (Ollama) ou le port exposé par votre runner. Cursor appelle ça Custom OpenAI URL dans les paramètres. Le piège : les modèles locaux 7B sont en retrait sur GPT-4 pour les refactors à long contexte, donc utilisez 70B+ pour de la qualité production.
Quelle différence avec le pack LLM Eval & Guardrails ?
Ce pack est le runtime qui sert le modèle. Le pack eval note la sortie. Ils sont complémentaires : installez un runner ici, puis pointez DeepEval/Promptfoo dessus pour vérifier la qualité avant de remplacer un modèle cloud par un local. La plupart des équipes qui passent au local ont besoin des deux packs.
Quel est le plus gros piège après installation ?
Oublier de régler la fenêtre de contexte sur votre budget VRAM. Les défauts sont conservateurs (2k-4k), mais si vous chargez un modèle entraîné 32k et le remplissez de contexte, le KV cache enfle et c'est OOM en pleine génération. Vérifiez toujours nvidia-smi pendant une charge réelle avant la production.
12 packs · 80+ ressources sélectionnées
Découvrez tous les packs curatés sur la page d'accueil
Retour à tous les packs