TOKREPO · ARSENAL
Stable

LLMs en Local

Ollama, GPT4All, MLC-LLM, Jan, Open WebUI, Text Generation WebUI, TGI — toutes les variantes de "sans clé API, mon GPU."

7 ressources

Ce que contient ce pack

# Runner Idéal pour Backend
1 Ollama CLI une ligne sur Mac/Linux/Windows llama.cpp
2 GPT4All app desktop, pas besoin de GPU llama.cpp + GGUF
3 MLC-LLM iOS, Android, WebGPU compilateur TVM
4 Jan remplaçant desktop de ChatGPT llama.cpp + APIs distantes
5 Open WebUI UI style ChatGPT sur tout runner OpenAI-compatible proxy de Ollama/vLLM/TGI
6 Text Generation WebUI UI recherche avec entraînement LoRA transformers + ExLlama + llama.cpp
7 Hugging Face TGI serving production avec batching continu Rust + Python, multi-GPU

Ces sept runners couvrent tout le spectre : de "je veux une fenêtre de chat sur mon laptop" à "je mets Llama 3 derrière un load balancer pour 10k QPS".

Pourquoi le local compte en 2026

Trois forces ont effacé l'écart de coût entre APIs cloud et inférence self-hosted.

D'abord, la qualité des modèles. Les poids ouverts de Meta (Llama), Mistral, Qwen et DeepSeek atteignent désormais le niveau GPT-4 sur la plupart des tâches de raisonnement et de code. Plus de pénalité de qualité à ne pas payer OpenAI.

Ensuite, le hardware. Une seule RTX 4090 fait tourner Llama 3 70B à vitesse utilisable via la quantization GGUF Q4 de llama.cpp. Apple Silicon a enfin obtenu la mémoire unifiée — un M3 Max fait tourner 70B en local sans thermal throttle. Même les laptops gaming milieu de gamme gèrent les modèles 8B en temps réel.

Enfin, vie privée et conformité. Santé, juridique, finance et entreprises sous RGPD UE ne peuvent pas envoyer de PII à une API tierce. L'inférence locale est la seule voie légale. Idem pour les agents de code — la plupart des entreprises interdisent à Cursor/Copilot de toucher aux dépôts propriétaires.

Installer en une commande

# Installe tout le pack
tokrepo install pack/local-llm-runners

# Ou choisissez le runner dont vous avez vraiment besoin
tokrepo install ollama
tokrepo install open-webui
tokrepo install tgi

La page TokRepo de chaque ressource inclut la commande d'installation, la configuration recommandée, et la commande model-pull pour les poids Llama / Qwen / DeepSeek les plus courants.

Pièges courants

  • Comptabilité VRAM : un modèle "7B" utilise ~14 GB en FP16, ~4 GB en Q4. Vérifiez toujours le suffixe de quantization avant de télécharger.
  • Fenêtre de contexte vs RAM : 32k de contexte sur un 7B peut consommer autant de VRAM que les poids. Réduisez le contexte si OOM.
  • Open WebUI sur Ollama : Open WebUI parle le protocole OpenAI, vous devez donc activer l'endpoint compatible OpenAI sur Ollama (OLLAMA_HOST=0.0.0.0) — beaucoup de tutos sautent cette étape.
  • TGI vs vLLM : TGI brille pour les modèles HuggingFace à poids sharded ; vLLM est plus rapide en throughput pur. Ne choisissez pas TGI juste parce qu'il est plus ancien.
  • Licences modèle : Llama 3 est permissif mais pas MIT. Vérifiez la licence avant déploiement commercial, surtout pour les fine-tunes downstream.

Relation avec les autres packs

Le pack local-llm-runners est la couche runtime. Pour le rendre utile end-to-end :

  • Associez-le au pack Second Cerveau IA — Logseq + Khoj indexant vos notes face à un Ollama local
  • Associez-le à Eval & Guardrails LLM pour vérifier que votre modèle local ne régresse pas vs la baseline fermée
  • Associez-le au Pipeline Document → IA pour alimenter les PDFs vers l'inférence locale au lieu du vendor

Ensemble ces trois packs vous donnent une stack de connaissance totalement air-gapped qui n'appelle jamais à la maison. La frontière est nette : les runners font l'inférence, le pack eval score la qualité, le second-cerveau gère le retrieval, et le pipeline doc transforme les fichiers en chunks. Mélangez selon vos cibles de privacité et latence, puis posez Ollama ou TGI dessous comme moteur.

Quel runner choisir

  • Laptop de dev solo, surtout chat : Ollama plus Jan en UI. Installation cinq minutes, poids GGUF Q4, fonctionne offline en avion.
  • Équipe derrière VPN, serveur GPU partagé : TGI ou vLLM derrière un load balancer, Open WebUI comme front-end équipe avec SSO. Un modèle, plusieurs utilisateurs, zéro facture OpenAI par siège.
  • Démo d'app mobile ou inférence navigateur seul : MLC-LLM. Compile les poids vers WebGPU/Metal/Vulkan et tourne sans serveur — utile pour prototypes mobiles offline.
  • Labo de recherche fine-tunant sur GPUs grand public : Text Generation WebUI. Entraînement LoRA intégré, backend ExLlama, loaders exotiques pour les checkpoints à moitié cassés que HuggingFace publie chaque semaine.
INSTALLER · UNE COMMANDE
$ tokrepo install pack/local-llm-runners
passez-la à votre agent — ou collez-la dans votre terminal
Ce qu'il contient

7 ressources prêtes à installer

Skill#01
Ollama Model Library — Best AI Models for Local Use

Curated guide to the best models available on Ollama for coding, chat, and reasoning. Compare Llama, Mistral, Gemma, Phi, and Qwen models for local AI development.

by Skill Factory·160 views
$ tokrepo install ollama-model-library-best-ai-models-local-use-4cecf968
Config#02
GPT4All — Run LLMs Privately on Your Desktop

GPT4All runs large language models privately on everyday desktops and laptops without GPUs or API calls. 77.2K+ GitHub stars. Desktop app + Python SDK, LocalDocs for private data. MIT licensed.

by AI Open Source·128 views
$ tokrepo install gpt4all-run-llms-privately-your-desktop-f493abd9
Script#03
MLC-LLM — Universal LLM Deployment Engine

Deploy any LLM on any hardware — phones, browsers, GPUs, CPUs. Compiles models for native performance on iOS, Android, WebGPU, CUDA, Metal, and Vulkan. 22K+ stars.

by Script Depot·102 views
$ tokrepo install mlc-llm-universal-llm-deployment-engine-735f5a27
Config#04
Text Generation WebUI — Local LLM Chat Interface

Text Generation WebUI is a Gradio interface for running LLMs locally. 46.4K+ GitHub stars. Multiple backends, vision, training, image gen, OpenAI-compatible API. 100% offline.

by AI Open Source·104 views
$ tokrepo install text-generation-webui-local-llm-chat-interface-11107806
Config#05
Jan — Offline AI Desktop App with Full Privacy

Jan is an open-source ChatGPT alternative that runs LLMs locally with full privacy. 41.4K+ GitHub stars. Desktop app for Windows/macOS/Linux, OpenAI-compatible API, MCP support. Apache 2.0.

by AI Open Source·103 views
$ tokrepo install jan-offline-ai-desktop-app-full-privacy-7b703194
Script#06
Open WebUI — Self-Hosted AI Chat Interface

User-friendly, self-hosted AI chat interface. Supports Ollama, OpenAI, Anthropic, and any OpenAI-compatible API. RAG, web search, voice, image gen, and plugins. 129K+ stars.

by Script Depot·96 views
$ tokrepo install open-webui-self-hosted-ai-chat-interface-5d37ffb8
Script#07
Text Generation Inference (TGI) — Hugging Face Production LLM Server

TGI is Hugging Face's production-grade LLM inference server. It powers HF Inference Endpoints with continuous batching, tensor parallelism, quantization, and OpenAI-compatible APIs — handling thousands of requests per second.

by Hugging Face·161 views
$ tokrepo install text-generation-inference-tgi-hugging-face-production-llm-e08ad222
FAQ

Questions fréquentes

Est-ce vraiment gratuit ou y a-t-il des coûts cachés ?

Les sept runners sont open-source et gratuits à installer. Le coût c'est le hardware — il vous faut un GPU avec assez de VRAM pour les poids choisis. Une RTX 3090/4090 grand public (24GB) gère les modèles 7B-13B avec fluidité et 70B avec quantization agressive. Les Macs série M fonctionnent via Metal. La location GPU cloud sur Runpod ou Vast.ai reste bien sous le prix de l'API OpenAI pour des charges soutenues.

Par lequel commencer — Ollama ou Jan ?

Ollama si vous vivez dans le terminal et voulez du HTTP compatible OpenAI pour vos apps. Jan si vous voulez une expérience desktop en un clic qui imite ChatGPT. Beaucoup utilisent les deux : Ollama comme moteur, Jan ou Open WebUI comme UI. Ils partagent les fichiers GGUF via le store local d'Ollama.

Ça marche avec Cursor ou Codex CLI ?

Oui — Cursor comme Codex CLI acceptent tout endpoint OpenAI-compatible. Pointez-les vers http://localhost:11434/v1 (Ollama) ou le port exposé par votre runner. Cursor appelle ça Custom OpenAI URL dans les paramètres. Le piège : les modèles locaux 7B sont en retrait sur GPT-4 pour les refactors à long contexte, donc utilisez 70B+ pour de la qualité production.

Quelle différence avec le pack LLM Eval & Guardrails ?

Ce pack est le runtime qui sert le modèle. Le pack eval note la sortie. Ils sont complémentaires : installez un runner ici, puis pointez DeepEval/Promptfoo dessus pour vérifier la qualité avant de remplacer un modèle cloud par un local. La plupart des équipes qui passent au local ont besoin des deux packs.

Quel est le plus gros piège après installation ?

Oublier de régler la fenêtre de contexte sur votre budget VRAM. Les défauts sont conservateurs (2k-4k), mais si vous chargez un modèle entraîné 32k et le remplissez de contexte, le KV cache enfle et c'est OOM en pleine génération. Vérifiez toujours nvidia-smi pendant une charge réelle avant la production.

PLUS DANS L'ARSENAL

12 packs · 80+ ressources sélectionnées

Découvrez tous les packs curatés sur la page d'accueil

Retour à tous les packs