Local LLM

LM Studio — interface graphique de bureau pour LLM en local (Windows · Mac · Linux)

LM Studio est la principale interface graphique de bureau pour exécuter des LLM en local — navigateur de modèles intégré, serveur local compatible OpenAI, expérience soignée sur Windows, Mac et Linux. La voie la plus simple pour les utilisateurs qui ne travaillent pas en terminal.

Site officiel

Why LM Studio

LM Studio est ce que serait Ollama s’il avait démarré comme une application Windows/Mac plutôt que comme une CLI. Vous téléchargez un .dmg / .exe, double-cliquez, cherchez un modèle dans le navigateur Hugging Face intégré, choisissez une quantification adaptée à votre RAM et cliquez sur Load. Pas de terminal, pas de Docker, pas de fichier de config — une fois le modèle chargé, vous pouvez discuter dans l’app ou exposer un serveur compatible OpenAI sur localhost.

Pour les utilisateurs qui viennent de l’app ChatGPT desktop plutôt que du terminal, LM Studio ramène l’énergie d’activation à presque zéro. Il embarque aussi de vraies fonctions avancées : benchmark de modèles, prompts préenregistrés, RAG sur fichiers locaux, accélération MLX sur Apple Silicon et une CLI (lms) pour l’automatisation.

Là où Ollama reste devant : déploiements serveur Linux, Docker et ergonomie développeur pour le scripting. Là où LM Studio gagne : découverte de modèles via GUI, sélecteur de quantification explicite et onboarding non-développeur. Faire tourner les deux sur le même Mac est courant — LM Studio pour explorer et tester, Ollama comme runtime pour les outils dev.

Quick Start — Desktop Install and Local Server

L’onglet Developer expose le serveur local — par défaut, il calque l’endpoint chat completions d’OpenAI sur /v1. La CLI lms est distribuée séparément (brew install lmstudio-cli sur macOS) et reste optionnelle pour les utilisateurs GUI. Le RAG sur documents locaux vit dans l’onglet Chat → « My Documents » depuis la v0.3.

# 1. Install the desktop app
#    https://lmstudio.ai/download  (macOS, Windows, Linux)

# 2. Inside LM Studio:
#    - Open the "Discover" tab → search "Llama 3.2"
#    - Pick a quantization (Q4_K_M is a good default for ~8GB RAM)
#    - Click "Download"
#    - Open the "Chat" tab → select the model → chat

# 3. Start the local server (inside LM Studio → "Developer" tab → "Start Server")
#    Or from the CLI (requires "lms" installed):
lms server start --port 1234

# 4. Use any OpenAI SDK with base_url http://localhost:1234/v1
python - <<'PY'
from openai import OpenAI
client = OpenAI(base_url="http://localhost:1234/v1", api_key="lm-studio")
r = client.chat.completions.create(
    model="lmstudio-community/Llama-3.2-3B-Instruct-GGUF",
    messages=[{"role":"user","content":"One tip for learning Rust?"}],
)
print(r.choices[0].message.content)
PY

# Automation: script model management from the terminal
lms ls                              # list local models
lms load llama-3.2-3b-instruct      # load a specific model
lms unload --all                    # free VRAM

Fonctionnalités clés

Application de bureau soignée

Interface Windows/macOS/Linux qui sonne native. Menus clic droit, raccourcis clavier, workflow par onglets. L’app à elle seule attire les utilisateurs qui ne touchent pas un terminal.

Navigateur de modèles Hugging Face

Recherche intégrée avec filtres par famille de modèle, quantification, RAM requise et licence. Pas de script de téléchargement séparé ni de Modelfile — un clic, c’est parti.

Sélecteur de quantification

Choisissez explicitement les quants Q2/Q3/Q4/Q5/Q6/Q8. Affiche la taille exacte du fichier et la RAM estimée. Plus simple à raisonner que la quantification auto-choisie ailleurs.

Accélération MLX sur Apple Silicon

Utilise MLX nativement sur les Mac série M pour la génération de tokens la plus rapide accessible aux non-spécialistes. Les modèles GGUF passent par le backend Metal de llama.cpp quand aucune version MLX n’est disponible.

Serveur local compatible OpenAI

Mêmes formes /v1/chat/completions et /v1/embeddings qu’OpenAI. Drop-in pour tout outil ou SDK. Port et CORS configurables.

RAG sur fichiers locaux

Attachez des PDF ou des dossiers à une conversation ; LM Studio les indexe localement et les récupère à la demande. Pratique pour les cas « interroge mes notes » sans infra RAG dédiée.

Comparaison

	Primary Interface	Non-developer Fit	Server Deployment	Best For
LM Studiocelui-ci	Desktop GUI	Excellent	Local-first (not intended as multi-user server)	Individual users, Windows/Mac
Ollama	CLI + API	Needs terminal	First-class (Docker, systemd)	Developers, servers
Jan	Desktop GUI	Good	Basic	OSS-purist desktop users
GPT4All	Desktop GUI	Very good	Limited	CPU-first desktop users

Cas d'usage

01. AI de bureau pour non-développeurs

Les collègues qui veulent ChatGPT hors ligne sur leur laptop sans toucher à un terminal. LM Studio est le chemin le plus rapide vers un setup fonctionnel.

02. Évaluation de modèles avant production

Téléchargez 5 candidats, chargez-les un à un, comparez la qualité côte à côte dans l’onglet Chat. Plus rapide que de scripter via CLI quand vous ne connaissez pas encore le bon modèle.

03. Inférence accélérée par MLX sur Mac

Pour les utilisateurs M3/M4, l’intégration MLX de LM Studio offre la génération la plus rapide sans la courbe d’apprentissage abrupte de MLX brut.

Tarification et licence

LM Studio : gratuit pour usage personnel et commercial selon les conditions actuelles (voir lmstudio.ai/legal). Pas open source — distribution binaire à code fermé.

Coût matériel : l’app est gratuite. Vous payez en RAM/VRAM. Base réaliste : 16 Go de RAM pour les modèles 7B, 32 Go+ pour 13-34B, 64 Go+ pour 70B+.

Entreprise : LM Studio propose une licence entreprise avec support MDM, installation hors ligne et SLA. Contactez lmstudio.ai pour les conditions.

Assets associés sur TokRepo

SillyTavern — LLM Frontend for Power Users

A self-hosted chat interface for interacting with local and cloud LLMs, featuring character cards, group chats, extensions, and advanced prompt management.

Prompt Flow — Build, Test & Deploy LLM Pipelines

Prompt Flow by Microsoft provides a visual editor and CLI for building LLM application workflows with built-in evaluation, tracing, and CI/CD integration for production deployment.

Gorilla — LLM That Writes Accurate API Calls

Gorilla is a fine-tuned LLM from UC Berkeley that generates correct API calls with reduced hallucination. It connects language models to thousands of real-world APIs and tools.

LMMS — Free Cross-Platform Digital Audio Workstation

LMMS (Linux MultiMedia Studio) is a free, open-source digital audio workstation for music production. It includes synthesizers, sample playback, beat sequencing, and an effects chain, providing a complete environment for creating music without any cost.

Questions fréquentes

LM Studio est-il open source ?+

Non. LM Studio est une application gratuite à code fermé. C’est la principale raison pour laquelle certains utilisateurs puristes de l’OSS préfèrent Jan ou Ollama. Pour la plupart des usages pratiques (perso, équipe interne), la distinction compte moins que la différence d’UX.

LM Studio vs Ollama ?+

LM Studio : GUI d’abord, code fermé, la meilleure UX desktop. Ollama : CLI d’abord, MIT open source, meilleur pour l’automatisation et les serveurs. Utilisez LM Studio pour l’usage interactif individuel ; utilisez Ollama quand il vous faut Docker, un serveur partagé ou du scripting.

Puis-je exposer le serveur LM Studio à d’autres machines ?+

Oui — décochez « Localhost only » dans l’onglet Developer et choisissez une adresse de bind. Faites-le uniquement sur un réseau de confiance ; il n’y a pas d’authentification intégrée. Pour un usage partagé, Ollama derrière un reverse proxy est un schéma plus sûr.

LM Studio supporte-t-il les mêmes modèles qu’Ollama ?+

En grande partie oui — les deux utilisent des modèles GGUF de Hugging Face. LM Studio ajoute le support MLX sur Apple Silicon qu’Ollama n’a pas (encore). Ollama a une bibliothèque curatée ; LM Studio vous laisse chercher dans tout Hugging Face.

LM Studio entraîne-t-il ou fine-tune-t-il ?+

Non — inférence uniquement. Pour le fine-tuning, regardez Axolotl, Unsloth ou MLX-LM sur Mac. La portée de LM Studio est « bien faire tourner des modèles pré-entraînés ».

Y a-t-il une CLI ?+

Oui, la CLI lms est distribuée séparément — installation via npm, brew ou l’app LM Studio elle-même. Couvre la gestion de modèles (ls, load, unload), le contrôle du serveur (server start/stop) et le streaming de chat. Utile pour le scripting ou les machines headless.

Comparer les alternatives

Ollama — Run LLMs Locally with One Command (2026 Guide)Jan — Open-source ChatGPT Alternative That Runs Offline GPT4All — Privacy-First Desktop LLM App by Nomic AI llama.cpp — The C++ Engine Under Ollama, LM Studio, and Most Local LLMs