Ejecuta LLMs localmente — Comparamos 9 herramientas self-hosted (Ollama, vLLM, llama.cpp, MLX y más)
El panorama 2026 de la ejecución de LLMs en tu propio hardware: desde el desktop con un clic (Ollama, LM Studio) hasta throughput grado datacenter (vLLM, llama.cpp). 9 herramientas comparadas con requisitos de hardware, compatibilidad de modelos y benchmarks de tokens/seg.
Ollama — Run LLMs Locally with One Command (2026 Guide)
Ollama is the most popular way to run large language models locally. A single CLI downloads, quantizes, and serves models with an OpenAI-compatible API — the easiest on-ramp to self-hosted AI in 2026.
LM Studio — Desktop GUI for Local LLMs (Windows, Mac, Linux)
LM Studio is the leading desktop GUI for running LLMs locally — built-in model browser, OpenAI-compatible local server, and polished Windows/Mac/Linux experience. The easiest way in for non-terminal users.
LocalAI — Drop-in OpenAI API for Your Own Hardware
LocalAI is an open-source drop-in replacement for the OpenAI API — runs LLMs, embeddings, image, audio, and vision models locally with a single Docker container. Multi-backend, multi-modal, production-grade.
vLLM — High-Throughput GPU Inference Server (Production Scale)
vLLM is the open-source inference engine for serving LLMs at scale. PagedAttention, continuous batching, and prefix caching make it the highest-throughput option for production multi-user serving on GPU hardware.
llama.cpp — The C++ Engine Under Ollama, LM Studio, and Most Local LLMs
llama.cpp is Georgi Gerganov’s MIT-licensed C++ implementation of Llama-family inference — the engine most local LLM tools build on. Supports CPU, CUDA, ROCm, Metal, Vulkan, and aggressive quantization for any hardware.
text-generation-webui (oobabooga) — Swiss-Army Local LLM UI
text-generation-webui is the Gradio-based multi-loader UI that researchers reach for when they need everything — multiple backends, LoRA training, quantization experiments, extensions, and a familiar chat UI in one package.
Jan — Open-source ChatGPT Alternative That Runs Offline
Jan is an MIT-licensed desktop app that runs LLMs locally with a ChatGPT-like experience. Built-in model hub, assistants, extensions, and a local OpenAI-compatible server — the OSS alternative to LM Studio.
GPT4All — Privacy-First Desktop LLM App by Nomic AI
GPT4All is an open-source desktop app focused on running LLMs privately on CPUs — no GPU required, no telemetry, clean chat UI, and a local vector DB for your documents. Maintained by Nomic AI.
MLX — Apple’s Machine Learning Framework for Apple Silicon
MLX is Apple’s open-source ML framework designed specifically for Apple Silicon’s unified memory architecture. MLX-LM gives you the fastest LLM inference available on M-series Macs.
Tres niveles de Local LLM
Desktop con un clic. Ollama, LM Studio, Jan y GPT4All apuntan al caso "usuario de laptop que quiere ChatGPT offline". Cero configuración, GUI o un solo comando, API compatible con OpenAI para integrarse con código. Elige según tu preferencia: Ollama si vas CLI-first, LM Studio para GUI Windows/Mac con explorador de modelos, Jan/GPT4All para experiencia todo-en-una-app.
Servidor de un solo nodo. llama.cpp es el motor en C++ que está debajo de la mayoría de herramientas desktop; también corre directamente como servidor con cuantización agresiva y máxima portabilidad (CPU, CUDA, ROCm, Metal, Vulkan). Específicamente para Apple Silicon, MLX suele superar a llama.cpp en tokens/seg al usar la arquitectura de memoria unificada de forma nativa.
Throughput de datacenter. vLLM es el servidor de inferencia de producción para flotas de GPU: continuous batching, PagedAttention y escalado casi lineal entre múltiples GPUs. LocalAI envuelve varios backends detrás de una API compatible con OpenAI y queda en algún punto entre el nivel desktop y el de datacenter. Text-generation-webui (oobabooga) sigue siendo popular entre investigadores que quieren una UI multiusos para entrenamiento LoRA, experimentación con cuantización y chat.
Preguntas frecuentes
Local vs cloud LLM, ¿cómo elegir?+
Local cuando importan la privacidad, el cumplimiento o la previsibilidad de costos. Cloud para capacidad de frontera e iteración rápida. La mayoría de los setups reales se reparten: peticiones no sensibles a la API, datos sensibles a modelos locales (Llama 3.3, Qwen 2.5, DeepSeek).
¿Puedo correr LLMs sin GPU?+
Sí. llama.cpp, Ollama, LM Studio y GPT4All soportan CPU + cuantización. Un modelo 7B en una MacBook de 16 GB consigue 10-30 tokens/s, suficiente para chat. No se recomiendan modelos 70B+ solo en CPU.
¿Ollama o LM Studio?+
Ambos son excelentes. Ollama: CLI-first, gran compatibilidad con la API de OpenAI, despliegues en Docker y servidor. LM Studio: GUI con explorador de modelos integrado, más fluido en Windows/macOS para usuarios no técnicos. Mucha gente instala los dos: LM Studio como explorador de modelos, Ollama como runtime.
¿Qué corre más rápido en Apple Silicon?+
MLX > llama.cpp Metal ≥ Ollama (que envuelve a llama.cpp). En un M4 Max, MLX corre un Llama 3.3 70B 4-bit quant alrededor de 30 tokens/s; llama.cpp en torno a 20-25; Ollama similar a llama.cpp. Máximo rendimiento: MLX. Mejor compatibilidad de API + ecosistema: Ollama.
¿Y para concurrencia multiusuario en producción?+
vLLM. PagedAttention + continuous batching es la historia más sólida de throughput open source en GPU: una sola A100 puede servir más de 1500 tokens/s agregados con un Llama 3.3 70B 4-bit quant. El servidor de llama.cpp va bien para pocos usuarios en una sola máquina.