Esta página se muestra en inglés. Una traducción al español está en curso.
Local LLM / Self-Hosted

Ejecuta LLMs localmente — Comparamos 9 herramientas self-hosted (Ollama, vLLM, llama.cpp, MLX y más)

El panorama 2026 de la ejecución de LLMs en tu propio hardware: desde el desktop con un clic (Ollama, LM Studio) hasta throughput grado datacenter (vLLM, llama.cpp). 9 herramientas comparadas con requisitos de hardware, compatibilidad de modelos y benchmarks de tokens/seg.

Ollama — Run LLMs Locally with One Command (2026 Guide) logo

Ollama — Run LLMs Locally with One Command (2026 Guide)

Ollama is the most popular way to run large language models locally. A single CLI downloads, quantizes, and serves models with an OpenAI-compatible API — the easiest on-ramp to self-hosted AI in 2026.

DesktopCLIOne-click
LM Studio — Desktop GUI for Local LLMs (Windows, Mac, Linux) logo

LM Studio — Desktop GUI for Local LLMs (Windows, Mac, Linux)

LM Studio is the leading desktop GUI for running LLMs locally — built-in model browser, OpenAI-compatible local server, and polished Windows/Mac/Linux experience. The easiest way in for non-terminal users.

DesktopGUIWindows/Mac
LocalAI — Drop-in OpenAI API for Your Own Hardware logo

LocalAI — Drop-in OpenAI API for Your Own Hardware

LocalAI is an open-source drop-in replacement for the OpenAI API — runs LLMs, embeddings, image, audio, and vision models locally with a single Docker container. Multi-backend, multi-modal, production-grade.

OpenAI-compatibleMulti-backend
vLLM — High-Throughput GPU Inference Server (Production Scale) logo

vLLM — High-Throughput GPU Inference Server (Production Scale)

vLLM is the open-source inference engine for serving LLMs at scale. PagedAttention, continuous batching, and prefix caching make it the highest-throughput option for production multi-user serving on GPU hardware.

DatacenterProductionGPU
llama.cpp — The C++ Engine Under Ollama, LM Studio, and Most Local LLMs logo

llama.cpp — The C++ Engine Under Ollama, LM Studio, and Most Local LLMs

llama.cpp is Georgi Gerganov’s MIT-licensed C++ implementation of Llama-family inference — the engine most local LLM tools build on. Supports CPU, CUDA, ROCm, Metal, Vulkan, and aggressive quantization for any hardware.

C++ corePortableQuantized
text-generation-webui (oobabooga) — Swiss-Army Local LLM UI logo

text-generation-webui (oobabooga) — Swiss-Army Local LLM UI

text-generation-webui is the Gradio-based multi-loader UI that researchers reach for when they need everything — multiple backends, LoRA training, quantization experiments, extensions, and a familiar chat UI in one package.

ResearchSwiss-armyLoRA
Jan — Open-source ChatGPT Alternative That Runs Offline logo

Jan — Open-source ChatGPT Alternative That Runs Offline

Jan is an MIT-licensed desktop app that runs LLMs locally with a ChatGPT-like experience. Built-in model hub, assistants, extensions, and a local OpenAI-compatible server — the OSS alternative to LM Studio.

Desktop appOffline-first
GPT4All — Privacy-First Desktop LLM App by Nomic AI logo

GPT4All — Privacy-First Desktop LLM App by Nomic AI

GPT4All is an open-source desktop app focused on running LLMs privately on CPUs — no GPU required, no telemetry, clean chat UI, and a local vector DB for your documents. Maintained by Nomic AI.

DesktopCPU-friendly
MLX — Apple’s Machine Learning Framework for Apple Silicon logo

MLX — Apple’s Machine Learning Framework for Apple Silicon

MLX is Apple’s open-source ML framework designed specifically for Apple Silicon’s unified memory architecture. MLX-LM gives you the fastest LLM inference available on M-series Macs.

Apple SiliconFastest on Mac

Tres niveles de Local LLM

Desktop con un clic. Ollama, LM Studio, Jan y GPT4All apuntan al caso "usuario de laptop que quiere ChatGPT offline". Cero configuración, GUI o un solo comando, API compatible con OpenAI para integrarse con código. Elige según tu preferencia: Ollama si vas CLI-first, LM Studio para GUI Windows/Mac con explorador de modelos, Jan/GPT4All para experiencia todo-en-una-app.

Servidor de un solo nodo. llama.cpp es el motor en C++ que está debajo de la mayoría de herramientas desktop; también corre directamente como servidor con cuantización agresiva y máxima portabilidad (CPU, CUDA, ROCm, Metal, Vulkan). Específicamente para Apple Silicon, MLX suele superar a llama.cpp en tokens/seg al usar la arquitectura de memoria unificada de forma nativa.

Throughput de datacenter. vLLM es el servidor de inferencia de producción para flotas de GPU: continuous batching, PagedAttention y escalado casi lineal entre múltiples GPUs. LocalAI envuelve varios backends detrás de una API compatible con OpenAI y queda en algún punto entre el nivel desktop y el de datacenter. Text-generation-webui (oobabooga) sigue siendo popular entre investigadores que quieren una UI multiusos para entrenamiento LoRA, experimentación con cuantización y chat.

Preguntas frecuentes

Local vs cloud LLM, ¿cómo elegir?+

Local cuando importan la privacidad, el cumplimiento o la previsibilidad de costos. Cloud para capacidad de frontera e iteración rápida. La mayoría de los setups reales se reparten: peticiones no sensibles a la API, datos sensibles a modelos locales (Llama 3.3, Qwen 2.5, DeepSeek).

¿Puedo correr LLMs sin GPU?+

Sí. llama.cpp, Ollama, LM Studio y GPT4All soportan CPU + cuantización. Un modelo 7B en una MacBook de 16 GB consigue 10-30 tokens/s, suficiente para chat. No se recomiendan modelos 70B+ solo en CPU.

¿Ollama o LM Studio?+

Ambos son excelentes. Ollama: CLI-first, gran compatibilidad con la API de OpenAI, despliegues en Docker y servidor. LM Studio: GUI con explorador de modelos integrado, más fluido en Windows/macOS para usuarios no técnicos. Mucha gente instala los dos: LM Studio como explorador de modelos, Ollama como runtime.

¿Qué corre más rápido en Apple Silicon?+

MLX > llama.cpp Metal ≥ Ollama (que envuelve a llama.cpp). En un M4 Max, MLX corre un Llama 3.3 70B 4-bit quant alrededor de 30 tokens/s; llama.cpp en torno a 20-25; Ollama similar a llama.cpp. Máximo rendimiento: MLX. Mejor compatibilidad de API + ecosistema: Ollama.

¿Y para concurrencia multiusuario en producción?+

vLLM. PagedAttention + continuous batching es la historia más sólida de throughput open source en GPU: una sola A100 puede servir más de 1500 tokens/s agregados con un Llama 3.3 70B 4-bit quant. El servidor de llama.cpp va bien para pocos usuarios en una sola máquina.