Local LLM
Ollama — Run LLMs Locally with One Command (2026 Guide) logo

Ollama — ejecuta LLM en local con un solo comando (guía 2026)

Ollama es la forma más popular de ejecutar grandes modelos de lenguaje en local. Una sola CLI descarga, cuantiza y sirve modelos con una API compatible con OpenAI — la vía de entrada más fácil a la AI autoalojada en 2026.

Why Ollama

Ollama ganó por simplicidad. ollama run llama3.2 descarga un modelo cuantizado, arranca un servidor local y te mete directamente en un chat — todo en un único comando. Por debajo es llama.cpp con una gestión de modelos pulida, una API HTTP compatible con OpenAI y soporte de primer nivel en macOS, Linux y Windows. La experiencia es notablemente más fluida que montarte tu propia configuración de llama.cpp.

La apuesta funcionó. En 2026 Ollama es la opción por defecto para «quiero un LLM local en mi portátil». Todas las herramientas de desarrollo populares (Cursor, Claude Code, Zed, plugins de Obsidian, muchas extensiones de VS Code) soportan Ollama como proveedor de fábrica porque la API HTTP es idéntica a la de OpenAI. Instalas Ollama, descargas un modelo, apuntas tu herramienta a http://localhost:11434 y listo.

Dónde Ollama no es la respuesta: servir a muchos usuarios concurrentes (usa vLLM), máximo rendimiento en Apple Silicon (usa MLX) o herramientas de investigación como el entrenamiento LoRA (usa text-generation-webui). Para inferencia personal y de equipos pequeños, Ollama casi siempre es la primera elección correcta.

Quick Start — Install, Pull, Use

ollama run descarga el modelo en el primer uso y te mete en un chat interactivo. ollama serve expone la API HTTP (puerto 11434 por defecto). Todos los clientes compatibles con Ollama usan la ruta /v1/chat/completions bajo esa URL base.

# 1. Install (macOS / Linux / Windows)
curl -fsSL https://ollama.com/install.sh | sh
# or: brew install ollama   # macOS homebrew
# Windows: download installer from ollama.com

# 2. Run a model — downloads ~2-5GB the first time
ollama run llama3.2        # Meta Llama 3.2 3B, quantized
ollama run qwen2.5:14b     # Alibaba Qwen 2.5 14B
ollama run deepseek-r1     # DeepSeek R1 reasoning model

# 3. Use the OpenAI-compatible API from any client
# The server listens on localhost:11434 after 'ollama serve' (auto on install)

# Python with the OpenAI SDK:
python - <<'PY'
from openai import OpenAI
client = OpenAI(base_url="http://localhost:11434/v1", api_key="ollama")
r = client.chat.completions.create(
    model="llama3.2",
    messages=[{"role":"user","content":"Name one Go stdlib package you underrate."}],
)
print(r.choices[0].message.content)
PY

# Use the same endpoint with Cursor, Claude Code, Zed — configure as an
# OpenAI-compatible provider with base URL http://localhost:11434/v1.

Características clave

Instalación y ejecución en un solo comando

Un único binario, un único comando para probar un modelo. Sin entorno Python, sin pelearse con CUDA en Linux, sin scripts de conversión de modelos. La experiencia LLM local con la menor fricción posible.

API compatible con OpenAI

Chat completions, streaming, llamada a herramientas y endpoints de embeddings siguen la forma de OpenAI. Cualquier SDK de OpenAI o herramienta que acepte sobrescribir base_url funciona con Ollama sin cambios.

Biblioteca de modelos

ollama.com/library reúne modelos populares con cuantizaciones listas para usar. Llama 3.x, Qwen 2.5, Mistral, Gemma, Phi, DeepSeek y más — todos a un comando de distancia.

Sistema Modelfile

Crea modelos personalizados escribiendo un Modelfile (prompt de sistema, temperatura, modelo base). ollama create mybot -f Modelfile. Facilita compartir personalidades fine-tuneadas dentro de un equipo.

Soporte nativo Apple / CUDA / ROCm

Usa Metal en macOS, CUDA en NVIDIA, ROCm en AMD, CPU en todas partes. Elige automáticamente el mejor backend.

Embeddings y multimodal

También sirve modelos de embeddings y modelos visión-lenguaje (LLaVA, Qwen-VL, Gemma 3 vision). API unificada, gestión de modelos unificada.

Comparación

 Install ComplexityAPI CompatibilityThroughputBest For
OllamaestaVery lowOpenAI-compatible (native)Good (llama.cpp backend)Desktop + small-team servers
LM StudioLow (GUI)OpenAI-compatibleGoodWindows/Mac GUI users
llama.cpp (server)MediumOpenAI-compatibleGoodFull control, portability
vLLMHighOpenAI-compatibleExcellent (GPU)Production multi-user GPU

Casos de uso

01. Asistente de desarrollador personal

Apunta Cursor/Claude Code/Zed a Ollama para sugerencias de código offline en un portátil. Privacidad, sin facturas de API, calidad suficiente para tareas rutinarias.

02. LLM interno de equipo

Despliega Ollama en un servidor GPU compartido y expón http://server:11434 internamente. Equipos pequeños (<20 personas) pueden compartir una sola instancia con una latencia aceptable.

03. Entornos dev/staging

La misma API que OpenAI permite intercambiar base_url en la configuración para apuntar a Ollama en dev y a OpenAI en producción — útil para probar sin gastar presupuesto de API.

Precios y licencia

Ollama: open source con licencia MIT. Uso comercial gratuito. Sin telemetría por defecto; opt-in explícito para estadísticas de uso.

Coste de hardware: Ollama en sí es gratuito. La calidad del modelo escala con la RAM/VRAM: los modelos 7B funcionan en máquinas de 8 GB (cuant. 4-bit), los 70B requieren 32 GB+ de RAM o 48 GB de VRAM. Consulta las páginas individuales para los requisitos de cada modelo.

Coste en tiempo: las descargas iniciales van de 2 a 50 GB según el tamaño del modelo. Después, el uso local es gratis (salvo que cuentes la electricidad).

Activos relacionados en TokRepo

Preguntas frecuentes

¿Ollama funciona offline?+

Sí — tras la descarga inicial del modelo, todo se ejecuta en local. No hace falta Internet para la inferencia. Útil en vuelos, entornos seguros y trabajo con datos sensibles.

¿Ollama vs LM Studio?+

Ambos envuelven llama.cpp con una excelente DX. Ollama es CLI-first con una historia sólida de Docker/servidor. LM Studio es GUI-first con un navegador de modelos integrado. Muchos usuarios instalan los dos. Para escenarios con scripts / automatización / equipo, Ollama gana. Para «mi compañero que no toca una terminal», LM Studio gana.

¿Ollama puede hacer tool calls / function calling?+

Sí — desde la v0.4. El soporte de herramientas varía según el modelo. Llama 3.1/3.2, Qwen 2.5 y Mistral v0.3+ incluyen pesos fine-tuneados para tool calls. Usa el parámetro estándar OpenAI tools= a través del endpoint chat completions.

¿Cómo ejecuto Ollama en producción?+

La imagen Docker es oficial y está bien mantenida. Expón el puerto 11434 detrás de un reverse proxy con autenticación. Usa las variables de entorno OLLAMA_HOST y OLLAMA_MODELS para la dirección de bind y el directorio de caché de modelos. Para concurrencia multiusuario, limita OLLAMA_NUM_PARALLEL y considera cambiar a vLLM si superas 5-10 peticiones concurrentes.

¿Qué modelos son mejores para programar?+

En 2026, Qwen 2.5 Coder 32B y DeepSeek Coder V2 son las mejores opciones abiertas; ambos funcionan cómodamente en 24 GB de VRAM o 32 GB de memoria unificada Apple Silicon con cuantización 4-bit. Para hardware más modesto, prueba Qwen 2.5 Coder 7B o deepseek-r1-distill-qwen-14b.

¿Ollama puede servir modelos de embeddings?+

Sí — ollama pull nomic-embed-text o mxbai-embed-large y luego POST a /api/embed. Mismo servidor HTTP, mismo concepto de Modelfile, endpoint distinto.

Comparar alternativas