Local LLM

Ollama — ejecuta LLM en local con un solo comando (guía 2026)

Ollama es la forma más popular de ejecutar grandes modelos de lenguaje en local. Una sola CLI descarga, cuantiza y sirve modelos con una API compatible con OpenAI — la vía de entrada más fácil a la AI autoalojada en 2026.

Sitio oficial GitHub

Why Ollama

Ollama ganó por simplicidad. ollama run llama3.2 descarga un modelo cuantizado, arranca un servidor local y te mete directamente en un chat — todo en un único comando. Por debajo es llama.cpp con una gestión de modelos pulida, una API HTTP compatible con OpenAI y soporte de primer nivel en macOS, Linux y Windows. La experiencia es notablemente más fluida que montarte tu propia configuración de llama.cpp.

La apuesta funcionó. En 2026 Ollama es la opción por defecto para «quiero un LLM local en mi portátil». Todas las herramientas de desarrollo populares (Cursor, Claude Code, Zed, plugins de Obsidian, muchas extensiones de VS Code) soportan Ollama como proveedor de fábrica porque la API HTTP es idéntica a la de OpenAI. Instalas Ollama, descargas un modelo, apuntas tu herramienta a http://localhost:11434 y listo.

Dónde Ollama no es la respuesta: servir a muchos usuarios concurrentes (usa vLLM), máximo rendimiento en Apple Silicon (usa MLX) o herramientas de investigación como el entrenamiento LoRA (usa text-generation-webui). Para inferencia personal y de equipos pequeños, Ollama casi siempre es la primera elección correcta.

Quick Start — Install, Pull, Use

ollama run descarga el modelo en el primer uso y te mete en un chat interactivo. ollama serve expone la API HTTP (puerto 11434 por defecto). Todos los clientes compatibles con Ollama usan la ruta /v1/chat/completions bajo esa URL base.

# 1. Install (macOS / Linux / Windows)
curl -fsSL https://ollama.com/install.sh | sh
# or: brew install ollama   # macOS homebrew
# Windows: download installer from ollama.com

# 2. Run a model — downloads ~2-5GB the first time
ollama run llama3.2        # Meta Llama 3.2 3B, quantized
ollama run qwen2.5:14b     # Alibaba Qwen 2.5 14B
ollama run deepseek-r1     # DeepSeek R1 reasoning model

# 3. Use the OpenAI-compatible API from any client
# The server listens on localhost:11434 after 'ollama serve' (auto on install)

# Python with the OpenAI SDK:
python - <<'PY'
from openai import OpenAI
client = OpenAI(base_url="http://localhost:11434/v1", api_key="ollama")
r = client.chat.completions.create(
    model="llama3.2",
    messages=[{"role":"user","content":"Name one Go stdlib package you underrate."}],
)
print(r.choices[0].message.content)
PY

# Use the same endpoint with Cursor, Claude Code, Zed — configure as an
# OpenAI-compatible provider with base URL http://localhost:11434/v1.

Características clave

Instalación y ejecución en un solo comando

Un único binario, un único comando para probar un modelo. Sin entorno Python, sin pelearse con CUDA en Linux, sin scripts de conversión de modelos. La experiencia LLM local con la menor fricción posible.

API compatible con OpenAI

Chat completions, streaming, llamada a herramientas y endpoints de embeddings siguen la forma de OpenAI. Cualquier SDK de OpenAI o herramienta que acepte sobrescribir base_url funciona con Ollama sin cambios.

Biblioteca de modelos

ollama.com/library reúne modelos populares con cuantizaciones listas para usar. Llama 3.x, Qwen 2.5, Mistral, Gemma, Phi, DeepSeek y más — todos a un comando de distancia.

Sistema Modelfile

Crea modelos personalizados escribiendo un Modelfile (prompt de sistema, temperatura, modelo base). ollama create mybot -f Modelfile. Facilita compartir personalidades fine-tuneadas dentro de un equipo.

Soporte nativo Apple / CUDA / ROCm

Usa Metal en macOS, CUDA en NVIDIA, ROCm en AMD, CPU en todas partes. Elige automáticamente el mejor backend.

Embeddings y multimodal

También sirve modelos de embeddings y modelos visión-lenguaje (LLaVA, Qwen-VL, Gemma 3 vision). API unificada, gestión de modelos unificada.

Comparación

	Install Complexity	API Compatibility	Throughput	Best For
Ollamaesta	Very low	OpenAI-compatible (native)	Good (llama.cpp backend)	Desktop + small-team servers
LM Studio	Low (GUI)	OpenAI-compatible	Good	Windows/Mac GUI users
llama.cpp (server)	Medium	OpenAI-compatible	Good	Full control, portability
vLLM	High	OpenAI-compatible	Excellent (GPU)	Production multi-user GPU

Casos de uso

01. Asistente de desarrollador personal

Apunta Cursor/Claude Code/Zed a Ollama para sugerencias de código offline en un portátil. Privacidad, sin facturas de API, calidad suficiente para tareas rutinarias.

02. LLM interno de equipo

Despliega Ollama en un servidor GPU compartido y expón http://server:11434 internamente. Equipos pequeños (<20 personas) pueden compartir una sola instancia con una latencia aceptable.

03. Entornos dev/staging

La misma API que OpenAI permite intercambiar base_url en la configuración para apuntar a Ollama en dev y a OpenAI en producción — útil para probar sin gastar presupuesto de API.

Precios y licencia

Ollama: open source con licencia MIT. Uso comercial gratuito. Sin telemetría por defecto; opt-in explícito para estadísticas de uso.

Coste de hardware: Ollama en sí es gratuito. La calidad del modelo escala con la RAM/VRAM: los modelos 7B funcionan en máquinas de 8 GB (cuant. 4-bit), los 70B requieren 32 GB+ de RAM o 48 GB de VRAM. Consulta las páginas individuales para los requisitos de cada modelo.

Coste en tiempo: las descargas iniciales van de 2 a 50 GB según el tamaño del modelo. Después, el uso local es gratis (salvo que cuentes la electricidad).

Activos relacionados en TokRepo

Ollama Model Library — Best AI Models for Local Use

Curated guide to the best models available on Ollama for coding, chat, and reasoning. Compare Llama, Mistral, Gemma, Phi, and Qwen models for local AI development.

Ollama — Run LLMs Locally

Run large language models locally on your machine. Supports Llama 3, Mistral, Gemma, Phi, and dozens more. One-command install, OpenAI-compatible API.

VULNRΞPO — Privacy-First Vuln Report Manager (Ollama)

VULNRΞPO is a client-side vulnerability report manager: it encrypts data in-browser, supports imports/exports, and can use local Ollama for AI writing.

Pal MCP Server — Multi-Model AI Gateway for Claude Code

MCP server that lets Claude Code use Gemini, OpenAI, Grok, and Ollama as a unified AI dev team. Features model routing, CLI-to-CLI bridge, and conversation continuity across 7+ providers.

Preguntas frecuentes

¿Ollama funciona offline?+

Sí — tras la descarga inicial del modelo, todo se ejecuta en local. No hace falta Internet para la inferencia. Útil en vuelos, entornos seguros y trabajo con datos sensibles.

¿Ollama vs LM Studio?+

Ambos envuelven llama.cpp con una excelente DX. Ollama es CLI-first con una historia sólida de Docker/servidor. LM Studio es GUI-first con un navegador de modelos integrado. Muchos usuarios instalan los dos. Para escenarios con scripts / automatización / equipo, Ollama gana. Para «mi compañero que no toca una terminal», LM Studio gana.

¿Ollama puede hacer tool calls / function calling?+

Sí — desde la v0.4. El soporte de herramientas varía según el modelo. Llama 3.1/3.2, Qwen 2.5 y Mistral v0.3+ incluyen pesos fine-tuneados para tool calls. Usa el parámetro estándar OpenAI tools= a través del endpoint chat completions.

¿Cómo ejecuto Ollama en producción?+

La imagen Docker es oficial y está bien mantenida. Expón el puerto 11434 detrás de un reverse proxy con autenticación. Usa las variables de entorno OLLAMA_HOST y OLLAMA_MODELS para la dirección de bind y el directorio de caché de modelos. Para concurrencia multiusuario, limita OLLAMA_NUM_PARALLEL y considera cambiar a vLLM si superas 5-10 peticiones concurrentes.

¿Qué modelos son mejores para programar?+

En 2026, Qwen 2.5 Coder 32B y DeepSeek Coder V2 son las mejores opciones abiertas; ambos funcionan cómodamente en 24 GB de VRAM o 32 GB de memoria unificada Apple Silicon con cuantización 4-bit. Para hardware más modesto, prueba Qwen 2.5 Coder 7B o deepseek-r1-distill-qwen-14b.

¿Ollama puede servir modelos de embeddings?+

Sí — ollama pull nomic-embed-text o mxbai-embed-large y luego POST a /api/embed. Mismo servidor HTTP, mismo concepto de Modelfile, endpoint distinto.

Comparar alternativas

LM Studio — Desktop GUI for Local LLMs (Windows, Mac, Linux)llama.cpp — The C++ Engine Under Ollama, LM Studio, and Most Local LLMs Jan — Open-source ChatGPT Alternative That Runs Offline LocalAI — Drop-in OpenAI API for Your Own Hardware