Ejecuta LLMs en Local
Ollama, GPT4All, MLC-LLM, Jan, Open WebUI, Text Generation WebUI, TGI — todas las variantes de "sin API key, mi GPU."
Qué incluye este pack
| # | Runner | Mejor para | Backend |
|---|---|---|---|
| 1 | Ollama | CLI de una línea en Mac/Linux/Windows | llama.cpp |
| 2 | GPT4All | App de escritorio, sin GPU | llama.cpp + GGUF |
| 3 | MLC-LLM | iOS, Android, WebGPU | compilador TVM |
| 4 | Jan | reemplazo de escritorio para ChatGPT | llama.cpp + APIs remotas |
| 5 | Open WebUI | UI estilo ChatGPT sobre cualquier runner OpenAI-compatible | proxy de Ollama/vLLM/TGI |
| 6 | Text Generation WebUI | UI de investigación con entrenamiento LoRA | transformers + ExLlama + llama.cpp |
| 7 | Hugging Face TGI | servicio productivo con batching continuo | Rust + Python, multi-GPU |
Estos siete runners cubren el espectro completo: desde "quiero una ventana de chat en mi laptop" hasta "voy a poner Llama 3 detrás de un load balancer a 10k QPS".
Por qué importa lo local en 2026
Tres fuerzas han eliminado la brecha de coste entre APIs cloud e inferencia self-hosted.
Primero, la calidad de los modelos. Pesos abiertos de Meta (Llama), Mistral, Qwen y DeepSeek igualan capacidades clase GPT-4 en la mayoría de tareas de razonamiento y código. Ya no hay penalización de calidad por no pagar a OpenAI.
Segundo, hardware. Una sola RTX 4090 ejecuta Llama 3 70B a velocidad usable vía cuantización GGUF Q4 de llama.cpp. Apple Silicon por fin tiene memoria unificada — un M3 Max corre 70B local sin thermal throttle. Incluso laptops gaming de gama media manejan modelos 8B en tiempo real.
Tercero, privacidad y compliance. Salud, legal, finanzas y empresas bajo GDPR de la UE no pueden enviar PII a una API de terceros. La inferencia local es el único camino legal. Lo mismo aplica a agentes de código — la mayoría de empresas prohíben que Cursor/Copilot toquen repositorios propietarios.
Instala en un comando
# Instala el pack completo
tokrepo install pack/local-llm-runners
# O elige el runner que realmente necesitas
tokrepo install ollama
tokrepo install open-webui
tokrepo install tgi
La página TokRepo de cada recurso incluye el comando de instalación, la configuración recomendada, y el comando model-pull para los pesos Llama / Qwen / DeepSeek más comunes.
Trampas comunes
- Contabilidad de VRAM: un modelo "7B" usa ~14 GB en FP16, ~4 GB en Q4. Revisa siempre el sufijo de cuantización antes de descargar.
- Ventana de contexto vs RAM: 32k de contexto en un 7B puede usar tanta VRAM como los pesos. Baja el contexto si ves OOM.
- Open WebUI sobre Ollama: Open WebUI habla protocolo OpenAI, así que debes activar el endpoint compatible OpenAI en Ollama (
OLLAMA_HOST=0.0.0.0) — muchos tutoriales lo saltan. - TGI vs vLLM: TGI brilla para modelos HuggingFace con pesos sharded; vLLM es más rápido para throughput puro. No elijas TGI solo por antigüedad.
- Licencias de modelo: Llama 3 es permisivo pero no MIT. Revisa la licencia antes del despliegue comercial, especialmente para fine-tunes.
Relación con otros packs
El pack local-llm-runners es la capa runtime. Para hacerlo útil end-to-end:
- Combínalo con Segundo Cerebro IA — Logseq + Khoj indexando tus notas contra un Ollama local
- Combínalo con Eval & Guardrails LLM para verificar que tu modelo local no regresiona vs la baseline cerrada
- Combínalo con Pipeline Documento → IA para alimentar PDFs a inferencia local en vez de mandarlos al vendor
Juntos los tres packs te dan un stack de conocimiento totalmente air-gapped que nunca llama a casa. La frontera es limpia: los runners hacen inferencia, el pack de eval puntúa la calidad, el segundo-cerebro maneja retrieval, y el pipeline de documentos convierte archivos en chunks. Mezcla según tus targets de privacidad y latencia, luego pon Ollama o TGI debajo como motor.
Cuándo elegir cada runner
- Laptop de un dev, sobre todo chat: Ollama más Jan como UI. Instalación de cinco minutos, pesos GGUF Q4, funciona offline en el avión.
- Equipo tras VPN, servidor GPU compartido: TGI o vLLM detrás de un load balancer, Open WebUI como front-end del equipo con SSO. Un modelo, muchos usuarios, cero factura OpenAI por asiento.
- Demo de app móvil o inferencia solo-navegador: MLC-LLM. Compila pesos a WebGPU/Metal/Vulkan y corre sin servidor — útil para prototipos móviles offline.
- Lab de investigación haciendo fine-tune en GPUs consumer: Text Generation WebUI. Entrenamiento LoRA integrado, backend ExLlama, loaders exóticos para los checkpoints medio-rotos que HuggingFace publica cada semana.
7 recursos listos para instalar
Preguntas frecuentes
¿Es realmente gratis o hay costes ocultos?
Los siete runners son open-source y gratis de instalar. El coste es hardware — necesitas una GPU con suficiente VRAM para los pesos que elijas. Una RTX 3090/4090 consumer (24GB) maneja modelos 7B-13B con fluidez y 70B con cuantización agresiva. Macs serie M funcionan vía Metal. El alquiler de GPU cloud en Runpod o Vast.ai se mantiene bien por debajo del precio de la API de OpenAI para cargas sostenidas.
¿Con cuál empezar — Ollama o Jan?
Ollama si vives en la terminal y quieres HTTP compatible OpenAI para tus apps. Jan si quieres una experiencia desktop de un click que imite ChatGPT. Muchos usuarios corren ambos: Ollama como motor, Jan u Open WebUI como UI. Comparten archivos GGUF vía el almacén de modelos local de Ollama.
¿Funcionan con Cursor o Codex CLI?
Sí — tanto Cursor como Codex CLI aceptan cualquier endpoint OpenAI-compatible. Apúntalos a http://localhost:11434/v1 (Ollama) o el puerto que tu runner exponga. Cursor lo llama Custom OpenAI URL en ajustes. El truco: modelos locales 7B se quedan atrás de GPT-4 en refactors de contexto largo, así que usa 70B+ si quieres calidad productiva.
¿En qué se diferencia del pack LLM Eval & Guardrails?
Este pack es el runtime que sirve el modelo. El pack de eval puntúa la salida. Son complementarios: instala un runner aquí, luego apunta DeepEval/Promptfoo para verificar calidad antes de cambiar un modelo cloud por uno local. La mayoría de equipos que se van local necesitan ambos packs.
¿Cuál es la mayor trampa después de instalar?
Olvidar configurar la ventana de contexto para tu presupuesto de VRAM. Los defaults son conservadores (2k-4k), pero si cargas un modelo entrenado a 32k y lo llenas de contexto, el KV cache se infla y OOM a mitad de generación. Siempre revisa nvidia-smi durante una carga real antes de producción.
12 packs · 80+ recursos seleccionados
Explora todos los packs curados en la página principal
Volver a todos los packs