TOKREPO · ARSENAL
Estable

Ejecuta LLMs en Local

Ollama, GPT4All, MLC-LLM, Jan, Open WebUI, Text Generation WebUI, TGI — todas las variantes de "sin API key, mi GPU."

7 recursos

Qué incluye este pack

# Runner Mejor para Backend
1 Ollama CLI de una línea en Mac/Linux/Windows llama.cpp
2 GPT4All App de escritorio, sin GPU llama.cpp + GGUF
3 MLC-LLM iOS, Android, WebGPU compilador TVM
4 Jan reemplazo de escritorio para ChatGPT llama.cpp + APIs remotas
5 Open WebUI UI estilo ChatGPT sobre cualquier runner OpenAI-compatible proxy de Ollama/vLLM/TGI
6 Text Generation WebUI UI de investigación con entrenamiento LoRA transformers + ExLlama + llama.cpp
7 Hugging Face TGI servicio productivo con batching continuo Rust + Python, multi-GPU

Estos siete runners cubren el espectro completo: desde "quiero una ventana de chat en mi laptop" hasta "voy a poner Llama 3 detrás de un load balancer a 10k QPS".

Por qué importa lo local en 2026

Tres fuerzas han eliminado la brecha de coste entre APIs cloud e inferencia self-hosted.

Primero, la calidad de los modelos. Pesos abiertos de Meta (Llama), Mistral, Qwen y DeepSeek igualan capacidades clase GPT-4 en la mayoría de tareas de razonamiento y código. Ya no hay penalización de calidad por no pagar a OpenAI.

Segundo, hardware. Una sola RTX 4090 ejecuta Llama 3 70B a velocidad usable vía cuantización GGUF Q4 de llama.cpp. Apple Silicon por fin tiene memoria unificada — un M3 Max corre 70B local sin thermal throttle. Incluso laptops gaming de gama media manejan modelos 8B en tiempo real.

Tercero, privacidad y compliance. Salud, legal, finanzas y empresas bajo GDPR de la UE no pueden enviar PII a una API de terceros. La inferencia local es el único camino legal. Lo mismo aplica a agentes de código — la mayoría de empresas prohíben que Cursor/Copilot toquen repositorios propietarios.

Instala en un comando

# Instala el pack completo
tokrepo install pack/local-llm-runners

# O elige el runner que realmente necesitas
tokrepo install ollama
tokrepo install open-webui
tokrepo install tgi

La página TokRepo de cada recurso incluye el comando de instalación, la configuración recomendada, y el comando model-pull para los pesos Llama / Qwen / DeepSeek más comunes.

Trampas comunes

  • Contabilidad de VRAM: un modelo "7B" usa ~14 GB en FP16, ~4 GB en Q4. Revisa siempre el sufijo de cuantización antes de descargar.
  • Ventana de contexto vs RAM: 32k de contexto en un 7B puede usar tanta VRAM como los pesos. Baja el contexto si ves OOM.
  • Open WebUI sobre Ollama: Open WebUI habla protocolo OpenAI, así que debes activar el endpoint compatible OpenAI en Ollama (OLLAMA_HOST=0.0.0.0) — muchos tutoriales lo saltan.
  • TGI vs vLLM: TGI brilla para modelos HuggingFace con pesos sharded; vLLM es más rápido para throughput puro. No elijas TGI solo por antigüedad.
  • Licencias de modelo: Llama 3 es permisivo pero no MIT. Revisa la licencia antes del despliegue comercial, especialmente para fine-tunes.

Relación con otros packs

El pack local-llm-runners es la capa runtime. Para hacerlo útil end-to-end:

  • Combínalo con Segundo Cerebro IA — Logseq + Khoj indexando tus notas contra un Ollama local
  • Combínalo con Eval & Guardrails LLM para verificar que tu modelo local no regresiona vs la baseline cerrada
  • Combínalo con Pipeline Documento → IA para alimentar PDFs a inferencia local en vez de mandarlos al vendor

Juntos los tres packs te dan un stack de conocimiento totalmente air-gapped que nunca llama a casa. La frontera es limpia: los runners hacen inferencia, el pack de eval puntúa la calidad, el segundo-cerebro maneja retrieval, y el pipeline de documentos convierte archivos en chunks. Mezcla según tus targets de privacidad y latencia, luego pon Ollama o TGI debajo como motor.

Cuándo elegir cada runner

  • Laptop de un dev, sobre todo chat: Ollama más Jan como UI. Instalación de cinco minutos, pesos GGUF Q4, funciona offline en el avión.
  • Equipo tras VPN, servidor GPU compartido: TGI o vLLM detrás de un load balancer, Open WebUI como front-end del equipo con SSO. Un modelo, muchos usuarios, cero factura OpenAI por asiento.
  • Demo de app móvil o inferencia solo-navegador: MLC-LLM. Compila pesos a WebGPU/Metal/Vulkan y corre sin servidor — útil para prototipos móviles offline.
  • Lab de investigación haciendo fine-tune en GPUs consumer: Text Generation WebUI. Entrenamiento LoRA integrado, backend ExLlama, loaders exóticos para los checkpoints medio-rotos que HuggingFace publica cada semana.
INSTALAR · UN COMANDO
$ tokrepo install pack/local-llm-runners
pásalo a tu agente — o pégalo en tu terminal
Qué incluye

7 recursos listos para instalar

Skill#01
Ollama Model Library — Best AI Models for Local Use

Curated guide to the best models available on Ollama for coding, chat, and reasoning. Compare Llama, Mistral, Gemma, Phi, and Qwen models for local AI development.

by Skill Factory·160 views
$ tokrepo install ollama-model-library-best-ai-models-local-use-4cecf968
Config#02
GPT4All — Run LLMs Privately on Your Desktop

GPT4All runs large language models privately on everyday desktops and laptops without GPUs or API calls. 77.2K+ GitHub stars. Desktop app + Python SDK, LocalDocs for private data. MIT licensed.

by AI Open Source·128 views
$ tokrepo install gpt4all-run-llms-privately-your-desktop-f493abd9
Script#03
MLC-LLM — Universal LLM Deployment Engine

Deploy any LLM on any hardware — phones, browsers, GPUs, CPUs. Compiles models for native performance on iOS, Android, WebGPU, CUDA, Metal, and Vulkan. 22K+ stars.

by Script Depot·102 views
$ tokrepo install mlc-llm-universal-llm-deployment-engine-735f5a27
Config#04
Text Generation WebUI — Local LLM Chat Interface

Text Generation WebUI is a Gradio interface for running LLMs locally. 46.4K+ GitHub stars. Multiple backends, vision, training, image gen, OpenAI-compatible API. 100% offline.

by AI Open Source·104 views
$ tokrepo install text-generation-webui-local-llm-chat-interface-11107806
Config#05
Jan — Offline AI Desktop App with Full Privacy

Jan is an open-source ChatGPT alternative that runs LLMs locally with full privacy. 41.4K+ GitHub stars. Desktop app for Windows/macOS/Linux, OpenAI-compatible API, MCP support. Apache 2.0.

by AI Open Source·103 views
$ tokrepo install jan-offline-ai-desktop-app-full-privacy-7b703194
Script#06
Open WebUI — Self-Hosted AI Chat Interface

User-friendly, self-hosted AI chat interface. Supports Ollama, OpenAI, Anthropic, and any OpenAI-compatible API. RAG, web search, voice, image gen, and plugins. 129K+ stars.

by Script Depot·96 views
$ tokrepo install open-webui-self-hosted-ai-chat-interface-5d37ffb8
Script#07
Text Generation Inference (TGI) — Hugging Face Production LLM Server

TGI is Hugging Face's production-grade LLM inference server. It powers HF Inference Endpoints with continuous batching, tensor parallelism, quantization, and OpenAI-compatible APIs — handling thousands of requests per second.

by Hugging Face·161 views
$ tokrepo install text-generation-inference-tgi-hugging-face-production-llm-e08ad222
FAQ

Preguntas frecuentes

¿Es realmente gratis o hay costes ocultos?

Los siete runners son open-source y gratis de instalar. El coste es hardware — necesitas una GPU con suficiente VRAM para los pesos que elijas. Una RTX 3090/4090 consumer (24GB) maneja modelos 7B-13B con fluidez y 70B con cuantización agresiva. Macs serie M funcionan vía Metal. El alquiler de GPU cloud en Runpod o Vast.ai se mantiene bien por debajo del precio de la API de OpenAI para cargas sostenidas.

¿Con cuál empezar — Ollama o Jan?

Ollama si vives en la terminal y quieres HTTP compatible OpenAI para tus apps. Jan si quieres una experiencia desktop de un click que imite ChatGPT. Muchos usuarios corren ambos: Ollama como motor, Jan u Open WebUI como UI. Comparten archivos GGUF vía el almacén de modelos local de Ollama.

¿Funcionan con Cursor o Codex CLI?

Sí — tanto Cursor como Codex CLI aceptan cualquier endpoint OpenAI-compatible. Apúntalos a http://localhost:11434/v1 (Ollama) o el puerto que tu runner exponga. Cursor lo llama Custom OpenAI URL en ajustes. El truco: modelos locales 7B se quedan atrás de GPT-4 en refactors de contexto largo, así que usa 70B+ si quieres calidad productiva.

¿En qué se diferencia del pack LLM Eval & Guardrails?

Este pack es el runtime que sirve el modelo. El pack de eval puntúa la salida. Son complementarios: instala un runner aquí, luego apunta DeepEval/Promptfoo para verificar calidad antes de cambiar un modelo cloud por uno local. La mayoría de equipos que se van local necesitan ambos packs.

¿Cuál es la mayor trampa después de instalar?

Olvidar configurar la ventana de contexto para tu presupuesto de VRAM. Los defaults son conservadores (2k-4k), pero si cargas un modelo entrenado a 32k y lo llenas de contexto, el KV cache se infla y OOM a mitad de generación. Siempre revisa nvidia-smi durante una carga real antes de producción.

MÁS DEL ARSENAL

12 packs · 80+ recursos seleccionados

Explora todos los packs curados en la página principal

Volver a todos los packs