[{"data":1,"prerenderedAt":-1},["ShallowReactive",2],{"pack-detail-local-llm-runners-es":3,"seo:pack:local-llm-runners:es":74},{"code":4,"message":5,"data":6},200,"操作成功",{"pack":7},{"slug":8,"icon":9,"tone":10,"status":11,"status_label":12,"title":13,"description":14,"items":15,"install_cmd":73},"local-llm-runners","💻","#374151","stable","Estable","Ejecuta LLMs en Local","Ollama, GPT4All, MLC-LLM, Jan, Open WebUI, Text Generation WebUI, TGI — todas las variantes de \"sin API key, mi GPU.\"",[16,28,36,44,51,58,65],{"id":17,"uuid":18,"slug":19,"title":20,"description":21,"author_name":22,"view_count":23,"vote_count":24,"lang_type":25,"type":26,"type_label":27},771,"4cecf968-aa84-47ec-9f32-c3b11432c18f","ollama-model-library-best-ai-models-local-use-4cecf968","Ollama Model Library — Best AI Models for Local Use","Curated guide to the best models available on Ollama for coding, chat, and reasoning. Compare Llama, Mistral, Gemma, Phi, and Qwen models for local AI development.","Skill Factory",490,0,"en","skill","Skill",{"id":29,"uuid":30,"slug":31,"title":32,"description":33,"author_name":34,"view_count":35,"vote_count":24,"lang_type":25,"type":26,"type_label":27},274,"f493abd9-0870-49b3-a04b-719ee2a5df0f","gpt4all-run-llms-privately-your-desktop-f493abd9","GPT4All — Run LLMs Privately on Your Desktop","GPT4All runs large language models privately on everyday desktops and laptops without GPUs or API calls. 77.2K+ GitHub stars. Desktop app + Python SDK, LocalDocs for private data. MIT licensed.","AI Open Source",303,{"id":37,"uuid":38,"slug":39,"title":40,"description":41,"author_name":42,"view_count":43,"vote_count":24,"lang_type":25,"type":26,"type_label":27},232,"735f5a27-07d6-47ac-8377-e29be76a9452","mlc-llm-universal-llm-deployment-engine-735f5a27","MLC-LLM — Universal LLM Deployment Engine","Deploy any LLM on any hardware — phones, browsers, GPUs, CPUs. Compiles models for native performance on iOS, Android, WebGPU, CUDA, Metal, and Vulkan. 22K+ stars.","Script Depot",336,{"id":45,"uuid":46,"slug":47,"title":48,"description":49,"author_name":34,"view_count":50,"vote_count":24,"lang_type":25,"type":26,"type_label":27},282,"11107806-c69a-4b75-8360-d0504ff602d7","text-generation-webui-local-llm-chat-interface-11107806","Text Generation WebUI — Local LLM Chat Interface","Text Generation WebUI is a Gradio interface for running LLMs locally. 46.4K+ GitHub stars. Multiple backends, vision, training, image gen, OpenAI-compatible API. 100% offline.",401,{"id":52,"uuid":53,"slug":54,"title":55,"description":56,"author_name":34,"view_count":57,"vote_count":24,"lang_type":25,"type":26,"type_label":27},278,"7b703194-ec0f-4244-a98e-3ec206a883b8","jan-offline-ai-desktop-app-full-privacy-7b703194","Jan — Offline AI Desktop App with Full Privacy","Jan is an open-source ChatGPT alternative that runs LLMs locally with full privacy. 41.4K+ GitHub stars. Desktop app for Windows\u002FmacOS\u002FLinux, OpenAI-compatible API, MCP support. Apache 2.0.",323,{"id":59,"uuid":60,"slug":61,"title":62,"description":63,"author_name":42,"view_count":64,"vote_count":24,"lang_type":25,"type":26,"type_label":27},218,"5d37ffb8-d351-4fb1-8665-bef4db25b275","open-webui-self-hosted-ai-chat-interface-5d37ffb8","Open WebUI — Self-Hosted AI Chat Interface","User-friendly, self-hosted AI chat interface. Supports Ollama, OpenAI, Anthropic, and any OpenAI-compatible API. RAG, web search, voice, image gen, and plugins. 129K+ stars.",348,{"id":66,"uuid":67,"slug":68,"title":69,"description":70,"author_name":71,"view_count":72,"vote_count":24,"lang_type":25,"type":26,"type_label":27},1303,"e08ad222-37db-11f1-9bc6-00163e2b0d79","text-generation-inference-tgi-hugging-face-production-llm-e08ad222","Text Generation Inference (TGI) — Hugging Face Production LLM Server","TGI is Hugging Face's production-grade LLM inference server. It powers HF Inference Endpoints with continuous batching, tensor parallelism, quantization, and OpenAI-compatible APIs — handling thousands of requests per second.","Hugging Face",434,"tokrepo install pack\u002Flocal-llm-runners",{"pageType":75,"pageKey":8,"locale":76,"title":77,"metaDescription":78,"h1":13,"tldr":79,"bodyMarkdown":80,"faq":81,"schema":97,"internalLinks":107,"citations":120,"wordCount":133,"generatedAt":134},"pack","es","Ejecuta LLMs en Local: 7 Runners Open-Source · TokRepo","Ollama, GPT4All, MLC-LLM, Jan, Open WebUI, Text Generation WebUI, TGI — sirve LLMs en tu GPU sin API key. Instálalos en un comando con TokRepo.","Siete runtimes open-source probados en producción que cubren cada variante de inferencia local — chat en laptop, servidor GPU, móvil, UI web, endpoint productivo. Un comando TokRepo instala todo el pack.","## Qué incluye este pack\n\n| # | Runner | Mejor para | Backend |\n|---|---|---|---|\n| 1 | Ollama | CLI de una línea en Mac\u002FLinux\u002FWindows | llama.cpp |\n| 2 | GPT4All | App de escritorio, sin GPU | llama.cpp + GGUF |\n| 3 | MLC-LLM | iOS, Android, WebGPU | compilador TVM |\n| 4 | Jan | reemplazo de escritorio para ChatGPT | llama.cpp + APIs remotas |\n| 5 | Open WebUI | UI estilo ChatGPT sobre cualquier runner OpenAI-compatible | proxy de Ollama\u002FvLLM\u002FTGI |\n| 6 | Text Generation WebUI | UI de investigación con entrenamiento LoRA | transformers + ExLlama + llama.cpp |\n| 7 | Hugging Face TGI | servicio productivo con batching continuo | Rust + Python, multi-GPU |\n\nEstos siete runners cubren el espectro completo: desde \"quiero una ventana de chat en mi laptop\" hasta \"voy a poner Llama 3 detrás de un load balancer a 10k QPS\".\n\n## Por qué importa lo local en 2026\n\nTres fuerzas han eliminado la brecha de coste entre APIs cloud e inferencia self-hosted.\n\nPrimero, la calidad de los modelos. Pesos abiertos de Meta (Llama), Mistral, Qwen y DeepSeek igualan capacidades clase GPT-4 en la mayoría de tareas de razonamiento y código. Ya no hay penalización de calidad por no pagar a OpenAI.\n\nSegundo, hardware. Una sola RTX 4090 ejecuta Llama 3 70B a velocidad usable vía cuantización GGUF Q4 de llama.cpp. Apple Silicon por fin tiene memoria unificada — un M3 Max corre 70B local sin thermal throttle. Incluso laptops gaming de gama media manejan modelos 8B en tiempo real.\n\nTercero, privacidad y compliance. Salud, legal, finanzas y empresas bajo GDPR de la UE no pueden enviar PII a una API de terceros. La inferencia local es el único camino legal. Lo mismo aplica a agentes de código — la mayoría de empresas prohíben que Cursor\u002FCopilot toquen repositorios propietarios.\n\n## Instala en un comando\n\n```bash\n# Instala el pack completo\ntokrepo install pack\u002Flocal-llm-runners\n\n# O elige el runner que realmente necesitas\ntokrepo install ollama\ntokrepo install open-webui\ntokrepo install tgi\n```\n\nLa página TokRepo de cada recurso incluye el comando de instalación, la configuración recomendada, y el comando model-pull para los pesos Llama \u002F Qwen \u002F DeepSeek más comunes.\n\n## Trampas comunes\n\n- **Contabilidad de VRAM**: un modelo \"7B\" usa ~14 GB en FP16, ~4 GB en Q4. Revisa siempre el sufijo de cuantización antes de descargar.\n- **Ventana de contexto vs RAM**: 32k de contexto en un 7B puede usar tanta VRAM como los pesos. Baja el contexto si ves OOM.\n- **Open WebUI sobre Ollama**: Open WebUI habla protocolo OpenAI, así que debes activar el endpoint compatible OpenAI en Ollama (`OLLAMA_HOST=0.0.0.0`) — muchos tutoriales lo saltan.\n- **TGI vs vLLM**: TGI brilla para modelos HuggingFace con pesos sharded; vLLM es más rápido para throughput puro. No elijas TGI solo por antigüedad.\n- **Licencias de modelo**: Llama 3 es permisivo pero no MIT. Revisa la licencia antes del despliegue comercial, especialmente para fine-tunes.\n\n## Relación con otros packs\n\nEl pack local-llm-runners es la capa *runtime*. Para hacerlo útil end-to-end:\n\n- Combínalo con **Segundo Cerebro IA** — Logseq + Khoj indexando tus notas contra un Ollama local\n- Combínalo con **Eval & Guardrails LLM** para verificar que tu modelo local no regresiona vs la baseline cerrada\n- Combínalo con **Pipeline Documento → IA** para alimentar PDFs a inferencia local en vez de mandarlos al vendor\n\nJuntos los tres packs te dan un stack de conocimiento totalmente air-gapped que nunca llama a casa. La frontera es limpia: los runners hacen inferencia, el pack de eval puntúa la calidad, el segundo-cerebro maneja retrieval, y el pipeline de documentos convierte archivos en chunks. Mezcla según tus targets de privacidad y latencia, luego pon Ollama o TGI debajo como motor.\n\n## Cuándo elegir cada runner\n\n- **Laptop de un dev, sobre todo chat**: Ollama más Jan como UI. Instalación de cinco minutos, pesos GGUF Q4, funciona offline en el avión.\n- **Equipo tras VPN, servidor GPU compartido**: TGI o vLLM detrás de un load balancer, Open WebUI como front-end del equipo con SSO. Un modelo, muchos usuarios, cero factura OpenAI por asiento.\n- **Demo de app móvil o inferencia solo-navegador**: MLC-LLM. Compila pesos a WebGPU\u002FMetal\u002FVulkan y corre sin servidor — útil para prototipos móviles offline.\n- **Lab de investigación haciendo fine-tune en GPUs consumer**: Text Generation WebUI. Entrenamiento LoRA integrado, backend ExLlama, loaders exóticos para los checkpoints medio-rotos que HuggingFace publica cada semana.",[82,85,88,91,94],{"q":83,"a":84},"¿Es realmente gratis o hay costes ocultos?","Los siete runners son open-source y gratis de instalar. El coste es hardware — necesitas una GPU con suficiente VRAM para los pesos que elijas. Una RTX 3090\u002F4090 consumer (24GB) maneja modelos 7B-13B con fluidez y 70B con cuantización agresiva. Macs serie M funcionan vía Metal. El alquiler de GPU cloud en Runpod o Vast.ai se mantiene bien por debajo del precio de la API de OpenAI para cargas sostenidas.",{"q":86,"a":87},"¿Con cuál empezar — Ollama o Jan?","Ollama si vives en la terminal y quieres HTTP compatible OpenAI para tus apps. Jan si quieres una experiencia desktop de un click que imite ChatGPT. Muchos usuarios corren ambos: Ollama como motor, Jan u Open WebUI como UI. Comparten archivos GGUF vía el almacén de modelos local de Ollama.",{"q":89,"a":90},"¿Funcionan con Cursor o Codex CLI?","Sí — tanto Cursor como Codex CLI aceptan cualquier endpoint OpenAI-compatible. Apúntalos a http:\u002F\u002Flocalhost:11434\u002Fv1 (Ollama) o el puerto que tu runner exponga. Cursor lo llama Custom OpenAI URL en ajustes. El truco: modelos locales 7B se quedan atrás de GPT-4 en refactors de contexto largo, así que usa 70B+ si quieres calidad productiva.",{"q":92,"a":93},"¿En qué se diferencia del pack LLM Eval & Guardrails?","Este pack es el runtime que sirve el modelo. El pack de eval puntúa la salida. Son complementarios: instala un runner aquí, luego apunta DeepEval\u002FPromptfoo para verificar calidad antes de cambiar un modelo cloud por uno local. La mayoría de equipos que se van local necesitan ambos packs.",{"q":95,"a":96},"¿Cuál es la mayor trampa después de instalar?","Olvidar configurar la ventana de contexto para tu presupuesto de VRAM. Los defaults son conservadores (2k-4k), pero si cargas un modelo entrenado a 32k y lo llenas de contexto, el KV cache se infla y OOM a mitad de generación. Siempre revisa `nvidia-smi` durante una carga real antes de producción.",{"@context":98,"@type":99,"name":100,"description":101,"numberOfItems":102,"publisher":103},"https:\u002F\u002Fschema.org","CollectionPage","Run LLMs Locally","Seven open-source runners that let you serve LLMs on your own GPU or laptop, no API key required.",7,{"@type":104,"name":105,"url":106},"Organization","TokRepo","https:\u002F\u002Ftokrepo.com",[108,112,116],{"url":109,"anchor":110,"reason":111},"\u002Fes\u002Fpacks\u002Fai-second-brain","Segundo Cerebro IA","los LLMs locales son el backend privado",{"url":113,"anchor":114,"reason":115},"\u002Fes\u002Fpacks\u002Fllm-eval-guardrails","Eval y Guardrails LLM","evaluar calidad de modelos locales",{"url":117,"anchor":118,"reason":119},"\u002Fes\u002Ftools\u002Follama","Ollama","el runner más popular del pack",[121,125,129],{"claim":122,"source_name":123,"source_url":124},"Ollama is an open-source local LLM runtime with a public model library","ollama\u002Follama on GitHub","https:\u002F\u002Fgithub.com\u002Follama\u002Follama",{"claim":126,"source_name":127,"source_url":128},"Hugging Face Text Generation Inference (TGI) is the production-grade serving backend","huggingface\u002Ftext-generation-inference","https:\u002F\u002Fgithub.com\u002Fhuggingface\u002Ftext-generation-inference",{"claim":130,"source_name":131,"source_url":132},"Open WebUI provides a ChatGPT-style UI on top of any OpenAI-compatible runner","open-webui\u002Fopen-webui","https:\u002F\u002Fgithub.com\u002Fopen-webui\u002Fopen-webui",747,"2026-05-02T15:00:00Z"]