IA Auto-Alojada
Tabby, Onyx, LibreChat y un starter kit con n8n — mantén tus datos en tu propio servidor.
Qué incluye este pack
Este pack reúne los seis recursos de IA auto-alojados que aparecen consistentemente cuando los equipos abandonan SaaS por motivos de compliance, coste o soberanía. Tres son reemplazos de coding/chat (Tabby, LibreChat, Onyx). Tres son piezas de infraestructura (n8n AI starter kit, STT local, gateway de modelos).
| # | Recurso | Tipo | Qué reemplaza |
|---|---|---|---|
| 1 | Tabby | servicio auto-alojado | GitHub Copilot |
| 2 | Onyx | servicio auto-alojado | Glean / ChatGPT empresarial |
| 3 | LibreChat | UI auto-alojada | ChatGPT para el equipo |
| 4 | n8n AI starter kit | docker-compose | Zapier con nodos IA |
| 5 | Whisper STT (local) | servicio | Otter / Rev / STT cloud |
| 6 | Gateway de modelos local | servicio | LiteLLM con routing local-first |
Por qué importa
El stack IA por defecto de 2026 asume que estás bien enviando tu código, chats y datos de cliente a OpenAI / Anthropic / Google. Para apps consumer está bien. Para industrias reguladas (salud, finanzas, legal), trabajo gubernamental, o cualquier equipo donde tu IP es el producto, no es viable. Este pack es la respuesta ensamblada: un stack que puedes correr en una sola workstation o pequeño cluster Kubernetes que te da herramientas dev equivalentes a Copilot, chat equivalente a ChatGPT y retrieval equivalente a búsqueda empresarial — todo en tu propio hardware.
Los tres reemplazos principales:
- Tabby es el sustituto de Copilot. Auto-alojado, apuntas tu IDE y obtienes completado inline respaldado por el modelo local que cargues (DeepSeek-Coder, Qwen-Coder, etc). En una sola 3090 igualas calidad Copilot en la mayoría de lenguajes.
- Onyx (antes Danswer) es el sustituto de búsqueda empresarial. Conéctalo a tu Confluence, Notion, GitHub, Slack, y construye un ChatGPT interno que responde preguntas desde tus docs. Búsqueda híbrida vector + keyword con citas.
- LibreChat es el sustituto del ChatGPT-de-equipo. Multi-usuario, multi-modelo (funciona con Ollama local o APIs cloud como fallback), historial, librería de prompts. La UI por defecto cuando quieres dar a tu equipo "un ChatGPT" sin pagar por asiento.
Las tres piezas de infra rellenan los huecos. El n8n starter kit te da Docker compose para n8n + Postgres + Qdrant + un modelo local — automatización de workflow en tu propio servidor. Whisper local significa que las transcripciones de meetings y notas de voz nunca salen de tu red. El gateway rutea entre modelos locales y cloud para que solo caigas a Claude cuando local no pueda.
Instala en un comando
# Instala el pack completo
tokrepo install pack/self-hosted-ai
# O elige la pieza que necesitas
tokrepo install tabby
tokrepo install onyx
tokrepo install librechat
tokrepo install n8n-ai-starter-kit
TokRepo CLI instala los archivos docker-compose, plantillas de entorno, y los archivos de regla / subagentes para tu herramienta IA que explican cuándo invocar el stack local vs la nube. Lanza docker compose up -d tras la instalación y los servicios serán accesibles en localhost.
Errores comunes
- No corras un modelo de 70B en 16GB VRAM. Empareja tamaño de modelo con tu GPU. DeepSeek-Coder-7B de Tabby cabe en una tarjeta 12GB y sobra para completion. Para chat, Qwen-2.5-32B en 4-bit es el sweet spot con 24GB.
- Los conectores Onyx limitan ratio en silencio. Cuando apuntas Onyx a un Confluence de 50k páginas, la sync inicial dura horas y algunos conectores se pausan. Vigila los logs; no confíes en la barra de progreso de la UI las primeras 24 horas.
- n8n + workflows IA filtran credenciales. El starter kit lleva credenciales Postgres por defecto en texto plano. Cámbialas, y mete n8n detrás de Cloudflare Tunnel o un reverse proxy con auth antes de exponerlo.
- Permisos LibreChat planos por defecto. De fábrica todo usuario ve toda conversación. Configura RBAC y whitelisting de modelo por usuario antes de onboard un equipo.
- Los backups no son automáticos. Auto-alojado = auto-backup. Programa pg_dump para LibreChat/Onyx y snapshot del cache de modelo Tabby; presupuesta storage 3× tu dataset activo para restore points.
Relación con otros packs
Este pack se empareja naturalmente con dos. MCP Server Stack te da los conectores nivel-protocolo (filesystem, navegador, base de datos MCP servers) que rutean por tu gateway local — así hasta Claude Code puede llamar tus servicios locales. LLM Observability importa más aquí que en APIs cloud porque tú posees la superficie de fallo; Langfuse self-hosted está en ese pack e integra limpio con Onyx y LibreChat.
Si arrancas de cero, orden de instalación: 1) LibreChat (valor inmediato al usuario), 2) Tabby (valor al desarrollador), 3) Onyx (búsqueda org-wide), 4) n8n + gateway cuando empieces a construir automatizaciones encima.
6 recursos listos para instalar
Preguntas frecuentes
¿Tabby es gratis?
Sí, Tabby es open-source bajo Apache 2.0 con una edición Community auto-alojada gratis. Hay un tier Enterprise pago para SSO, audit logs y SLAs, pero el Community es fully featured para uso individual y de equipos pequeños. Solo pagas la GPU donde corres. Mismo modelo para Onyx, LibreChat y n8n — todos OSS con tiers de pago opcionales.
¿Funciona con Cursor o Codex CLI en lugar de Claude Code?
Los servicios auto-alojados son tool-agnostic — Tabby expone una API compatible Copilot que cualquier IDE soportando Copilot puede usar (VS Code, JetBrains, Vim). LibreChat es UI web así que es independiente de herramienta. El TokRepo CLI instala la config específica de herramienta IA (reglas Cursor, AGENTS.md, subagentes Claude Code) que le dice a tu agente que los servicios locales existen.
¿Cómo se compara Tabby con Cursor + modelo local?
El soporte de modelo local de Cursor está limitado a endpoints específicos; Tabby está hecho para code completion auto-alojado con telemetría, model warmup y backend real. Si quieres Copilot self-hosted IDE-agnostic y multi-equipo, Tabby gana. Si quieres específicamente la UX Cursor con modelo local detrás, mira el gateway local de este pack — puede actuar como endpoint compatible Cursor.
¿Cuál es la diferencia con el pack MCP Server Stack?
MCP Server Stack es sobre conectores nivel-protocolo para que las herramientas IA puedan leer tu filesystem, navegador, base de datos. Self-Hosted AI es sobre reemplazar el LLM/UI/asistente IDE cloud entero con servicios en tu propio hardware. Son complementarios: los servidores MCP pueden configurarse para rutar por tu gateway local, dándote un stack agente fully on-prem.
¿Cuándo NO debería auto-alojar?
Cuando la latencia importa más que la soberanía (voz en tiempo real, code completion sub-300ms contra modelo pequeño es difícil), cuando tu uso es muy bajo para justificar GPU ($100/mes de API es más barato que una 4090 amortizada en 3 años), o cuando no tienes ops para manejar backups, upgrades de modelo, y los OOM inevitables a las 2am. Auto-alojar es trabajo ops real; presupuéstalo.
12 packs · 80+ recursos seleccionados
Explora todos los packs curados en la página principal
Volver a todos los packs