IA Auto-Hébergée
Tabby, Onyx, LibreChat et un starter kit n8n — gardez vos données sur votre propre serveur.
Ce que contient ce pack
Ce pack rassemble les six ressources IA auto-hébergées qui reviennent constamment quand les équipes quittent le SaaS pour des raisons de compliance, coût ou souveraineté. Trois sont des remplaçants coding/chat (Tabby, LibreChat, Onyx). Trois sont des pièces d'infrastructure (n8n AI starter kit, STT local, gateway de modèles).
| # | Ressource | Type | Ce qu'elle remplace |
|---|---|---|---|
| 1 | Tabby | service auto-hébergé | GitHub Copilot |
| 2 | Onyx | service auto-hébergé | Glean / ChatGPT entreprise |
| 3 | LibreChat | UI auto-hébergée | ChatGPT pour l'équipe |
| 4 | n8n AI starter kit | docker-compose | Zapier avec nœuds IA |
| 5 | Whisper STT (local) | service | Otter / Rev / STT cloud |
| 6 | Gateway de modèles local | service | LiteLLM avec routing local-first |
Pourquoi c'est important
Le stack IA par défaut 2026 suppose que vous êtes OK pour envoyer votre code, chats et données client à OpenAI / Anthropic / Google. Pour la plupart des apps grand public ça va. Pour les industries réglementées (santé, finance, juridique), le travail gouvernemental, ou toute équipe où votre IP est le produit, c'est rédhibitoire. Ce pack est la réponse assemblée : un stack que vous pouvez faire tourner sur une seule workstation ou un petit cluster Kubernetes qui vous donne des outils dev équivalents à Copilot, du chat équivalent à ChatGPT et du retrieval équivalent à la recherche d'entreprise — entièrement sur votre propre matériel.
Les trois remplaçants phares :
- Tabby est le substitut de Copilot. Auto-hébergez-le, pointez votre IDE dessus, et vous obtenez de la complétion inline soutenue par le modèle local que vous chargez (DeepSeek-Coder, Qwen-Coder, etc). Sur une seule 3090 vous égalez la qualité Copilot sur la plupart des langages.
- Onyx (anciennement Danswer) est le substitut de la recherche d'entreprise. Connectez-le à votre Confluence, Notion, GitHub, Slack, et il construit un ChatGPT interne qui répond aux questions depuis vos docs. Recherche hybride vecteur + keyword avec citations.
- LibreChat est le substitut du ChatGPT-d'équipe. Multi-utilisateur, multi-modèle (fonctionne avec Ollama local ou APIs cloud en fallback), historique, bibliothèque de prompts. L'UI par défaut quand vous voulez donner à votre équipe "un ChatGPT" sans payer par siège.
Les trois pièces d'infra comblent les trous. Le starter kit n8n vous donne Docker compose pour n8n + Postgres + Qdrant + un modèle local — automatisation de workflow sur votre propre matériel. Whisper local signifie que les transcriptions de meetings et notes vocales ne quittent jamais votre réseau. Le gateway route entre modèles locaux et cloud pour que vous ne tombiez sur Claude que quand le local ne peut pas répondre.
Installer en une commande
# Installe le pack entier
tokrepo install pack/self-hosted-ai
# Ou choisissez la pièce dont vous avez besoin
tokrepo install tabby
tokrepo install onyx
tokrepo install librechat
tokrepo install n8n-ai-starter-kit
Le TokRepo CLI installe les fichiers docker-compose, templates d'environnement, et les fichiers de règle / subagents pour votre outil IA qui expliquent quand invoquer le stack local vs le cloud. Lancez docker compose up -d après l'install et les services sont joignables sur localhost.
Pièges courants
- Ne lancez pas un modèle 70B sur 16GB VRAM. Adaptez la taille du modèle à votre GPU. Le DeepSeek-Coder-7B de Tabby tient sur une carte 12GB et c'est largement suffisant pour la complétion. Pour le chat, Qwen-2.5-32B en 4-bit est le sweet spot si vous avez 24GB.
- Les connecteurs Onyx limitent en silence. Quand vous pointez Onyx vers un Confluence 50k pages, la sync initiale prend des heures et certains connecteurs vont s'arrêter. Surveillez les logs ; ne faites pas confiance à la barre de progression de l'UI les 24 premières heures.
- n8n + workflows IA fuitent les credentials. Le starter kit livre des credentials Postgres par défaut en clair. Changez-les, et mettez n8n derrière Cloudflare Tunnel ou un reverse proxy avec auth avant de l'exposer.
- Permissions LibreChat plates par défaut. Sortie d'usine chaque utilisateur voit chaque conversation. Configurez RBAC et whitelist de modèle par utilisateur avant d'onboarder une équipe.
- Les backups ne sont pas automatiques. Auto-hébergé = auto-backup. Planifiez pg_dump pour LibreChat/Onyx et snapshot du cache modèle Tabby ; budgétez stockage 3× votre dataset actif pour les restore points.
Relation avec les autres packs
Ce pack s'apparie naturellement avec deux autres. MCP Server Stack vous donne les connecteurs niveau-protocole (filesystem, navigateur, base de données MCP servers) qui routent à travers votre gateway de modèles local — ainsi même Claude Code peut appeler vos services locaux. LLM Observability importe plus ici que sur les APIs cloud parce que vous possédez la surface d'échec ; Langfuse self-hosted est dans ce pack et s'intègre proprement avec Onyx et LibreChat.
Si vous démarrez de zéro, ordre d'installation : 1) LibreChat (valeur immédiate utilisateur), 2) Tabby (valeur développeur), 3) Onyx (recherche org-wide), 4) n8n + gateway quand vous commencez à construire des automatisations dessus.
6 ressources prêtes à installer
Questions fréquentes
Tabby est-il gratuit ?
Oui, Tabby est open-source sous Apache 2.0 avec une édition Community auto-hébergée gratuite. Il y a un tier Enterprise payant pour SSO, audit logs et SLAs, mais Community est complet pour usage individuel et petites équipes. Vous payez seulement le GPU où vous le faites tourner. Même modèle pour Onyx, LibreChat et n8n — tous OSS avec tiers payants optionnels.
Est-ce que ça marche avec Cursor ou Codex CLI au lieu de Claude Code ?
Les services auto-hébergés sont tool-agnostiques — Tabby expose une API compatible Copilot que tout IDE supportant Copilot peut utiliser (VS Code, JetBrains, Vim). LibreChat est une UI web donc indépendante de l'outil. Le TokRepo CLI installe la config spécifique outil IA (règles Cursor, AGENTS.md, subagents Claude Code) qui dit à votre agent que les services locaux existent.
Comment Tabby se compare-t-il à Cursor avec un modèle local ?
Le support de modèle local de Cursor est limité à des endpoints spécifiques ; Tabby est conçu pour la complétion code self-hosted avec télémétrie, model warmup et un vrai backend. Si vous voulez Copilot self-hosted IDE-agnostique multi-équipe, Tabby gagne. Si vous voulez spécifiquement l'UX Cursor avec un modèle local derrière, voyez le gateway local de ce pack — il peut faire endpoint compatible Cursor.
Quelle est la différence avec le pack MCP Server Stack ?
MCP Server Stack concerne les connecteurs niveau-protocole pour que les outils IA puissent lire votre filesystem, navigateur, base de données. Self-Hosted AI concerne le remplacement intégral du LLM/UI/assistant IDE cloud par des services sur votre propre matériel. Ils sont complémentaires : les serveurs MCP peuvent être configurés pour router à travers votre gateway local, vous donnant un stack agent entièrement on-prem.
Quand ne PAS auto-héberger ?
Quand la latence importe plus que la souveraineté (voix temps réel, complétion code sub-300ms contre petit modèle est dur), quand votre usage est trop faible pour justifier un GPU (100$/mois d'API est moins cher qu'une 4090 amortie sur 3 ans), ou quand vous n'avez pas de support ops pour gérer backups, upgrades modèle et l'OOM inévitable à 2h du matin. L'auto-hébergement est du vrai travail ops ; budgétez-le.
12 packs · 80+ ressources sélectionnées
Découvrez tous les packs curatés sur la page d'accueil
Retour à tous les packs