Guide AI Gateway — contrôle des coûts LLM, fallback routing et observabilité (2026)

La nouvelle couche d'infrastructure pour les applications LLM en production en 2026 : 9 AI gateways et plateformes d'observabilité comparés — avec du code réel, des modèles de coûts et des recommandations de choix.

Cloudflare AI Gateway — Edge Proxy for LLM Traffic

Cloudflare AI Gateway is a free edge proxy that sits between your app and LLM providers — caching responses, rate-limiting abuse, failover across models, and emitting analytics without changing your SDK code.

GatewayEdgeCaching

Portkey — AI Gateway with Prompt Management & Observability

Portkey is an end-to-end LLM control plane: gateway for routing and fallback, prompt manager for versioning, and an observability suite with cost tracking and guardrails — all behind a single API.

GatewayAll-in-oneObservability

LiteLLM — Open-source LLM Proxy for 100+ Providers

LiteLLM is an open-source proxy that normalizes 100+ LLM APIs behind the OpenAI SDK. Drop it in front of Claude, Gemini, Ollama, Bedrock, Vertex, Azure — one client, unified calls.

ProxyOpen source100+ models

OpenRouter — Unified API for 300+ Models, One Invoice

OpenRouter is a managed router that exposes 300+ LLMs (OpenAI, Claude, Gemini, open-source via Groq/Together/Fireworks) behind a single OpenAI-compatible API and one consolidated bill.

RouterPay-per-tokenUnified API

Helicone — Zero-Code LLM Observability Platform

Helicone is an open-source observability platform that gives you LLM request logs, cost tracking, user analytics, and prompt experiments — by changing only the base URL of your OpenAI or Anthropic client.

ObservabilityOpen source

Langfuse — Open-source LLM Engineering Platform

Langfuse is the dominant open-source platform for LLM traces, prompts, evaluations, and datasets. Instrument your agent with the SDK or OpenTelemetry and get production-grade debugging and eval.

ObservabilityOpen sourceEvals

Kong AI Gateway — Enterprise-grade LLM Proxy

Kong AI Gateway adds LLM-specific plugins (prompt transforms, semantic caching, cost limits, guardrails) to the Kong API gateway — ideal for teams already running Kong who want AI controls on the same plane.

EnterpriseKong plugin

Arize Phoenix — Open-source LLM Observability & Evals

Arize Phoenix is the open-source observability and evaluation library from Arize AI. OpenTelemetry-native, with strong eval primitives — built for data scientists and ML engineers who want notebooks + production in one stack.

ObservabilityEvalsOpen source

Traceloop — OpenTelemetry-first LLM Observability

Traceloop ships OpenLLMetry, the popular OSS library for instrumenting LLM apps with OpenTelemetry. Backend-agnostic traces: send to Traceloop Cloud, Grafana, Datadog, or your existing OTEL stack.

OpenTelemetryObservability

Pourquoi vous avez besoin d'une AI Gateway

Les appels SDK directs ne survivent pas à la production. La première fois qu'un incident OpenAI met votre application hors service, qu'un changement de prix Claude triple silencieusement votre facture, ou que votre directeur financier demande « quelle équipe a dépensé combien sur quel modèle au dernier trimestre » — vous regretterez de ne pas avoir une gateway devant votre trafic LLM. Les AI gateways résolvent les mêmes problèmes que les API gateways résolvaient il y a dix ans, adaptés au routage de modèles.

Il existe deux catégories d'outils qui se chevauchent. Les gateways (Cloudflare, Portkey, LiteLLM, OpenRouter) se placent en ligne sur le chemin de la requête — routing, caching, fallback, rate-limits. Les plateformes d'observabilité (Helicone, Langfuse, Arize Phoenix, Traceloop) se placent à côté — tracing, evals, dashboards. Beaucoup d'équipes utilisent les deux.

Stack typique 2026. Petite application : Portkey ou Cloudflare AI Gateway (gateway + observabilité légère en un seul outil). Moyenne taille : proxy LiteLLM + Langfuse pour les traces. Entreprise : Kong AI Gateway pour la policy + Arize ou Langfuse pour l'observabilité + OpenRouter en fallback multi-modèles. Commencez simple ; ajoutez des composants quand vous pouvez nommer le problème précis qu'ils résolvent.

Questions fréquentes

Quelle est la différence entre une AI gateway et une API gateway traditionnelle ?+

Une API gateway traditionnelle gère le routing, l'authentification et le rate-limiting. Une AI gateway ajoute des préoccupations spécifiques au LLM : routage de modèles (basculer entre OpenAI / Claude / modèles locaux selon le coût, la qualité ou la disponibilité), prompt caching, budgets de Tokens et suivi des coûts par équipe ou utilisateur.

Cloudflare AI Gateway vs Portkey ?+

Cloudflare est gratuit et edge-fast, avec une observabilité légère. Portkey est payant et plus complet (prompt management, virtual keys, guardrails). Petite équipe sensible à la latence edge → Cloudflare. Besoin d'une gestion complète du cycle de vie des Prompts → Portkey.

LiteLLM peut-il remplacer OpenRouter ?+

Partiellement. LiteLLM est un proxy self-hosted (vous gérez les clés et la facturation). OpenRouter est un service managé (facturation unifiée chez tous les fournisseurs). Conformité entreprise → LiteLLM. Expérimentation rapide multi-modèles → OpenRouter.

Helicone vs Langfuse pour l'observabilité ?+

Les deux sont des plateformes d'observabilité LLM open-source. Helicone met l'accent sur l'intégration zero-code (basée sur un proxy). Langfuse va plus loin sur le tracing + evals. Codebase existante, sans modifications → Helicone. Nouveau projet avec besoins riches en traces/evals → Langfuse.