Cloudflare AI Gateway — Proxy Edge pour le trafic LLM
Cloudflare AI Gateway est un proxy edge gratuit qui s'intercale entre votre application et les fournisseurs LLM — il met les réponses en cache, limite les abus, bascule entre modèles en cas de panne et produit des analyses, sans modifier votre code SDK.
Why Cloudflare AI Gateway
La réponse la moins chère à « il me faut une infrastructure LLM de production tout de suite ». Cloudflare AI Gateway est gratuit dans le tier gratuit Workers, se déploie en quelques minutes et prend en charge OpenAI, Anthropic, Gemini, Groq, Mistral, Workers AI et une douzaine d'autres fournisseurs sans modification du SDK — il suffit de changer la base URL.
Le compromis, c'est une simplicité assumée. Vous obtenez le cache, le rate-limiting, le retry/fallback et un dashboard avec les logs de requêtes et le suivi des dépenses. Vous n'avez pas la gestion de prompts de Portkey, les règles de routage avancées de LiteLLM, ni les traces aussi profondes que Langfuse. Pour une startup qui livre sa première fonctionnalité LLM, ce compromis est presque toujours le bon.
Le réseau edge de Cloudflare est le bénéfice caché. Comme le gateway tourne sur plus de 300 POPs, les requêtes LLM atteignent d'abord un edge Cloudflare proche, puis Cloudflare contacte le fournisseur via une connexion déjà chaude. Sur les cache hits (une fraction étonnamment élevée du trafic réel), la réponse revient en quelques millisecondes sans même solliciter le fournisseur.
Quick Start — Switch Base URL, Nothing Else
Le seul changement, c'est la base_url. Le gateway prend en charge OpenAI, Anthropic, Gemini, Workers AI, Groq, Mistral, Perplexity, HuggingFace, Replicate, Cohere, Azure, AWS Bedrock et Vertex AI — chacun sous son propre segment de chemin. Le cache, les retries et les fallbacks se configurent dans le dashboard, pas dans le code.
# 1. In Cloudflare dashboard: AI → AI Gateway → Create gateway
# → You get a base URL like https://gateway.ai.cloudflare.com/v1/<account>/<gateway>
#
# 2. Point your SDK at it. Everything else stays the same.
from openai import OpenAI
client = OpenAI(
api_key="sk-...",
base_url="https://gateway.ai.cloudflare.com/v1/<account>/<gateway>/openai",
)
resp = client.chat.completions.create(
model="gpt-4o-mini",
messages=[{"role": "user", "content": "Summarize the AI gateway category."}],
# Cache identical requests for 1 hour
extra_headers={"cf-aig-cache-ttl": "3600"},
)
print(resp.choices[0].message.content)
# Anthropic? Same gateway, different path segment:
# base_url="https://gateway.ai.cloudflare.com/v1/<account>/<gateway>/anthropic"
# Dashboard now shows logs, cache hits, per-provider spend, and failure rates.Fonctionnalités clés
Base URL drop-in
Aucun changement de SDK, pas de nouvelle bibliothèque cliente. Votre code OpenAI/Anthropic existant continue de fonctionner après avoir modifié la base URL. Migration sans risque.
Cache sémantique et exact
Les requêtes identiques sont mises en cache par défaut. Le cache sémantique (payant) rapproche les prompts presque identiques via des embeddings — taux de hit typique de 20 à 40 % sur du trafic réel.
Fallback par fournisseur
Configurez un failover automatique : tentez Anthropic d'abord, basculez vers OpenAI en cas de timeout ou de 5xx. Réduit l'impact des incidents sans code côté client.
Rate limits par utilisateur / route
Plafonnez le volume de requêtes par identifiant personnalisé (user ID, API key). Utile pour les produits freemium et la prévention des abus. Configurable par gateway.
Logs de requêtes et dashboard de coûts
Chaque requête loggée avec prompt, réponse, latence, coût. Filtrage par modèle, statut, tags personnalisés. Suffisant pour l'ops ; ce n'est pas un remplacement du tracing en profondeur de Langfuse.
Performance du réseau edge
Le gateway tourne sur plus de 300 POPs. Les cache hits reviennent en ~10 ms quelle que soit la région du fournisseur. Même les misses bénéficient des connexions upstream déjà chaudes de Cloudflare.
Comparaison
| Deployment | Cost | Prompt Mgmt | Observability Depth | |
|---|---|---|---|---|
| Cloudflare AI Gatewaycelui-ci | Managed edge | Free tier + pay-as-you-go | No | Basic (logs, spend) |
| Portkey | Managed + self-host | Paid plans | Yes (versioning + A/B) | Medium |
| LiteLLM Proxy | Self-host | Free (OSS) | Partial | Integrates with Langfuse |
| Kong AI Gateway | Self-host enterprise | Kong license | Via Kong plugins | Via Kong ecosystem |
Cas d'usage
01. Startups en phase d'amorçage
Première fonctionnalité LLM livrée. Cloudflare AI Gateway ajoute cache, failover et visibilité sur les coûts en une après-midi — avant que vous ayez besoin d'une stack d'observabilité dédiée.
02. Applis grand public à fort trafic
Quand une fraction notable des prompts est quasi dupliquée (chatbots, suggestions de recherche), le cache edge de Cloudflare économise à la fois la latence et la facture LLM.
03. Équipes déjà sur Cloudflare
Les utilisateurs de Workers, Pages, D1, R2 bénéficient d'une intégration native. AI Gateway s'insère dans le compte Cloudflare existant, ses bindings et son observabilité — aucun nouveau fournisseur.
Tarification et licence
Tier gratuit : les 100 000 premières requêtes loggées par mois sont gratuites. Les requêtes non loggées (passthrough pur) n'ont pas de plafond strict mais peuvent être rate-limitées en cas de charge extrême.
Tier payant : facturation à l'usage au-delà du tier gratuit. Le cache sémantique et la rétention prolongée des logs sont des add-ons payants. Tarifs en vigueur sur la doc Cloudflare.
Économies cachées : le « coût » le plus impactant de ce produit est négatif — les cache hits réduisent directement votre facture LLM. Une appli de chat startup qui paie 2 000 $/mois chez OpenAI peut couper 15 à 30 % en activant un cache agressif sur les prompts répétés.
Assets associés sur TokRepo
Cloudflare Skills — Workers & Agents Playbook
Install Cloudflare Skills to guide your agent through Workers, D1, R2, and the Agents SDK with consistent best practices and copy-ready commands.
Cloudflare Agents — Stateful Agents on Durable Objects
Cloudflare Agents provides stateful execution environments for agent workloads on Durable Objects, with scheduling, realtime, MCP, and Workers deployment.
Cloudflare AI Workers — Deploy AI Apps at the Edge
Run AI models on Cloudflare's global edge network. Workers AI provides serverless inference for LLMs, embeddings, image generation, and speech-to-text at low latency.
Cloudflare Workers MCP — Edge Functions for AI Agents
MCP server that gives AI agents access to Cloudflare Workers for deploying edge functions, managing KV storage, R2 buckets, and D1 databases. Build and deploy serverless code from chat. 1,500+ stars.
Questions fréquentes
Cloudflare AI Gateway est-il vraiment gratuit ?+
Le tier gratuit couvre 100 000 requêtes loggées par mois, ce qui suffit à la plupart des applis de petite à moyenne taille. Au-delà, la facturation est à l'usage. Le passthrough non loggé est sans plafond mais non monitoré — la plupart des équipes loggent tout.
Supporte-t-il Anthropic Claude ?+
Oui. Les fournisseurs pris en charge en 2026 incluent OpenAI, Anthropic, Google Gemini, Groq, Mistral, Workers AI, Cohere, HuggingFace, Replicate, Perplexity, Azure OpenAI, AWS Bedrock et Vertex AI. Chacun est exposé sous son propre segment de chemin de l'URL du gateway.
Comment fonctionne le cache sémantique ?+
Au lieu du cache à correspondance exacte, le cache sémantique embedde le prompt entrant et le compare aux embeddings des prompts récents. Quand une correspondance suffisamment proche est trouvée (seuil configurable), la réponse en cache est renvoyée. Taux de hit typiques : 20 à 40 % sur des charges très répétitives. Le coût des embeddings est faible par rapport aux appels LLM évités.
Est-ce une plateforme d'observabilité complète ?+
Non — c'est un gateway avec une observabilité basique. Pour un tracing plus profond (tool calls, chaînes, spans), associez Cloudflare AI Gateway à Langfuse ou Helicone. Cloudflare gère l'ingress et le cache ; Langfuse gère les traces structurées et les évaluations.
Puis-je faire tourner une version self-hosted ?+
Non. Cloudflare AI Gateway est un produit managé. Pour des alternatives self-hosted, regardez LiteLLM Proxy ou Kong AI Gateway. Beaucoup d'équipes font tourner les deux — Cloudflare en edge pour le cache global, LiteLLM pour les politiques de routage internes.
Fonctionne-t-il avec le Vercel AI SDK ou LangChain ?+
Oui. Les deux bibliothèques acceptent une baseURL personnalisée pour les fournisseurs compatibles OpenAI. Pointez-les sur votre URL de gateway Cloudflare et le reste fonctionne sans changement.