AI Gateway

Cloudflare AI Gateway — Proxy Edge pour le trafic LLM

Cloudflare AI Gateway est un proxy edge gratuit qui s'intercale entre votre application et les fournisseurs LLM — il met les réponses en cache, limite les abus, bascule entre modèles en cas de panne et produit des analyses, sans modifier votre code SDK.

Site officiel

Why Cloudflare AI Gateway

La réponse la moins chère à « il me faut une infrastructure LLM de production tout de suite ». Cloudflare AI Gateway est gratuit dans le tier gratuit Workers, se déploie en quelques minutes et prend en charge OpenAI, Anthropic, Gemini, Groq, Mistral, Workers AI et une douzaine d'autres fournisseurs sans modification du SDK — il suffit de changer la base URL.

Le compromis, c'est une simplicité assumée. Vous obtenez le cache, le rate-limiting, le retry/fallback et un dashboard avec les logs de requêtes et le suivi des dépenses. Vous n'avez pas la gestion de prompts de Portkey, les règles de routage avancées de LiteLLM, ni les traces aussi profondes que Langfuse. Pour une startup qui livre sa première fonctionnalité LLM, ce compromis est presque toujours le bon.

Le réseau edge de Cloudflare est le bénéfice caché. Comme le gateway tourne sur plus de 300 POPs, les requêtes LLM atteignent d'abord un edge Cloudflare proche, puis Cloudflare contacte le fournisseur via une connexion déjà chaude. Sur les cache hits (une fraction étonnamment élevée du trafic réel), la réponse revient en quelques millisecondes sans même solliciter le fournisseur.

Quick Start — Switch Base URL, Nothing Else

Le seul changement, c'est la base_url. Le gateway prend en charge OpenAI, Anthropic, Gemini, Workers AI, Groq, Mistral, Perplexity, HuggingFace, Replicate, Cohere, Azure, AWS Bedrock et Vertex AI — chacun sous son propre segment de chemin. Le cache, les retries et les fallbacks se configurent dans le dashboard, pas dans le code.

# 1. In Cloudflare dashboard: AI → AI Gateway → Create gateway
#    → You get a base URL like https://gateway.ai.cloudflare.com/v1/<account>/<gateway>
#
# 2. Point your SDK at it. Everything else stays the same.

from openai import OpenAI

client = OpenAI(
    api_key="sk-...",
    base_url="https://gateway.ai.cloudflare.com/v1/<account>/<gateway>/openai",
)

resp = client.chat.completions.create(
    model="gpt-4o-mini",
    messages=[{"role": "user", "content": "Summarize the AI gateway category."}],
    # Cache identical requests for 1 hour
    extra_headers={"cf-aig-cache-ttl": "3600"},
)
print(resp.choices[0].message.content)

# Anthropic? Same gateway, different path segment:
# base_url="https://gateway.ai.cloudflare.com/v1/<account>/<gateway>/anthropic"
# Dashboard now shows logs, cache hits, per-provider spend, and failure rates.

Fonctionnalités clés

Base URL drop-in

Aucun changement de SDK, pas de nouvelle bibliothèque cliente. Votre code OpenAI/Anthropic existant continue de fonctionner après avoir modifié la base URL. Migration sans risque.

Cache sémantique et exact

Les requêtes identiques sont mises en cache par défaut. Le cache sémantique (payant) rapproche les prompts presque identiques via des embeddings — taux de hit typique de 20 à 40 % sur du trafic réel.

Fallback par fournisseur

Configurez un failover automatique : tentez Anthropic d'abord, basculez vers OpenAI en cas de timeout ou de 5xx. Réduit l'impact des incidents sans code côté client.

Rate limits par utilisateur / route

Plafonnez le volume de requêtes par identifiant personnalisé (user ID, API key). Utile pour les produits freemium et la prévention des abus. Configurable par gateway.

Logs de requêtes et dashboard de coûts

Chaque requête loggée avec prompt, réponse, latence, coût. Filtrage par modèle, statut, tags personnalisés. Suffisant pour l'ops ; ce n'est pas un remplacement du tracing en profondeur de Langfuse.

Performance du réseau edge

Le gateway tourne sur plus de 300 POPs. Les cache hits reviennent en ~10 ms quelle que soit la région du fournisseur. Même les misses bénéficient des connexions upstream déjà chaudes de Cloudflare.

Comparaison

	Deployment	Cost	Prompt Mgmt	Observability Depth
Cloudflare AI Gatewaycelui-ci	Managed edge	Free tier + pay-as-you-go	No	Basic (logs, spend)
Portkey	Managed + self-host	Paid plans	Yes (versioning + A/B)	Medium
LiteLLM Proxy	Self-host	Free (OSS)	Partial	Integrates with Langfuse
Kong AI Gateway	Self-host enterprise	Kong license	Via Kong plugins	Via Kong ecosystem

Cas d'usage

01. Startups en phase d'amorçage

Première fonctionnalité LLM livrée. Cloudflare AI Gateway ajoute cache, failover et visibilité sur les coûts en une après-midi — avant que vous ayez besoin d'une stack d'observabilité dédiée.

02. Applis grand public à fort trafic

Quand une fraction notable des prompts est quasi dupliquée (chatbots, suggestions de recherche), le cache edge de Cloudflare économise à la fois la latence et la facture LLM.

03. Équipes déjà sur Cloudflare

Les utilisateurs de Workers, Pages, D1, R2 bénéficient d'une intégration native. AI Gateway s'insère dans le compte Cloudflare existant, ses bindings et son observabilité — aucun nouveau fournisseur.

Tarification et licence

Tier gratuit : les 100 000 premières requêtes loggées par mois sont gratuites. Les requêtes non loggées (passthrough pur) n'ont pas de plafond strict mais peuvent être rate-limitées en cas de charge extrême.

Tier payant : facturation à l'usage au-delà du tier gratuit. Le cache sémantique et la rétention prolongée des logs sont des add-ons payants. Tarifs en vigueur sur la doc Cloudflare.

Économies cachées : le « coût » le plus impactant de ce produit est négatif — les cache hits réduisent directement votre facture LLM. Une appli de chat startup qui paie 2 000 $/mois chez OpenAI peut couper 15 à 30 % en activant un cache agressif sur les prompts répétés.

Assets associés sur TokRepo

Cloudflare Skills — Workers & Agents Playbook

Install Cloudflare Skills to guide your agent through Workers, D1, R2, and the Agents SDK with consistent best practices and copy-ready commands.

Cloudflare Agents — Stateful Agents on Durable Objects

Cloudflare Agents provides stateful execution environments for agent workloads on Durable Objects, with scheduling, realtime, MCP, and Workers deployment.

Cloudflare AI Workers — Deploy AI Apps at the Edge

Run AI models on Cloudflare's global edge network. Workers AI provides serverless inference for LLMs, embeddings, image generation, and speech-to-text at low latency.

Cloudflare Workers MCP — Edge Functions for AI Agents

MCP server that gives AI agents access to Cloudflare Workers for deploying edge functions, managing KV storage, R2 buckets, and D1 databases. Build and deploy serverless code from chat. 1,500+ stars.

Questions fréquentes

Cloudflare AI Gateway est-il vraiment gratuit ?+

Le tier gratuit couvre 100 000 requêtes loggées par mois, ce qui suffit à la plupart des applis de petite à moyenne taille. Au-delà, la facturation est à l'usage. Le passthrough non loggé est sans plafond mais non monitoré — la plupart des équipes loggent tout.

Supporte-t-il Anthropic Claude ?+

Oui. Les fournisseurs pris en charge en 2026 incluent OpenAI, Anthropic, Google Gemini, Groq, Mistral, Workers AI, Cohere, HuggingFace, Replicate, Perplexity, Azure OpenAI, AWS Bedrock et Vertex AI. Chacun est exposé sous son propre segment de chemin de l'URL du gateway.

Comment fonctionne le cache sémantique ?+

Au lieu du cache à correspondance exacte, le cache sémantique embedde le prompt entrant et le compare aux embeddings des prompts récents. Quand une correspondance suffisamment proche est trouvée (seuil configurable), la réponse en cache est renvoyée. Taux de hit typiques : 20 à 40 % sur des charges très répétitives. Le coût des embeddings est faible par rapport aux appels LLM évités.

Est-ce une plateforme d'observabilité complète ?+

Non — c'est un gateway avec une observabilité basique. Pour un tracing plus profond (tool calls, chaînes, spans), associez Cloudflare AI Gateway à Langfuse ou Helicone. Cloudflare gère l'ingress et le cache ; Langfuse gère les traces structurées et les évaluations.

Puis-je faire tourner une version self-hosted ?+

Non. Cloudflare AI Gateway est un produit managé. Pour des alternatives self-hosted, regardez LiteLLM Proxy ou Kong AI Gateway. Beaucoup d'équipes font tourner les deux — Cloudflare en edge pour le cache global, LiteLLM pour les politiques de routage internes.

Fonctionne-t-il avec le Vercel AI SDK ou LangChain ?+

Oui. Les deux bibliothèques acceptent une baseURL personnalisée pour les fournisseurs compatibles OpenAI. Pointez-les sur votre URL de gateway Cloudflare et le reste fonctionne sans changement.

Comparer les alternatives

Portkey — AI Gateway with Prompt Management & Observability LiteLLM — Open-source LLM Proxy for 100+ Providers OpenRouter — Unified API for 300+ Models, One Invoice Helicone — Zero-Code LLM Observability Platform