Cloudflare AI Gateway — Proxy Edge para el tráfico LLM
Cloudflare AI Gateway es un proxy edge gratuito que se sitúa entre tu aplicación y los proveedores LLM: cachea respuestas, limita abusos, realiza failover entre modelos y emite analíticas sin cambiar el código de tu SDK.
Why Cloudflare AI Gateway
La respuesta más barata a "necesito infraestructura LLM de nivel producción ya mismo". Cloudflare AI Gateway es gratis en el tier gratuito de Workers, se despliega en minutos y soporta OpenAI, Anthropic, Gemini, Groq, Mistral, Workers AI y una docena de proveedores más sin tocar el SDK: basta con cambiar la base URL.
El trade-off es la simplicidad opinada. Obtienes caché, rate-limiting, retry/fallback y un dashboard con logs de peticiones y seguimiento de gasto. No obtienes la gestión de prompts de Portkey, las reglas de enrutamiento extensas de LiteLLM ni las trazas profundas de Langfuse. Para una startup que lanza su primera feature LLM, ese trade-off casi siempre es el correcto.
La red edge de Cloudflare es el beneficio oculto. Como el gateway corre en más de 300 POPs, las peticiones LLM impactan primero en un edge cercano de Cloudflare, y luego Cloudflare llega al proveedor desde una conexión ya caliente. En los cache hits (una fracción sorprendentemente alta del tráfico real) respondes en milisegundos sin tocar al proveedor en absoluto.
Quick Start — Switch Base URL, Nothing Else
El único cambio es la base_url. El gateway soporta OpenAI, Anthropic, Gemini, Workers AI, Groq, Mistral, Perplexity, HuggingFace, Replicate, Cohere, Azure, AWS Bedrock y Vertex AI — cada uno bajo su propio segmento de ruta. El cacheo, los reintentos y los fallbacks se configuran en el dashboard, no en el código.
# 1. In Cloudflare dashboard: AI → AI Gateway → Create gateway
# → You get a base URL like https://gateway.ai.cloudflare.com/v1/<account>/<gateway>
#
# 2. Point your SDK at it. Everything else stays the same.
from openai import OpenAI
client = OpenAI(
api_key="sk-...",
base_url="https://gateway.ai.cloudflare.com/v1/<account>/<gateway>/openai",
)
resp = client.chat.completions.create(
model="gpt-4o-mini",
messages=[{"role": "user", "content": "Summarize the AI gateway category."}],
# Cache identical requests for 1 hour
extra_headers={"cf-aig-cache-ttl": "3600"},
)
print(resp.choices[0].message.content)
# Anthropic? Same gateway, different path segment:
# base_url="https://gateway.ai.cloudflare.com/v1/<account>/<gateway>/anthropic"
# Dashboard now shows logs, cache hits, per-provider spend, and failure rates.Características clave
Base URL drop-in
Sin cambios en el SDK, sin nueva biblioteca cliente. Tu código existente de OpenAI/Anthropic sigue funcionando tras cambiar la base URL. Migración sin riesgos.
Caché semántico y exacto
Las peticiones idénticas se cachean por defecto. El caché semántico (de pago) hace match con prompts casi duplicados vía embeddings — tasa de hit típica del 20 al 40 % sobre tráfico real.
Failover por proveedor
Configura failover automático: intenta Anthropic primero, cae a OpenAI ante timeout o 5xx. Reduce el impacto de incidentes sin código del lado cliente.
Rate limits por usuario / ruta
Limita el volumen de peticiones por identificador personalizado (user ID, API key). Útil para productos freemium y prevención de abuso. Configurable por gateway.
Logs de peticiones y dashboard de gasto
Cada petición se registra con prompt, respuesta, latencia y costo. Filtra por modelo, estado o tags personalizados. Suficiente para operaciones; no reemplaza el tracing profundo de Langfuse.
Rendimiento de la red edge
El gateway corre en más de 300 POPs. Los cache hits retornan en ~10 ms sin importar la región del proveedor. Incluso los misses se benefician de las conexiones upstream ya calientes de Cloudflare.
Comparación
| Deployment | Cost | Prompt Mgmt | Observability Depth | |
|---|---|---|---|---|
| Cloudflare AI Gatewayesta | Managed edge | Free tier + pay-as-you-go | No | Basic (logs, spend) |
| Portkey | Managed + self-host | Paid plans | Yes (versioning + A/B) | Medium |
| LiteLLM Proxy | Self-host | Free (OSS) | Partial | Integrates with Langfuse |
| Kong AI Gateway | Self-host enterprise | Kong license | Via Kong plugins | Via Kong ecosystem |
Casos de uso
01. Startups en etapa temprana
Primera feature LLM lanzada. Cloudflare AI Gateway añade caché, failover y visibilidad de costos en una tarde — antes de que necesites una stack de observabilidad dedicada.
02. Apps de consumo de alto tráfico
Cuando una fracción significativa de los prompts son casi duplicados (chatbots, sugerencias de búsqueda), el caché edge de Cloudflare ahorra tanto latencia como gasto en LLM.
03. Equipos ya en Cloudflare
Los usuarios de Workers, Pages, D1, R2 obtienen integración nativa. AI Gateway encaja en la cuenta de Cloudflare existente, sus bindings y observabilidad — sin nuevo proveedor.
Precios y licencia
Tier gratuito: las primeras 100K peticiones loggeadas al mes son gratis. Las peticiones no loggeadas (passthrough puro) no tienen tope estricto, pero pueden ser rate-limitadas bajo carga extrema.
Tier de pago: facturación por uso más allá del tier gratuito. El caché semántico y la retención extendida de logs son add-ons de pago. Precios actuales en la documentación de Cloudflare.
Ahorros ocultos: el "costo" más impactante de este producto es negativo — los cache hits reducen tu factura LLM directamente. Una app de chat startup pagando 2.000 $/mes en OpenAI puede recortar un 15-30 % activando caché agresivo sobre prompts repetidos.
Activos relacionados en TokRepo
Cloudflare Skills — Workers & Agents Playbook
Install Cloudflare Skills to guide your agent through Workers, D1, R2, and the Agents SDK with consistent best practices and copy-ready commands.
Cloudflare Agents — Stateful Agents on Durable Objects
Cloudflare Agents provides stateful execution environments for agent workloads on Durable Objects, with scheduling, realtime, MCP, and Workers deployment.
Cloudflare AI Workers — Deploy AI Apps at the Edge
Run AI models on Cloudflare's global edge network. Workers AI provides serverless inference for LLMs, embeddings, image generation, and speech-to-text at low latency.
Cloudflare Workers MCP — Edge Functions for AI Agents
MCP server that gives AI agents access to Cloudflare Workers for deploying edge functions, managing KV storage, R2 buckets, and D1 databases. Build and deploy serverless code from chat. 1,500+ stars.
Preguntas frecuentes
¿Cloudflare AI Gateway es realmente gratis?+
El tier gratuito cubre 100K peticiones loggeadas al mes, suficiente para la mayoría de apps pequeñas y medianas. Más allá, la facturación es por uso. El passthrough no loggeado no tiene tope, pero tampoco está monitoreado — la mayoría de los equipos loggean todo.
¿Soporta Anthropic Claude?+
Sí. Los proveedores soportados en 2026 incluyen OpenAI, Anthropic, Google Gemini, Groq, Mistral, Workers AI, Cohere, HuggingFace, Replicate, Perplexity, Azure OpenAI, AWS Bedrock y Vertex AI. Cada uno se expone bajo su propio segmento de ruta en la URL del gateway.
¿Cómo funciona el caché semántico?+
En lugar de cachear por coincidencia exacta, el caché semántico embedea el prompt entrante y lo compara con embeddings de prompts recientes. Cuando se encuentra una coincidencia suficientemente cercana (umbral configurable), se devuelve la respuesta en caché. Tasas típicas de hit: 20-40 % en cargas muy repetitivas. El costo de los embeddings es pequeño frente a las llamadas LLM evitadas.
¿Es una plataforma de observabilidad completa?+
No — es un gateway con observabilidad básica. Para tracing más profundo (tool calls, cadenas, spans), combina Cloudflare AI Gateway con Langfuse o Helicone. Cloudflare maneja el ingress y el caché; Langfuse maneja las trazas estructuradas y las evaluaciones.
¿Puedo correr una versión self-hosted?+
No. Cloudflare AI Gateway es un producto gestionado. Para alternativas self-hosted, mira LiteLLM Proxy o Kong AI Gateway. Muchos equipos corren ambos — Cloudflare en el edge para cacheo global, LiteLLM para políticas de enrutamiento interno.
¿Funciona con el Vercel AI SDK o LangChain?+
Sí. Ambas bibliotecas aceptan una baseURL personalizada para proveedores compatibles con OpenAI. Apúntalas a la URL de tu gateway Cloudflare y el resto funciona sin cambios.