Guía de AI Gateway — Control de costos LLM, enrutamiento con fallback y observabilidad (2026)

La nueva capa de infraestructura para apps LLM en producción en 2026: comparamos 9 AI gateways y plataformas de observabilidad, con código real, modelos de costo y guía de selección.

Cloudflare AI Gateway — Edge Proxy for LLM Traffic

Cloudflare AI Gateway is a free edge proxy that sits between your app and LLM providers — caching responses, rate-limiting abuse, failover across models, and emitting analytics without changing your SDK code.

GatewayEdgeCaching

Portkey — AI Gateway with Prompt Management & Observability

Portkey is an end-to-end LLM control plane: gateway for routing and fallback, prompt manager for versioning, and an observability suite with cost tracking and guardrails — all behind a single API.

GatewayAll-in-oneObservability

LiteLLM — Open-source LLM Proxy for 100+ Providers

LiteLLM is an open-source proxy that normalizes 100+ LLM APIs behind the OpenAI SDK. Drop it in front of Claude, Gemini, Ollama, Bedrock, Vertex, Azure — one client, unified calls.

ProxyOpen source100+ models

OpenRouter — Unified API for 300+ Models, One Invoice

OpenRouter is a managed router that exposes 300+ LLMs (OpenAI, Claude, Gemini, open-source via Groq/Together/Fireworks) behind a single OpenAI-compatible API and one consolidated bill.

RouterPay-per-tokenUnified API

Helicone — Zero-Code LLM Observability Platform

Helicone is an open-source observability platform that gives you LLM request logs, cost tracking, user analytics, and prompt experiments — by changing only the base URL of your OpenAI or Anthropic client.

ObservabilityOpen source

Langfuse — Open-source LLM Engineering Platform

Langfuse is the dominant open-source platform for LLM traces, prompts, evaluations, and datasets. Instrument your agent with the SDK or OpenTelemetry and get production-grade debugging and eval.

ObservabilityOpen sourceEvals

Kong AI Gateway — Enterprise-grade LLM Proxy

Kong AI Gateway adds LLM-specific plugins (prompt transforms, semantic caching, cost limits, guardrails) to the Kong API gateway — ideal for teams already running Kong who want AI controls on the same plane.

EnterpriseKong plugin

Arize Phoenix — Open-source LLM Observability & Evals

Arize Phoenix is the open-source observability and evaluation library from Arize AI. OpenTelemetry-native, with strong eval primitives — built for data scientists and ML engineers who want notebooks + production in one stack.

ObservabilityEvalsOpen source

Traceloop — OpenTelemetry-first LLM Observability

Traceloop ships OpenLLMetry, the popular OSS library for instrumenting LLM apps with OpenTelemetry. Backend-agnostic traces: send to Traceloop Cloud, Grafana, Datadog, or your existing OTEL stack.

OpenTelemetryObservability

Por qué necesitas un AI Gateway

Las llamadas directas al SDK no sobreviven a producción. La primera vez que un incidente de OpenAI tumbe tu app, o que un cambio de precios de Claude triplique en silencio tu factura, o que tu CFO pregunte "qué equipo gastó cuánto en qué modelo el último trimestre", desearás haber tenido un gateway delante de tu tráfico LLM. Los AI gateways resuelven los mismos problemas que los API gateways resolvieron hace una década, adaptados al enrutamiento de modelos.

Hay dos categorías de herramientas que se solapan. Los gateways (Cloudflare, Portkey, LiteLLM, OpenRouter) se ubican en línea sobre la ruta de la petición: enrutamiento, caché, fallback, rate limits. Las plataformas de observabilidad (Helicone, Langfuse, Arize Phoenix, Traceloop) van al lado: tracing, evals, dashboards. Muchos equipos usan ambos.

Stack típico en 2026. App pequeña: Portkey o Cloudflare AI Gateway (gateway + observabilidad ligera en uno solo). Tamaño medio: proxy LiteLLM + Langfuse para traces. Empresarial: Kong AI Gateway para políticas + Arize o Langfuse para observabilidad + OpenRouter como fallback multimodelo. Empieza simple; añade componentes cuando puedas nombrar el problema concreto que resuelven.

Preguntas frecuentes

¿Cuál es la diferencia entre un AI gateway y un API gateway tradicional?+

Un API gateway tradicional gestiona enrutamiento, autenticación y rate limits. Un AI gateway añade preocupaciones específicas de LLM: enrutamiento de modelos (cambiar entre OpenAI / Claude / modelos locales según costo, calidad o disponibilidad), prompt caching, presupuestos de tokens y seguimiento de costos por equipo o usuario.

¿Cloudflare AI Gateway o Portkey?+

Cloudflare es gratis y rápido en el edge, con observabilidad ligera. Portkey es de pago y más completo (gestión de prompts, virtual keys, guardrails). Equipo pequeño sensible a la latencia del edge → Cloudflare. Necesitas gestión completa del ciclo de vida del prompt → Portkey.

¿LiteLLM puede reemplazar a OpenRouter?+

Parcialmente. LiteLLM es un proxy autohospedado (tú gestionas keys y facturación). OpenRouter es un servicio gestionado (facturación unificada entre proveedores). Cumplimiento empresarial → LiteLLM. Experimentación rápida con varios modelos → OpenRouter.

¿Helicone o Langfuse para observabilidad?+

Ambas son plataformas open source de observabilidad LLM. Helicone enfatiza la integración sin código (basada en proxy). Langfuse profundiza más en tracing + evals. Codebase existente, sin querer cambios → Helicone. Proyecto nuevo con necesidades ricas de trace/eval → Langfuse.