AI Gateway

Kong AI Gateway — Proxy LLM de nivel empresarial

Kong AI Gateway añade plugins específicos de LLM (transformaciones de Prompts, caché semántico, límites de costo, guardrails) al API gateway de Kong: ideal para equipos que ya usan Kong y quieren centralizar los controles de AI en el mismo plano.

Sitio oficial GitHub

Why Kong AI Gateway

Kong lleva una década siendo el API gateway enterprise por defecto — motor de políticas curtido en producción, ecosistema de plugins y despliegue nativo de Kubernetes. Kong AI Gateway añade encima plugins LLM-aware: ai-proxy para abstracción de proveedor, ai-prompt-template/ai-prompt-decorator para control de Prompts, ai-rate-limiting para throttling por tokens, ai-semantic-cache para caché por embeddings y ai-prompt-guard para validación de entradas.

La propuesta de valor es un único control plane. Seguridad, enrutamiento, rate limits y políticas LLM aplicadas por el mismo gateway que tu equipo de plataforma ya opera. Para grandes empresas, añadir una herramienta dedicada como Portkey al lado de Kong crea stacks paralelas y sobrecarga de gobernanza — Kong AI Gateway pliega las preocupaciones LLM dentro del gateway existente.

Donde es overkill: startups y equipos pequeños que no corren ya Kong. La carga ops de Kong (control plane, data plane, DB, configuración de plugins) es real. Para apps LLM greenfield, Cloudflare, Portkey o LiteLLM llegan a producción más rápido.

Quick Start — Kong + ai-proxy Plugin

Esta config declara una route de Kong, le dice al plugin ai-proxy que reenvíe a Anthropic Claude, adjunta caché semántico contra un vector store Redis y fija un rate limit en tokens por minuto. El cliente golpea a Kong con un payload con shape de OpenAI; Kong maneja la traducción, el caché y el throttling de manera transparente.

# declarative Kong config (kong.yml) — exposes /ai-gateway/chat as an
# OpenAI-compatible endpoint backed by Anthropic Claude with semantic caching.

_format_version: "3.0"
services:
  - name: ai
    url: https://localhost   # dummy; ai-proxy handles real upstream
    routes:
      - name: chat
        paths: ["/ai-gateway/chat"]
        plugins:
          - name: ai-proxy
            config:
              route_type: "llm/v1/chat"
              auth:
                header_name: "x-api-key"
                header_value: "$ANTHROPIC_API_KEY"
              model:
                provider: "anthropic"
                name: "claude-3-5-sonnet-20241022"
              logging:
                log_statistics: true
                log_payloads: true
          - name: ai-semantic-cache
            config:
              embeddings:
                auth: { header_name: "Authorization", header_value: "Bearer $OPENAI_KEY" }
                model: { name: "text-embedding-3-small" }
              vectordb:
                dimensions: 1536
                strategy: "redis"
                threshold: 0.08
          - name: ai-rate-limiting
            config:
              llm_providers:
                - name: anthropic
                  limit: [200000]    # tokens / minute
                  window_size: [60]

# Client calls Kong instead of Anthropic directly — gets caching + rate limits
# curl -XPOST http://kong/ai-gateway/chat -d '{"messages":[{"role":"user","content":"hi"}]}'

Características clave

Plugin ai-proxy

Normaliza las peticiones a la shape de OpenAI chat completions, LLM/v1 completions o LLM/v1 embeddings. Enruta a OpenAI, Anthropic, Azure, Cohere, Gemini, Mistral, HuggingFace o cualquier backend compatible con OpenAI.

Caché semántico y exacto

El plugin ai-semantic-cache embedea los Prompts y hace match contra entradas cacheadas recientes. Umbral configurable. Usa Redis, Postgres/pgvector o vector DBs externas.

Rate limiting por tokens

ai-rate-limiting cuenta los tokens realmente consumidos (input + output) contra los presupuestos configurados. Más preciso que los límites por número de peticiones para prevenir gasto descontrolado.

Templates y guards de Prompt

ai-prompt-template inyecta variables; ai-prompt-decorator antepone mensajes de sistema; ai-prompt-guard bloquea peticiones que coincidan con patrones configurados (defensa contra prompt injection).

Integración con políticas Kong

Todos los plugins estándar de Kong aplican: mTLS, OAuth2/OIDC, IP allowlists, request transformers, CORS, rate-limit-advanced. Las routes LLM heredan la misma seguridad que las APIs REST.

Kong Manager UI + Konnect SaaS

Los equipos ops gestionan rutas AI junto a las APIs existentes en la misma Kong Manager UI. Opción Konnect SaaS para control plane alojado.

Comparación

	Target Audience	Integration Depth	License	Best For
Kong AI Gatewayesta	Enterprises on Kong	Plugin on Kong core	Kong OSS + Enterprise	Existing Kong shops
Portkey	All sizes	Standalone	OSS gateway + paid cloud	Managed convenience
LiteLLM	All sizes	Standalone	MIT	OSS gateway + unified SDK
Cloudflare AI Gateway	Small/mid teams	Managed only	Proprietary	Edge-first simplicity

Casos de uso

01. Plataformas de gran empresa

Los equipos de plataforma ya operan Kong para APIs REST. Extenderlo a rutas AI mantiene gobernanza, auditoría y ops consolidados. Las políticas LLM viven al lado de las políticas API existentes.

02. Industrias reguladas

Kong Enterprise viene con las certificaciones de compliance (SOC 2, ISO 27001, PCI) que muchas orgs reguladas exigen. Añadir AI in-house sin ampliar el perímetro de proveedores compensa la carga ops.

03. Gateway AI interno con SLAs estrictos

El data plane de Kong maneja millones de peticiones por segundo en producción. Los plugins AI heredan esa baseline de rendimiento — overkill a 10 RPS, determinante a 10K RPS.

Precios y licencia

Kong OSS: Apache 2.0. Incluye ai-proxy, ai-prompt-template, ai-prompt-decorator, ai-prompt-guard, ai-rate-limiting, ai-semantic-cache. Self-host gratis. Carga ops completa para ti.

Kong Gateway Enterprise: licencia comercial. Añade Kong Manager UI, RBAC, dev portal, vault, plugins avanzados, soporte enterprise. Precio por volumen y nodos — contacta a sales de Kong.

Konnect (SaaS): control plane gestionado. Se empareja con un data plane self-hosted para modelo híbrido. Pricing por uso.

Activos relacionados en TokRepo

Kong — Cloud-Native API and AI Gateway

Kong Gateway is a scalable, open-source API gateway and microservice proxy built on top of NGINX with pluggable policy enforcement for authentication, rate limiting, observability, and AI traffic.

Preguntas frecuentes

¿Necesito Kong Enterprise para usar los plugins AI?+

No. Los plugins core ai-proxy, ai-prompt-template, ai-prompt-decorator, ai-prompt-guard, ai-rate-limiting y ai-semantic-cache vienen en Kong OSS. Enterprise añade la Manager UI, plugins mejorados y soporte comercial.

¿Kong vs Portkey para una empresa?+

Kong si ya corres Kong — añadir AI ahí reduce la dispersión de vendors. Portkey si quieres un control plane LLM dedicado con UI pulida para equipos no-infra (por ejemplo, product managers usando el prompt registry). Algunos equipos corren ambos: Kong en el edge, Portkey para el workflow a nivel de Prompt.

¿Kong AI Gateway hace observabilidad?+

Básica — los plugins de logging capturan petición/respuesta y latencia. Para observabilidad LLM profunda (trazas, evals, datasets), combina con Langfuse o Helicone. Kong maneja el data plane; las herramientas de observabilidad manejan el análisis.

¿Cómo se compara ai-semantic-cache con el caché de Portkey?+

Ambos embedean Prompts y hacen match por similitud. Kong se integra con tu infra Redis/Postgres existente; Portkey gestiona el almacenamiento por ti. Rendimiento similar — la diferencia es la superficie operacional.

¿Y si no corro Kong hoy?+

Para cargas greenfield puramente LLM, Kong AI Gateway suele ser demasiado pesado. Usa LiteLLM, Portkey o Cloudflare en su lugar. Vuelve a Kong cuando tu org lo adopte a nivel de API REST y quieras políticas LLM en el mismo plano.

Comparar alternativas

Cloudflare AI Gateway — Edge Proxy for LLM Traffic Portkey — AI Gateway with Prompt Management & Observability LiteLLM — Open-source LLM Proxy for 100+ Providers Helicone — Zero-Code LLM Observability Platform