AI Gateway
Kong AI Gateway — Enterprise-grade LLM Proxy logo

Kong AI Gateway — Proxy LLM de niveau entreprise

Kong AI Gateway ajoute des plugins spécifiques LLM (transformations de Prompts, cache sémantique, plafonds de coût, garde-fous) au Gateway API Kong — idéal pour les équipes qui utilisent déjà Kong et veulent centraliser les contrôles AI sur le même plan.

Why Kong AI Gateway

Kong est depuis dix ans le Gateway API entreprise par défaut — moteur de politiques éprouvé, écosystème de plugins et déploiement nativement Kubernetes. Kong AI Gateway ajoute par-dessus des plugins LLM-aware : ai-proxy pour l'abstraction de fournisseur, ai-prompt-template/ai-prompt-decorator pour le contrôle de Prompts, ai-rate-limiting pour le throttling par tokens, ai-semantic-cache pour le cache par embeddings et ai-prompt-guard pour la validation des entrées.

La proposition de valeur, c'est un seul control plane. Sécurité, routage, rate limits et politiques LLM appliquées par le même Gateway que votre équipe plateforme exploite déjà. Pour les grandes entreprises, ajouter un outil dédié comme Portkey à côté de Kong crée des stacks parallèles et de la surcharge de gouvernance — Kong AI Gateway replie les préoccupations LLM dans le gateway existant.

Là où c'est de l'overkill : startups et petites équipes qui ne font pas déjà tourner Kong. La charge ops de Kong (control plane, data plane, DB, configuration des plugins) est réelle. Pour des applis LLM greenfield, Cloudflare, Portkey ou LiteLLM livrent plus vite.

Quick Start — Kong + ai-proxy Plugin

Cette config déclare une route Kong, dit au plugin ai-proxy de forwarder vers Anthropic Claude, attache un cache sémantique contre un vector store Redis et fixe un rate limit en tokens par minute. Le client tape sur Kong avec un payload de shape OpenAI ; Kong gère la traduction, le cache et le throttling de manière transparente.

# declarative Kong config (kong.yml) — exposes /ai-gateway/chat as an
# OpenAI-compatible endpoint backed by Anthropic Claude with semantic caching.

_format_version: "3.0"
services:
  - name: ai
    url: https://localhost   # dummy; ai-proxy handles real upstream
    routes:
      - name: chat
        paths: ["/ai-gateway/chat"]
        plugins:
          - name: ai-proxy
            config:
              route_type: "llm/v1/chat"
              auth:
                header_name: "x-api-key"
                header_value: "$ANTHROPIC_API_KEY"
              model:
                provider: "anthropic"
                name: "claude-3-5-sonnet-20241022"
              logging:
                log_statistics: true
                log_payloads: true
          - name: ai-semantic-cache
            config:
              embeddings:
                auth: { header_name: "Authorization", header_value: "Bearer $OPENAI_KEY" }
                model: { name: "text-embedding-3-small" }
              vectordb:
                dimensions: 1536
                strategy: "redis"
                threshold: 0.08
          - name: ai-rate-limiting
            config:
              llm_providers:
                - name: anthropic
                  limit: [200000]    # tokens / minute
                  window_size: [60]

# Client calls Kong instead of Anthropic directly — gets caching + rate limits
# curl -XPOST http://kong/ai-gateway/chat -d '{"messages":[{"role":"user","content":"hi"}]}'

Fonctionnalités clés

Plugin ai-proxy

Normalise les requêtes vers la shape OpenAI chat completions, LLM/v1 completions ou LLM/v1 embeddings. Route vers OpenAI, Anthropic, Azure, Cohere, Gemini, Mistral, HuggingFace ou n'importe quel backend compatible OpenAI.

Cache sémantique et exact

Le plugin ai-semantic-cache embedde les Prompts et matche contre les entrées récemment cachées. Seuil configurable. Utilise Redis, Postgres/pgvector ou des vector DBs externes.

Rate limiting au token

ai-rate-limiting compte les tokens réellement consommés (input + output) face aux budgets configurés. Plus précis que les limites par nombre de requêtes pour prévenir une dépense qui s'emballe.

Templates et guards de Prompt

ai-prompt-template injecte des variables ; ai-prompt-decorator préfixe des messages système ; ai-prompt-guard bloque les requêtes correspondant à des patterns configurés (défense contre l'injection de Prompt).

Intégration aux politiques Kong

Tous les plugins Kong standard s'appliquent : mTLS, OAuth2/OIDC, IP allowlists, request transformers, CORS, rate-limit-advanced. Les routes LLM héritent de la même sécurité que les API REST.

Kong Manager UI + Konnect SaaS

Les équipes ops gèrent les routes AI à côté des API existantes dans le même Kong Manager UI. Option Konnect SaaS pour un control plane hébergé.

Comparaison

 Target AudienceIntegration DepthLicenseBest For
Kong AI Gatewaycelui-ciEnterprises on KongPlugin on Kong coreKong OSS + EnterpriseExisting Kong shops
PortkeyAll sizesStandaloneOSS gateway + paid cloudManaged convenience
LiteLLMAll sizesStandaloneMITOSS gateway + unified SDK
Cloudflare AI GatewaySmall/mid teamsManaged onlyProprietaryEdge-first simplicity

Cas d'usage

01. Plateformes de grandes entreprises

Les équipes plateforme exploitent déjà Kong pour les API REST. L'étendre aux routes AI maintient gouvernance, audit et ops consolidés. Les politiques LLM vivent à côté des politiques API existantes.

02. Industries régulées

Kong Enterprise embarque les certifications de compliance (SOC 2, ISO 27001, PCI) que beaucoup d'orgs régulées exigent. Ajouter de l'AI en interne sans élargir le périmètre fournisseurs vaut bien la charge ops.

03. Gateway AI interne avec SLA stricts

Le data plane de Kong absorbe des millions de requêtes par seconde en production. Les plugins AI héritent de cette baseline de performance — overkill à 10 RPS, déterminant à 10 000 RPS.

Tarification et licence

Kong OSS : Apache 2.0. Inclut ai-proxy, ai-prompt-template, ai-prompt-decorator, ai-prompt-guard, ai-rate-limiting, ai-semantic-cache. Self-host gratuit. Charge ops complète à votre charge.

Kong Gateway Enterprise : licence commerciale. Ajoute Kong Manager UI, RBAC, dev portal, vault, plugins avancés, support entreprise. Tarifé au volume et au nombre de nœuds — contactez les sales Kong.

Konnect (SaaS) : control plane managé. Se couple avec un data plane self-hosted pour un modèle hybride. Tarification à l'usage.

Assets associés sur TokRepo

Questions fréquentes

Faut-il Kong Enterprise pour utiliser les plugins AI ?+

Non. Les plugins core ai-proxy, ai-prompt-template, ai-prompt-decorator, ai-prompt-guard, ai-rate-limiting et ai-semantic-cache sont livrés dans Kong OSS. Enterprise ajoute le Manager UI, des plugins enrichis et le support commercial.

Kong ou Portkey pour une entreprise ?+

Kong si vous faites déjà tourner Kong — y ajouter l'AI réduit la prolifération de vendors. Portkey si vous voulez un control plane LLM dédié avec une UI soignée pour les équipes non-infra (par ex. des product managers qui utilisent le prompt registry). Certaines équipes font tourner les deux : Kong en edge, Portkey pour le workflow au niveau Prompt.

Kong AI Gateway peut-il faire de l'observabilité ?+

De manière basique — les plugins de logging capturent requête/réponse et latence. Pour de l'observabilité LLM profonde (traces, évals, datasets), couplez avec Langfuse ou Helicone. Kong s'occupe du data plane ; les outils d'observabilité s'occupent de l'analyse.

Comment ai-semantic-cache se compare-t-il au cache Portkey ?+

Les deux embeddent les Prompts et matchent par similarité. Kong s'intègre à votre infra Redis/Postgres existante ; Portkey gère le stockage pour vous. Performance similaire — la différence est la surface opérationnelle.

Et si je ne fais pas tourner Kong aujourd'hui ?+

Pour des charges greenfield purement LLM, Kong AI Gateway est généralement trop lourd. Utilisez LiteLLM, Portkey ou Cloudflare à la place. Revenez sur Kong quand votre org l'adopte au niveau API REST et que vous voulez des politiques LLM sur le même plan.

Comparer les alternatives