AI Gateway
LiteLLM — Open-source LLM Proxy for 100+ Providers logo

LiteLLM — Proxy LLM open source para más de 100 proveedores

LiteLLM es un proxy open source que normaliza más de 100 API LLM detrás del SDK de OpenAI. Ponlo frente a Claude, Gemini, Ollama, Bedrock, Vertex o Azure: un solo cliente, llamadas unificadas.

Why LiteLLM

LiteLLM es la respuesta "un SDK para cada LLM", más un servidor Proxy completo para equipos que quieren un gateway alojado que ellos controlan. El SDK por sí solo normaliza entradas y salidas: completion(model="claude-3-5-sonnet", messages=[...]) funciona idéntico a la llamada de OpenAI. El Proxy añade enrutamiento, presupuestos, gestión de claves, logging y una UI Swagger.

Es el gateway OSS más popular (25K+ estrellas en GitHub) y la referencia estándar para acceso multi-modelo agnóstico del framework. LangChain, LlamaIndex y CrewAI soportan todos a LiteLLM como model provider de fábrica. Si has leído "apúntalo a cualquier endpoint compatible con OpenAI" en una docena de READMEs, LiteLLM es lo que hace funcionar la mayoría de esos setups.

Lo que cedes: el pulido. El dashboard existe pero es funcional, no precioso. La observabilidad está presente pero no es profunda — la mayoría de equipos combinan LiteLLM Proxy con Langfuse o Helicone para las trazas. Por un producto libre y gratuito, cambias UX por control.

Quick Start — SDK or Proxy

El SDK es el camino más rápido al soporte multi-proveedor — sin servidor que correr. El Proxy es un pequeño servidor FastAPI que expone endpoints compatibles con OpenAI; apunta cualquier SDK de OpenAI hacia él. El enrutamiento dirigido por configuración significa que cambias de proveedor o de estrategia de load-balancing sin tocar el código de la app.

# Option A: SDK only (no server needed)
# pip install litellm
from litellm import completion

resp = completion(
    model="anthropic/claude-3-5-sonnet-20241022",
    messages=[{"role": "user", "content": "Hello from LiteLLM"}],
)
print(resp.choices[0].message.content)

# Option B: Run the Proxy for team use
# pip install 'litellm[proxy]'
# litellm --config config.yaml --port 4000
#
# config.yaml:
# model_list:
#   - model_name: fast
#     litellm_params:
#       model: gpt-4o-mini
#       api_key: os.environ/OPENAI_KEY
#   - model_name: fast
#     litellm_params:
#       model: claude-3-5-haiku-20241022
#       api_key: os.environ/ANTHROPIC_KEY
# router_settings:
#   routing_strategy: usage-based-routing-v2

# Now call the proxy as if it were OpenAI
from openai import OpenAI
client = OpenAI(base_url="http://localhost:4000", api_key="sk-proxy-token")
r = client.chat.completions.create(model="fast", messages=[{"role":"user","content":"hi"}])
# Proxy load-balances between gpt-4o-mini and claude-3-5-haiku based on usage.

Características clave

100+ proveedores

OpenAI, Anthropic, Gemini, Bedrock, Azure, Vertex, Ollama, Together, Fireworks, Anyscale, Groq, Mistral, Cohere, HuggingFace y muchos más. Todos a través de la misma firma completion().

Servidor Proxy

Servidor FastAPI de nivel producción: enrutamiento, load-balancing, reintentos, caché, gestión de claves y presupuestos de usuario. Despliega con Docker; exponlo como endpoint interno compatible con OpenAI.

Presupuestos y rate limits

Presupuestos por usuario, por equipo y por clave aplicados en el Proxy. Alertas al 80 % / 100 % de gasto. Esencial para setups multi-tenant o platform-as-a-service interno.

Hooks Langfuse / Helicone / Sentry

Integraciones callback nativas. Combina LiteLLM Proxy con Langfuse para trazas, Helicone para observabilidad y Sentry para errores. Configurable vía YAML del proxy.

Fallback y reintentos

Listas de fallback declarativas: intenta Claude, cae a GPT-4o y luego a gpt-4o-mini. Backoff exponencial incorporado. Configurable por ruta.

Auth y RBAC personalizados

El Proxy genera claves virtuales por usuario; el control de acceso por roles define qué modelos y presupuestos puede usar cada uno. Se integra con tu SSO existente vía OIDC.

Comparación

 LicenseDeploymentDashboardBest For
LiteLLMestaMIT (SDK) + proxySelf-hostFunctionalTeams wanting OSS gateway + unified SDK
PortkeyGateway Apache 2.0; cloud proprietaryManaged + self-hostPolishedTeams wanting managed UX
OpenRouterProprietaryManaged onlyWeb UIQuick multi-model experiments
Cloudflare AI GatewayProprietaryManaged onlyWeb UIEdge caching, simple setup

Casos de uso

01. Plataforma AI interna

El equipo de plataforma corre LiteLLM Proxy; los equipos de producto golpean un único endpoint compatible con OpenAI. Control central sobre proveedores, claves y presupuestos; cero despliegues centrales cuando un equipo quiere un modelo nuevo.

02. Apps multi-modelo

Agents que enrutan entre modelos rápidos/baratos y lentos/potentes. La firma completion() unificada de LiteLLM convierte la lógica de enrutamiento en 10 líneas, no en una integración por proveedor.

03. Híbrido local + cloud

Ollama para dev e inferencia barata, OpenAI/Claude para producción. Mismo camino de código — cambias vía el nombre del modelo.

Precios y licencia

LiteLLM: licencia MIT, gratis. Sin SKU de soporte enterprise — el proyecto lo mantiene BerriAI y una comunidad creciente. Para soporte comercial, litellm.ai ofrece tiers alojados y enterprise con SLAs.

Costo operativo: una VM pequeña para el Proxy (2 vCPU / 4GB absorben en la práctica miles de RPS), más tu gasto LLM subyacente. Sin tarifas de gateway por petición.

Lo que pagas en complejidad oculta: el self-hosting significa que tú dueñas el uptime, los upgrades y el debug. Para equipos que quieren "pagar y olvidar", Portkey o Cloudflare bajan la carga ops a costa de la libertad sin licencia.

Activos relacionados en TokRepo

Preguntas frecuentes

LiteLLM SDK vs LiteLLM Proxy — ¿cuál necesito?+

SDK para apps individuales: quieres llamadas completion() unificadas, sin servidor. Proxy para equipos / plataforma interna: varias apps comparten el gateway, claves y presupuestos centralizados, endpoint compatible con OpenAI para herramientas que pidan uno.

¿LiteLLM añade latencia?+

SDK: ~0 (in-process). Proxy: 3-10 ms de overhead en hot-path. El caché y el load-balancing ahorran a menudo mucho más de lo que cuestan en tráfico realista.

¿Cómo se compara LiteLLM con OpenRouter?+

OpenRouter es un SaaS gestionado con pricing pay-per-token entre proveedores. LiteLLM es self-hosted con tus propias claves. Usa OpenRouter para experimentación rápida o cuando quieras una sola factura; usa LiteLLM cuando quieras control sobre claves, presupuestos y flujo de datos.

¿Está LiteLLM listo para producción?+

Sí — desplegado en producción por muchas grandes organizaciones. Revisa el README de GitHub para la lista de adopters activos. Precauciones esperables: vigila el changelog por roturas ocasionales durante el desarrollo rápido; upgradea en staging antes de producción.

¿Funciona con Claude Code / Cursor / Cline?+

Sí. Cualquier herramienta que acepte un endpoint compatible con OpenAI (base URL + API key) funciona. Apunta Cursor o Cline a tu LiteLLM Proxy, y la integración "OpenAI" de la herramienta ahora enruta por tu gateway multi-proveedor.

¿Cómo añado un nuevo proveedor?+

La lista /providers de LiteLLM cubre la mayoría de los LLM mainstream. Para los nuevos o custom, registra un endpoint genérico compatible con OpenAI en la config de model_list — sin cambios de código.

Comparar alternativas