LiteLLM — Proxy LLM open source para más de 100 proveedores
LiteLLM es un proxy open source que normaliza más de 100 API LLM detrás del SDK de OpenAI. Ponlo frente a Claude, Gemini, Ollama, Bedrock, Vertex o Azure: un solo cliente, llamadas unificadas.
Why LiteLLM
LiteLLM es la respuesta "un SDK para cada LLM", más un servidor Proxy completo para equipos que quieren un gateway alojado que ellos controlan. El SDK por sí solo normaliza entradas y salidas: completion(model="claude-3-5-sonnet", messages=[...]) funciona idéntico a la llamada de OpenAI. El Proxy añade enrutamiento, presupuestos, gestión de claves, logging y una UI Swagger.
Es el gateway OSS más popular (25K+ estrellas en GitHub) y la referencia estándar para acceso multi-modelo agnóstico del framework. LangChain, LlamaIndex y CrewAI soportan todos a LiteLLM como model provider de fábrica. Si has leído "apúntalo a cualquier endpoint compatible con OpenAI" en una docena de READMEs, LiteLLM es lo que hace funcionar la mayoría de esos setups.
Lo que cedes: el pulido. El dashboard existe pero es funcional, no precioso. La observabilidad está presente pero no es profunda — la mayoría de equipos combinan LiteLLM Proxy con Langfuse o Helicone para las trazas. Por un producto libre y gratuito, cambias UX por control.
Quick Start — SDK or Proxy
El SDK es el camino más rápido al soporte multi-proveedor — sin servidor que correr. El Proxy es un pequeño servidor FastAPI que expone endpoints compatibles con OpenAI; apunta cualquier SDK de OpenAI hacia él. El enrutamiento dirigido por configuración significa que cambias de proveedor o de estrategia de load-balancing sin tocar el código de la app.
# Option A: SDK only (no server needed)
# pip install litellm
from litellm import completion
resp = completion(
model="anthropic/claude-3-5-sonnet-20241022",
messages=[{"role": "user", "content": "Hello from LiteLLM"}],
)
print(resp.choices[0].message.content)
# Option B: Run the Proxy for team use
# pip install 'litellm[proxy]'
# litellm --config config.yaml --port 4000
#
# config.yaml:
# model_list:
# - model_name: fast
# litellm_params:
# model: gpt-4o-mini
# api_key: os.environ/OPENAI_KEY
# - model_name: fast
# litellm_params:
# model: claude-3-5-haiku-20241022
# api_key: os.environ/ANTHROPIC_KEY
# router_settings:
# routing_strategy: usage-based-routing-v2
# Now call the proxy as if it were OpenAI
from openai import OpenAI
client = OpenAI(base_url="http://localhost:4000", api_key="sk-proxy-token")
r = client.chat.completions.create(model="fast", messages=[{"role":"user","content":"hi"}])
# Proxy load-balances between gpt-4o-mini and claude-3-5-haiku based on usage.Características clave
100+ proveedores
OpenAI, Anthropic, Gemini, Bedrock, Azure, Vertex, Ollama, Together, Fireworks, Anyscale, Groq, Mistral, Cohere, HuggingFace y muchos más. Todos a través de la misma firma completion().
Servidor Proxy
Servidor FastAPI de nivel producción: enrutamiento, load-balancing, reintentos, caché, gestión de claves y presupuestos de usuario. Despliega con Docker; exponlo como endpoint interno compatible con OpenAI.
Presupuestos y rate limits
Presupuestos por usuario, por equipo y por clave aplicados en el Proxy. Alertas al 80 % / 100 % de gasto. Esencial para setups multi-tenant o platform-as-a-service interno.
Hooks Langfuse / Helicone / Sentry
Integraciones callback nativas. Combina LiteLLM Proxy con Langfuse para trazas, Helicone para observabilidad y Sentry para errores. Configurable vía YAML del proxy.
Fallback y reintentos
Listas de fallback declarativas: intenta Claude, cae a GPT-4o y luego a gpt-4o-mini. Backoff exponencial incorporado. Configurable por ruta.
Auth y RBAC personalizados
El Proxy genera claves virtuales por usuario; el control de acceso por roles define qué modelos y presupuestos puede usar cada uno. Se integra con tu SSO existente vía OIDC.
Comparación
| License | Deployment | Dashboard | Best For | |
|---|---|---|---|---|
| LiteLLMesta | MIT (SDK) + proxy | Self-host | Functional | Teams wanting OSS gateway + unified SDK |
| Portkey | Gateway Apache 2.0; cloud proprietary | Managed + self-host | Polished | Teams wanting managed UX |
| OpenRouter | Proprietary | Managed only | Web UI | Quick multi-model experiments |
| Cloudflare AI Gateway | Proprietary | Managed only | Web UI | Edge caching, simple setup |
Casos de uso
01. Plataforma AI interna
El equipo de plataforma corre LiteLLM Proxy; los equipos de producto golpean un único endpoint compatible con OpenAI. Control central sobre proveedores, claves y presupuestos; cero despliegues centrales cuando un equipo quiere un modelo nuevo.
02. Apps multi-modelo
Agents que enrutan entre modelos rápidos/baratos y lentos/potentes. La firma completion() unificada de LiteLLM convierte la lógica de enrutamiento en 10 líneas, no en una integración por proveedor.
03. Híbrido local + cloud
Ollama para dev e inferencia barata, OpenAI/Claude para producción. Mismo camino de código — cambias vía el nombre del modelo.
Precios y licencia
LiteLLM: licencia MIT, gratis. Sin SKU de soporte enterprise — el proyecto lo mantiene BerriAI y una comunidad creciente. Para soporte comercial, litellm.ai ofrece tiers alojados y enterprise con SLAs.
Costo operativo: una VM pequeña para el Proxy (2 vCPU / 4GB absorben en la práctica miles de RPS), más tu gasto LLM subyacente. Sin tarifas de gateway por petición.
Lo que pagas en complejidad oculta: el self-hosting significa que tú dueñas el uptime, los upgrades y el debug. Para equipos que quieren "pagar y olvidar", Portkey o Cloudflare bajan la carga ops a costa de la libertad sin licencia.
Activos relacionados en TokRepo
LiteLLM Cost Tracking — Per-Project LLM Spend Dashboard
LiteLLM ships a built-in cost dashboard. Track LLM spend by project, user, model, tag. Hard budgets that block at the proxy. SOC2 / SSO via Pro tier.
LiteLLM Proxy — Unified Gateway for 100+ LLM APIs
LiteLLM Proxy maps 100+ LLM providers (Anthropic, OpenAI, Bedrock, Vertex) to one OpenAI-compatible endpoint. Auth, rate limit, cost track, fallbacks.
LiteLLM Router — Smart Failover & Load Balancing in Python
LiteLLM Router routes LLM endpoints with retry, fallback, latency-based, weighted A/B. Pure Python — drop into any codebase, no separate proxy needed.
LiteLLM — Unified Proxy for 100+ LLM APIs
Python SDK and proxy server to call 100+ LLM APIs in OpenAI format. Cost tracking, guardrails, load balancing, logging. Supports Bedrock, Azure, Anthropic, Vertex, and more. 42K+ stars.
Preguntas frecuentes
LiteLLM SDK vs LiteLLM Proxy — ¿cuál necesito?+
SDK para apps individuales: quieres llamadas completion() unificadas, sin servidor. Proxy para equipos / plataforma interna: varias apps comparten el gateway, claves y presupuestos centralizados, endpoint compatible con OpenAI para herramientas que pidan uno.
¿LiteLLM añade latencia?+
SDK: ~0 (in-process). Proxy: 3-10 ms de overhead en hot-path. El caché y el load-balancing ahorran a menudo mucho más de lo que cuestan en tráfico realista.
¿Cómo se compara LiteLLM con OpenRouter?+
OpenRouter es un SaaS gestionado con pricing pay-per-token entre proveedores. LiteLLM es self-hosted con tus propias claves. Usa OpenRouter para experimentación rápida o cuando quieras una sola factura; usa LiteLLM cuando quieras control sobre claves, presupuestos y flujo de datos.
¿Está LiteLLM listo para producción?+
Sí — desplegado en producción por muchas grandes organizaciones. Revisa el README de GitHub para la lista de adopters activos. Precauciones esperables: vigila el changelog por roturas ocasionales durante el desarrollo rápido; upgradea en staging antes de producción.
¿Funciona con Claude Code / Cursor / Cline?+
Sí. Cualquier herramienta que acepte un endpoint compatible con OpenAI (base URL + API key) funciona. Apunta Cursor o Cline a tu LiteLLM Proxy, y la integración "OpenAI" de la herramienta ahora enruta por tu gateway multi-proveedor.
¿Cómo añado un nuevo proveedor?+
La lista /providers de LiteLLM cubre la mayoría de los LLM mainstream. Para los nuevos o custom, registra un endpoint genérico compatible con OpenAI en la config de model_list — sin cambios de código.