Arize Phoenix — Observabilidad LLM y Evals open source
Arize Phoenix es la biblioteca open source de observabilidad y evaluación de Arize AI. Nativa de OpenTelemetry, con primitivas de evaluación potentes, pensada para data scientists e ingenieros ML que quieren unificar notebooks y producción.
Why Phoenix
Phoenix se inclina hacia la experimentación y el eval. Un data scientist puede arrancar Phoenix en un notebook con phoenix.launch_app(), enviarle trazas OpenTelemetry desde un pipeline RAG, correr evals contra datasets e iterar en el mismo entorno — sin ningún despliegue de servidor. Para producción, la misma biblioteca se despliega como un servicio long-running con Postgres.
La biblioteca de evals es destacada. Phoenix trae evaluadores preconstruidos para alucinación, toxicidad, relevancia, corrección de QA y precisión de retrieval. Cada uno es un template de Prompt testeado que puedes aplicar a escala de dataset con pocas líneas de código. Es la vía más rápida desde "creo que mi RAG es malo" hasta "aquí están las consultas específicas en las que falla".
Respecto a Langfuse: Phoenix es más herramienta de research que herramienta de producto. Su UI es funcional pero menos pulida; su gestión de Prompts es más ligera; su foco es ayudarte a diagnosticar y mejorar más que a operar un dashboard de ops de producción. Muchos equipos usan ambas — Phoenix en notebooks durante el desarrollo, Langfuse en producción.
Quick Start — Notebook Launch + OpenAI
launch_app() es el modo notebook-friendly — Phoenix corre in-process con un endpoint HTTP para ingesta OTEL y una UI web. Para producción, despliega Phoenix Server (docker-compose) y apunta tu instrumentación allí. OpenInference es la biblioteca de instrumentación OTEL de Arize — soporta OpenAI, Anthropic, LangChain, LlamaIndex, DSPy, Haystack y LiteLLM de fábrica.
# pip install 'arize-phoenix[evals]' openinference-instrumentation-openai opentelemetry-sdk
import phoenix as px
# Launch the Phoenix UI locally (notebook or script)
session = px.launch_app()
print(session.url) # open in browser
# Instrument OpenAI via OpenInference (Arize's OTEL libraries for LLM frameworks)
from openinference.instrumentation.openai import OpenAIInstrumentor
from opentelemetry import trace
from opentelemetry.sdk.trace import TracerProvider
from opentelemetry.sdk.trace.export import SimpleSpanProcessor
from opentelemetry.exporter.otlp.proto.http.trace_exporter import OTLPSpanExporter
provider = TracerProvider()
provider.add_span_processor(SimpleSpanProcessor(OTLPSpanExporter(f"{session.url}/v1/traces")))
trace.set_tracer_provider(provider)
OpenAIInstrumentor().instrument()
from openai import OpenAI
client = OpenAI()
for q in ["Why is the sky blue?", "How do planes fly?", "What is photosynthesis?"]:
client.chat.completions.create(
model="gpt-4o-mini",
messages=[{"role": "user", "content": q}],
)
# Phoenix UI now shows traces with prompt/response/latency/cost per request.
# Now run an eval over the last 10 traces:
from phoenix.evals import HallucinationEvaluator, OpenAIModel, run_evals
trace_df = px.Client().get_spans_dataframe()
hallu_evaluator = HallucinationEvaluator(OpenAIModel(model="gpt-4o-mini"))
scores = run_evals(dataframe=trace_df, evaluators=[hallu_evaluator])
print(scores)Características clave
Nativo de OpenTelemetry
Ingiere trazas OTEL desde cualquier framework instrumentado vía OpenInference (la biblioteca OTEL específica de LLM de Arize). Interopera con Jaeger, Tempo y collectors OTEL genéricos.
Evaluadores preconstruidos
Alucinación, toxicidad, relevancia, corrección de QA, precisión de retrieval, generación de código — evaluadores LLM-as-judge con Prompts testeados. Aplícalos a datasets de trazas en una línea.
Workflows de datasets
Cura datasets desde trazas de producción, etiqueta ejemplos, replayéalos sobre nuevos Prompts o modelos, diff de resultados. Loop apretado entre "bug en producción" y "dataset de evaluación corregido".
Diagnósticos de embeddings + RAG
Visualización UMAP de embeddings, métricas específicas de RAG (relevancia del contexto, relevancia de la respuesta, groundedness). Especialmente fuerte para debuggear pipelines de retrieval.
Notebook-first
launch_app() corre Phoenix en un notebook; la misma biblioteca corre como servidor de producción con Postgres. Mínima fricción entre research y producción.
OSS + hermana comercial
Phoenix OSS es Elastic License 2.0. Para enterprise, Arize AX es la oferta gestionada de pago con acceso por roles, features de equipo y analítica más profunda.
Comparación
| Primary Strength | Deployment | Eval Library | Audience | |
|---|---|---|---|---|
| Arize Phoenixesta | Eval + embedding diagnostics | Notebook + self-host | Strongest (pre-built evaluators) | Data scientists / ML engineers |
| Langfuse | Production ops + prompt mgmt | Cloud + self-host | LLM-as-judge framework | Production engineers |
| Helicone | Zero-code integration | Cloud + self-host | Basic | Full-stack teams |
| Traceloop | OTEL evangelism | Agent + backend | Via integrations | OTEL users |
Casos de uso
01. Debug de RAG
Cuando la calidad del retrieval es el problema, las métricas RAG de Phoenix (relevancia del contexto, groundedness) + la visualización UMAP de embeddings aíslan si el problema es el chunking, los embeddings o el Prompt de generación.
02. Research ML / Data Science
Equipos donde el trabajo LLM vive en notebooks — experimenta con Prompts, corre evals sobre datasets held-out, compara versiones de modelo. El diseño notebook-first de Phoenix encaja con el workflow.
03. Paridad producción + dev
Misma instrumentación, misma UI de Phoenix, en dev y en producción. Reduce el clásico "funciona en mi laptop, misterio en prod" de las apps LLM.
Precios y licencia
Phoenix: Elastic License 2.0 — uso gratis (incluyendo fines comerciales); restricciones a la reventa como servicio alojado. Conjunto completo de features disponible en self-host.
Arize AX: oferta gestionada enterprise de Arize AI. Añade SSO, gestión de equipos, soporte enterprise, analítica más profunda, dashboards mejorados. Pricing por volumen — contacta a sales de Arize.
Realidad de costos: Phoenix self-hosted es gratis en compute; pagas el Postgres que necesita más tus propias llamadas LLM de eval. Para equipos ya configurados con OTEL, el costo marginal es bajo.
Activos relacionados en TokRepo
Arize Phoenix — Open Source AI Observability and Evaluation
Arize Phoenix is an open-source platform for monitoring, evaluating, and debugging AI applications, providing tracing, experiment tracking, and automated evaluation for LLM and ML pipelines.
Phoenix Tracing Quickstart — OpenInference Tracer Setup
Phoenix instruments OpenAI, Anthropic, LangChain, LlamaIndex, CrewAI via OpenInference. Local UI or Arize cloud. No per-call code changes.
Preguntas frecuentes
¿Phoenix vs Langfuse — cuál es mejor?+
Apuestas distintas. Phoenix es más fuerte en biblioteca de evals y diagnósticos de embeddings; Langfuse es más fuerte en UX de ops de producción y gestión de Prompts. Los equipos orientados a research/evals suelen preferir Phoenix; los equipos de ingeniería de producción suelen preferir Langfuse. Muchas tiendas usan ambas.
¿Phoenix es realmente compatible con OpenTelemetry?+
Sí. Phoenix es un backend OTEL — acepta OTLP sobre HTTP/gRPC. La biblioteca OpenInference (de Arize) provee instrumentación específica de LLM sobre las convenciones base de OTEL. Puedes mezclar trazas de Phoenix con trazas OTEL genéricas de otras fuentes.
¿Puedo usar Phoenix con LangChain?+
Sí. pip install openinference-instrumentation-langchain; llama a LangChainInstrumentor().instrument() una vez al arrancar. Todos los componentes LangChain (chains, Agents, retrievers) emiten spans OTEL estructurados a Phoenix.
¿Necesito desplegar Phoenix Server para una app pequeña?+
No. Para dev, px.launch_app() corre un servidor in-process en tu notebook. Para producción, despliega Phoenix Server con Postgres — los configs docker-compose vienen en el repo.
¿La Elastic License es un problema para uso comercial?+
Para la mayoría de usuarios comerciales, no — puedes correr Phoenix en producción dentro de tu empresa sin problema. La restricción de licencia apunta a la reventa como SaaS competidor de Arize. Confirma con tu equipo legal si estás construyendo un producto plataforma.