LLM Observability

Arize Phoenix — Observabilidad LLM y Evals open source

Arize Phoenix es la biblioteca open source de observabilidad y evaluación de Arize AI. Nativa de OpenTelemetry, con primitivas de evaluación potentes, pensada para data scientists e ingenieros ML que quieren unificar notebooks y producción.

Sitio oficial GitHub

Why Phoenix

Phoenix se inclina hacia la experimentación y el eval. Un data scientist puede arrancar Phoenix en un notebook con phoenix.launch_app(), enviarle trazas OpenTelemetry desde un pipeline RAG, correr evals contra datasets e iterar en el mismo entorno — sin ningún despliegue de servidor. Para producción, la misma biblioteca se despliega como un servicio long-running con Postgres.

La biblioteca de evals es destacada. Phoenix trae evaluadores preconstruidos para alucinación, toxicidad, relevancia, corrección de QA y precisión de retrieval. Cada uno es un template de Prompt testeado que puedes aplicar a escala de dataset con pocas líneas de código. Es la vía más rápida desde "creo que mi RAG es malo" hasta "aquí están las consultas específicas en las que falla".

Respecto a Langfuse: Phoenix es más herramienta de research que herramienta de producto. Su UI es funcional pero menos pulida; su gestión de Prompts es más ligera; su foco es ayudarte a diagnosticar y mejorar más que a operar un dashboard de ops de producción. Muchos equipos usan ambas — Phoenix en notebooks durante el desarrollo, Langfuse en producción.

Quick Start — Notebook Launch + OpenAI

launch_app() es el modo notebook-friendly — Phoenix corre in-process con un endpoint HTTP para ingesta OTEL y una UI web. Para producción, despliega Phoenix Server (docker-compose) y apunta tu instrumentación allí. OpenInference es la biblioteca de instrumentación OTEL de Arize — soporta OpenAI, Anthropic, LangChain, LlamaIndex, DSPy, Haystack y LiteLLM de fábrica.

# pip install 'arize-phoenix[evals]' openinference-instrumentation-openai opentelemetry-sdk
import phoenix as px

# Launch the Phoenix UI locally (notebook or script)
session = px.launch_app()
print(session.url)   # open in browser

# Instrument OpenAI via OpenInference (Arize's OTEL libraries for LLM frameworks)
from openinference.instrumentation.openai import OpenAIInstrumentor
from opentelemetry import trace
from opentelemetry.sdk.trace import TracerProvider
from opentelemetry.sdk.trace.export import SimpleSpanProcessor
from opentelemetry.exporter.otlp.proto.http.trace_exporter import OTLPSpanExporter

provider = TracerProvider()
provider.add_span_processor(SimpleSpanProcessor(OTLPSpanExporter(f"{session.url}/v1/traces")))
trace.set_tracer_provider(provider)
OpenAIInstrumentor().instrument()

from openai import OpenAI
client = OpenAI()

for q in ["Why is the sky blue?", "How do planes fly?", "What is photosynthesis?"]:
    client.chat.completions.create(
        model="gpt-4o-mini",
        messages=[{"role": "user", "content": q}],
    )

# Phoenix UI now shows traces with prompt/response/latency/cost per request.
# Now run an eval over the last 10 traces:
from phoenix.evals import HallucinationEvaluator, OpenAIModel, run_evals

trace_df = px.Client().get_spans_dataframe()
hallu_evaluator = HallucinationEvaluator(OpenAIModel(model="gpt-4o-mini"))
scores = run_evals(dataframe=trace_df, evaluators=[hallu_evaluator])
print(scores)

Características clave

Nativo de OpenTelemetry

Ingiere trazas OTEL desde cualquier framework instrumentado vía OpenInference (la biblioteca OTEL específica de LLM de Arize). Interopera con Jaeger, Tempo y collectors OTEL genéricos.

Evaluadores preconstruidos

Alucinación, toxicidad, relevancia, corrección de QA, precisión de retrieval, generación de código — evaluadores LLM-as-judge con Prompts testeados. Aplícalos a datasets de trazas en una línea.

Workflows de datasets

Cura datasets desde trazas de producción, etiqueta ejemplos, replayéalos sobre nuevos Prompts o modelos, diff de resultados. Loop apretado entre "bug en producción" y "dataset de evaluación corregido".

Diagnósticos de embeddings + RAG

Visualización UMAP de embeddings, métricas específicas de RAG (relevancia del contexto, relevancia de la respuesta, groundedness). Especialmente fuerte para debuggear pipelines de retrieval.

Notebook-first

launch_app() corre Phoenix en un notebook; la misma biblioteca corre como servidor de producción con Postgres. Mínima fricción entre research y producción.

OSS + hermana comercial

Phoenix OSS es Elastic License 2.0. Para enterprise, Arize AX es la oferta gestionada de pago con acceso por roles, features de equipo y analítica más profunda.

Comparación

	Primary Strength	Deployment	Eval Library	Audience
Arize Phoenixesta	Eval + embedding diagnostics	Notebook + self-host	Strongest (pre-built evaluators)	Data scientists / ML engineers
Langfuse	Production ops + prompt mgmt	Cloud + self-host	LLM-as-judge framework	Production engineers
Helicone	Zero-code integration	Cloud + self-host	Basic	Full-stack teams
Traceloop	OTEL evangelism	Agent + backend	Via integrations	OTEL users

Casos de uso

01. Debug de RAG

Cuando la calidad del retrieval es el problema, las métricas RAG de Phoenix (relevancia del contexto, groundedness) + la visualización UMAP de embeddings aíslan si el problema es el chunking, los embeddings o el Prompt de generación.

02. Research ML / Data Science

Equipos donde el trabajo LLM vive en notebooks — experimenta con Prompts, corre evals sobre datasets held-out, compara versiones de modelo. El diseño notebook-first de Phoenix encaja con el workflow.

03. Paridad producción + dev

Misma instrumentación, misma UI de Phoenix, en dev y en producción. Reduce el clásico "funciona en mi laptop, misterio en prod" de las apps LLM.

Precios y licencia

Phoenix: Elastic License 2.0 — uso gratis (incluyendo fines comerciales); restricciones a la reventa como servicio alojado. Conjunto completo de features disponible en self-host.

Arize AX: oferta gestionada enterprise de Arize AI. Añade SSO, gestión de equipos, soporte enterprise, analítica más profunda, dashboards mejorados. Pricing por volumen — contacta a sales de Arize.

Realidad de costos: Phoenix self-hosted es gratis en compute; pagas el Postgres que necesita más tus propias llamadas LLM de eval. Para equipos ya configurados con OTEL, el costo marginal es bajo.

Activos relacionados en TokRepo

Arize Phoenix — Open Source AI Observability and Evaluation

Arize Phoenix is an open-source platform for monitoring, evaluating, and debugging AI applications, providing tracing, experiment tracking, and automated evaluation for LLM and ML pipelines.

Phoenix Tracing Quickstart — OpenInference Tracer Setup

Phoenix instruments OpenAI, Anthropic, LangChain, LlamaIndex, CrewAI via OpenInference. Local UI or Arize cloud. No per-call code changes.

Preguntas frecuentes

¿Phoenix vs Langfuse — cuál es mejor?+

Apuestas distintas. Phoenix es más fuerte en biblioteca de evals y diagnósticos de embeddings; Langfuse es más fuerte en UX de ops de producción y gestión de Prompts. Los equipos orientados a research/evals suelen preferir Phoenix; los equipos de ingeniería de producción suelen preferir Langfuse. Muchas tiendas usan ambas.

¿Phoenix es realmente compatible con OpenTelemetry?+

Sí. Phoenix es un backend OTEL — acepta OTLP sobre HTTP/gRPC. La biblioteca OpenInference (de Arize) provee instrumentación específica de LLM sobre las convenciones base de OTEL. Puedes mezclar trazas de Phoenix con trazas OTEL genéricas de otras fuentes.

¿Puedo usar Phoenix con LangChain?+

Sí. pip install openinference-instrumentation-langchain; llama a LangChainInstrumentor().instrument() una vez al arrancar. Todos los componentes LangChain (chains, Agents, retrievers) emiten spans OTEL estructurados a Phoenix.

¿Necesito desplegar Phoenix Server para una app pequeña?+

No. Para dev, px.launch_app() corre un servidor in-process en tu notebook. Para producción, despliega Phoenix Server con Postgres — los configs docker-compose vienen en el repo.

¿La Elastic License es un problema para uso comercial?+

Para la mayoría de usuarios comerciales, no — puedes correr Phoenix en producción dentro de tu empresa sin problema. La restricción de licencia apunta a la reventa como SaaS competidor de Arize. Confirma con tu equipo legal si estás construyendo un producto plataforma.

Comparar alternativas

Langfuse — Open-source LLM Engineering Platform Helicone — Zero-Code LLM Observability Platform Traceloop — OpenTelemetry-first LLM Observability Portkey — AI Gateway with Prompt Management & Observability