¿Por qué medir calidad de IA?

Sistema IA en producción puede degradar silenciosamente: cambios de modelo del provider, distribución de inputs cambia, edge cases nuevos. Sin medición, error puede ser 30% sin que nadie note. Métricas son no-opcionales para sistemas críticos.

¿LLM-as-judge confiable?

Para casos típicos sí. Modelo top-tier (Claude Opus, GPT-5) evaluando outputs de modelo más chico tiene 80-90% de acuerdo con humano experto. Útil para escalar evaluación. Combinación humano + LLM-judge da mejor precision.

¿Cuánto invertir en evaluación?

10-20% del costo del sistema en sí. Si IA productiva cuesta USD 1.000/mes operar, USD 100-200/mes en evaluación es razonable. Saltarse esto = riesgo de tener bot fallando 30% sin saberlo.

IA empresarial·25 de marzo de 2026·3 min de lectura

Evaluación + Monitoreo de Calidad en Sistemas IA

Cómo medir y monitorear calidad de sistemas IA en producción: métricas, LLM-as-judge, drift detection, A/B testing.

Sistemas IA en producción requieren medición continua. Sin métricas, calidad degrada silenciosamente. Métricas core, tooling práctico y workflow de evaluación.

Vinculados: IA en empresas argentinas: stack 2026.

Métricas core

Tasa de aciertos

Output del IA vs ground truth (correcto). Para clasificación: precision + recall por clase. Para extracción: % de campos correctos. Para generación: rating humano o LLM-judge.

Tasa de hallucinations

Respuestas falsas con confianza. Crítico para casos legales, médicos, financieros. Mitigación: citas obligatorias, validación contra fuente, prompts con "si no sabés, di 'no sé'".

Tasa de override

Cuando user corrige output del IA. Métrica indirecta de calidad. Si crece con tiempo: degradación.

Latencia

P50, P95, P99. Impacta UX. Modelos rápidos (Haiku, Mini, Flash) <1s. Modelos top-tier (Opus, GPT-5) 3-15s.

Costo por interacción

Tokens × precio. Tracking continuo crítico para no explotar el presupuesto.

Tooling

Logging estructurado

Cada call IA: input, output, modelo, tokens, costo, latencia, trace_id. JSON estructurado en BBDD analítica. Si necesitás ayuda con esta capa de observabilidad, mirá nuestro servicio de implementación de IA.

LLM-as-judge

Modelo top-tier evalúa outputs de modelo en producción. Genera score + justificación. Útil para:

Evaluar consistency
Detectar regressions
Identificar edge cases

Costo: 5-15% del costo del modelo principal.

A/B testing

Comparar prompts, modelos, configuraciones. 80/20 split inicial. Métricas comparadas: precisión, latencia, costo. Ganador se promueve.

Drift detection

Distribución de inputs cambia con el tiempo. Si distribución actual difiere significativamente de training/baseline: alerta. Indica reentrenar o ajustar prompts.

Dashboards

Métricas en tiempo real
Drill-down por casos failed
Comparativa entre versiones
Cost tracking + budgets

Stack: Posthog + custom + Sentry para errores + Grafana para series temporales.

Workflow de evaluación

Inicial (pre-producción)

Curar dataset evaluación (50-200 casos representativos)
Cada caso: input + output esperado + criterios de éxito
Ejecutar candidates (modelos, prompts) contra dataset
Score por LLM-judge + revisión humana parcial
Ganador: deploy a producción

Continuo (producción)

Logging completo de calls
Sampling: 5-10% de calls evaluados por LLM-judge
Dashboard con métricas en tiempo real
Alertas si métricas degradan
Revisión humana semanal de casos borderline

Trimestral

Re-evaluar contra dataset baseline
Comparar métricas vs trimestre anterior
Decidir si actualizar modelo o prompts
Documentar cambios

Errores típicos

Sin métricas claras

"Funciona bien" sin medición = subjetividad. Definir métricas concretas + objetivos numéricos.

Solo evaluación inicial

Evaluó pre-launch, nunca más. Producción degrada sin saberlo. Evaluación continua.

Sin dataset balanceado

Dataset solo de casos típicos. Edge cases fallan en prod sin detección. Incluir 10-20% edge cases.

Sin presupuesto operativo

LLM-judge tiene costo. Si presupuesto no contempla, evaluación no se hace.

Caso de mercado

Empresa con bot WhatsApp en producción. Implementaron evaluación post-launch.

Setup:

Logging completo de calls
Sampling 10% evaluado por Claude Opus (LLM-judge)
Dashboard con métricas diarias
Alertas si tasa aciertos <90%

Hallazgos mes 2:

Tasa aciertos: 94% global
1 categoría específica con 78% aciertos (clientes nuevos sin histórico)
Ajuste de prompt para esa categoría
Re-evaluación: 91% en categoría problemática

Sin evaluación, este problema hubiera permanecido invisible.

Costo: USD 80/mes en evaluación (LLM-judge + infra adicional).

Take-aways

Evaluación + monitoreo no es opcional para IA productiva. Sistemas sin medición degradan silenciosamente. Inversión 10-20% del costo del sistema en evaluación es estándar para casos serios.

Stack: logging estructurado + LLM-as-judge + dashboards + alertas + revisión humana periódica.

Cotizá tu proyecto. Más sobre el tema: IA en empresas argentinas: stack 2026, agentes IA empresariales, cómo evaluar caso de uso IA.