Evaluación + Monitoreo de Calidad en Sistemas IA
Cómo medir y monitorear calidad de sistemas IA en producción: métricas, LLM-as-judge, drift detection, A/B testing.

Sistemas IA en producción requieren medición continua. Sin métricas, calidad degrada silenciosamente. Métricas core, tooling práctico y workflow de evaluación.
Vinculados: IA en empresas argentinas: stack 2026.
Métricas core
Tasa de aciertos
Output del IA vs ground truth (correcto). Para clasificación: precision + recall por clase. Para extracción: % de campos correctos. Para generación: rating humano o LLM-judge.
Tasa de hallucinations
Respuestas falsas con confianza. Crítico para casos legales, médicos, financieros. Mitigación: citas obligatorias, validación contra fuente, prompts con "si no sabés, di 'no sé'".
Tasa de override
Cuando user corrige output del IA. Métrica indirecta de calidad. Si crece con tiempo: degradación.
Latencia
P50, P95, P99. Impacta UX. Modelos rápidos (Haiku, Mini, Flash) <1s. Modelos top-tier (Opus, GPT-5) 3-15s.
Costo por interacción
Tokens × precio. Tracking continuo crítico para no explotar el presupuesto.
Tooling
Logging estructurado
Cada call IA: input, output, modelo, tokens, costo, latencia, trace_id. JSON estructurado en BBDD analítica. Si necesitás ayuda con esta capa de observabilidad, mirá nuestro servicio de implementación de IA.
LLM-as-judge
Modelo top-tier evalúa outputs de modelo en producción. Genera score + justificación. Útil para:
- Evaluar consistency
- Detectar regressions
- Identificar edge cases
Costo: 5-15% del costo del modelo principal.
A/B testing
Comparar prompts, modelos, configuraciones. 80/20 split inicial. Métricas comparadas: precisión, latencia, costo. Ganador se promueve.
Drift detection
Distribución de inputs cambia con el tiempo. Si distribución actual difiere significativamente de training/baseline: alerta. Indica reentrenar o ajustar prompts.
Dashboards
- Métricas en tiempo real
- Drill-down por casos failed
- Comparativa entre versiones
- Cost tracking + budgets
Stack: Posthog + custom + Sentry para errores + Grafana para series temporales.
Workflow de evaluación
Inicial (pre-producción)
- Curar dataset evaluación (50-200 casos representativos)
- Cada caso: input + output esperado + criterios de éxito
- Ejecutar candidates (modelos, prompts) contra dataset
- Score por LLM-judge + revisión humana parcial
- Ganador: deploy a producción
Continuo (producción)
- Logging completo de calls
- Sampling: 5-10% de calls evaluados por LLM-judge
- Dashboard con métricas en tiempo real
- Alertas si métricas degradan
- Revisión humana semanal de casos borderline
Trimestral
- Re-evaluar contra dataset baseline
- Comparar métricas vs trimestre anterior
- Decidir si actualizar modelo o prompts
- Documentar cambios
Errores típicos
Sin métricas claras
"Funciona bien" sin medición = subjetividad. Definir métricas concretas + objetivos numéricos.
Solo evaluación inicial
Evaluó pre-launch, nunca más. Producción degrada sin saberlo. Evaluación continua.
Sin dataset balanceado
Dataset solo de casos típicos. Edge cases fallan en prod sin detección. Incluir 10-20% edge cases.
Sin presupuesto operativo
LLM-judge tiene costo. Si presupuesto no contempla, evaluación no se hace.
Caso de mercado
Empresa con bot WhatsApp en producción. Implementaron evaluación post-launch.
Setup:
- Logging completo de calls
- Sampling 10% evaluado por Claude Opus (LLM-judge)
- Dashboard con métricas diarias
- Alertas si tasa aciertos <90%
Hallazgos mes 2:
- Tasa aciertos: 94% global
- 1 categoría específica con 78% aciertos (clientes nuevos sin histórico)
- Ajuste de prompt para esa categoría
- Re-evaluación: 91% en categoría problemática
Sin evaluación, este problema hubiera permanecido invisible.
Costo: USD 80/mes en evaluación (LLM-judge + infra adicional).
Take-aways
Evaluación + monitoreo no es opcional para IA productiva. Sistemas sin medición degradan silenciosamente. Inversión 10-20% del costo del sistema en evaluación es estándar para casos serios.
Stack: logging estructurado + LLM-as-judge + dashboards + alertas + revisión humana periódica.
Cotizá tu proyecto. Más sobre el tema: IA en empresas argentinas: stack 2026, agentes IA empresariales, cómo evaluar caso de uso IA.