Calibración e incertidumbre en aprendizaje automático: avances, límites y desafíos actuales.

Si hubiera que resumir el estado actual de la calibración y la cuantificación de la incertidumbre en aprendizaje automático en una sola idea, sería esta: hoy sabemos bastante mejor cómo medir la confianza de un modelo, y tenemos herramientas razonablemente sólidas para mejorarla en escenarios concretos, pero seguimos sin una solución universal que funcione de forma fiable cuando cambian los datos, la tarea o el entorno de despliegue. La calibración ya no es un tema periférico: aparece como requisito central en visión, series temporales, ciencia computacional, sistemas de decisión y, más recientemente, en modelos fundacionales y LLMs. Aun así, el consenso de la literatura reciente es sobrio: los modelos pueden ser precisos y, al mismo tiempo, estar mal calibrados; los buenos intervalos o probabilidades en laboratorio no garantizan buen comportamiento bajo distribution shift; y muchas métricas estándar capturan solo una parte del problema.

Calibración e incertidumbre no son lo mismo.

Conviene separar dos conceptos que a veces se mezclan. Calibración significa que las probabilidades emitidas por el modelo correspondan bien con las frecuencias observadas: si un clasificador dice “80%” muchas veces, idealmente debería acertar cerca del 80% de esas ocasiones. Cuantificación de la incertidumbre o uncertainty quantification (UQ), en cambio, es una noción más amplia: intenta representar no solo cuán confiada es una predicción, sino también de dónde viene esa incertidumbre, incluyendo ruido inherente de los datos (aleatoric uncertainty) y falta de conocimiento del modelo (epistemic uncertainty).

En calibración “clásica” de clasificadores, el panorama es relativamente estable. Métodos post hoc como temperature scaling siguen siendo un punto de referencia por su simplicidad y porque a menudo mejoran bastante las probabilidades sin tocar apenas la exactitud. Pero el estado del arte es menos triunfalista que hace unos años: la literatura de encuestas y evaluaciones insiste en que estas técnicas funcionan bien sobre todo cuando el conjunto de validación representa de verdad el entorno de despliegue.

Cuando hay desbalance, eventos raros, cambios de dominio o dependencia temporal, la calibración aprendida puede degradarse con rapidez. Además, métricas muy usadas como ECE (Expected Calibration Error) son útiles, pero también incompletas: dependen del binning, pueden ocultar errores locales importantes y no capturan toda la estructura del problema, especialmente en escenarios multiclase, predicción estructurada o estimaciones de incertidumbre más ricas.

Cuantificación de la incertidumbre: un ecosistema plural

En cuantificación de incertidumbre más general, el panorama actual es bastante más plural. Siguen conviviendo cuatro familias principales: enfoques aproximadamente bayesianos, deep ensembles, métodos de dropout interpretados como aproximaciones bayesianas y técnicas distribucionales o cuantílicas para producir salidas probabilísticas.

Las revisiones recientes y varios benchmarks sectoriales apuntan a un patrón repetido: en muchos problemas prácticos, los deep ensembles siguen siendo sorprendentemente competitivos, a menudo igualando o superando alternativas más elegantes desde el punto de vista teórico, mientras que las redes bayesianas no dominan de forma consistente fuera de escenarios muy específicos. En otras palabras, el campo ha ganado sofisticación conceptual, pero no ha encontrado todavía un reemplazo claro para combinaciones pragmáticas de buen entrenamiento, validación cuidadosa y agregación de modelos.

El impulso de la predicción conformal

Uno de los avances más importantes de estos últimos años es el protagonismo de la predicción conformal. Su atractivo es claro: bajo ciertos supuestos, ofrece garantías finitas de cobertura, lo que la convierte en una de las pocas herramientas con promesas formales relativamente transparentes para producir conjuntos o intervalos predictivos. Por eso está entrando con fuerza en observación de la Tierra, mantenimiento predictivo, salud y otros contextos donde no basta con una probabilidad “bonita”, sino que hace falta una noción verificable de fiabilidad.

Pero aquí también hay matices importantes. Esas garantías suelen depender de condiciones de intercambiabilidad o de calibración adecuada entre datos de calibración y datos futuros, y se vuelven mucho más frágiles bajo distribution shift, dependencia temporal fuerte o cambio de población. La expansión reciente de la literatura conformal no significa que el problema esté resuelto; más bien indica que el campo está buscando garantías más honestas, aunque sigan siendo locales o condicionadas.

LLMs: un nuevo frente para la calibración

Donde el debate se ha vuelto especialmente interesante es en los modelos grandes de lenguaje. La literatura reciente muestra con bastante claridad que calibrar un LLM no es simplemente repetir lo aprendido en clasificación multiclase. Aquí aparecen varios niveles de incertidumbre: la del siguiente token, la de la respuesta completa, la de hechos conocidos frente a desconocidos y la del propio proceso de generación.

Por eso han surgido encuestas específicas y propuestas como calibration tuning o métodos basados en perturbaciones para mejorar la relación entre confianza y corrección. El mensaje de fondo, sin embargo, es prudente: los LLMs pueden parecer convincentes incluso cuando su confianza no está bien alineada con su veracidad, y todavía no existe un estándar universal para traducir sus puntuaciones internas en probabilidades semánticamente fiables para usuarios finales.

Los grandes desafíos abiertos

Los principales desafíos actuales pueden agruparse en cinco frentes.

Primero, el cambio de distribución: casi toda técnica mejora mucho menos cuando el mundo real se aparta del conjunto de calibración.

Segundo, la evaluación: seguimos usando métricas cómodas, pero no siempre suficientes, y medir calibración “promedio” puede esconder fallos graves en subgrupos o regiones raras del espacio de entrada.

Tercero, la escalabilidad: muchos métodos de UQ con buena motivación teórica se vuelven caros en cómputo o difíciles de integrar en sistemas de producción.

Cuarto, la interpretabilidad operativa: una estimación de incertidumbre solo aporta valor si el sistema y el usuario saben qué hacer con ella.

Y quinto, cada vez más importante, la alineación entre incertidumbre estadística y riesgo de decisión: en medicina, finanzas o mantenimiento no basta con estimar incertidumbre; hay que conectarla con políticas de abstención, deferencia o intervención.

Una limitación más profunda: no existe una única incertidumbre útil

También hay una limitación conceptual que merece más atención de la que suele recibir. En muchos artículos, “incertidumbre” sigue usándose como paraguas para objetos bastante distintos: entropía predictiva, varianza entre modelos, anchura de intervalos, cobertura conformal, confianza verbal del modelo o scores auxiliares entrenados aparte. Esa diversidad no es mala; de hecho, refleja la riqueza del problema. Pero sí complica la comparación entre métodos y favorece una ilusión de progreso acumulativo cuando, en realidad, a veces se están resolviendo tareas distintas.

Parte de la madurez reciente del campo consiste precisamente en reconocer esto: no existe una única definición operativa de buena incertidumbre, y la herramienta correcta depende mucho del tipo de error que se quiere evitar.

Una lectura final del momento actual

Mi impresión final, basada en la evidencia revisada, es que el campo está entrando en una fase más seria y menos optimista en el buen sentido. Ya no basta con reportar una mejora en ECE o mostrar intervalos razonables in-domain. Lo que empieza a importar de verdad es si la incertidumbre sigue siendo útil cuando cambian los datos, si permite tomar mejores decisiones y si sus garantías sobreviven fuera del paper.

En ese sentido, la situación actual es prometedora pero todavía incompleta: la calibración es hoy una pieza estándar de los sistemas responsables de aprendizaje automático, la predicción conformal aporta una capa valiosa de rigor y los métodos de UQ son bastante mejores que hace unos años. Pero la gran limitación persiste, y es estructural: la confianza del modelo sigue siendo más fácil de estimar en entornos estables que en entornos abiertos y cambiantes, que son precisamente los que más importan en la práctica.