Nico Bargioni
Detección de anomalías
#anomalias#ml#curiosidades

Cisnes negros: por qué lo raro es justo lo que más importa

Los eventos rarísimos de alto impacto son los que más duelen, y son justo los que tus modelos están entrenados para ignorar.

Durante siglos, en Europa, "cisne negro" era una forma de decir "imposible": todos los cisnes que alguien había visto eran blancos. Hasta que en 1697 unos exploradores holandeses llegaron a Australia y se encontraron con cisnes negros nadando tranquilos. Una sola observación tiró abajo una certeza construida sobre millones de casos. Nassim Taleb tomó esa historia para nombrar a los eventos que casi nadie anticipa, que tienen un impacto enorme y que, después de ocurrir, todos juran que eran obvios.

Por qué los modelos los ignoran

Acá está la paradoja incómoda para cualquiera que entrene modelos. Un cisne negro es, por definición, rarísimo: aparece una vez cada miles o millones de observaciones. Y un modelo aprende de lo que vio. Si el evento no está en los datos de entrenamiento —o aparece dos o tres veces en un millón de filas— el modelo va a aprender, racionalmente, a no prestarle atención.

Pensalo así: si predecís "no va a pasar nada raro" todos los días, vas a acertar el 99,99% de las veces. Tu accuracy va a ser espectacular. Y vas a fallar exactamente el día que importa. Es el mismo problema que explico en detección de fraude: cuando lo que buscás es el 0,1%, las métricas que premian el promedio te mienten en la cara.

El otro engaño es estadístico. Muchísimos modelos asumen, explícita o implícitamente, que los datos siguen una distribución normal (la campana de Gauss). En una normal, los eventos extremos son tan improbables que prácticamente no existen. Pero un montón de fenómenos reales —crisis financieras, terremotos, virales en redes, caídas de sistemas— siguen distribuciones de cola pesada, donde lo extremo pasa muchísimo más seguido de lo que la campana predice. Modelar con la herramienta equivocada no es un detalle: es la diferencia entre estar preparado y estar sorprendido.

Lo que sí se puede hacer

No se trata de predecir el cisne negro exacto —por definición no se puede— sino de no quedar indefenso:

Nota relacionada

Isolation Forest: aislar lo anómalo en pocas preguntas

La idea más elegante de la detección de anomalías: lo raro se separa del resto con muchas menos preguntas que lo normal.

Leer nota
  • Mirar la cola, no el centro. Las métricas promedio esconden el riesgo. Lo interesante vive en los percentiles 99 y 99,9.
  • Usar distribuciones de cola pesada cuando el fenómeno lo justifica, en vez de asumir normalidad por comodidad.
  • Detectar lo anómalo sin etiquetas, con métodos no supervisados como el Isolation Forest, que no necesitan ejemplos previos del evento raro para señalar lo que se desvía.
  • Diseñar para resiliencia, no para predicción perfecta. Si el sistema aguanta el golpe que no viste venir, el cisne negro deja de ser catastrófico.

El cuidado con los datos que no ves

Hay un primo cercano del cisne negro que es aún más traicionero: el evento que ocurrió pero que nunca quedó registrado. Es el sesgo del superviviente. Los aviones que no volvieron no estaban en la muestra de Wald, igual que los fraudes que nunca se detectaron no están en tu tabla de fraudes confirmados. Tu dataset no es el mundo: es el mundo filtrado por lo que tu sistema fue capaz de capturar.

El cisne negro no es un argumento para desconfiar de los modelos. Es un recordatorio de para qué sirven y para qué no. Un modelo es excelente describiendo el centro de lo que ya pasó. El criterio humano —pensar en qué pasaría si lo improbable ocurre— sigue siendo lo que te salva el día que el cisne aparece.

Compartir

¿Lo necesitás en tu negocio?

Seguí explorando