El panda que la red ve como gibón: ejemplos adversarios
Sumale a una foto de panda un ruido invisible al ojo humano y una CNN top dirá 'gibón' con 99% de confianza. No es un bug raro: es estructural.
Hay una imagen que ya es un clásico del deep learning. A la izquierda, una foto de panda que un clasificador identifica como "panda" con 57% de confianza. En el medio, un patrón de ruido que parece estática de tele vieja. A la derecha, la suma de ambos: para vos sigue siendo idénticamente un panda, pero la red ahora dice "gibón" con 99,3% de confianza. El ejemplo es de Goodfellow et al. (2015) y abrió una caja de la que todavía no salimos.
No es un error de borde: es estructura
La tentación es pensar que la red se "confundió" por mala suerte. No. El ruido fue calculado a propósito para empujar la entrada en la dirección exacta donde el modelo es más sensible. Y se calcula con una fórmula casi insultante de simple:
# FGSM: Fast Gradient Sign Method
ruido = epsilon * signo(gradiente_de_la_perdida_respecto_a_la_imagen)
imagen_adversaria = imagen + ruido
Se toma el gradiente de la pérdida respecto a los píxeles —no a los pesos— y se da un pasito en la dirección que más sube el error. Con un epsilon minúsculo, el cambio es imperceptible para el ojo pero devastador para la red.
El modelo no está roto. Aprendió correlaciones reales en sus datos. El problema es que esas correlaciones viven en dimensiones que a nosotros nos resultan invisibles.
Por qué pasa: la maldición de las dimensiones
Una imagen tiene cientos de miles de dimensiones. La red traza fronteras de decisión en ese espacio gigante, y resulta que casi cualquier punto está peligrosamente cerca de una frontera. Un empujón chiquito repartido entre miles de píxeles —cada uno casi imperceptible— suma un desplazamiento enorme en total. Es pariente directo de la maldición de la dimensionalidad: en muchas dimensiones, "cerca" y "lejos" dejan de significar lo que creemos.
Lo más inquietante es que estos ejemplos transfieren: un ataque diseñado contra una red suele funcionar contra otra distinta, entrenada por separado. Eso sugiere que no es la idiosincrasia de un modelo, sino algo de cómo todas estas redes ven el mundo. Conecta con la idea de que aproximar bien los datos no garantiza robustez, el agujero que ya asomaba detrás del teorema de aproximación universal.
Nota relacionada
El teorema que dice que una red puede aprender casi cualquier cosa (y por qué no alcanza)
Una red de una sola capa puede aproximar cualquier función continua. Suena a magia. El problema es todo lo que el teorema no te dice.
Leer notaDel paper al mundo real
Esto dejó de ser un juego de laboratorio. Un sticker pegado en una señal de tránsito puede hacer que un auto autónomo lea "ceda el paso" donde dice "pare". Y al revés, los ejemplos adversarios son una herramienta de diagnóstico: muestran qué features espurias aprendió de verdad un modelo, no las que creemos que aprendió.
Algunas defensas que se usan:
- Entrenamiento adversario: meter ejemplos atacados en el set de entrenamiento para que la red los aprenda a resistir. Es lo más efectivo, pero caro.
- Aumentar y diversificar datos para reducir la dependencia de patrones frágiles, en la línea de la data augmentation.
- Destilación y suavizado de las fronteras de decisión.
Ninguna resuelve el problema del todo: es una carrera armamentista permanente entre ataques y defensas. Lo que me queda es más sobrio que técnico. Una red puede tener 99% de accuracy y a la vez ser engañada por un ruido que vos ni ves. Confianza alta no es lo mismo que comprensión. Y esa distinción, en sistemas que toman decisiones reales, no es un detalle.
Seguí explorando
Más en Data & Machine Learning
22 jun 2026
Q-learning explicado: cómo una máquina aprende a jugar
Leer21 jun 2026
El cuarteto de Anscombe: cuatro datasets idénticos en los números, opuestos en el gráfico
Leer20 jun 2026
El Datasaurio: doce datasets con la misma estadística que esconden un dinosaurio
Leer19 jun 2026
La paradoja de Simpson: cuando una tendencia se da vuelta al juntar los datos
LeerTambién te puede interesar
18 jun 2026
Lo que los valores faltantes te están gritando
Leer17 jun 2026
Correlaciones espurias: el queso, las sábanas y los doctorados
Leer16 jun 2026
La paradoja del cumpleaños: con 23 personas, apostá a que dos cumplen el mismo día
Leer15 jun 2026
La ley de Benford: por qué el 1 aparece más y cómo atrapa fraudes
Leer