El momento ImageNet 2012: el experimento que cambió todo

Hay fechas que parten una disciplina en dos. Para el machine learning moderno, esa fecha es septiembre de 2012, cuando una red neuronal llamada AlexNet ganó el concurso de clasificación de imágenes de ImageNet. No ganó por poco. Ganó por tanto que cambió la conversación de toda una comunidad de un año para el otro.

Consultar en Gemini

El concurso y el cuello de botella

ImageNet era —y es— un dataset gigante: más de un millón de imágenes etiquetadas en mil categorías. Cada año, el ILSVRC desafiaba a los equipos a clasificarlas con el menor error posible. Durante años, los mejores resultados venían de pipelines clásicos de visión: features diseñadas a mano (SIFT, HOG) seguidas de clasificadores. El error top-5 rondaba el 26% y bajaba a paso de tortuga.

El problema de fondo era ese: alguien tenía que diseñar las features a mano. Un experto humano decidía qué medir en cada imagen. Y eso tiene un techo.

Lo que hizo AlexNet

AlexNet, de Krizhevsky, Sutskever y Hinton, tiró ese enfoque por la ventana. Era una red convolucional profunda que aprendía las features sola, directamente de los píxeles, sin que nadie le dijera qué mirar. El resultado: error top-5 del 15,3%, contra el 26,2% del segundo puesto. Una diferencia de más de diez puntos en un campo donde se peleaba por décimas.

¿Por qué funcionó en 2012 y no antes? Convergieron tres cosas:

Nota relacionada

Por qué una red entrenada en gatos sirve para radiografías

Una red que aprendió a ver gatos puede detectar neumonías. El truco está en las primeras capas, y es más profundo de lo que parece.

Leer nota

Datos: ImageNet ofrecía el millón de imágenes que una red profunda necesita para no sobreajustar.
Cómputo: entrenaron en GPUs, que volvieron viable hacer en días lo que en CPU habría tardado meses.
Trucos de entrenamiento: ReLU como activación, dropout para regularizar y data augmentation para estirar el dataset.

Ninguno era nuevo del todo. Lo nuevo fue juntarlos y mostrar que, a esa escala, las redes aprenden a ver mejor que cualquier feature diseñada a mano.

Por qué fue un parteaguas para el transfer learning

El impacto inmediato fue obvio: en pocos años, todos los equipos punteros usaban deep learning. Pero el efecto más duradero fue otro. Aquellas redes entrenadas en ImageNet aprendieron representaciones visuales tan buenas y tan generales que servían para otros problemas.

Ahí nació el patrón que hoy es el pan de cada día: tomar una red preentrenada en ImageNet y adaptarla a tu tarea. Es la base de por qué una red de gatos sirve para radiografías y de toda la discusión sobre qué capas congelar y cuáles reentrenar. ImageNet dejó de ser solo un concurso: se volvió el preentrenamiento por defecto de medio mundo de la visión por computadora.

La lección que quedó

El momento ImageNet no fue el invento de las redes convolucionales —existían desde los 80, con el teorema de aproximación universal dando el marco teórico décadas antes. Fue la demostración de que, con suficientes datos y cómputo, dejar que la máquina aprenda sus propias representaciones le gana a la ingeniería humana de features.

Esa idea —escalá datos y cómputo, dejá que el modelo aprenda— es la que recorre toda la década siguiente, hasta los modelos de lenguaje gigantes de hoy. Todo, de alguna forma, empezó con un concurso de fotos de gatos, perros y mil cosas más, una tarde de 2012.