El cuarteto de Anscombe: cuatro datasets idénticos en los números, opuestos en el gráfico
Cuatro conjuntos de datos con la misma media, varianza y correlación que se ven completamente distintos al graficarlos.
Podés tener cuatro datasets con exactamente la misma media, la misma varianza, la misma correlación y hasta la misma recta de regresión, y que aun así no se parezcan en nada.
Eso es justo lo que armó el estadístico Francis Anscombe en 1973. Y lo hizo a propósito: quería demostrarle al mundo, en una época en que graficar era caro y poco frecuente, que mirar solo los números resumen te puede engañar feo.
Los cuatro gemelos estadísticos
El cuarteto de Anscombe son cuatro pares de variables (x, y), once puntos cada uno. Si te sentás a calcular, vas a encontrar que comparten casi todo:
- Media de x = 9, en los cuatro.
- Media de y = 7,5 (con redondeo), en los cuatro.
- Varianza de x = 11; varianza de y ≈ 4,12.
- Correlación de Pearson ≈ 0,816.
- La misma recta de regresión: aproximadamente y = 3 + 0,5x.
Un reporte automático que solo escupiera esas métricas concluiría que los cuatro datasets son intercambiables. Y estaría completamente equivocado.
Lo que aparece al graficar
Cuando los dibujás, la historia se desarma:
Nota relacionada
El Datasaurio: doce datasets con la misma estadística que esconden un dinosaurio
Doce nubes de puntos absurdamente distintas comparten media, desvío y correlación. Una incluso dibuja un dinosaurio.
Leer nota- El primero es una nube ruidosa pero honesta: una relación lineal con dispersión normal. El caso para el que la regresión fue diseñada.
- El segundo es una curva clarísima. La relación existe, pero es no lineal. Forzarle una recta es absurdo.
- El tercero es una línea casi perfecta arruinada por un único outlier que tira la pendiente hacia él.
- El cuarto es el más tramposo: todos los puntos comparten el mismo valor de x salvo uno, y ese punto solitario es el que inventa toda la correlación.
Cuatro mecanismos generadores totalmente distintos, comprimidos en un mismo puñado de estadísticos. El resumen no miente, pero tampoco te cuenta lo que importa.
Por qué esto sigue importando hoy
Anscombe escribió esto hace medio siglo, pero el problema no caducó: se agravó. Hoy generamos features y métricas a escala industrial, y la tentación de saltar directo al modelo es enorme. Por eso vale repetirlo: graficá antes de modelar. Un scatter plot de dos minutos te ahorra semanas peleándole a un modelo que nunca iba a funcionar porque la relación no era lineal o porque un outlier dominaba todo.
La versión moderna y aún más espectacular de esta idea es el Datasaurio, doce datasets que esconden un dinosaurio detrás de las mismas estadísticas. Y el primo conceptual, donde agregar datos invierte la conclusión, es la paradoja de Simpson.
Reproducirlo es trivial, porque seaborn ya trae el dataset:
import seaborn as sns
df = sns.load_dataset("anscombe")
sns.lmplot(data=df, x="x", y="y", col="dataset", col_wrap=2)
Cuatro paneles, una misma recta, cuatro realidades distintas.
El resumen comprime, y comprimir pierde
El número resumen es una compresión con pérdida: te da una foto, pero descarta la forma. Antes de confiar en una correlación, un promedio o una pendiente, mirá la distribución con tus propios ojos. Lo mismo aplica cuando ya estás más adentro del pipeline: una correlación altísima puede ser pura casualidad sin causa, y hasta lo que falta en tus datos suele estar tratando de decirte algo. Si esa intuición visual te interesa de raíz, vale la pena entender también qué es lo que un p-valor NO significa, porque ahí se esconde la misma trampa: confiar en un número sin mirar de dónde viene.
¿Lo necesitás en tu negocio?
Seguí explorando
Más en Data & Machine Learning
22 jun 2026
Q-learning explicado: cómo una máquina aprende a jugar
Leer20 jun 2026
El Datasaurio: doce datasets con la misma estadística que esconden un dinosaurio
Leer19 jun 2026
La paradoja de Simpson: cuando una tendencia se da vuelta al juntar los datos
Leer18 jun 2026
Lo que los valores faltantes te están gritando
LeerTambién te puede interesar
17 jun 2026
Correlaciones espurias: el queso, las sábanas y los doctorados
Leer16 jun 2026
La paradoja del cumpleaños: con 23 personas, apostá a que dos cumplen el mismo día
Leer15 jun 2026
La ley de Benford: por qué el 1 aparece más y cómo atrapa fraudes
Leer14 jun 2026
Monty Hall: por qué cambiar de puerta duplica tus chances
Leer