El Datasaurio: doce datasets con la misma estadística que esconden un dinosaurio
Doce nubes de puntos absurdamente distintas comparten media, desvío y correlación. Una incluso dibuja un dinosaurio.
Existe un dataset que, graficado, dibuja un dinosaurio, y que comparte exactamente las mismas estadísticas que una estrella, una equis y una nube de puntos al azar.
Si el cuarteto de Anscombe te voló la cabeza con cuatro datasets engañosos, esperá a conocer su versión moderna y descaradamente más divertida: el Datasaurus Dozen.
Del dinosaurio a la docena
Empezó con un chiste serio. El estadístico Alberto Cairo publicó en 2016 un dataset con forma de dinosaurio (el "Datasaurus") cuyas medias y desvíos coincidían con los de una nube aparentemente normal. La gracia: las estadísticas resumen no detectaban al dinosaurio.
Justin Matejka y George Fitzmaurice, de Autodesk Research, llevaron la idea más lejos en un paper de 2017. Diseñaron un algoritmo que, partiendo del dinosaurio, deformaba los puntos de a poquito —empujándolos hacia una forma objetivo— pero rechazando cualquier movimiento que alterara las estadísticas más allá de dos decimales. Es un recocido simulado (simulated annealing) con una restricción dura: mové los puntos hacia la estrella, hacia las líneas, hacia el círculo, pero nunca toques la media ni el desvío.
El resultado son doce datasets —el dino, círculos, líneas, una estrella, una equis, rayas verticales— que comparten, hasta el segundo decimal:
Nota relacionada
El cuarteto de Anscombe: cuatro datasets idénticos en los números, opuestos en el gráfico
Cuatro conjuntos de datos con la misma media, varianza y correlación que se ven completamente distintos al graficarlos.
Leer nota- Media de x ≈ 54,26 y media de y ≈ 47,83.
- Desvío estándar de x ≈ 16,76 y de y ≈ 26,93.
- Correlación de Pearson ≈ −0,06.
Doce dibujos completamente distintos. Una misma fila de números.
La trampa que esto expone
Lo que hace tan didáctico al Datasaurio es que ataca a la correlación de Pearson en su punto débil: solo mide relación lineal. Una correlación de −0,06 te dice "no hay relación lineal", y es verdad. Pero hay un dinosaurio. La ausencia de señal lineal no es ausencia de estructura.
Esto conecta con un sesgo cognitivo nuestro: confiamos en el resumen porque es cómodo. Una tabla con media y desvío entra en un slide; una nube de 142 puntos, no. Pero la comodidad del resumen es justo donde se cuela el error.
# pip install datasaurus (o usá el CSV original de Autodesk)
import pandas as pd, seaborn as sns
df = pd.read_csv("datasaurus.csv")
print(df.groupby("dataset")[["x", "y"]].agg(["mean", "std"])) # casi idénticos
sns.relplot(data=df, x="x", y="y", col="dataset", col_wrap=4, height=2) # un zoológico
Tres ideas para tu trabajo diario
El Datasaurio es una vacuna contra la fe ciega en los estadísticos resumen. Lo que conviene tener a mano:
- Graficá siempre. Un panel de scatter plots cuesta dos minutos y revela formas que ningún
describe()va a mostrar. - Pearson no lo es todo. Si sospechás relaciones no lineales, mirá la nube o probá medidas como la correlación de distancia.
- El promedio aplana. Tené el mismo recelo cuando agregás grupos: ahí es donde aparece la paradoja de Simpson, que invierte tendencias enteras al juntar los datos.
Esta desconfianza sana hacia los números sueltos es la misma que te conviene tener frente a correlaciones espurias que parecen señal pero son casualidad, o frente a un p-valor que casi nadie interpreta bien. En todos los casos, el patrón es idéntico: el número te tienta a saltear la mirada, y la mirada es donde está la verdad.
¿Lo necesitás en tu negocio?
Seguí explorando
Más en Data & Machine Learning
26 jun 2026
¿Qué puede hacer la ciencia de datos por una PyME?
Leer22 jun 2026
Q-learning explicado: cómo una máquina aprende a jugar
Leer21 jun 2026
El cuarteto de Anscombe: cuatro datasets idénticos en los números, opuestos en el gráfico
Leer19 jun 2026
La paradoja de Simpson: cuando una tendencia se da vuelta al juntar los datos
LeerTambién te puede interesar
18 jun 2026
Lo que los valores faltantes te están gritando
Leer17 jun 2026
Correlaciones espurias: el queso, las sábanas y los doctorados
Leer16 jun 2026
La paradoja del cumpleaños: con 23 personas, apostá a que dos cumplen el mismo día
Leer15 jun 2026
La ley de Benford: por qué el 1 aparece más y cómo atrapa fraudes
Leer