Minería de datos vs machine learning: no son lo mismo
Se usan como sinónimos en LinkedIn, pero responden preguntas distintas: una descubre lo que ya pasó, la otra apuesta a lo que va a pasar.
En LinkedIn se usan como intercambiables: "data mining", "machine learning", "IA", todo en la misma bolsa. Pero son cosas distintas, y confundirlas lleva a usar la herramienta equivocada para la pregunta equivocada. La distinción más útil que conozco es esta: la minería de datos descubre, el machine learning predice.
La pregunta que responde cada una
La minería de datos mira un montón de datos que ya tenés y pregunta: ¿qué patrones, asociaciones o estructuras escondidas hay acá? Es retrospectiva y descriptiva. No le pedís que adivine el futuro; le pedís que te muestre lo que ya está en los datos pero no ves a simple vista. Las reglas de asociación del changuito del super son el ejemplo clásico: encontrás que A y B van juntos, y listo.
El machine learning mira datos del pasado y pregunta otra cosa: ¿qué función aprendo para predecir un valor nuevo que todavía no vi? Es prospectivo. Entrenás un modelo con casos etiquetados y después le tirás un caso nuevo para que apueste. ¿Este mail es spam? ¿Cuánto va a vender la sucursal el mes que viene?
Descubrir no es lo mismo que apostar
La diferencia tiene una consecuencia práctica enorme. Cuando minás patrones, el peligro es leer causalidad donde solo hay coincidencia —el error detrás del mito de pañales y cerveza, y el mismo que produce correlaciones espurias entre el queso y las sábanas. Encontrás un patrón real y le inventás una historia que no estaba en los datos.
Cuando hacés machine learning, el peligro es otro: el sobreajuste. El modelo memoriza el ruido del pasado y falla con lo nuevo. Por eso un buen pipeline de ML separa datos de entrenamiento y de prueba: necesitás medir si la predicción generaliza, no si recitó de memoria.
Nota relacionada
¿Qué puede hacer la ciencia de datos por una PyME?
Sin equipo de data, sin presupuesto de multinacional y sin humo: qué problemas reales resuelve la ciencia de datos en una empresa chica o mediana, cuánto cuesta y por dónde conviene empezar.
Leer nota| Minería de datos | Machine learning | |
|---|---|---|
| Pregunta | ¿Qué hay en los datos? | ¿Qué va a pasar? |
| Orientación | Descriptiva, al pasado | Predictiva, al futuro |
| Salida | Patrones, reglas, grupos | Un modelo que predice |
| Riesgo típico | Confundir correlación con causa | Sobreajuste |
El solapamiento real
Para complicar el cuadro: se pisan. La minería usa técnicas de ML (clustering, por ejemplo, para descubrir segmentos) y el ML necesita minería previa para entender los datos antes de modelar. No son cajas separadas; son fases distintas de un mismo trabajo con datos.
La forma sana de pensarlo: minás primero para entender, modelás después para predecir. Si te saltás la minería, entrenás un modelo sobre datos que no comprendés —y ahí aparecen los desastres, como descubrir tarde que tus datos arrastraban un sesgo del superviviente o que los valores faltantes te estaban gritando algo.
No es una pelea por cuál es mejor. Es saber qué pregunta tenés sobre la mesa. ¿Querés entender lo que ya pasó, o querés apostar a lo que viene? La respuesta decide la herramienta.
¿Lo necesitás en tu negocio?
Seguí explorando
Más en Data & Machine Learning
26 jun 2026
¿Qué puede hacer la ciencia de datos por una PyME?
Leer22 jun 2026
Q-learning explicado: cómo una máquina aprende a jugar
Leer21 jun 2026
El cuarteto de Anscombe: cuatro datasets idénticos en los números, opuestos en el gráfico
Leer20 jun 2026
El Datasaurio: doce datasets con la misma estadística que esconden un dinosaurio
LeerTambién te puede interesar
19 jun 2026
La paradoja de Simpson: cuando una tendencia se da vuelta al juntar los datos
Leer18 jun 2026
Lo que los valores faltantes te están gritando
Leer17 jun 2026
Correlaciones espurias: el queso, las sábanas y los doctorados
Leer16 jun 2026
La paradoja del cumpleaños: con 23 personas, apostá a que dos cumplen el mismo día
Leer