Reglas de asociación: soporte, confianza y lift sin misterio
Tres métricas asustan a más gente de la que deberían. Con un changuito de supermercado se entienden en cinco minutos.
Toda regla de asociación se escribe igual: {A} → {B}, que se lee "quien lleva A tiende a llevar B". Pan tostado → mermelada. El problema es que con miles de productos hay millones de reglas posibles, y casi todas son basura. Las tres métricas que separan lo útil del ruido son soporte, confianza y lift. Y se entienden con el changuito del super, sin álgebra.
Soporte: ¿esto pasa lo suficiente?
El soporte es qué tan frecuente es la combinación en el total de tickets. Si de 10.000 compras, 300 incluyen pan y mermelada juntos, el soporte de esa regla es 300/10.000 = 0,03, o sea 3%.
¿Para qué sirve? Para descartar lo anecdótico. Una regla con soporte de 0,0001% puede ser perfecta en confianza, pero describe a tres clientes raros. No vas a rediseñar la góndola por tres personas. El soporte es el filtro de "¿esto es un patrón o una curiosidad?".
Confianza: si llevó A, ¿cuán seguro lleva B?
La confianza es la probabilidad de B dado que ya tenés A en el changuito. Se calcula así:
confianza(A → B) = soporte(A y B) / soporte(A)
Si el 80% de los que compran pan también compran mermelada, la confianza de {pan} → {mermelada} es 0,8. Suena fuerte. Pero tiene una trampa enorme: ignora qué tan común es B por sí solo. Si el 80% de todos los clientes compra mermelada (con o sin pan), entonces el pan no aportó nada. La confianza alta era pura inflación. Para eso existe la tercera métrica.
Nota relacionada
Pañales y cerveza: la regla de asociación más famosa (¿y falsa?)
La historia dice que un super descubrió que quien compra pañales también compra cerveza. Lindo relato. El problema es que casi nada de eso pasó.
Leer notaLift: ¿A y B se atraen, o solo coinciden?
El lift corrige justo ese punto. Compara la confianza real contra lo que esperarías si A y B fueran independientes:
lift(A → B) = confianza(A → B) / soporte(B)
La lectura es directa:
- Lift = 1: A y B son independientes. Que lleves uno no dice nada sobre el otro.
- Lift > 1: se atraen. Llevar A hace más probable llevar B. Lift de 3 = tres veces más probable que el azar.
- Lift < 1: se repelen. Quien lleva A tiende a no llevar B.
El lift es el que de verdad mide asociación. Y acá conecta con algo que ya conté: la famosa regla de pañales y cerveza era impactante como anécdota, pero su lift real era modesto. El relato exageró lo que el número decía con timidez.
El orden mental correcto
Cuando mirás reglas, el flujo sano es:
- Soporte primero: ¿pasa lo suficiente como para importar?
- Confianza después: ¿qué tan fiable es la implicación?
- Lift al final: ¿hay atracción real o es coincidencia?
Saltearse el lift es el error más común, y es primo del sesgo del superviviente: mirás lo que confirma tu intuición e ignorás la línea de base. Una vez que tenés las tres métricas claras, lo que sigue es entender cómo los algoritmos encuentran estas reglas sin que explote la combinatoria y, sobre todo, recordar que esto describe patrones, no predice el futuro.
Tres números, un changuito. El misterio era marketing.
¿Lo necesitás en tu negocio?
Seguí explorando
Más en Data & Machine Learning
22 jun 2026
Q-learning explicado: cómo una máquina aprende a jugar
Leer21 jun 2026
El cuarteto de Anscombe: cuatro datasets idénticos en los números, opuestos en el gráfico
Leer20 jun 2026
El Datasaurio: doce datasets con la misma estadística que esconden un dinosaurio
Leer19 jun 2026
La paradoja de Simpson: cuando una tendencia se da vuelta al juntar los datos
LeerTambién te puede interesar
18 jun 2026
Lo que los valores faltantes te están gritando
Leer17 jun 2026
Correlaciones espurias: el queso, las sábanas y los doctorados
Leer16 jun 2026
La paradoja del cumpleaños: con 23 personas, apostá a que dos cumplen el mismo día
Leer15 jun 2026
La ley de Benford: por qué el 1 aparece más y cómo atrapa fraudes
Leer