PCA explicado sin álgebra: la sombra que conserva más información

Agarrá una taza con asa y proyectá su sombra en la pared. Si la iluminás de frente, la sombra es un círculo: perdés el asa. Si la girás un poco, la sombra muestra el contorno y el asa. Elegiste un ángulo que conserva más información. PCA hace exactamente eso, pero con datos de muchas dimensiones.

Casi siempre se explica con autovectores y matrices de covarianza. Acá no hace falta. La idea es puramente geométrica y, una vez que la ves, no se olvida.

Proyectar es perder lo menos posible

Reducir dimensiones es achatar: pasar de 3D a 2D, de 100D a 10D. Toda proyección pierde algo —es una sombra, no el objeto. La pregunta es qué ángulo elegir para perder lo menos importante.

PCA define "lo importante" como varianza: la dirección en la que los datos están más estirados. Si una nube de puntos forma un cigarro alargado, la dirección a lo largo del cigarro es donde pasan más cosas; achatarlo de costado mantiene casi toda la información, achatarlo a lo largo la destruye.

Entonces PCA busca, una por una:

La dirección de máxima varianza → primera componente principal.
La de máxima varianza perpendicular a la anterior → segunda componente.
Y así sucesivamente, siempre en ángulo recto con las anteriores.

Cada componente es un eje nuevo. Te quedás con los primeros —los que más varianza capturan— y tirás el resto. Listo.

Varianza no es lo mismo que importancia

PCA asume que dirección de mayor varianza = dirección más informativa. Suele ser cierto, pero no siempre, y ahí está la trampa.

Si tu señal útil está en una dirección de poca varianza, PCA la descarta. La varianza grande puede ser puro ruido de medición.
PCA es sensible a la escala: una variable en pesos (miles) domina a una en proporciones (0 a 1). Por eso casi siempre se estandariza antes; si no, estás midiendo unidades, no estructura.
Las componentes son combinaciones lineales de todas las features, así que se vuelven difíciles de interpretar. "Componente 1" no tiene un nombre humano.

El scree plot —la varianza explicada por componente— te dice cuántas guardar. Buscás el codo, la misma lógica del codo para elegir k en clustering.

Para qué lo uso de verdad

PCA gana cuando combinás reducción con otro objetivo:

Antes de clusterizar: comprimir a pocas componentes esquiva la maldición de la dimensionalidad y hace que las distancias vuelvan a tener sentido, lo que ayuda a que K-Means no invente grupos falsos.
Para visualizar: proyectar a 2 o 3 componentes da un mapa honesto y lineal. A diferencia de t-SNE y UMAP, que deforman distancias, en PCA un eje significa algo concreto.
Para sacar correlación: las componentes son ortogonales, así que eliminás redundancia entre variables muy correlacionadas —el tipo de relación tramposa que conviene detectar en un EDA cuidadoso.

Un punto importante: PCA es lineal. Si la estructura de tus datos vive en una curva o una superficie enroscada, ninguna sombra plana la va a capturar bien. Ahí entran los métodos no lineales. Pero para empezar, para entender qué hay, para limpiar antes de modelar, la sombra que maximiza varianza sigue siendo la primera herramienta que saco de la caja.

PCA explicado sin álgebra: la sombra que conserva más información

Proyectar es perder lo menos posible

Varianza no es lo mismo que importancia

Para qué lo uso de verdad

Entender a tus clientes en grupos reales

Agrupar las consultas y temas que se repiten

Más en Data & Machine Learning

También te puede interesar