16 mar 2026#gcp#cloud#curiosidades

Máquinas preemptibles: 80% más baratas si tolerás que se apaguen

Google te alquila su capacidad sobrante a una fracción del precio. La letra chica: te la puede sacar con 30 segundos de aviso. La gracia es saber cuándo eso no importa.

Hay un descuento en GCP tan grande que parece error de tipeo: las mismas VMs, hasta un 80% más baratas. Se llaman Spot VMs (antes "preemptibles"), y no es un error. Es un trato: Google te alquila la capacidad que tiene ociosa en sus data centers, pero se reserva el derecho de quitártela cuando la necesite para un cliente que paga precio completo. Te avisa con unos 30 segundos y apaga la máquina. La pregunta interesante no es "¿es seguro?", sino "¿qué cargas no se enojan si la máquina muere a la mitad?".

Consultar en Gemini

Por qué Google regala ese descuento

Un data center se planifica para el pico de demanda, no para el promedio. Eso significa que la mayor parte del tiempo hay servidores prendidos sin hacer nada. Esa capacidad ociosa no se puede "guardar para mañana": o se usa ahora o se desperdicia. Entonces Google la malvende: mejor cobrar el 20% que el 0%. Cuando vuelve a necesitarla, te la saca. El descuento es el precio de esa incertidumbre.

El truco está en la palabra "tolerante"

La clave es separar las cargas que toleran interrupción de las que no:

Toleran (usá Spot, ahorrá): entrenamiento de modelos con checkpoints, procesamiento de batch, renderizado, encoding de video, jobs de análisis grandes, CI que corre y termina. Si el job guarda su progreso cada tanto, perder una VM solo cuesta reanudar desde el último checkpoint.
No toleran (no las uses): una base de datos, una API que sirve usuarios en vivo, una sesión con estado. Si la máquina se apaga, el usuario se cae.

El patrón ganador es el checkpointing: que tu proceso guarde su estado periódicamente en almacenamiento persistente. Así, si te sacan la VM, otra retoma desde donde quedó. En entrenamiento de redes esto es casi gratis de implementar porque ya guardás pesos cada N pasos.

La cuenta que hace que valga la pena

Pensá un entrenamiento de 10 horas que necesita 4 VMs potentes:

Nota relacionada

Vertex AI: entrenar un modelo sin escribir el modelo

AutoML te entrena un modelo decente sin que escribas una sola línea de red neuronal. La pregunta es cuándo te conviene y cuándo te sale carísimo.

Leer nota

A precio normal: digamos $40.
En Spot, con 75% de descuento: ~$10.

Aunque te interrumpan dos o tres veces y pierdas algunos minutos reanudando, terminás pagando una fracción. El ahorro le gana al fastidio por goleada. Por eso los pipelines de ML serios corren el entrenamiento pesado en Spot casi por default — y reservan VMs normales solo para lo que sirve en vivo.

Esto se conecta directo con entrenar en Vertex AI: los jobs de entrenamiento son el caso de uso perfecto para capacidad interrumpible, porque corren, terminan y no le importa a ningún usuario si tardan un toque más.

Dónde encaja en la arquitectura

Una buena división de tu nube termina pareciéndose a esto:

Lo que sirve en vivo (APIs, fronts) → en plataformas que escalan solas como Cloud Run, que escala a cero cuando nadie las usa.
Lo que procesa en batch → en Spot VMs baratas y tolerantes a interrupción.
Lo que guarda estado → en servicios gestionados, nunca en una VM que se puede esfumar.

Y ojo con un detalle que suele morder: las Spot VMs también consumen tu cuota de GCP. Pedir 50 VMs baratas de golpe puede chocar contra un límite de la cuenta antes que contra el presupuesto.

El cierre

Spot es una de las pocas optimizaciones de nube donde el ahorro es enorme y el riesgo es acotado si diseñaste pensando en la interrupción. No es para todo. Pero para todo lo que corre, termina y guarda progreso, dejar plata sobre la mesa pagando precio completo es casi un descuido.

¿Lo necesitás en tu negocio?

Encontrar dónde tirás plata en la nube

Tu factura de la nube crece todos los meses y no sabés bien por qué.

Ver solución

Enterarte vos primero si algo se cae

Te avisan los clientes que tu sitio está caído, no tu propio sistema.

Ver solución

Seguí explorando

Más en Cloud & Deploy

18 mar 2026

Vertex AI: entrenar un modelo sin escribir el modelo

Leer

17 mar 2026

Por qué la región de tu nube cambia la latencia y la factura

Leer

15 mar 2026

Vertex AI vs montarlo vos: el cálculo real

Leer

14 mar 2026

Las cuotas de GCP: el límite que descubrís en producción

Leer

También te puede interesar

13 mar 2026

Cold starts: el medio segundo que arruina la experiencia

Leer

12 mar 2026

Escalar a cero: pagar exactamente por lo que usás

Leer

11 mar 2026

Por qué Cloud Run te obliga a ser stateless

Leer

10 mar 2026

min-instances: el truco caliente que infla la factura

Leer