Las métricas que dicen si tu chatbot sirve

Hay una diapositiva que se repite en toda presentación de chatbot: "atendió 50.000 consultas este mes". Número grande, aplausos. Pero esa cifra no dice nada sobre si el bot sirve. Un bot puede atender 50.000 consultas y resolver 5.000. El volumen es la métrica más fácil de inflar y la más vacía.

Consultar en Gemini

La trampa de medir volumen

Contar mensajes mide actividad, no resultado. Es como medir un equipo de soporte por cuántas llamadas atendió, sin mirar cuántos problemas cerró. Peor: un bot malo puede tener más volumen, porque la gente tiene que insistir tres veces para que la entienda. El volumen alto a veces es síntoma de un problema, no señal de éxito.

La pregunta correcta no es "¿cuántas consultas tocó?", sino "¿cuántas resolvió sin que un humano tuviera que intervenir?".

Las métricas que sí importan

Tasa de contención. El porcentaje de conversaciones que el bot cerró solo, sin escalar a un humano. Es la métrica reina: mide cuánto trabajo te sacó de encima de verdad. Pero ojo con la trampa: si el bot "contiene" porque el usuario se rindió y se fue, eso es contención falsa.
CSAT (satisfacción). Ese "¿te resultó útil esta respuesta? 👍👎" al final. Mide la experiencia desde el lado del usuario, que es el único que importa.
Tasa de resolución. ¿El usuario realmente resolvió lo que vino a hacer? Distinto de contención: un bot puede no escalar y aun así dejarte sin solución.
Tasa de fallback / escalado. Cuántas veces el bot tuvo que pasarte con un humano. No es mala per se: un escalado a tiempo es bueno. Lo que importa es la tendencia y el motivo.

Por qué un solo número siempre engaña

Acá está el corazón del asunto, y es un patrón que se repite en todo análisis de datos: ninguna métrica aislada cuenta la historia completa. Mirá esta paradoja.

Bot A:  contención 90%  |  CSAT 40%   → "contiene" porque la gente se rinde
Bot B:  contención 60%  |  CSAT 85%   → escala bien, deja a la gente contenta

El Bot A gana en el número que luce en la slide y pierde en el único que importa. Si mirás solo contención, premiás al peor bot. Es la misma lección de fondo de Anscombe: los promedios pueden ser idénticos —o lucir geniales— y esconder realidades opuestas. Una métrica sin su contexto es un titular sin la nota.

Nota relacionada

Chatbot vs agente conversacional: el salto de FAQ a acción

Un chatbot responde; un agente conversacional hace. La diferencia no es de palabras: es de qué pasa después del 'enter'.

Leer nota

Por eso la contención hay que leerla junto al CSAT, y ambos junto a la tasa de resolución. Recién el conjunto te dice si el bot resuelve o solo aparenta.

Cómo lo miro yo

Antes de pelearme con dashboards, una pregunta filtra casi todo: ¿esta métrica mejora si el bot empeora? Si la respuesta es sí —como pasa con el volumen y, a veces, con la contención— es una métrica peligrosa para optimizar a ciegas. Es el mismo criterio que uso para decidir cuándo la IA suma de verdad: el número tiene que estar atado a un resultado verificable, no a una sensación de actividad.

Mi tablero mínimo: contención y CSAT lado a lado, segmentados por tipo de consulta. Porque el bot puede ser excelente respondiendo precios y un desastre gestionando reclamos, y el promedio global te oculta las dos cosas.

El cierre

Un chatbot no se juzga por cuánto habla, sino por cuánto resuelve y cómo deja al usuario después. Volumen alto con CSAT bajo es un bot que molesta a escala. Y si tu reporte solo muestra el número grande, probablemente sea porque es el único que da bien.

¿Lo necesitás en tu negocio?

Automatizar el trabajo repetitivo

Tu gente copia y pega datos entre sistemas en vez de pensar.

Ver solución

Vigilar precios y movidas de la competencia

No sabés a qué precio vende la competencia ni cuándo cambia.