De PDF a dato estructurado: el pipeline de IDP
Un PDF entra, una fila de base de datos sale. En el medio hay cinco etapas, y cada una tiene su forma de fallar.
Cuando alguien dice "automaticé la carga de facturas", lo que casi siempre construyó es un pipeline de IDP — Intelligent Document Processing. Suena a caja negra mágica: entra un PDF arrugado y sale, prolijo, un registro listo para el ERP. Pero adentro hay una cadena de etapas bien definidas, donde cada una resuelve un problema distinto y tiene su manera particular de romperse. Vale la pena abrir la caja.
Las cinco etapas
Un pipeline de IDP serio se parece bastante a esto, en orden:
- Ingesta y normalización: el documento llega como PDF nativo, PDF escaneado, foto de WhatsApp o email con adjunto. Hay que enderezarlo (deskew), mejorar contraste, separar páginas y detectar la orientación. Basura que entra, basura que sale.
- OCR / extracción de texto: convertir la imagen en texto y, clave, guardar la posición de cada palabra. Como expliqué en por qué el OCR no alcanza, esto es solo el insumo, no el resultado.
- Clasificación: ¿esto es una factura, un remito, un contrato, una nota de crédito? Sin saber el tipo, no sabés qué campos buscar. Es una tarea de clasificación clásica, parecida a distinguir clasificar de detectar y segmentar en visión.
- Extracción de entidades: acá se mapea cada valor a un campo del esquema — total, CUIT, fecha, ítems. Es donde el layout pesa más que el texto.
- Validación y entrega: chequeos de negocio (¿el subtotal + IVA da el total?), umbrales de confianza y entrega al sistema destino.
Cada etapa tiene su talón de Aquiles
PDF → [ingesta] → [OCR] → [clasificación] → [extracción] → [validación] → registro
↑ ↑ ↑ ↑ ↑
escaneo texto tipo mal campo mal no cierra
torcido sucio detectado mapeado el cálculo
El error se propaga: si la ingesta endereza mal una página, el OCR lee peor, la clasificación duda y la extracción inventa. Por eso conviene medir la confianza en cada paso, no solo al final. Un pipeline que solo reporta "listo / falló" es ciego justo donde más necesitás ver.
El humano no es opcional, es una etapa más
La etapa de validación casi nunca es 100% automática, y está bien que así sea. Lo sano es enrutar por confianza: si el modelo está seguro, pasa directo; si duda, va a una cola de revisión humana. Eso es human-in-the-loop, y es lo que separa una demo de un sistema que aguanta producción.
El objetivo no es automatizar el 100% de los documentos. Es automatizar el 90% fácil con alta confianza y darle al humano solo el 10% difícil.
Pipeline antes que modelo
La tentación es pensar que IDP es "un buen modelo de IA". No: es una arquitectura de etapas donde el modelo es una pieza. La diferencia entre un proyecto que funciona y uno que no suele estar en las partes aburridas — la normalización de la ingesta, los chequeos de validación, el ruteo por confianza — más que en el modelo estrella. Si querés ver por qué este enfoque por etapas escala mejor que un bot que copia y pega, mirá por qué RPA no es IA. El PDF a dato estructurado no es un salto: es una escalera, y cada escalón cuenta.
Nota relacionada
Por qué el OCR no alcanza para entender un documento
Un OCR transcribe letras perfectas y aun así no sabe cuál es el total de la factura. Leer no es entender.
Leer nota¿Lo necesitás en tu negocio?
Seguí explorando