Saltar al contenido
Tecnología ·

OCR para facturas de varias páginas: cómo funciona

Las facturas largas de suministros, telecomunicaciones y grandes pedidos necesitan un tratamiento especial. Así las procesa la inteligencia artificial.

No todas las facturas caben en una sola página. Las facturas de suministros eléctricos, telecomunicaciones, grandes pedidos de material o servicios profesionales con muchas líneas de detalle pueden ocupar tres, cinco o incluso diez páginas. Para quien las introduce manualmente en el sistema contable, estas facturas son una pesadilla: hay que navegar entre páginas, localizar los datos del proveedor en la cabecera, recorrer todas las líneas de detalle repartidas por varias hojas y buscar los totales al final del documento.

Un sistema OCR básico que solo lea página por página no resuelve el problema. Necesita entender que todas las páginas forman un único documento, que la información está distribuida y que los datos deben consolidarse en un solo registro contable. Eso es exactamente lo que hace ScanZen con sus capacidades de procesamiento multipágina.

El problema de las facturas largas

Cuando una factura tiene varias páginas, la información no se repite de forma uniforme en cada hoja. Normalmente, la estructura sigue un patrón como este:

  • Primera página: datos del emisor (nombre, CIF, dirección), datos del receptor (tu empresa), número de factura, fecha de emisión y las primeras líneas de detalle.
  • Páginas intermedias: continuación de las líneas de detalle. En muchos casos, solo aparecen las filas de la tabla con descripción, cantidad, precio unitario e importe. No suelen repetir los datos del proveedor.
  • Última página: últimas líneas de detalle, subtotales, desglose de IVA por tipo (base imponible al 21%, al 10%, etc.), retenciones si las hay, y el total general de la factura.

Esta distribución de datos a lo largo de múltiples páginas crea varios desafíos para cualquier sistema de digitalización:

  • Hay que identificar que todas las páginas pertenecen a la misma factura.
  • Los datos del proveedor solo aparecen en la primera página, pero son necesarios para el registro completo.
  • Las líneas de detalle se extienden por varias páginas y deben concatenarse en orden.
  • Los totales y desgloses de IVA están en la última página, pero hacen referencia a todas las líneas anteriores.

Cómo procesa ScanZen las facturas multipágina

ScanZen combina su motor OCR con inteligencia artificial para tratar las facturas multipágina como documentos unitarios. El proceso funciona de la siguiente manera:

Lectura completa del documento

Cuando subes un PDF de varias páginas a ScanZen, el sistema no procesa cada página de forma aislada. Primero, el motor OCR extrae el texto de todas las páginas del documento. Esto genera una visión completa del contenido textual de la factura, incluyendo todas las líneas de detalle, cabeceras repetidas o parciales, pies de página y los bloques de totales.

Análisis estructural con IA

Una vez que el OCR ha leído todo el texto, la inteligencia artificial analiza la estructura del documento completo. Este análisis identifica:

  1. Zona de identificación: localiza los datos del proveedor (razón social, CIF, dirección) y del receptor, normalmente en la primera página.
  2. Metadatos de la factura: detecta el número de factura, la fecha de emisión y la fecha de vencimiento, que suelen estar en la cabecera.
  3. Tabla de detalle: identifica las líneas de la tabla que contienen los conceptos facturados. Detecta las columnas (descripción, cantidad, precio unitario, descuento, importe) y sigue la tabla a través de todas las páginas en las que se extiende.
  4. Bloque de totales: localiza el desglose final con las bases imponibles, los tipos de IVA aplicados, las cuotas correspondientes y el total de la factura.

Un solo registro, múltiples páginas

Independientemente de cuántas páginas tenga la factura, ScanZen genera un único registro con todos los datos consolidados: proveedor, CIF, número de factura, fecha, todas las líneas de detalle, el desglose completo de IVA y el total. No hay que unir manualmente datos de distintas páginas.

Tipos de facturas multipágina habituales en España

En la práctica empresarial española, hay varios tipos de facturas que frecuentemente ocupan múltiples páginas. Conocerlos ayuda a entender por qué un OCR inteligente es necesario.

Facturas de suministros eléctricos

Las facturas de compañías eléctricas son un caso paradigmático. Una factura típica de electricidad para una empresa incluye: datos del titular y del contrato, datos del punto de suministro (CUPS), detalle de la potencia contratada con sus períodos (P1, P2, P3...), detalle de la energía consumida en cada período, impuesto eléctrico, alquiler de equipos de medida, y finalmente el desglose de IVA y el total. Todo esto repartido habitualmente en tres o cuatro páginas.

La complejidad adicional reside en que algunos conceptos llevan IVA al 21%, otros pueden estar exentos, y el impuesto eléctrico tiene su propia base de cálculo. La IA de ScanZen identifica cada bloque y extrae los importes asignándolos correctamente a su tipo impositivo.

Facturas de telecomunicaciones

Las facturas de operadores de telefonía e internet suelen incluir múltiples líneas y números de teléfono, cada uno con su consumo desglosado. Si una empresa tiene diez líneas móviles y una conexión de datos, la factura puede extenderse fácilmente a cinco o seis páginas. Los datos del proveedor y el número de factura aparecen en la primera página, mientras que el resumen y el total están al final.

Facturas de grandes pedidos

Empresas industriales, construcción o distribución reciben facturas de proveedores con decenas o cientos de líneas de producto. Un pedido de material de ferretería, componentes electrónicos o suministros de oficina puede generar una factura de ocho o diez páginas. Cada línea tiene referencia, descripción, cantidad, precio unitario, posibles descuentos y subtotal. Las tablas se extienden a lo largo de múltiples páginas y los totales aparecen al final.

Facturas de servicios profesionales

Despachos de abogados, consultoras y empresas de ingeniería a veces emiten facturas con un desglose detallado de horas, tareas o conceptos. Cada línea corresponde a un servicio o actividad, con la fecha, las horas dedicadas, la tarifa y el importe. En proyectos grandes, estas facturas pueden alcanzar varias páginas de detalle antes de llegar al bloque de IVA y retención de IRPF.

Validación cruzada en facturas largas

Una de las funciones más importantes del procesamiento multipágina es la validación cruzada. Cuando ScanZen extrae todas las líneas de detalle de una factura larga, puede sumar los importes parciales y compararlos con el subtotal y el total que aparecen en la última página. Si hay una discrepancia, el sistema la señala para que el usuario la revise.

Esta validación es especialmente valiosa en facturas largas porque un error en una sola línea entre cincuenta puede pasar desapercibido en una revisión manual pero queda inmediatamente detectado cuando los importes no cuadran.

La vista dividida de ScanZen muestra el PDF completo a la izquierda, permitiendo navegar por todas las páginas, mientras que a la derecha aparecen los datos extraídos y consolidados. Si necesitas verificar una línea concreta, puedes navegar a la página correspondiente del PDF sin salir de la aplicación.

Aprendizaje por proveedor

ScanZen recuerda el formato de cada proveedor. Si procesas una factura multipágina de un proveedor de suministros y corriges algún dato, la próxima factura de ese mismo proveedor se procesará con mayor precisión. Esto es especialmente útil para facturas recurrentes como las de electricidad o telecomunicaciones, que mantienen siempre la misma estructura.

Del PDF multipágina al ERP

Una vez que los datos de la factura multipágina están extraídos y verificados, el flujo de exportación es el mismo que para cualquier otra factura. Puedes exportar los datos a tu ERP: Sage 200 mediante SQL, Odoo mediante XML-RPC, o en formatos como Excel, CSV y XML.

El registro exportado contiene todos los datos consolidados, independientemente de si la factura original tenía una página o veinte. El proveedor, el CIF, el número de factura, la fecha, las líneas de detalle, las bases imponibles, los tipos de IVA y el total están todos en un único asiento o registro estructurado.

Este es precisamente el valor de un sistema OCR con inteligencia artificial: transforma un documento de múltiples páginas con información dispersa en un registro limpio y verificado, listo para entrar en tu sistema contable. Sin que tengas que recorrer manualmente cada página buscando números entre tablas de datos.

Si tu empresa recibe habitualmente facturas largas y todavía las procesas a mano, la diferencia de tiempo es notable. Lo que antes requería diez o quince minutos de atención concentrada para una sola factura de cinco páginas, ahora se reduce a una revisión rápida de menos de un minuto en la vista dividida de ScanZen. Y con el modelo de créditos sin suscripción, solo pagas por las facturas que realmente procesas.

Procesa tus facturas largas en segundos

Sube una factura multipágina y comprueba cómo ScanZen extrae todos los datos en un solo registro consolidado.

Prueba gratis — 10 créditos

Sin tarjeta. Sin compromiso.