Cómo la IA aprende el formato de cada proveedor
El sistema de aprendizaje automático de ScanZen que mejora la extracción de datos factura tras factura, proveedor a proveedor.
Cada proveedor emite sus facturas con un formato propio. No existe un estándar visual que obligue a todas las empresas a colocar el CIF en la misma posición, a usar el mismo tipo de tabla para las líneas de detalle o a presentar el desglose de IVA de una forma concreta. Una empresa de transporte puede poner el número de factura arriba a la derecha junto al logo, mientras que un despacho de abogados lo coloca debajo de la dirección del cliente. Una distribuidora de alimentación usa tablas con seis columnas, y un proveedor de servicios informáticos presenta una sola línea con descripción y total.
Para un sistema de OCR con inteligencia artificial, esta variabilidad representa un reto constante. Pero también una oportunidad: si cada proveedor mantiene su formato de factura a lo largo del tiempo, el sistema puede aprender ese formato específico y aplicar ese conocimiento a las siguientes facturas del mismo emisor. Eso es exactamente lo que hace ScanZen.
Identificación por CIF: la clave del aprendizaje
El mecanismo de aprendizaje de ScanZen se basa en una premisa sencilla pero poderosa: cada proveedor se identifica por su CIF (o NIF, en el caso de autónomos). El CIF es un dato que aparece en todas las facturas emitidas por un mismo proveedor y que no cambia a lo largo del tiempo. Es el ancla que permite al sistema asociar todo el conocimiento acumulado sobre un formato concreto con un emisor concreto.
Cuando ScanZen procesa una factura por primera vez y extrae el CIF del proveedor, comprueba si ya tiene información almacenada sobre ese emisor. Si es la primera factura de ese proveedor, el sistema aplica el modelo general de extracción: analiza la estructura del documento, identifica los campos por su posición y contenido, y genera los datos extraídos con sus respectivos niveles de confianza.
Si ya ha procesado facturas anteriores de ese mismo CIF, el sistema recupera el perfil del proveedor y lo utiliza para guiar la extracción. Sabe dónde esperar el número de factura, cómo suele estar formateada la tabla de líneas, dónde aparece el desglose fiscal y qué tipo de IVA aplica habitualmente. Esta información reduce la ambigüedad y aumenta la precisión.
Aprendizaje acumulativo
Cuantas más facturas de un mismo proveedor procesa ScanZen, más preciso se vuelve el perfil de ese emisor. La primera factura puede requerir revisión manual de varios campos. A partir de la tercera o cuarta, la extracción suele ser correcta en todos los datos sin necesidad de intervención.
Umbrales de confianza y aplicación automática
No basta con que la IA extraiga un dato: necesita saber con qué grado de certeza lo ha hecho. ScanZen asigna un porcentaje de confianza a cada campo extraído. Este porcentaje refleja cuánto confía el sistema en que el valor es correcto, basándose en la claridad del texto en el documento, la coherencia con el formato conocido del proveedor y la validación cruzada con otros campos.
El umbral de aplicación automática está fijado en el 80%. Esto significa que cuando un campo alcanza o supera el 80% de confianza, el sistema lo considera fiable y lo aplica directamente sin requerir confirmación manual. Los campos por debajo de ese umbral se marcan para revisión en la vista dividida, donde el usuario puede verificarlos contra el documento original.
El aprendizaje por proveedor influye directamente en estos umbrales. En la primera factura de un proveedor nuevo, muchos campos pueden quedarse por debajo del 80% porque el sistema no tiene referencia previa. En la segunda factura, el sistema ya sabe dónde encontrar cada dato en ese formato concreto, y los porcentajes de confianza suben significativamente. A partir de la tercera o cuarta factura, la mayoría de los campos superan el umbral y se aplican de forma automática.
Qué ocurre cuando el proveedor cambia de formato
Los proveedores no cambian de plantilla de factura con frecuencia, pero sucede. Pueden actualizar su imagen corporativa, cambiar de software de facturación o reorganizar la disposición de los datos. Cuando esto ocurre, las primeras facturas con el nuevo formato pueden tener niveles de confianza más bajos, porque el perfil almacenado no coincide con la nueva estructura.
ScanZen detecta esta situación de forma automática. Si los niveles de confianza de un proveedor conocido caen significativamente respecto a la media histórica, el sistema interpreta que el formato ha cambiado y comienza a reconstruir el perfil. No descarta el conocimiento anterior por completo, sino que combina la información previa con la nueva evidencia hasta crear un perfil actualizado que refleje el formato actual.
Correcciones del usuario: el motor del aprendizaje
El aprendizaje por proveedor no se basa solo en el procesamiento automático. Las correcciones que realiza el usuario son la señal más valiosa para el sistema. Cuando un usuario revisa una factura en la vista dividida y corrige un campo, está proporcionando información explícita sobre cuál es el valor correcto y, por extensión, dónde se encuentra ese dato en el formato de ese proveedor.
Cada corrección genera una señal de entrenamiento que el sistema incorpora al perfil del proveedor. El proceso funciona así:
- El usuario detecta un error: por ejemplo, la IA ha extraído el número de factura de una zona incorrecta del documento.
- El usuario corrige el valor: introduce el número correcto en el formulario de la vista dividida.
- El sistema registra la corrección: almacena qué campo se ha corregido, cuál era el valor extraído, cuál es el valor correcto y en qué posición del documento se encuentra realmente ese dato.
- El perfil del proveedor se actualiza: la próxima vez que llegue una factura de ese mismo CIF, el sistema buscará el número de factura en la posición correcta.
Este ciclo de retroalimentación es continuo. Cada corrección refina el perfil. Las correcciones más recientes tienen más peso que las antiguas, lo que permite al sistema adaptarse a cambios graduales en el formato de un proveedor sin perder robustez.
Correcciones que benefician a todo el sistema
Aunque el aprendizaje por proveedor es específico de cada CIF, las correcciones también contribuyen a mejorar el modelo general de extracción. Cuando múltiples usuarios corrigen el mismo tipo de error en facturas de distintos proveedores, el sistema identifica un patrón y ajusta su modelo base. Así, incluso las facturas de proveedores completamente nuevos se benefician del conocimiento acumulado por el conjunto de usuarios.
El resultado: menos revisión, más automatización
El efecto práctico del aprendizaje por proveedor es una reducción progresiva del tiempo de revisión. Una empresa que recibe facturas de cincuenta proveedores habituales experimentará el siguiente patrón:
- Primeras facturas de cada proveedor: requieren revisión de varios campos. El usuario verifica datos en la vista dividida y corrige los que sean necesarios.
- Tercera a quinta factura: la mayoría de los campos se extraen correctamente. La revisión se limita a comprobar que todo es correcto, sin necesidad de corregir nada en la mayoría de los casos.
- A partir de la sexta factura: la extracción es prácticamente automática. El usuario solo interviene en casos excepcionales, como facturas con contenido inusual o importes fuera de lo habitual.
Este proceso se aplica a cada proveedor de forma independiente. Un proveedor del que llegan facturas semanalmente alcanzará un perfil maduro en pocas semanas. Un proveedor esporádico tardará más en alcanzar el mismo nivel, pero cada factura procesada aporta información al perfil.
El aprendizaje por proveedor trabaja en conjunto con las demás funcionalidades de ScanZen. Los datos extraídos y verificados pueden exportarse directamente al ERP, ya sea Sage 200 mediante SQL, Odoo mediante XML-RPC, o en formatos como Excel, CSV y XML. Cuanto más precisa sea la extracción automática, menos intervención manual se necesita antes de la exportación, y más fluido es el proceso contable completo.
Empieza a entrenar la IA con tus proveedores
Regístrate en ScanZen y recibe 10 créditos gratuitos. Sube facturas de tus proveedores habituales y comprueba cómo la IA mejora con cada documento procesado. Consulta los planes y precios para más información.
Una IA que aprende de tus proveedores
Cuantas más facturas procesas, más precisa se vuelve la extracción. Sin configuraciones. Sin plantillas.
Prueba gratis — 10 créditosSin tarjeta. Sin compromiso.
Sigue leyendo
Niveles de confianza en la extracción de datos
Qué significa el porcentaje de confianza y cuándo se aplican los datos automáticamente.
Reducir errores en la contabilidad con IA
Tipos de errores manuales y cómo la inteligencia artificial los previene.
Vista dividida: documento y datos lado a lado
Cómo la pantalla dividida acelera la revisión de facturas procesadas.