Saltar al contenido
IA ·

Niveles de confianza en la extracción automática de datos

Qué significa el porcentaje de confianza, cuándo se aplican los datos de forma automática y cómo mejorar la precisión de la extracción.

Cuando un sistema de inteligencia artificial extrae datos de una factura, no todos los campos se leen con la misma certeza. Un CIF impreso en tipografía clara sobre fondo blanco se extrae con una confianza cercana al 100%. Un importe en una fotocopia borrosa donde los números se solapan con una línea de la tabla puede extraerse con un 60% de confianza. Esta diferencia es fundamental, porque determina cuánto puede automatizarse el proceso y cuánto requiere supervisión humana.

ScanZen asigna un porcentaje de confianza a cada campo extraído de cada factura. Este porcentaje no es un número arbitrario: es el resultado de un cálculo que combina múltiples factores para estimar la probabilidad de que el valor extraído sea correcto. Entender cómo funciona este sistema permite al usuario aprovechar al máximo la automatización sin comprometer la precisión.

Qué mide el porcentaje de confianza

El porcentaje de confianza refleja la certeza del sistema sobre un valor extraído. Un 95% de confianza significa que el sistema tiene una seguridad muy alta de que el valor es correcto. Un 70% de confianza significa que el sistema ha identificado un valor probable pero tiene dudas razonables. Un 40% de confianza indica que el sistema ha extraído algo pero no está seguro de que sea el dato correcto.

Este porcentaje se calcula de forma independiente para cada campo de la factura. Una misma factura puede tener el nombre del proveedor extraído con un 98% de confianza, la fecha con un 92%, la base imponible con un 88% y el número de factura con un 65%. Cada campo tiene su propio nivel porque cada uno depende de factores diferentes: la claridad del texto en esa zona del documento, la presencia de etiquetas identificativas cercanas, la coherencia con el formato conocido del proveedor y la validación cruzada con otros campos.

Confianza por campo, no por factura

ScanZen no asigna un porcentaje global a toda la factura. Cada campo tiene su propia confianza. Esto permite que los datos fiables se apliquen automáticamente mientras que solo los campos dudosos requieren atención manual, en lugar de obligar a revisar la factura entera por un solo campo incierto.

El umbral del 80%: aplicación automática

El sistema de ScanZen utiliza un umbral del 80% para la aplicación automática de datos. Este umbral funciona como la línea divisoria entre lo que el sistema considera fiable y lo que requiere verificación humana:

  • Campos con confianza igual o superior al 80%: se aplican de forma automática. El sistema los considera suficientemente fiables como para introducirlos directamente en la ficha de la factura sin necesidad de confirmación manual. Aparecen en la vista dividida con aspecto normal, listos para su exportación.
  • Campos con confianza inferior al 80%: se marcan para revisión. El sistema los ha extraído pero no los aplica directamente. Aparecen destacados en el formulario de la vista dividida, indicando al usuario que debe verificarlos contra el documento original antes de aprobarlos.

Este umbral no es arbitrario. Está calibrado para equilibrar la automatización con la seguridad. Un umbral demasiado bajo aprobaría datos erróneos con frecuencia, generando problemas en la contabilidad. Un umbral demasiado alto obligaría a revisar manualmente campos que en la práctica siempre son correctos, eliminando gran parte de la ventaja de la automatización.

Cómo afecta el umbral al flujo de trabajo

En la práctica, el umbral del 80% define la experiencia del usuario al revisar facturas. Con proveedores conocidos cuyas facturas se procesan habitualmente, la mayoría de los campos superan el umbral y se aplican automáticamente. El usuario abre la vista dividida, verifica visualmente que todo está correcto y aprueba la factura en segundos.

Con proveedores nuevos o facturas de baja calidad, más campos quedan por debajo del umbral. El usuario presta atención a los campos marcados, los verifica contra el documento original usando los bounding boxes del panel izquierdo, y corrige los que sean necesarios. Cada corrección alimenta el sistema de aprendizaje por proveedor, lo que sube la confianza en futuras facturas del mismo emisor.

Factores que afectan al nivel de confianza

El porcentaje de confianza de cada campo depende de una combinación de factores. Algunos están bajo el control del usuario, otros dependen del proveedor, y otros son inherentes al documento. Conocer estos factores permite tomar medidas para mejorar la precisión:

Calidad del documento de origen

Es el factor con mayor impacto. Un PDF nativo, es decir, generado digitalmente por un software de facturación, contiene texto real que el motor OCR puede leer con precisión casi perfecta. La confianza en estos documentos suele estar por encima del 95% en todos los campos.

En el otro extremo, una fotografía tomada con el móvil en condiciones de poca luz, con el documento arrugado y ligeramente inclinado, presenta múltiples desafíos: caracteres borrosos, sombras que oscurecen partes del texto, distorsión geométrica. El sistema aplica correcciones automáticas (enderezado, mejora de contraste, eliminación de sombras), pero la confianza resultante será inevitablemente menor que con un PDF nativo.

Entre ambos extremos están los PDF escaneados, que dependen de la calidad del escáner utilizado. Un escáner profesional a 300 DPI produce documentos con confianza alta. Una digitalización a resolución baja o con un escáner antiguo puede generar campos con confianza moderada.

Complejidad del formato de la factura

Las facturas con formatos sencillos y estructurados se procesan con mayor confianza que las que tienen diseños complejos. Una factura con campos claramente etiquetados ("N.º Factura:", "Fecha:", "Base Imponible:") facilita la tarea de la IA. Una factura donde los datos están distribuidos sin etiquetas explícitas, o donde varias tablas se solapan visualmente, requiere más interpretación y genera niveles de confianza menores.

Las facturas con múltiples tipos de IVA también presentan mayor complejidad, porque el sistema debe distinguir correctamente cada bloque fiscal y asociar cada base imponible con su tipo correspondiente. La confianza en el desglose de IVA suele ser ligeramente menor que en campos simples como el nombre del proveedor o la fecha.

Historial del proveedor

El sistema de aprendizaje por proveedor tiene un efecto directo sobre los niveles de confianza. Cuando ScanZen ya ha procesado varias facturas de un proveedor concreto, conoce su formato y sabe dónde buscar cada dato. Esto aumenta la confianza en los campos extraídos porque el sistema no depende solo del análisis genérico: aplica también el conocimiento específico de ese emisor.

Un proveedor del que se han procesado diez facturas sin correcciones tendrá perfiles de confianza consistentemente altos. Un proveedor nuevo, sin historial, partirá de los niveles que el modelo general asigne según la calidad y complejidad del documento.

Validación cruzada con otros campos

La confianza de un campo puede subir o bajar en función de su coherencia con otros campos de la misma factura. Si la base imponible extraída, multiplicada por el tipo de IVA, da exactamente la cuota de IVA extraída, y la suma de ambas coincide con el total, la confianza de los tres campos sube porque se validan mutuamente. Si no cuadran, la confianza baja en los campos implicados, y el sistema marca la discrepancia para revisión.

Cómo mejorar los niveles de confianza

Hay varias acciones que pueden mejorar la confianza general en la extracción de datos:

  1. Priorizar PDF nativos: siempre que sea posible, solicitar a los proveedores que envíen las facturas en formato PDF generado digitalmente en lugar de escaneos o fotografías. Esta sola medida puede llevar la confianza media del 85% al 97%.
  2. Usar el reenvío de correo: configurar el reenvío automático de correos con facturas adjuntas a ScanZen garantiza que los documentos lleguen en su formato original, sin degradación de calidad por impresión y reescaneo.
  3. Corregir los campos marcados: cada corrección que el usuario realiza en la vista dividida mejora el perfil del proveedor y aumenta la confianza para futuras facturas. No ignorar los campos marcados para revisión: corregirlos es una inversión que se recupera con creces en facturas posteriores.
  4. Procesar facturas regularmente: el sistema aprende mejor cuando recibe facturas de forma continua. Un proveedor del que llegan facturas semanalmente alcanza niveles de confianza altos mucho antes que uno del que solo se recibe una factura al trimestre.

Una vez que los datos están extraídos con confianza alta, ScanZen permite exportarlos al ERP directamente: Sage 200 mediante conexión SQL, Odoo mediante XML-RPC, o en formatos estándar como Excel, CSV y XML. La confianza en la extracción es lo que hace posible que esta exportación sea automática y fiable, cerrando el ciclo de reducción de errores desde la recepción de la factura hasta su registro contable.

Comprueba la confianza con tus facturas

Regístrate en ScanZen y recibe 10 créditos gratuitos. Sube facturas de distintos proveedores y observa los niveles de confianza en cada campo. Consulta los planes y precios para más información.

Datos extraídos con confianza medible

Cada campo con su porcentaje de confianza. Revisión solo donde es necesario. Automatización donde es seguro.

Prueba gratis — 10 créditos

Sin tarjeta. Sin compromiso.