IADOC utiliza modelos de
visión artificial y de análisis de
lenguaje natural (NLP), diseñados y entrenados específicamente para extraer todo
el
texto contenido en un archivo de imagen (jpg, png o pdf) Posteriormente
determina
los campos de interés que constituirán los metadatos deseados (Nombre del
emisor,
Dirección, CIF, Numero de Factura, artículos facturados, total factura …). El
proceso el siguiente:
La aplicación corre en segundo plano y monitoriza continuamente un directorio de
entrada, hasta que encuentra ficheros de imagen procesables.
Procesa la imagen de cada fichero y obtiene por un lado el texto completo que
contiene y por otro la posición en dos dimensiones de cada palabra que lo compone.
El texto y la posición de cada palabra se pasa como entrada a un modelo NLP
específico para identificar y marcar todos los campos de interés.
La aplicación genera un fichero json con el mismo nombre que el archivo de imagen
analizado. Consta de los siguientes campos:
El texto completo del documento.
La posición en el documento de cada una de las palabras que lo componen en
dos dimensiones.
Los metadatos extraídos.
La aplicación traslada el documento de imagen y su json asociado a un directorio de
salida. El fichero de imagen se elimina del directorio de entrada.
La aplicación lee el siguiente fichero o se mantiene a la espera si no hay ficheros
pendientes.
Permite a un usuario revisar y validar los metadatos
extraídos de forma automática en el anterior paso.
En primer lugar, lee tanto el fichero de imagen a procesar como el fichero json
asociado al mismo.
Permite la validación de la información extraída presentándosela al usuario de dos
formas::
Visualmente: se muestra una imagen de la factura y sobre ella se resaltan
los metadatos extraídos recuadrándolos con rectángulos de diferente color
para cada tipo de metadato para una revisión rápida.
Mostrando simultáneamente en modo texto cada uno de los metadatos. Este
texto es editable por el usuario si ve algún dato que falta o un error en la
extracción del campo. El metadato es corregido y modificado en el json
asociado a la factura.
Una vez revisados o corregidos los metadatos de la factura, el usuario
valida el documento y el json que contiene los metadatos es archivado junto
a la factura original.