IPSA y Daedalus investigan en sistemas de reconocimiento de documentos no estructurados

Editorial

hace 8 años

IPSA, compañía española especializada en el desarrollo de software para el tratamiento masivo de documentación mediante tecnología de imágenes, lidera un proyecto que ha sido subvencionado por el Ministerio de Industria, dentro del área de Tecnologías de la Sociedad de la Información (TSI), para el desarrollo del proyecto de investigación EDDENN.

En los últimos tiempos se ha demostrado el éxito de los sistemas que extraen información fiable de modo automático mediante la aplicación de una combinación de técnicas como digitalización del documento, reconocimiento automático y captura asistida mediante videograbación. Hasta ahora, estos sistemas se han centrado en el tratamiento de documentos estructurados (como los formularios) o de documentos semiestructurados (como documentos de pago: letras, recibos, cheques?).

No obstante, los buenos resultados obtenidos en estos ámbitos anima a las entidades que procesan grandes volúmenes de documentos a interesarse por la aplicación de estas técnicas en documentos más complejos y no estructurados como facturas, albaranes, órdenes de operación a entidades bancarias, documentos heterogéneos que forman parte de expedientes, etc.

Documentos semiestructurados y no estructurados

El Ministerio de Industria a través de su área TSI, ha confiado en IPSA para emprender este proyecto que profundiza en el tratamiento del ámbito de los documentos semiestructurados y no estructurados. Esta incursión se fortalece con la cooperación de DAEDALUS, compañía experta en tecnología lingüística, que con este proyecto se adentra en la problemática del tratamiento de textos procedentes de sistemas automáticos de reconocimiento.

Hasta ahora, los procesos de personalización de soluciones para clientes pasan por configurar los sistemas mediante la definición manual de una plantilla para cada tipo de documento que el sistema deba procesar. Pero, en ocasiones, el número de tipos de documentos a tratar es muy amplio, como ocurre en el caso de ciertos documentos semiestructurados (facturas en las que cada proveedor tiene su modelo), por lo que el proceso de definición manual de plantillas resulta largo y costoso. Peor es el caso de los documentos no estructurados en absoluto, aquellos que no se ajustan a ningún tipo predeterminado, y sobre los que es imposible definir plantilla alguna. Así, el proyecto EDDENN, aborda dos líneas de trabajo:

Una primera línea de trabajo se centra en el desarrollo de una tecnología que permita el diseño y configuración automática de plantillas de reconocimiento sobre tipos de documentos desconocidos, en los que se presupone que existe cierta información. El sistema detectará nuevos tipos o formatos de documentos, y concretará la estructura de un documento desconocido de manera automática. Además, la tecnología que se desarrolle, será capaz de «aprender» apoyada en la experiencia que va adquiriendo durante su vida operativa.

En la segunda línea de trabajo se acomete el desarrollo de la tecnología necesaria para extraer de manera automática datos relevantes contenidos en grandes volúmenes de imágenes de documentos no estructurados. Ello supone detectar, reconocer y validar de manera automática datos como nombres, matrículas, direcciones postales, cuentas bancarias…