Los profesionales de la documentación ¿vs? los sistemas de captura avanzada

Publicado el: 09/06/2013 / Leido: 30818 veces / Comentarios: 0 / Archivos Adjuntos: 0

Compartir:

Los profesionales de la documentación ¿vs? los sistemas de captura avanzada

Revista Gestión Documental | Miércoles 07 - noviembre - 2012

Por Joaquín Hierro, Arquitecto Técnico Gestión Documental

Dentro del debate sobre la evolución del profesional de la documentación, así como de las salidas laborales actuales y futuras, me resulta extraño que no se citen nunca (hasta donde recuerdo) los sistemas de captura y clasificación avanzada.

Para acotar el tipo de productos y funciones a los que me refiero haré un breve repaso, aunque es algo conocido por todos.

Los primeros sistemas de digitalización controlaban el escáner, presentaban la imagen y permitían incluir metadatos relativos al documento pero con una estructura cerrada y, en ocasiones, sin poder elegir el tipo documental y/o los metadatos a introducir.

Gradualmente, se introdujo flexibilidad para poder introducir distintos tipos documentales con diferentes definiciones y, por otra parte, con la introducción de OCR se pudo automatizar la entrada.

La introducción del OCR (y “especializaciones” como OMR, ICR,…) permitió, por una parte la captura automática de metadatos (buscando en posiciones fijas del documento), y por otra parte la clasificación del documento (en base a palabras o logotipos). Pero todo ello sobre documentos estructurados; es decir formularios con estructura y posiciones fijas.

Tras la posibilidad de tratar documentos semiestructurados (como facturas o nóminas) con una estructura más flexible que formularios, pero no totalmente abierta, los sistemas actuales más avanzados nos ofrecen funciones como:

  • Tratamiento de documentos no estructurados y diferentes unos de otros (documentos notariales, contratos, correspondencia, etc.).
  • Sin necesidad de separar por medio de páginas en blanco o códigos de barras, sino reconociendo automáticamente las páginas que conforman cada documento.
  • Mezclar en el mismo lote documentos de distinto tipo.
  • Manejar documentos completamente autógrafos (no solo formularios rellenos “a mano”).
  • Clasificar automáticamente los documentos en base a su contenido, apariencia general o reglas especificadas (ej. Contiene la palabra “Contrato” en la mitad superior de la primera página).
  • Extracción de los metadatos no solo por posiciones en la página sino por diversos criterios como expresiones regulares, localización de marcadores, comparación con una base de datos, etc.).
  • Comprobación de integridad del expediente (¿tiene todos los documentos necesarios?, ¿están todos los metadatos rellenos?, ¿coincide el código X en todos los documentos?, ¿suma el campo Y de cada documento la cantidad Z?).
  • Por último inserción en el gestor documental de la institución, en el tipo documental asignado y con la equivalencia de metadatos definida y tipos definidos.

Entre los productos que incluyen en mayor o menor medida las capacidades que he citado podrían incluirse:

  • KTM de Kofax
  • Captiva de Emc2
  • Flexycapture de Abbyy
  • Document Reader de A2ia
  • Datacap de IBM
  • Atril de Ipsa
  • Distiller de Brainware

Es decir, hablamos de sistemas para cubrir las funciones de:

  • Recibir un conjunto de “papeles”,
  • Analizar su contenido,
  • Paginar,
  • Clasificar cada conjunto de páginas como un documento de un tipo dado,
  • Extraer información de diferentes puntos del propio documento
  • Crear una ficha del documento para insertar en un repositorio documental.

¿Cómo llamaríamos a ese puesto/perfil si lo realizara una persona?…

En gran parte de los proyectos, el entrenamiento y parametrización de este tipo de software es realizado por técnicos con raíces más tecnológicas y menos documentales, cuando pienso que el entrenamiento de estos “documentalistas automáticos” podría encajar perfectamente en el perfil y conocimientos de un especialista en documentación (en algunos casos complejos en equipo con un desarrollador que codifique las operaciones que no pueden parametrizarse o entrenarse).

Se trata de sistematizar una taxonomía y clasificación, dar criterios para extraer metadatos definir cuando está completo un expediente y en resumen, dar directrices a un “aprendiz de documentación” para que haga su trabajo.

Creo que puede considerarse similar al proceso ocurrido con las aplicaciones de contabilidad, el contable ya no “cuenta”, parametriza el programa de contabilidad (o incluso ayuda a diseñar uno). Similarmente el documentalista definiría los criterios y parametrizaría el programa de captura.

Adicionalmente hay una segunda fase; aunque puede llegar conseguirse porcentajes de acierto muy altos (80%-90%), siempre hay documentos cuya clasificación o extracción de datos falla. En ese caso, una persona debe revisar y decidir qué tipo de documento es ese y si es conveniente incluirlo como ejemplo para futuras entradas. La extracción de datos puede requerir mayor o menor capacitación dependiendo del documento y proceso, pero la identificación del tipo de documento requiere un mayor conocimiento y de nuevo parece idóneo para un profesional de la documentación.

Este “mirar para otro lado” no solo se encuentra en una de las partes; los fabricantes y empresas que trabajan con estos productos también centran sus miras en técnicos informáticos más que en expertos en documentación.

¿Cuál es el origen de este “divorcio”? ¿Desconocimiento? ¿Se considera una pérdida de puestos de trabajo? ¿Se considera que no es el perfil adecuado?

Pienso que ambas partes tienen que acercarse, lo que permitiría a unos profesionales trabajar en un ámbito poco cubierto por ellos y en el que tienen mucho que decir, y a las empresas disponer de expertos en análisis y clasificación de documentos que pueden ser los más adecuados para entrenar sus sistemas.

Para más información: http://code.google.com/p/openprodoc/

Publicado el: 09/06/2013 / Leido: 30818 veces / Comentarios: 0 / Archivos Adjuntos: 0

Compartir:
Dejar comentario

Comentarios