innovación

Cinco técnicas para la gestión inteligente de documentos



Dirección copiada

Las soluciones inteligentes de gestión de documentos combinan la búsqueda y el análisis con el Procesamiento del Lenguaje Natural (PLN) y el Aprendizaje Automático para extraer automáticamente la información relevante de los datos no estructurados.

Actualizado el 31 oct 2022



Analisis-Inteligente-de-Documentos-1

El Análisis Inteligente de Documentos (IDA) puede aportar beneficios tangibles en todos los sectores y funciones empresariales, como mejorar la gestión del cumplimiento y de riesgos, aumentar la eficiencia operativa y optimizar los procesos empresariales.

Hay cinco técnicas de IDA que las organizaciones pueden evaluar hoy en día para su implementación.

• La primera es el reconocimiento de entidades. Se identifican las menciones de entidades con nombre dentro del texto y se clasifican en categorías predefinidas, como nombres de personas, organizaciones, lugares, expresiones de tiempo, valores monetarios, etc.

Si las entidades que se quieren identificar son finitas y están predefinidas, un enfoque determinista será más fácil y preciso. En este enfoque, se proporciona un diccionario de las entidades; entonces, el reconocedor de entidades identificará en el texto cualquier instancia de una entrada del diccionario. Por ejemplo, el diccionario podría contener una lista de todos los productos de una empresa. También es posible combinar el enfoque del diccionario con el Aprendizaje Automático. Otra forma es el reconocimiento de entidades basado en patrones. Si un tipo de entidad puede definirse mediante expresiones regulares, estas podrían identificarse utilizando la concordancia de expresiones regulares. Por ejemplo, los códigos de productos.

• La segunda técnica de IDA es la similitud de textos. Esta permite calcular la similitud entre frases, párrafos y documentos. Para esto, primero se debe convertir el texto en un vector “ndimensional” que lo represente. Este vector puede contener las palabras clave y las entidades del documento o una representación de los temas expresados en el contenido. La similitud entre los vectores y, por tanto, los documentos, puede medirse entonces mediante técnicas como la similitud del coseno.

• La tercera técnica es la clasificación de textos. Esta se utiliza para asignar un elemento de texto a una o varias categorías en función de su contenido. La forma más sencilla de clasificación es la binaria, en la que solo hay dos clases posibles en las que se puede clasificar un elemento. En general, cuanto menor sea el número de clases y etiquetas, mayor será la precisión esperada. La clasifi- cación de textos utilizará las palabras, entidades y frases del documento para predecir las clases. La clasificación de textos puede, por ejemplo, aplicarse a secciones de un documento para identificar, por ejemplo, las partes de una carta en las que se presentan reclamaciones y el tipo de estas.

• La cuarta técnica es la extracción de información. Esta se basa en el reconocimiento de entidades. Es la comprensión del contexto de las entidades lo que ayuda a determinar cuál es la respuesta correcta.

• Finalmente, está la síntesis de textos. Se trata de acortar el texto para crear un resumen coherente de los puntos principales. La síntesis extrae oraciones o frases sin modificar el texto original. Este enfoque genera un resumen compuesto por las “N” frases más importantes del documento. Se utiliza la generación de lenguaje natural para parafrasear y condensar el documento.

Este método es mucho más complejo y experimental que el basado en la extracción. La síntesis de textos puede utilizarse para que los seres humanos puedan digerir rápidamente el contenido de grandes volúmenes de documentos sin necesidad de leerlos completamente. Un ejemplo de ello son las fuentes de noticias o las publicaciones científicas, en las que se genera constantemente un gran volumen de documentos.

Principales complejidades

El Aprendizaje Automático tiende a ser mucho más complejo en los textos no estructurados que en los datos estructurados, por lo que es mucho más difícil alcanzar o superar el rendimiento del nivel humano en el análisis de documentos de texto. El primer desafío es la complejidad del lenguaje. Los seres humanos tardan años en comprender el lenguaje debido a la variación, la ambigüedad, el contexto y las relaciones que contiene. Las técnicas de IDA deben ser capaces de dar sentido a los diferentes estilos, ambigüedades y relaciones entre palabras para obtener una visión precisa. Un enfoque para manejar la terminología específica del dominio es utilizar diccionarios personalizados o construir modelos de Aprendizaje Automático personalizados para la extracción de entidades, la extracción de relaciones, etc.

El segundo gran desafío es la precisión, la cual dependerá de la variación, el estilo y la complejidad del lenguaje utilizado. Además, la calidad de un modelo de Aprendizaje Automático depende del volumen y la calidad de los datos de entrenamiento. Sin embargo, la mejor guía para saber si una solución IDA generará resultados precisos es preguntarse “¿un humano podría hacer esto?” Si un ser humano puede aprender a realizar la tarea con precisión sin necesidad de años de formación, la IDA tiene el potencial de ofrecer ventajas al acelerar el proceso, mantener la coherencia o reducir el trabajo manual.

Con una planificación y una estrategia de implementación minuciosas, las empresas pueden aprovechar las técnicas de PNL y de Aprendizaje Automático para crear aplicaciones IDA que mejoren los resultados empresariales. Las herramientas y técnicas para avanzar ya están disponibles.

Artículos relacionados

Artículo 1 de 4