Data mining: Una visión práctica

Data warehouse, data mart, data mining, Olap, Molap, Rolap, Holap. ¿Qué significa exactamente este baile de siglas y conceptos?; ¿qué tecnología es la más recomendable para cada necesidad específica?; ¿cuál es la utilidad real de la minería de datos?; ¿qué aplicaciones reales existen que demuestren su eficacia?

Publicado el 30 Nov 2012

salvador

Data warehouse, data mart, data mining, Olap, Molap, Rolap, Holap. ¿Qué significa exactamente este baile de siglas y conceptos?; ¿qué tecnología es la más recomendable para cada necesidad específica?; ¿cuál es la utilidad real de la minería de datos?; ¿qué aplicaciones reales existen que demuestren su eficacia?

En el mercado suenan comúnmente siglas como data warehouse, data mart, data mining, Olap, Molap, Rolap y Holap, todas asociadas con la gestión o análisis de los datos. Sin embargo, saber cuál es la más recomendable para cada requerimiento particular implica conocer qué significa cada una. El primer punto a tener en cuenta es diferenciar claramente tres conceptos: data warehouse, data mart y data mining. Un data warehouse es un almacén en el que residen todos los datos procedentes de las distintas plataformas informáticas de la compañía. Desde el data warehouse se establecen una serie de data marts que albergan datos concretos de un área específica de la compañía: marketing, finanzas, etc. El concepto es el mismo: se trata de tomar la información de las distintas áreas dentro del data warehouse y organizarla de tal forma que las personas de las áreas específicas puedan tener los datos que necesiten, de manera que puedan disponer de una referencia más ajustada. Estos ofrecen un acceso más rápido a la información exacta, y también existe la posibilidad inversa: a partir de una serie de data marts configurar un data warehouse corporativo.

De este modo se van solucionando los problemas de negocio más específicos, conociendo aspectos importantes como quién o quiénes son los clientes que más beneficios producen. Ofreciendo este concepto no es necesario remitirse a toda la información. Se trata de obtener respuestas a preguntas. El data warehouse, entendido como un big bang, puede a veces ser un error, aunque algunos fabricantes mantengan que es la única forma de solucionar los problemas.

El data minig, sin embargo, consiste en algo más preciso. Una vez que todos los datos están organizados, el data mining es una de las formas de explotarlos. Existen varias herramientas para realizar esa explotación, como heramientas Olap sistemas EIS, “query and reporting” y “business reporting”. La minería de datos es, entonces, una de las tecnologías que existen para explorar los datos y entender y solucionar los problemas de negocio. De hecho, es la técnica más avanzada para hacerlo y encontrar información que no aparece a simple vista; esos esquemas y tendencias escondidos en los datos. A través de data mining es más fácil cuantificar el resultado. Existen aplicaciones de marketing, como perfiles de clientes, segmentación de mercado u otras áreas que utilizan, técnicas de minería de datos para saber algo más acerca de éstos. El ejemplo típico es el análisis de la cesta de la compra, en el que se buscan los enlaces entre la compra de unos productos y de otros. Esto tiene como objeto optimizar el servicio a los clientes y facilitarles la compra.


La compra de cerveza y la rentabilidad del queso feta

El ejemplo más difundido dentro de estas técnicas de data mining es el de los pañales y la cerveza. Se observó que los viernes por la tarde en las grandes áreas comerciales se producía un aumento en las ventas de cerveza. Al intentar analizar el porqué de este aumento pudo comprobarse que gran parte de las personas (hombres en su mayoría) que habían adquirido cerveza, también habían comprado pañales para bebé. Esto viene a decir que siempre que un varón de una edad determinada con hijos pequeños, va a comprar pañales para el fin de semana, compra también cerveza. Entonces, para facilitar el consumo de los dos artículos se colocaron en estanterías cercanas. Las ventas de cerveza, a raíz de esto, aumentaron aún más.

Otro ejemplo es el del feta, un queso griego que resultó ser uno de los artículos menos solicitados de toda una superficie comercial, hasta el punto de que su comercialización aportaba beneficios prácticamente nulos. El supermercado en cuestión se planteó la posibilidad de suprimirlo de su catálogo de ofertas. Pero al realizar un análisis del perfil de las pocas personas que lo compraban se dieron cuenta de que, casualmente, eran los clientes que más dinero se gastaban en su cesta de compra y que más fieles eran al negocio. Por esa razón se decidió conservar el queso feta en la oferta del supermercado.

El data mining puede ayudar a controlar la psicología del consumidor y su comportamiento ante los estímulos de marketing, la publicidad y todos los métodos de persuasión que utilizan las empresas para dirigirse a sus consumidores. Y esto es útil tanto para diseñar este tipo de estrategias como para analizar “a posteriori” sus efectos.

Siempre resultarán más efectivas estas técnicas si existe un data warehouse por detrás, ya que cuanto más “limpios” estén los datos sobre los que se trabajará, de mayor calidad y precisión será el resultado del análisis que se obtenga. Es muy sencillo: cuanto mejor estén organizados los datos -y el data warehouse o el data mart ofrecen la base para trabajar- más rápido es el resultado.


Olap, Molap, Rolap, Holap

El procesamiento analítico de transacciones online (Olap) es una forma de explotación de los datos. La “M” y la “R” delante de las siglas Olap significan Multidimensional y Relational, respectivamente. Básicamente la diferencia es que en la tecnología multidimensional se han predefinido y creado una serie de dimensiones, estableciendo una visión de los datos basada en las tendencias de consulta de los usuarios. De esta forma, el procesamiento analítico online multidimensional es más rápido porque esta predefinido, pero es menos flexible.

En la tecnología Rolap sucede lo contrario: es una técnica más flexible pero menos rápida porque hay que acceder a todos los datos. Es un método muy útil, pero para los usuarios que quieren centrarse en un análisis específico resulta más complicado; entendido esto, la selección es sobre costo-beneficio y no siempre favorece al costo. A estas dos técnicas hay que sumar una nueva: Holap (Hybrid Online Analytical Processing), que viene a ser una mezcla de las dos anteriores.

Salvador Gandulfo es Ingeniero Civil Industrial y PhD en Business Intelligence. Se ha desempeñado durante más de 10 años como consultor en TI, con especialización en Business Intelligence, Business Process Management, reingeniería y IT governance. Actualmente lidera el equipo de BPM & BI en Strategos (strategos.pro) y es profesor del Diplomado en Gestión Informática en el Departamento de Ingeniería Informática de la Universidad de Santiago de Chile.

¿Qué te ha parecido este artículo?

¡Síguenos en nuestras redes sociales!

Redacción

Artículos relacionados

Artículo 1 de 2