Ya en 2006 el volumen de información generado correspondió a tres millones de veces la cantidad total de libros escritos en la historia de la humanidad. En 2010 se traspasó la barrera del Zettabyte y la proyección hacia 2015 (según estimaciones de IDC) apuntan a los 8.000 Exabyte (cerca de 8 Zettabyte). Almacenar esta información y, más difícil aún, organizarla, gestionar y sacar valor de ésta, puede representar un gran dolor de cabeza para las empresas. Se calcula que desde 2005, la inversión de las corporaciones en el universo digital ha aumentado un 50% (US$4 trillones), recursos usados para crear, administrar, almacenar y obtener ingresos por esta área. Y es que estamos en la era de big data, donde lograr obtener valor de esa avalancha de datos será una ventaja competitiva fundamental.
¿Cuáles son las proyecciones de crecimiento de la data?
El único crecimiento exponencial del área TI es la cantidad de datos. En los últimos dos años se ha generado el 80% de la información producida en toda la historia de la humanidad. Por ejemplo, sería imposible para una persona ver todo lo que está en YouTube, ya que cada minuto se suben 48 horas de video al sitio, lo que significa que diariamente se carga el equivalente a ocho años de contenido. Si bien proyectábamos un crecimiento del orden del 20% ó 30%, creo que es una estimación insuficiente para la realidad que estamos observando.
Las cifras son enormes y eso trae aparejado un gran desafío que implica no sólo almacenar esos datos, sino que poder después accederlos en forma eficiente y organizada, es decir, que dependiendo de la aplicación o relevancia de la data ésta se mueva de manera inteligente y transparente entre distintos medios de storage.
¿Cuáles son las principales fuentes de este incremento?
Las fuentes de datos no estructurados, como redes sociales, donde a diario los usuarios comparten un gran volumen de fotos y videos. También son una fuente significativa las ciudades inteligentes, principalmente por sus aplicaciones de videovigilancia a través de CCTV, que es una tendencia en América Latina, o por las redes de sensores de ruido, que se instalan para medir decibeles en ciertas zonas de las urbes, entre otras. En todos estos ámbitos es donde vemos un mayor crecimiento, por lo mismo los vendors están apuntando a salir del storage tradicional de base de datos e ir hacia a lo que nosotros llamamos storage cloud ready, que permite integrar toda esa data no estructurada y ser la base para el concepto de big data y el aprovechamiento del valor de la información para el negocio.
Esto es fundamental, porque el almacenamiento es la base o cimiento para poder manejar grandes volúmenes de datos de forma rápida y eficiente; después existen muchas soluciones que hacen el “match” de esos datos y sacan información útil para el negocio.
En big data se habla de las tres “V” como condición, ¿una Pyme cumple con ésta? ¿Puede tener Big data?
Big data se refiere a la integración del mundo de la información estructurada que ingresa online a los sistemas de bases de datos y aquélla no estructurada que proviene de múltiples fuentes, una unión que concluye en conocimiento y valor para el negocio. Cuando se habla de las tres V, quiere decir volumen, velocidad y variedad. Si bien esto no significa necesariamente que para enfrentar big data una compañía deba tener Petabytes de información, desde mi punto de vista una Pyme no está en ese nivel, y a lo que sí puede llegar es a dar un primer paso que sea hacia cloud, para poder usar los recursos de forma flexible, pero no a big data, que implica mayor cantidad de datos.
Entonces, ¿la nube es el primer paso hacia una estrategia de big data?
Sin duda. No se puede ir a big data con una granja de servidores o todas las aplicaciones bajo la infraestructura actual que posee limitaciones en cuanto a crecimiento y no permite un manejo flexible de los recursos; sería inmanejable. Las compañías primero deben ir a cloud -es un paso previo- y hoy la mayoría de los vendors apunta hacia esa dirección.
¿En Chile existe una conciencia real de esta problemática y de la relevancia de tomar ese camino?
En Chile aproximadamente un 50% de las empresas ya está adoptando un modelo de cloud computing o pensando en hacerlo, mientras que en la Región el promedio es de 38%, por lo que el país está liderando la adopción de la nube, principalmente en mercados como el financiero y de telecomunicaciones. Incluso he escuchado a clientes nacionales hablar de cloud 2.0.
Con tanto volumen, ¿se corre el riesgo de guardar información que no sea útil para el negocio?
La recomendación en este sentido es dejar de almacenar tanto, pero eso no significa frenar el storage, sino tener la tecnología adecuada para que, en los mismos metros cuadrados, se pueda guardar más información, pues también hay que considerar que las reglamentaciones en muchos sectores implican mantener ciertos datos por una década. Sin embargo hay tecnologías que permiten lograr lo anterior.
Big data apunta a sacar valor de esos datos, lo que puede tener múltiples aristas y aplicaciones, por lo que la información que hoy resulta inútil puede llegar a convertirse en conocimiento para el negocio con una adecuada gestión.
¿Cuáles son las principales tecnologías detrás de big data?
Por ejemplo, la compresión y deduplicación, que posibilitan precisamente guardar más datos en la misma cantidad de Gigabytes o Petabytes, y luego almacenar éstos en el medio adecuado. Es así que la información, que debe cumplir regulaciones y estar por largos períodos almacenada, lo mejor es que utilice como storage las cintas. En cambio, si es data que ingresa en forma online puede ir a un disco rápido y aquélla que requiero mantener a corto plazo puede guardarse en un disco mediano. La idea con estas tecnologías es manejar el storage para almacenar más de lo que ya se tiene y elegir el medio adecuado para cada nivel de la data.
El storage es el cimiento para que metodología de big data sea más fácil de implementar, y para eso se recurre a tecnologías como las mencionadas, además de virtualización y HCM que se refiere al manejo jerárquico del almacenamiento en base a políticas preestablecidas que permiten pasar de un medio a otro en forma automática y transparente. Por ejemplo, un e-mail que ahora está vigente, en algunos meses ya no será tan importante, por lo que puede moverse hacia otro medio.
Lo importante es focalizarse en que la infraestructura sea sencilla, automatizada y con las mejores prácticas para que sea un cimiento sólido para big data.
¿Qué aplicaciones puede realizar hoy una empresa con big data?
Hay una multiplicidad de opciones. Si observamos, por ejemplo, el sector de la banca, es posible “setear” políticas de compras orientadas a detectar fraude. Entonces un usuario registra cierto patrón de compra (query), y cuando su tarjeta exhibe una transacción el sistema realiza el “match” entre ésta y el patrón; si no coinciden se envía automáticamente una alerta al banco de posible fraude. Por eso, hay entidades que solicitan a sus usuarios que cuando viajen avisen para ingresar esa nueva política al patrón, de manera que cuando efectúen una transacción sea reconocida dentro de sus hábitos de consumo y no arroje una alerta por fraude.
Adrián Restuccia es Especialista Técnico
en Soluciones de Storage High End de IBM Sudamericana Hispana.