NVIDIA presentó una plataforma de aceleración por GPU para la ciencia de datos y el aprendizaje de máquinas, de amplia adopción entre los líderes de la industria, que permite incluso a las empresas más grandes analizar enormes cantidades de datos y realizar predicciones comerciales precisas a una velocidad sin precedentes.
El software de código abierto RAPIDS les brinda a los científicos de datos un enorme salto de rendimiento para resolver los desafíos comerciales más complejos, como predecir fraudes con tarjetas de créditos, pronosticar inventarios de venta minorista y comprender el comportamiento de compra de los clientes. Cada vez más empresas reconocen la importancia de las GPU para el análisis de datos. Es por eso que muchas de ellas utilizan RAPIDS, desde pioneros en la comunidad de código abierto (como Databricks y Anaconda) hasta líderes tecnológicos como Hewlett Packard Enterprise, IBM y Oracle.
Los analistas estiman que el mercado de servidores para la ciencia de datos y el aprendizaje de máquinas tiene un valor de US$ 20.000 millones al año, que (junto con el análisis científico y el aprendizaje profundo) aumenta el valor del mercado de la computación de alto rendimiento hasta alcanzar los US$ 36.000 millones.
“El análisis de datos y el aprendizaje de máquinas eran los segmentos más importantes del mercado de la computación de alto rendimiento que no se habían acelerado… Hasta ahora”, dijo Jensen Huang, fundador y CEO de NVIDIA, quien presentó RAPIDS en su discurso en el evento de GPU Technology Conference. “Las industrias más grandes del mundo ejecutan algoritmos escritos por el aprendizaje de máquinas en un mar de servidores para detectar patrones complejos en su mercado y entorno, a fin de realizar predicciones rápidas y precisas que afectan directamente la rentabilidad.
“Utilizamos CUDA y su ecosistema global, y trabajamos estrechamente con la comunidad de código abierto para crear la plataforma de aceleración por GPU RAPIDS. Se integra a la perfección con las bibliotecas y flujos de trabajo más populares de la ciencia de datos para acelerar el aprendizaje de máquinas. Le dimos un fantástico impulso al aprendizaje de máquinas, como hicimos con el aprendizaje profundo”, dijo.
RAPIDS ofrece un conjunto de bibliotecas de código abierto para el análisis, el aprendizaje de máquinas y, próximamente, la visualización de datos, acelerados por GPU. Los ingenieros de NVIDIA trabajaron durante los últimos dos años en su desarrollo, en estrecha colaboración con los contribuidores de código abierto.
Por primera vez, los científicos de datos cuentan con las herramientas necesarias para ejecutar todo el proceso de ciencia de datos en GPU. Las primeras pruebas de RAPIDS, usando el algoritmo de aprendizaje de máquinas XGBoost para la capacitación en un sistema NVIDIA DGX-2, muestran una aceleración de 50 veces, en comparación con los sistemas solo de CPU. Esto les permite a los científicos de datos reducir los tiempos de capacitación típicos de días a horas, o de horas a minutos, según el tamaño del conjunto de datos.
RAPIDS se basa en proyectos de código abierto conocidos, como Apache Arrow, pandas y scikit-learn, para agregar la aceleración por GPU al conjunto de herramientas vinculadas de Python para la ciencia de datos más popular. Para sumar más capacidades y bibliotecas de aprendizaje de máquinas a RAPIDS, NVIDIA trabaja junto con colaboradores del ecosistema de código abierto como Anaconda, BlazingDB, Databricks, Quansight y scikit-learn, así como Wes McKinney, director de Ursa Labs y creador de Apache Arrow y pandas, la biblioteca de ciencia de datos de Python de mayor crecimiento.
“La plataforma para la ciencia de datos acelerada por GPU RAPIDS es el ecosistema de computación de próxima generación con la tecnología de Apache Arrow”, dijo McKinney. “La colaboración de NVIDIA con Ursa Labs acelerará el ritmo de innovación en las bibliotecas Arrow esenciales y permiten aumentar enormemente el rendimiento de las cargas de trabajo de análisis e ingeniería de funciones”.
Para facilitar la adopción, NVIDIA integra RAPIDS en Apache Spark, el marco de trabajo de código abierto más importante para la el análisis y la ciencia de datos.
“En Databricks, estamos muy entusiasmados por el potencial de RAPIDS para acelerar las cargas de trabajo de Apache Spark”, dijo Matei Zaharia, cofundador y líder de tecnología de Databricks, y fundador de Apache Spark. “Varios proyectos actuales planean integrar Spark mejor con los aceleradores nativos, lo que incluye la compatibilidad con Apache Arrow y la programación de GPU con Project Hydrogen. Creemos que RAPIDS es una oportunidad nueva y emocionante para escalar las cargas de trabajo de IA y ciencia de datos de nuestros clientes”.