La investigación científica moderna realizada en las universidades genera una ingente cantidad de datos no estructurados. Suelen conservarse en los repositorios llamados data lakes. Administrarlos y explotarlos adecuadamente requiere el uso de ciencia de datos e inteligencia artificial, mediante algoritmos de machine learning. Ahora bien, la complejidad y la rigidez de la tecnología heredada, tanto en on premise como en la nube, pueden ser barreras para lograrlo. Es decir, para facilitar la innovación y realizar análisis modernos y procesables se requiere de infraestructura orientada específicamente al aprovechamiento de la ciencia de datos e inteligencia artificial.
Actualmente, en las universidades, los científicos de datos se preparan con plataformas en la nube. Sin embargo, dado el gran volumen de datos necesarios para entrenar los algoritmos, los datos deben ser accesibles con mucha facilidad. Por ello, para aprovechar verdaderamente los data lakes, es preferible el almacenamiento en los propios campus. «La adopción de almacenamiento de datos no estructurados, on premise, ya es indispensable. Va muy orientado al desarrollo de científicos de datos en los centros de investigación», explica en entrevista Alejandro Aguado, director de canales para Latinoamérica de Pure Storage.
Centros de datos optimizados
Originalmente, los datos se almacenaban en medios mecánicos, los cuales conllevan costos asociados muy elevados, sobre todo por el volumen de los data lakes. Por ello, es conveniente recurrir al almacenamiento de alto rendimiento como el de FlashBlade//S. Se trata de una plataforma modular desagregada, con una arquitectura de metadatos escalable casi ilimitada, configurable y personalizable. Además, tiene flexibilidad para resolver las cargas de trabajo asociados a la ciencia de datos e inteligencia artificial sin necesidad de almacenamiento en caché. Gracias a su mejor rendimiento, hasta una escala de exabytes, puede trabajar sin trabas con datos no estructurados.
Además, dado que el almacenamiento de alto rendimiento utiliza celdas con mayor densidad, se necesitan menos unidades de rack. Por ende los centros de datos se vuelven más pequeños, lo cual facilita el trabajo del departamento de TIC y los científicos de datos. Por otra parte, se incrementa su sustentabilidad, pues consumen menos energía y requieren menor enfriamiento, menos puertos y menos cableado. En conjunto, lo anterior no sólo facilita la operación de los centros de datos, sino que disminuye su costo total de la propiedad (TCO).
Tecnología para ciencia de datos e inteligencia artificial
Por supuesto, contar con almacenamiento de alto rendimiento no es suficiente por sí sólo cuando se trata de ciencia de datos e inteligencia artificial. Procesar los datos no estructurados con eficiencia implica tener la infraestructura y los servidores adecuados.
En ese rubro, destaca AIRI (AI-Ready Infrastructure), desarrollada originalmente en 2018 por Pure Storage, en colaboración con NVIDIA. Su arquitectura está diseñada específicamente para escalar sin complicaciones las inversiones en ciencia de datos e inteligencia artificial. La nueva generación, AIRI//S, incorpora tecnología FlashBlade//S, sistemas NVIDIA DGX A100 y redes de extremo a extremo, basadas en NVIDIA Quantum y Spectrum.
«En el sector educativo hemos trabajado a nivel mundial con el manejo de datos no estructurados, para explotarlos a través de una plataforma unificada. AIRI//S está orientada específicamente a dicha explotación» —explica Aguado—. «Cuando se trata de ciencia de datos e inteligencia artificial ya no se requiere de programación tradicional. En cambio, se usan algoritmos en los que la carga de datos y su explotación se hacer concurrentemente y cada vez más rápido».
Beneficios tangibles
Entre los beneficios principales de AIRI//S se cuentan:
●Facilidad de uso: Se puede configurar, implementar y administrar de forma rápida y sin problemas como una solución de canalización de IA de extremo a extremo. Ello garantiza que los responsables de la infraestructura no se verán abrumados por los crecientes requisitos de la inteligencia artificial. Por otra parte, los científicos de datos pueden dedicar más tiempo a su trabajo de análisis sin preocuparse por la infraestructura.
●Rendimiento escalable: Por su rendimiento multidimensional para todas las etapas de la canalización de datos, se pueden escalar fácilmente las capacidades de cómputo y de almacenamiento.
●Agilidad: La infraestructura es fácilmente adaptable a las necesidades cambiantes de la ciencia de datos e inteligencia artificial. Ello permite acortar los tiempos para aprovechar lo mejor posible los data lakes.
●Actualizaciones no disruptivas: Con el servicio de suscripción Evergreen, los clientes obtienen flexibilidad y actualizaciones sin interrupciones de los componentes de AIRI//S y FlashBlade//S. Ello previene la obsolescencia del equipo o las migraciones de datos disruptivas y las actualizaciones forzadas.