Inicio Salud Big Data y analítica Almacenamiento de datos de IA

Almacenamiento de datos de IA

Por Julio Castrejón, Country Manager México en Pure Storage

Por

30 noviembre, 2023

423

Como tecnología con un potencial enorme pero no aprovechado, la inteligencia artificial (IA) ha estado en la agenda corporativa durante mucho tiempo. Este año, sin duda, ha ido a toda marcha, debido a la inversión de 10,000 millones de dólares de Microsoft en OpenAI. A ello se suman iniciativas estratégicas de Meta, Google y otros en IA generativa. Eso presenta crecientes desafíos en el almacenamiento de datos de IA

En términos de su probable impacto en el sector tecnológico y la sociedad en general, la IA puede compararse con la introducción de la base de datos relacional. Dicha introducción fue la chispa que encendió una apreciación generalizada por los grandes conjuntos de datos. Eso resonó tanto en los usuarios finales como entre los desarrolladores de software.

La IA y el machine learning (ML) pueden verse en los mismos términos, pues proporcionan una base formativa no sólo para crear nuevas y poderosas aplicaciones. También para mejorar la forma en que interactuamos con tecnología innovadora junto con conjuntos de datos grandes y dispares. Ya estamos viendo cómo estos desarrollos pueden ayudarnos a resolver problemas complejos mucho más rápido de lo que era posible.

Desafíos del almacenamiento de datos de IA

Para comprender los desafíos que presenta el almacenamiento de datos de IA, debemos analizar sus fundamentos. Cualquier capacidad de aprendizaje automático (ML) requiere un conjunto de datos de entrenamiento. En el caso de la IA generativa, los conjuntos de datos deben ser muy grandes y complejos e incluir diferentes tipos de datos.

La IA generativa se basa en modelos complejos y sus algoritmos pueden incluir una gran cantidad de parámetros que debe aprender. Cuanto mayor sea la cantidad de características, el tamaño y la variabilidad de la salida anticipada, mayor será el volumen de los datos. Eso se combina con el número de épocas en las ejecuciones de entrenamiento antes de que pueda comenzar la inferencia.

En esencia, la IA generativa debe hacer una suposición fundamentada o ejecutar una extrapolación, regresión o clasificación basada en el conjunto de datos. Cuantos más datos tenga para trabajar el modelo, mayores serán las posibilidades de obtener un resultado preciso o de minimizar la función error/costo.

En los últimos años, la IA ha aumentado constantemente el tamaño de estos conjuntos de datos. La introducción de grandes modelos de lenguaje, en los que se basan ChatGPT y otras plataformas de IA generativa, ha hecho que su tamaño y complejidad aumenten en un orden de magnitud. Esto se debe a que los patrones de conocimiento aprendidos que surgen durante el entrenamiento del modelo de IA deben almacenarse en la memoria. Eso puede convertirse en un verdadero desafío con modelos más grandes.

Aumento exponencial de volumen

Establecer puntos de control en modelos grandes y complejos también ejerce una enorme presión sobre la red subyacente y la infraestructura de almacenamiento. Esto es porque el modelo no puede continuar hasta que todos los datos internos se hayan guardado en el punto de control. Dichos puntos de control actúan como puntos de reinicio o recuperación si el trabajo falla o el gradiente de error es no mejorado.

Las organizaciones que invierten en IA querrán crear sus propios conjuntos de datos muy grandes para aprovechar las oportunidades que ofrece. Esto se logra al utilizar redes neuronales para identificar los patrones y estructuras dentro de los datos existentes para crear contenido nuevo y propietario.

Debido a que los volúmenes de datos aumentan exponencialmente, las organizaciones deben utilizar el almacenamiento de datos de IA más denso y eficiente posible. El fin es limitar el espacio en expansión de los centros de datos y los crecientes costos de energía y enfriamiento que los acompañan. Esto presenta otro desafío que comienza a surgir como un problema importante: las implicaciones de los requisitos de almacenamiento a gran escala para alcanzar los objetivos netos de carbono cero en 2030-2040.

Está claro que la IA tendrá un impacto en los compromisos de sostenibilidad debido a las exigencias adicionales que impone a los centros de datos. Esto sólo aumentará la presión sobre las organizaciones, pero puede adaptarse y gestionarse trabajando con los proveedores de tecnología adecuados.

Los últimos servidores GPU consumen entre 6 y 10 kW cada uno. La mayoría de los centros de datos existentes no están diseñados para ofrecer más de 15 kW por rack. Por ende, surge un gran desafío para a medida que las implementaciones de GPU aumentan en escala.

**Almacenamiento flash, óptimo para IA**

Algunos proveedores de tecnología ya están abordando la sostenibilidad en el diseño de sus productos. Por ejemplo, las soluciones de almacenamiento totalmente flash son considerablemente más eficientes que sus contrapartes de disco giratorio (HDD). Algunos proveedores incluso van más allá de los SSD disponibles en el mercado. Crean sus propios módulos que permiten que las matrices totalmente flash se comuniquen directamente con el almacenamiento flash sin formato. Eso maximiza las capacidades del flash y proporciona mejor rendimiento, utilización de energía y eficiencia.

Además de ser más sostenible que el HDD, también es un hecho que flash es mucho más adecuado para el almacenamiento de datos de IA. Se requieren tipos de datos grandes y variados, ancho de banda de transmisión para trabajos de capacitación, rendimiento de escritura para puntos de control (y su restauración), rendimiento de lectura aleatoria para inferencias y, lo que es más importante, todo debe ser confiable las 24 horas del día, los 7 días de la semana, y de fácil acceso, a través de silos y aplicaciones. Este conjunto de características no es posible con el almacenamiento basado en HDD; se necesita tecnología all-flash.

Problemas de enfriamiento

Los centros de datos enfrentan un desafío aún secundario, pero que será exacerbado por el uso de la IA y el aprendizaje automático. Se trata del consumo de agua. Éste se convertirá en un problema aún mayor, especialmente si se tiene en cuenta el continuo aumento de las temperaturas globales.

Muchos centros de datos utilizan enfriamiento por evaporación. Éste funciona rociando niebla de agua sobre tiras de tela, y el agua absorbe el calor ambiental, enfriando así el aire a su alrededor. Es una idea inteligente, pero problemática, dada la presión que el cambio climático está ejerciendo sobre los recursos hídricos, especialmente en las zonas urbanizadas.

Como resultado, este método de enfriamiento ha perdido popularidad en el último año. Eso ha resultado en una dependencia de métodos de enfriamiento más tradicionales y que consumen mucha energía, como el aire acondicionado. Esta es otra razón más para pasar a centros de datos totalmente flash. Consumen menos energía y no tienen los mismos requisitos de refrigeración intensivos que los HDD y los híbridos.

El camino a seguir en el almacenamiento de datos de IA

A medida que la IA y el ML evoluciona rápidamente, la atención se centra cada vez más en la seguridad de los datos (para garantizar que las entradas no autorizadas o adversas no puedan cambiar la salida); la repetibilidad del modelo (el uso de técnicas como los valores de Shapley para obtener una mejor comprensión de cómo las entradas alteran la modelo), y una ética más sólida (para garantizar que esta tecnología se utilice para beneficiar realmente a la humanidad).

Todos estos objetivos impondrán cada vez más nuevas exigencias al almacenamiento de datos de IA. Los proveedores de almacenamiento ya lo toman en cuenta en sus hojas de ruta de desarrollo de productos. Saben que los CTO buscarán soluciones de almacenamiento seguras, de alto rendimiento, escalables y eficientes que les ayuden a alcanzar estos objetivos.

Por lo tanto, la atención no debería centrarse exclusivamente en las capacidades del hardware y software de almacenamiento de datos de IA; en este caso, el panorama general es realmente muy amplio.