Esta década se perfila como el periodo histórico de “los felices años 20” de los datos no estructurados. De acuerdo con Gartner, las tasas de crecimiento de datos no estructurados ha alcanzado el 30% anual. Ello significa que los volúmenes totales de datos no estructurados casi se cuadriplicarán para 2027.
Tal crecimiento de datos es un desafío en sí mismo, pero los datos no estructurados también vienen en una variedad de tamaños. Se pueden almacenar como archivos u objetos, con necesidades de rendimiento de almacenamiento cada vez más exigentes. Esto ha resultado en una nueva categoría emergente de almacenamiento de archivos y objetos rápido y unificado.
El contexto es el crecimiento de los datos no estructurados. Pueden comprender cantidades muy grandes de archivos y objetos muy pequeños, a menudo miles de millones de ellos. Los datos no estructurados también pueden presentarse como una cantidad menor de archivos y objetos mucho más grandes, como videos o imágenes de alta definición.
También podría ser una combinación de los dos. Los flujos de trabajo de análisis modernos, por ejemplo, pueden necesitar acceder a una amplia variedad de tipos de datos de diferentes tamaños.
Otro impulsor clave del almacenamiento de archivos y objetos más rápido es el rendimiento para acceder a estos datos no estructurados. Hemos visto una explosión en el análisis y el aprendizaje automático. La impulsa la necesidad de extraer valor de enormes cantidades de datos sin procesar.
Datos no estructurados en la salud, en crecimiento
Las imágenes digitales son un caso de uso de rápido crecimiento, como PACS (sistemas de archivo y comunicación de imágenes) en la industria de la salud. Un ejemplo aquí es el uso pionero del aprendizaje automático para el diagnóstico del cáncer por parte de Paige, con sede en Estados Unidos. La IA necesita una capacidad de almacenamiento a escala de petabytes, con acceso rápido y alto rendimiento para permitir el reconocimiento automático de millones de imágenes en muestras de tejido de pacientes. Esto exige un acceso de alto rendimiento a los datos de archivos y objetos.
Además, las copias de seguridad y la protección de datos pueden producir una gran cantidad de archivos y objetos de varios tamaños. Se requieren velocidades de restauración muy rápidas para ayudar a recuperar los datos rápidamente en caso de un ataque de ransomware.
Innovar el almacenamiento de archivos y objetos
La incorporación del almacenamiento rápido de objetos es una innovación clave. Durante décadas, el almacenamiento de archivos ha sido una opción principal, con soluciones NAS de escalamiento horizontal que aumentan la capacidad y el rendimiento para admitir datos no estructurados. Empero, el almacenamiento de objetos se está volviendo cada vez más importante y bien establecido, impulsado por la web y el auge de la nube.
Los archivos y objetos pueden tener los mismos tipos de contenido. Mientras que los sistemas de archivos usan un sistema jerárquico basado en directorios, el almacenamiento de objetos usa una estructura “plana”, con objetos a los que se les asigna un identificador individual y metadatos que se pueden usar para contextualizar dichos objetos.
Históricamente, el almacenamiento de objetos ha sido el tipo de menor rendimiento y ha formado una categoría de producto bastante separada. Esta visión del almacenamiento de objetos está cambiando. Los clientes necesitan interrogar cantidades cada vez más grandes de datos no estructurados que pueden estar en formato de objeto y de archivo.
A medida que las aplicaciones y los casos de uso evolucionan el almacenamiento de archivos y objetos, las organizaciones requieren una plataforma que pueda admitir ambos métodos de acceso. Necesitan garantizar la protección de la inversión durante y después de esta transición. Todos estos factores han llevado al surgimiento de soluciones rápidas de alto rendimiento para el almacenamiento de archivos y objetos.
Almacenamiento de archivos y objetos para la nube
Los datos estructurados tradicionales, como una base de datos compatible con un sistema ERP, tienden a ser bastante estáticos. En cambio, los datos no estructurados pueden abarcar muchas ubicaciones y métodos de acceso.
Los productos emergentes de almacenamiento de archivos y objetos de la actualidad son compatibles con los protocolos de archivos del sistema de archivos de red (NFS) y del bloque de mensajes del servidor (SMB). Estos son compatibles con la forma en que se escriben muchas aplicaciones empresariales existentes.
Además, las soluciones rápidas de almacenamiento de archivos y objetos pueden manejar datos no estructurados en formatos de acceso a objetos que son el resultado de sus orígenes en la nube, como Amazon S3. Por lo tanto, el almacenamiento de archivos y objetos rápido también es ideal para nubes híbridas, con datos no estructurados que pueden hacer la transición entre ubicaciones en el sitio y en la nube.
Ahora bien, ¿qué deben buscar los clientes en un producto rápido de almacenamiento de archivos y objetos? En primer lugar, la capacidad. La plataforma debe adaptarse a sus necesidades, que para muchas empresas podrían ser petabytes. Dado que los datos no estructurados pueden crecer rápidamente, escalar la solución también debe ser fácil. No debe implicar una configuración de red compleja o tareas manuales de reequilibrio de datos.
En segundo lugar, debe tener acceso al almacenamiento de archivos y objetos, ofreciendo los protocolos clave como NFS y SMB para archivos y S3 para acceso a objetos.
En tercer lugar, debe construirse para un acceso rápido y un alto rendimiento. Se requiere baja latencia, especialmente para operaciones de lectura y acceso a metadatos. El fin es desbloquear el potencial de AI/ML, así como muchos marcos de análisis modernos. El almacenamiento all-flash ofrece este acceso rápido gracias a su naturaleza de estado sólido.
Alto rendimiento, baja latencia
Ya sea para analizar conjuntos de datos muy grandes o para realizar una operación de restauración masiva después de un ataque de ransomware, los datos no estructurados pueden requerir un rendimiento de acceso muy alto. La baja latencia debe combinarse con un alto rendimiento. Para el análisis de datos, esto significa velocidades medidas en decenas de gigabytes por segundo.
Cuando se trata de restaurar sistemas después de una interrupción o un ataque de ransomware, los clientes empresariales deben buscar números de rendimiento que se acerquen a los 300TB por hora. Eso limita el tiempo de inactividad y el daño financiero y de reputación que conlleva.
Además, la plataforma debe proporcionar un alto rendimiento, y baja latencia, de forma automática y sin ajustes. Es difícil predecir qué herramientas, formato de archivo, tamaño de conjunto de datos o métodos de acceso se necesitarán mañana. Cualquier solución de almacenamiento que requiera configuraciones o ajustes manuales para ofrecer un alto rendimiento sofocará la innovación y retrasará los proyectos.
El mundo del almacenamiento de datos realmente se está embarcando en los locos años 20. El crecimiento explosivo de la analítica moderna, el aprendizaje automático, la inteligencia de imágenes y videos, así como los ataques de ransomware, requerirán soluciones de almacenamiento creadas para grandes volúmenes de datos no estructurados. Se necesitan niveles de rendimiento increíbles y flexibilidad en términos de métodos de acceso.
Las plataformas rápidas de almacenamiento de archivos y objetos son la respuesta a los desafíos de datos actuales y futuros. Están diseñadas para ayudar a las empresas a aprovechar el valor de los datos no estructurados.