Los modelos de lenguaje grande (Large Language Models, LLM) permiten entrenar de manera más eficiente a los algoritmos de inteligencia artificial. Esto beneficia a empresas y organizaciones de todos los campos, incluido el sanitario.
Un modelo de lenguaje es un algoritmo capaz de determinar qué tan probable es que una secuencia de palabras sea una oración válida. Normalmente, los modelos se entrenan con conjuntos relativamente pequeños de palabras.
Ahora bien, los modelos de lenguaje grande consisten en redes neuronales artificiales con muchos parámetros (de decenas de millones a miles de millones). Se entrenan con grandes cantidades de texto sin etiquetar, mediante aprendizaje autosupervisado o semisupervisado. Así, el algoritmo logra una gran eficiencia al predecir la siguiente palabra en una secuencia determinada.
Aunque el término modelos de lenguaje grande no tiene una definición formal, a menudo se refiere a modelos de aprendizaje profundo. Estos sistemas de inteligencia artificial han revolucionado la generación y procesamiento de lenguaje natural (NLP).
En el mercado existen diversas plataformas que emplean esta tecnología. Una de ellas es la recién presentada GreenLake para modelos de lenguaje grande, de HPE. La solución permite entrenar en privado una IA a gran escala. Lo hace a través de un servicio de nube de supercomputación bajo demanda y multiusuario.
La solución es la primera en una serie de aplicaciones de dominio específico con planes de soporte futuro para el campo de la salud. También se enfocará en ciencias de la vida, servicios financieros, modelado climático, fabricación y transporte. Se planea ofrecer modelos de lenguaje grande a todo tipo de empresas, desde startups hasta compañías del índice Fortune 500.
Ventajas de los modelos de lenguaje grande
GreenLake utiliza una plataforma de supercomputación sostenible que combina el software de IA y las supercomputadoras de HPE. Proporcionará el servicio en conjunto con Aleph Alpha, startup alemana desarrolladora de Luminous, un LLM previamente entrenado. Se ofrece en varios idiomas, incluyendo alemán, español, francés, inglés e italiano. El LLM permite a los clientes utilizar sus propios datos. El objetivo es entrenar y perfeccionar modelos personalizados para obtener perspectivas en tiempo real con base en sus conocimientos privados.
Muchas ofertas de nube para propósitos generales operan en múltiples cargas de trabajo en paralelo. HPE GreenLake para modelos de lenguaje grande, en cambio, opera en una arquitectura nativa diseñada para ejecutar una sola carga de trabajo de simulación y entrenamiento de una IA de gran escala con máxima capacidad informática. La oferta soportará los trabajos de IA y HPC en cientos o miles de CPU o GPU al mismo tiempo.
Esta capacidad es considerablemente más eficaz, confiable y eficiente para entrenar algoritmos y desarrollar modelos más precisos. Eso permitirá a las empresas acelerar su proceso de POC a producción para resolver los problemas más rápido.
Supercomputadoras dedicadas
«Entrenamos a Luminous con las supercomputadoras y el software HPE Cray Programming Environment», explica Jonas Andrulis, fundador y CEO de Aleph Alpha. «Empresas como hospitales bancos y bufetes de abogados lo utilizarán como asistente digital para acelerar la toma de decisiones y ahorrar tiempo y recursos. Nos sentimos orgullosos de ser un socio en el lanzamiento de HPE GreenLake para modelos de lenguaje grande».
La solución estará disponible bajo demanda y operará en las supercomputadoras más potentes y sostenibles del mundo, las HPE Cray XD. Eso evitará que los clientes deban comprar y gestionar una supercomputadora por sí solos, lo cual es costoso, complejo y requiere experiencia específica. El software que utiliza está completamente integrado para optimizar las aplicaciones de HPC e IA con un conjunto de herramientas para desarrollar, portar, depurar y perfeccionar el código.
Por otra parte, la solución operará en centros de coubicación, tal como en el campus Q01 de QScale en Quebec, Canadá. El campus está diseñado para soportar la escala y capacidad de la supercomputación con energía casi 100% renovable.