DDN, un proveedor histórico de bahías de almacenamiento para superordenadores, acaba de recibir una inversión de 300 millones de dólares del fondo americano Blackstone. El objetivo es permitir que DDN transforme su liderazgo en supercomputadoras en liderazgo en soluciones de almacenamiento para IA.
Si en ambos casos el objetivo es producir matrices de almacenamiento excesivamente rápidas para alimentar GPU de alto rendimiento, los enfoques son diferentes. Una supercomputadora lee una pequeña cantidad de fórmulas matemáticas y produce enormes datos de simulación. En IA, hacemos lo contrario: debemos leer un enorme conjunto de datos muy rápidamente para producir un modelo sintético más pequeño (entrenamiento) o generar la respuesta a un mensaje en la pantalla (inferencia con RAG).
Una oferta que ya pasa de la supercomputación a la IA
Para el mercado de supercomputadoras, DDN vende matrices EXAscaler que se ejecutan bajo Lustre, un sistema de archivos paralelizado de código abierto que se originó a principios de la década de 2000. Una matriz EXAscaler es un grupo de varios nodos de disco. Entre ellos, un nodo sólo sirve para indexar el contenido de otros, de forma muy parecida al área de directorio en un sistema de archivos clásico. Los servidores de cálculo consultan este servidor de metadatos para saber en qué nodo leer/escribir los bloques de un archivo, luego se comunican directamente con el nodo correcto durante la transferencia de los bloques de este archivo.
Para que el sistema funcione, los servidores informáticos deben tener un cliente Lustre y tener una conexión de red directa con los nodos de almacenamiento. Suele ser una red InfiniBand, sin pérdida de paquetes, con la capacidad de que la tarjeta controladora copie datos directamente a la RAM de la máquina host o a los SSD NVMe.
DDN ha implementado este conocimiento en las bahías de almacenamiento AI400X2 diseñadas para el procesamiento de IA. Estos son los mismos nodos EXAscaler 2U, pero con tarjetas controladoras Ethernet Nvidia SpectrumX. Equipadas con DPU BlueField de la misma Nvidia, estas tarjetas brindan los mismos beneficios que Infiniband en una red Ethernet, más adecuada para servidores corporativos. Su protocolo RoCE (RDMA sobre Ethernet convergente) también funciona sin pérdida de paquetes, con escritura directa de datos en la memoria de las tarjetas GPU Nvidia (protocolo GPUdirect).
DDN incluso ya tiene soluciones para la inferencia
Los AI400X2 están diseñados principalmente para comunicarse lo más rápido posible con las GPU al entrenar un modelo de IA. Pero resultan muy costosos para almacenar la enorme cantidad de datos que una empresa quiere enviar diariamente a un modelo ya entrenado. Para este segundo caso de uso, DDN ofrece arreglos Infinia desde 2023. Estos funcionan en modo objeto, con un protocolo S3 básico, que permite agregar nodos de disco en caliente.
DDN ha dividido cada función de almacenamiento de S3 en un contenedor: el servidor de metadatos, el servidor de almacenamiento, etc. Tanto es así que DDN puede reproducir con su Infinia un funcionamiento similar a Lustre, siempre que se instalen determinados contenedores S3 funcionales en los servidores de cálculo. Las bahías Infinia tienen la ventaja de estar equipadas también con tarjetas SpectrumX para maximizar la velocidad de transferencia.
Finalmente, DDN se enorgullece de saber mejor que nadie cómo funciona el almacenamiento intensivo. Cuando las GPU escriben datos en paralelo que luego vuelven a leer para continuar con sus cálculos, pueden surgir varios problemas de inconsistencia. Estos problemas generalmente se resuelven mediante puntos de control regulares, una operación que potencialmente requiere mucha computación y no genera datos útiles. DDN afirma saber cómo evitar estos retrasos proporcionando flujos de transferencia, que organiza con un uso inteligente de las cachés.
Una inversión que beneficia principalmente a Blackstone
DDN no sólo ya tiene una oferta de IA, sino que también la vende a grandes clientes. Entre ellos, xAI, la empresa de Elon Musk que implementó una supercomputadora de IA, Colossus, equipada con 100.000 GPU H100. De hecho, la utilidad de esta nueva inversión de 300 millones de dólares no está muy clara.
Es probable que la motivación provenga sobre todo del fondo de inversión Blackstone, que busca colocar sus peones (se une al consejo de administración de DDN) en varias empresas estratégicas de IA. El año pasado, el fondo también ofreció apoyo financiero a CoreWeave, un host de infraestructura bajo demanda (IaaS) que sólo se utiliza para el procesamiento de IA.
En cualquier caso, DDN mantiene ahora en su sitio el suspenso de un fenomenal anuncio sobre IA, el 20 de febrero. Si está en línea con la estrategia que Blackstone parece querer impulsar, debería ser un producto de almacenamiento de “IA” para todas las empresas.