El último chip de inteligencia artificial de Nvidia para centros de datos puede sobrecalentar los servidores. La empresa por su parte afirma que no está sucediendo nada anormal.
En marzo, Nvidia presentó su serie de GPU Blackwell, que tiene una potencia informática de hasta 20 petaflops. Una de estas versiones combina dos GPU en un solo chip, que puede funcionar hasta 30 veces más rápido con modelos de lenguaje grandes (LLM). Esto debería garantizar respuestas más rápidas y/o un menor consumo de energía.
Pero el chip también tiene problemas. Blackwell estaba originalmente programado para estrenarse en el segundo trimestre de este año (abril-junio), pero su lanzamiento se había pospuesto. En octubre, la compañía anunció que había resuelto un defecto de diseño en colaboración con TSMC, que produce los chips de Nvidia.
Ahora, The Information revela que Blackwell también sufre un problema térmico, particularmente en servidores que albergan hasta 72 de estos chips en un solo paquete. Luego, según se informa, Nvidia pidió repetidamente a sus proveedores que ajustaran el diseño de los gabinetes.
‘No anormal’
La propia Nvidia dice a Reuters que está colaborando plenamente con los proveedores de servicios en la nube y que todo va con normalidad, como se esperaba. Lo que sugiere que no es raro que se modifique el concepto para evitar este tipo de problemas.
A su vez, los obstáculos encontrados también plantean problemas para algunos de los principales actores de la nube y la IA. Como proveedor líder de chips de IA, Nvidia es un socio crucial para los jugadores que actualmente buscan iniciar centros de datos dedicados específicamente a la inteligencia artificial (Meta, Microsoft, OpenAI, Google, etc.). Hasta que los chips estén disponibles, no se podrá utilizar su potencia informática.