HP aborda los cuellos de botella en la memoria de las PC para inferencias y análisis

Monday 30th September 2024 06:19 AM

El uso de datos se ha convertido en una palanca imprescindible para la competitividad empresarial, Pero las arquitecturas y microarquitecturas informáticas tradicionales, aparte del paralelismo masivo de GPU (e incluso así, con algunas restricciones), luchan por satisfacer las crecientes demandas de análisis y cargas de trabajo basadas en inteligencia artificial. De hecho, estas arquitecturas convencionales no están diseñadas para cálculos complejos de vectores y matrices.

En este contexto, HP, durante su evento anual HP Imagine, levantó el velo sobre una serie de innovaciones tecnológicas, una de las cuales es la introducción de una nueva arquitectura de memoria destinada a optimizar la inteligencia artificial. integrados en las PC.

Diseñados específicamente para manejar flujos de trabajo intensivos y las tareas más exigentes, los módulos de memoria LPDDR5x de 64 GB anunciados por HP alcanzan velocidades de transferencia de 80 GB/s. Potencia de procesamiento reforzada por la integración de la NPU (Neural Processing Unit) AMD Ryzen PRO de nueva generación, capaz de ofrecer un rendimiento informático de hasta 55 TOPS (teraoperaciones por segundo, o 1000 mil millones de operaciones por segundo). Para que conste, las computadoras PC con IA lanzadas recientemente alcanzan 45 TOPS.

Memoria energéticamente eficiente

En comparación con los sistemas basados en LPDDR4x, DDR4 o incluso LPDDR5 (sin la “x”), que todavía dominan el mercado, estos sistemas alcanzan velocidades de ancho de banda típicas de hasta 64 GB/s para LPDDR5. Si bien son suficientes para aplicaciones típicas como oficina o juegos, estas velocidades rápidamente se vuelven restrictivas para cargas de trabajo basadas en inteligencia artificial o análisis de datos, donde se deben procesar cantidades masivas de datos en tiempo real.

HP también tuvo en cuenta el impacto medioambiental en el diseño de esta arquitectura de memoria. El sistema está diseñado para ser más eficiente energéticamente, con un uso optimizado de recursos para minimizar el consumo de energía y maximizar el rendimiento. Además de la velocidad de transferencia, el TDP de 40 W junto con los turboventiladores garantiza un alto rendimiento manteniendo temperaturas estables. Esta gestión térmica inteligente se combina con la tecnología HP Smart Sense, para un sistema silencioso y con capacidad de respuesta.

X86, una arquitectura obsoleta para IA y Analytics

Las arquitecturas x86 tradicionales se basan en un modelo CISC (Computación de conjunto de instrucciones complejas), donde cada instrucción es compleja y puede requerir varios ciclos de reloj para ejecutarse. Aunque los procesadores modernos tienen múltiples núcleos, solo pueden procesar de manera eficiente un número limitado de instrucciones simultáneamente. Esto limita su capacidad para realizar los cálculos masivamente paralelos necesarios para operaciones matriciales o convoluciones en redes neuronales.

Los requisitos funcionales de una arquitectura tradicional, diseñada para procesar una secuencia de instrucciones secuenciales, difieren considerablemente de los de una arquitectura destinada a procesar masas de datos en paralelo para el aprendizaje y la inferencia automáticos. Estas diferencias se explican por la naturaleza de las tareas a ejecutar y los requisitos en términos de cálculo, memoria y paralelismo masivo. En resumen, las arquitecturas x86 y SOC, que actualmente dominan el mercado de las computadoras, no están optimizadas para cálculos matriciales y vectoriales.

Se basan en un modelo CISC (Computación de conjunto de instrucciones complejas), donde cada instrucción es compleja y puede requerir varios ciclos de reloj para ejecutarse. Aunque los procesadores modernos tienen múltiples núcleos (hasta 64 en los procesadores de servidor de alta gama), sólo pueden procesar eficientemente un número limitado de instrucciones simultáneamente. Esto limita su capacidad para realizar los cálculos masivamente paralelos necesarios para operaciones matriciales o convoluciones en redes neuronales.

El modo secuencial domina

Diseñadas para ejecutar instrucciones secuenciales, estas arquitecturas fueron desarrolladas para satisfacer necesidades generales, como procesar tareas de oficina, administrar bases de datos o ejecutar aplicaciones interactivas. Las CPU también funcionan en modo secuencial, ejecutando instrucciones en canalizaciones. Un proceso que funciona en etapas, como buscar, descodificar y ejecutar. Ciertamente, el multithreading (Hyperthreading en Intel) permite la ejecución paralela de instrucciones, pero esto no es suficiente para el procesamiento a gran escala.

En cuanto a la gestión de la memoria y del ancho de banda en la placa base, en definitiva toda la infraestructura de interconexión que conecta los componentes entre sí, los buses de comunicación y los controladores, tiene cuellos de botella e implica varias etapas de acceso y procesamiento de datos. Este circuito que permite transferir datos a través de buses (DMI, PCIe, etc.) desde el almacenamiento de larga duración (disco duro o SSD) a la CPU, a través de la RAM, está lleno de cuellos de botella, como las diferentes latencias de los medios de almacenamiento, las de Memorias RAM y caché (extendidas en tres niveles, L1, L2 y L3).

Es necesaria una verdadera reforma arquitectónica

Las arquitecturas modernas integran unidades de procesamiento especializadas, como Tensor Cores en las GPU de NVIDIA, TPU (Tensor Processing Units) y NPU (Neural Processing Units), en arquitecturas específicas (SIMD, Systolic, NoC o MIMD, entre otras). ). Estos permiten ejecutar múltiples flujos de instrucciones simultáneamente en diferentes flujos de datos. Son más eficaces para acelerar los cálculos matriciales utilizados en redes neuronales profundas (por ejemplo, la multiplicación de matrices 4×4 en un solo ciclo de reloj) y para manejar cantidades inmensas.
datos simultáneamente.

Si los sistemas tradicionales han permitido soportar tareas informáticas estándar, hoy muestran sus límites dada la escala y la complejidad de los datos masivos y las necesidades de informática intensiva. Por el momento, los proveedores se contentan con introducir desarrollos dispersos para mejorar, aquí y allá y en orden disperso, las arquitecturas tradicionales. Pero estos todavía funcionan en un modo secuencial obsoleto. Les cuesta ejecutar cálculos masivamente paralelos de una manera eficiente y respetuosa con el medio ambiente. HP está abordando directamente el cuello de botella de la memoria, pero lo que las PC necesitan es una verdadera revisión arquitectónica y microarquitectónica para que se conviertan en verdaderas PC con IA.