Los investigadores demuestran una nueva técnica para robar modelos de IA

Diseñar y entrenar modelos avanzados de redes neuronales es una gran inversión. Según un estudio de Epoch AI, el coste de los modelos de formación, excluidos los costes de personal de I+D, ha ido creciendo de forma constante desde 2020. ChatGPT-3 (175 mil millones de parámetros) costó entre 2 y 4 millones de dólares en 2020, mientras que el precursor de Gemini, PaLM, costará entre 3 y 12 millones de dólares en 2022, aunque sólo sea en costos de computación, es decir, miles de horas de cálculo en grupos de gráficos. procesadores. Los costos de entrenar modelos multimodales son aún mayores y están aumentando, a un ritmo de 2,4 veces por año desde 2016, afirma el estudio.

Estos gastos están fuera del alcance de la mayoría de los actores económicos, lo que pone de relieve el considerable valor de un modelo previamente formado, tanto en términos de inversión inicial como de propiedad intelectual. Por lo tanto, el robo de tal modelo, a través de la exfiltración de su arquitectura y sus hiperparámetros, representa un botín de valor inestimable. Esto es particularmente cierto para los sistemas instalados en el borde (computación perimetral), a los que se puede acceder físicamente más fácilmente.

Leyendo la radiación electromagnética…

Investigadores de la Universidad de Carolina del Sur, en Estados Unidos, acaban de demostrar que era posible robar un modelo de inteligencia artificial sin hackear –digitalmente (Nota del editor)– el dispositivo en el que funcionaba el modelo. Esto se debe a una técnica única que funciona incluso cuando el ladrón no tiene conocimiento previo del software o la arquitectura que admite la IA. Basta, dicen, explotar, mediante una sonda electromagnética, las mediciones de los canales secundarios para extraer los detalles del modelo sin ningún conocimiento de las estructuras internas, es decir de las cajas negras que son los aceleradores en la periferia. .

Estos ataques se pueden clasificar en dos categorías: ataques de robo de hiperparámetros en los que el adversario busca conocer la arquitectura de los modelos entrenados, como los tipos de capas y sus configuraciones, y ataques de robo de parámetros en los que el adversario busca conocer los pesos entrenados y los valores de sesgo. Los valores de peso y sesgo entrenados son los parámetros internos de un modelo de aprendizaje automático que determinan cómo funciona la red neuronal.
procesa la información.

…para extraer los hiperparámetros

De hecho, las unidades de procesamiento tensorial en el borde de la red, como las TPU Edge de Google, permiten hoy realizar inferencias localmente, evitando así el uso sistemático de la nube. Este fenómeno se enmarca en un contexto de rápido crecimiento del mercado de la informática de punta, impulsado por la creciente demanda de dispositivos autónomos conectados. Google, por su parte, está estratégicamente posicionada en este mercado, habiendo introducido TPU diseñados específicamente para acelerar la inferencia AA en el borde, con el objetivo de reducir la latencia, limitar el consumo de energía y proteger (en teoría) la propiedad intelectual de los modelos implementados.

El estudio “TPUXtract” destaca una vulnerabilidad sin precedentes que afecta a los aceleradores de hardware comerciales de Google. Si bien la mayor parte del trabajo anterior se centró en microcontroladores, TPUXtract analizó específicamente los TPU de Google, conocidos por su rendimiento y amplia adopción en soluciones de aprendizaje automático en el mercado. Los autores demuestran que, gracias a la explotación de canales auxiliares electromagnéticos, es posible extraer todos los hiperparámetros de una red neuronal, ya sea el tipo de capas, el tamaño de los filtros, el número de nodos o incluso los parámetros de relleno.

Identificación mediante recogida de señales electromagnéticas.

El ataque comienza colocando una sonda no invasiva cerca del dispositivo objetivo (un Google Edge TPU). Capta las emisiones electromagnéticas producidas por el procesamiento de datos en los diferentes núcleos de cálculo de la TPU. El flujo electromagnético, complejo y ruidoso, se registra durante la inferencia del modelo objetivo. Estas señales electromagnéticas sin procesar luego se segmentan para aislar las porciones correspondientes a operaciones de red específicas. Los autores del estudio explican que cada tipo de capa (por ejemplo, una capa de convolución, una capa densa o una operación de “agregar”/”concatenar”) genera una firma electromagnética distinta. Para lograr este nivel de delicadeza, TPUXtract utiliza técnicas de correlación de señales con plantillas (modelos de referencia) para identificar con precisión dónde comienza y termina una capa en el trazado.

A diferencia de enfoques anteriores que se basaban en modelos de aprendizaje automático estáticos y previamente entrenados, TPUXtract opta por la generación de plantillas en línea. Este enfoque, que no depende de un conjunto de datos concreto, permite adaptar el proceso de exfiltración a modelos aún desconocidos. Las plantillas se crean a partir de las primeras inferencias registradas y luego se utilizan para reconocer y extraer características de capas posteriores, incluso cuando el modelo varía.

Identificación precisa de la configuración de capas.

Una vez definidas las plantillas, cada capa analizada revela sus secretos: tipo (convolución, pooling, densa, etc.), tamaño del filtro, número de canales, función de activación, operaciones de llenado, etc. Según las cifras anunciadas en el estudio, este método logra una precisión excepcional del 99,91% en un gran conjunto de modelos.

Los autores de TPUXtract también han demostrado la eficacia de su método en modelos no lineales, integrando capas de tipo “añadir” o “concatenar”. Estas capas, frecuentemente presentes en arquitecturas avanzadas como Inception V3 o ResNet-50, reflejan la complejidad de las redes neuronales implementadas en aplicaciones de producción. TPUXtract demuestra así que su enfoque no se limita a arquitecturas secuenciales simples.

Validación en modelos reales.

Los investigadores probaron su marco en modelos ampliamente utilizados en la industria, incluidos MobileNet V3, Inception V3 y ResNet-50. Estas redes neuronales, inicialmente desarrolladas por gigantes de la industria (como Google para MobileNet o Microsoft y otros para ResNet), comúnmente se integran en aplicaciones de reconocimiento de imágenes, análisis de video o detección de objetos. Los resultados obtenidos por TPUXtract confirman la capacidad del atacante para extraer hiperparámetros con éxito, destacando una profunda vulnerabilidad en los aceleradores comerciales de ML.

Ante esta amenaza, los autores de TPUXtract proponen varias contramedidas. Sugieren, por ejemplo, la introducción de operaciones ficticias para confundir al atacante, la reorganización dinámica de capas para desestabilizar la generación de plantillas o la inyección de ruido electromagnético competitivo para enmascarar las firmas características de cada capa. Todos estos enfoques tienen como objetivo complicar significativamente el trabajo de extracción y aumentar el costo, el tiempo y la dificultad técnica del ataque.

Protección integrada en los aceleradores de ML

En un contexto en el que los dispositivos integrados evolucionan rápidamente y en el que los modelos de aprendizaje automático están penetrando en diversos sectores (transporte, salud, ciudades inteligentes, telecomunicaciones, etc.), la seguridad debe diseñarse desde el principio, no añadirse a posteriori. El estudio TPUXtract, por su enfoque metódico y su aplicación a una muestra de modelos representativos, exige una reflexión profunda sobre la robustez de los aceleradores de ML desplegados en el mundo real.

A medida que crece la demanda de dispositivos inteligentes, gigantes tecnológicos como Google, ya firmemente establecidos en el mercado, necesitarán incorporar estrategias de seguridad cada vez más sofisticadas, no sólo para garantizar la longevidad de sus soluciones de hardware, sino también para preservar la confianza de usuarios y fabricantes. en un sector en auge. Además, la combinación de rendimiento optimizado, bajo consumo de energía y protección avanzada del modelo es esencial.