Thales Friendly Hackers inventa un metamodelo para detectar imágenes producidas por IA (deepfakes)
Con motivo de la Cyber Week europea que se celebra en Rennes del 19 al 21 de noviembre de 2024, cuyo tema es el de la inteligencia artificial, los equipos de Thales participaron en el AID Challenge y desarrollaron un metamodelo de detección de imágenes generadas por IA. . En un momento en que la desinformación se está extendiendo a los medios de comunicación y a todos los sectores de la economía, ante la generalización de las técnicas de IA, esta herramienta tiene como objetivo luchar contra la manipulación de imágenes, para diferentes casos de uso, como en particular la lucha contra el fraude de identidad.
Las imágenes generadas por IA se generan mediante el uso de plataformas de IA modernas (Midjourney, Dall-E, Firefly, etc.). Algunos estudios predicen que dentro de unos años, los deepfakes podrían causar enormes pérdidas financieras debido a su uso para el robo de identidad y el fraude. Gartner ha estimado que en 2023, alrededor del 20% de los ciberataques podrían incluir contenido deepfake como parte de campañas de desinformación o manipulación. Su informe1 destaca el aumento de los deepfakes en el fraude financiero y los ataques de phishing avanzados.
“El metamodelo de Thales para detectar deepfakes responde en particular al problema del fraude de identidad y la técnica del morphing[1]. La combinación de varios métodos que utilizan redes neuronales, detección de ruido o incluso frecuencias espaciales permitirá proteger mejor el creciente número de soluciones que requieren verificación de identidad mediante reconocimiento biométrico. Se trata de un avance tecnológico notable, resultado de la experiencia de los investigadores de IA de Thales. » especifica Christophe Meyer, experto senior en IA y director técnico de cortAIx, el acelerador de IA de Thales.
El metamodelo de Thales se basa en técnicas de aprendizaje automático, árboles de decisión y evaluación de las fortalezas y debilidades de cada modelo para analizar la autenticidad de una imagen. Combina así diferentes modelos, entre ellos:
• El método CLIP (Contrastive Language–Image Pre-training) que consiste en vincular imágenes y texto aprendiendo a comprender cómo se corresponden una imagen y su descripción textual. En otras palabras, CLIP aprende a asociar elementos visuales (como una fotografía) con palabras que los describen. Para detectar deepfakes, CLIP puede analizar imágenes y evaluar su compatibilidad con descripciones en formato de texto, identificando así inconsistencias o anomalías visuales.
• El método DNF que utiliza las arquitecturas actuales de generación de imágenes (modelos “difusión”) para detectarlas. Concretamente, los modelos de difusión se basan en la estimación del ruido que se añade a una imagen para crear una “alucinación” que generará contenido a partir de la nada. La estimación de este ruido también se puede utilizar en la detección de imágenes generadas por IA.
• El método DCT (Transformada Coseno Discreta) se basa en el análisis de las frecuencias espaciales de una imagen. Al transformar la imagen del espacio espacial (píxeles) al espacio de frecuencia (como ondas), la DCT puede detectar anomalías sutiles en la estructura de la imagen, a menudo invisibles a simple vista. Aparecen durante la generación de deepfakes.
El equipo de Friendly Hackers detrás de este invento es parte de cortAIx, el acelerador de IA de Thales, con más de 600 investigadores e ingenieros de IA, incluidos 150 basados en la meseta de Saclay y trabajando en sistemas críticos. Los Friendly Hackers del grupo han desarrollado una caja de herramientas, BattleBox, cuyo objetivo es facilitar la evaluación de la robustez de los sistemas que integran IA frente a ataques destinados a explotar las vulnerabilidades intrínsecas de diferentes modelos de IA (incluidos los modelos de lenguaje grande), como los ataques de adversarios. o ataques destinados a extraer información sensible. Para hacer frente a los ataques, se proponen contramedidas adecuadas, como desaprendizaje, aprendizaje federado, marcas de agua de modelos y robustificación de modelos.
El Grupo resultó ganador en 2023 como parte del desafío CAID (Conferencia sobre Inteligencia Artificial para la Defensa) organizado por la DGA, cuyo objetivo es encontrar ciertos datos utilizados para entrenar la IA, incluso cuando habían sido eliminados del sistema para preservar su confidencialidad.