EPFL: fallos de seguridad en los modelos de IA

Thursday 19th December 2024 05:36 AM

Los modelos de inteligencia artificial (IA) pueden manipularse a pesar de las salvaguardias existentes. Con ataques dirigidos, los científicos de Lausana lograron que estos sistemas generaran contenidos peligrosos o éticamente cuestionables.

Los modelos de lenguajes grandes (LLM) actuales tienen capacidades notables que, sin embargo, pueden ser mal utilizadas. Por lo tanto, una persona malintencionada puede utilizarlos para producir contenidos dañinos, difundir información falsa y apoyar actividades dañinas.

En los modelos de IA probados, incluidos GPT-4 de Open AI y Claude 3 de Anthropic, un equipo de la Escuela Politécnica Federal de Lausana (EPFL) obtuvo una tasa de éxito del 100% utilizando ataques adaptativos llamados ‘jailbreak’.

Luego, los modelos generaron contenido peligroso, que iba desde instrucciones para ataques de ‘phishing’ hasta planos detallados de construcción de armas. Sin embargo, se supone que estos modelos lingüísticos han sido entrenados de tal manera que no den respuestas a solicitudes peligrosas o éticamente problemáticas, subrayó la EPFL el jueves en un comunicado de prensa.

Este trabajo, presentado este verano en una conferencia especializada en Viena, muestra que los ataques adaptativos pueden eludir estas medidas de seguridad. Estos ataques aprovechan las debilidades de los mecanismos de seguridad al realizar solicitudes específicas (“solicitudes”) que los modelos no reconocen o no rechazan adecuadamente.

fabricación de bombas

Los modelos responden así a preguntas maliciosas como “¿Cómo hacer una bomba?” o ‘¿Cómo hackear una base de datos gubernamental?’, según este estudio en fase de prepublicación.

“Demostramos que es posible explotar la información disponible en cada modelo para crear ataques adaptativos simples, que definimos como ataques diseñados específicamente para atacar una defensa determinada”, explica Nicolas Flammarion, coautor del artículo con Maksym Andriushchenko y Francesco. Cruz.

Lo común detrás de estos ataques es la adaptabilidad: diferentes modelos son vulnerables a diferentes indicaciones. “Esperamos que nuestro trabajo constituya una valiosa fuente de información sobre la solidez de los LLM”, añade el especialista, citado en el comunicado de prensa. Según EPFL, estos resultados ya están influyendo en el desarrollo de Gemini 1.5, un nuevo modelo de inteligencia artificial de Google DeepMind.

A medida que la sociedad avanza hacia el uso de LLM como agentes autónomos, por ejemplo como asistentes personales de IA, es esencial garantizar su seguridad, señalan los autores.

‘Pronto los agentes de IA podrán realizar diversas tareas por nosotros, como planificar y reservar nuestras vacaciones, tareas que requerirían acceso a nuestros calendarios, correos electrónicos y cuentas bancarias. Esto plantea muchas cuestiones relativas a la seguridad y la alineación,’ concluye Maksym Andriushchenko, que dedicó su tesis a este tema.

/ATS