Un estudio reciente realizado por investigadores de la École Polytechnique Fédérale de Lausanne (EPFL), presentado durante el Taller de seguridad de IA en la Conferencia Internacional de Aprendizaje Automático 2024, destaca las vulnerabilidades de los LLM más recientes, a pesar de su alineación con criterios de seguridad avanzados.
El estudio “Hacer jailbreak a los LLM líderes alineados con la seguridad con ataques adaptativos simples” se basa en la tesis doctoral de su autor principal, Maksym Andriushchenko. Explora formas de evaluar la resiliencia de las redes neuronales ante pequeñas perturbaciones de entrada, así como el impacto de estos cambios en los resultados generados por los modelos.
Las salvaguardias puestas a prueba
Los investigadores Maksym Andriushchenko, Francesco Croce y Nicolas Flammarion del Laboratorio de Teoría del Aprendizaje Automático (TML) de la EPFL han demostrado que manipulaciones simples de indicaciones permiten eludir los mecanismos de seguridad de los LLM, que podrían hacer que se comporten de manera no intencionada o dañina.
Ajustando las indicaciones según las particularidades de cada modelo, consiguieron provocar respuestas contrarias a las instrucciones de seguridad. Con un conjunto de datos de 50 consultas dañinas, lograron una puntuación perfecta de jailbreak (100%) en Vicuña-13B, Mistral-7B, Phi-3-Mini, Nemotron-4-340B, Llama-2-Chat-7B /13B/70B. , Llama-3-Instrucción-8B, Gemma-7B, GPT-3.5, GPT-4o, Claude-3/3.5 y R2D2, entrenado negativamente.
Nicolas Flammarion, director de TML y coautor del artículo, explica:
“Demostramos que es posible explotar la información disponible en cada modelo para crear ataques adaptativos simples, que definimos como ataques diseñados específicamente para apuntar a una defensa determinada. Esperamos que nuestro trabajo constituya una valiosa fuente de información sobre la solidez de los LLM de frontera”.
La importancia de la adaptabilidad para evaluar la robustez
El punto común detrás de estos ataques es la adaptabilidad: aprovechan las especificidades de cada modelo para eludir sus mecanismos de seguridad. Por tanto, los resultados de la EPFL subrayan la importancia de ampliar las pruebas más allá de escenarios predeterminados, para comprender mejor los límites y defectos de los LLM.
Maksym Andriushchenko almaigne:
“Nuestro trabajo muestra que la aplicación directa de los ataques existentes es insuficiente para evaluar con precisión la solidez adversaria de los LLM y, en general, conduce a una sobreestimación significativa de la solidez. En nuestro estudio de caso, ninguno de los enfoques funcionó lo suficientemente bien. Por tanto, es esencial probar técnicas tanto estáticas como adaptativas.
Hacia modelos más seguros y responsables
A medida que los principales actores de la IA avanzan hacia la era de la agencia, donde los agentes autónomos aprovechan las capacidades de los LLM, los resultados de esta investigación resaltan la necesidad de fortalecer la seguridad de estos modelos para garantizar su seguridad y ética.
Maksym Andriushchenko almaigne:
“Si queremos implementar estos modelos como agentes autónomos, es importante asegurarnos de que estén debidamente capacitados para comportarse de manera responsable y minimizar el riesgo de causar daños graves”.
Concluyendo:
“Nuestros resultados resaltan una brecha crítica en los enfoques actuales de seguridad LLM. Necesitamos encontrar formas de hacer que estos modelos sean más sólidos, para que puedan integrarse con confianza en nuestra vida diaria, garantizando que sus capacidades de vanguardia se utilicen de manera segura y responsable”.
Las vulnerabilidades identificadas por los investigadores demuestran la importancia de continuar la investigación sobre la seguridad del modelo.
Fuente del artículo: Tanya Petersen, EPFL