Los investigadores de Google dijeron el viernes que descubrieron la primera vulnerabilidad utilizando un modelo de lenguaje grande.
En una publicación de blog, Google dijo que cree que el error es el primer ejemplo público de una herramienta de inteligencia artificial que encuentra un problema de seguridad de memoria explotable previamente desconocido en software ampliamente utilizado en el mundo real.
La vulnerabilidad se encontró en SQLite, un motor de base de datos de código abierto popular entre los desarrolladores.
Los investigadores de Google informaron de la vulnerabilidad a los desarrolladores de SQLite a principios de octubre, quienes la solucionaron el mismo día. El problema se encontró antes de que apareciera en una versión oficial y no afectó a los usuarios de SQLite. Google elogió el desarrollo como un ejemplo del “inmenso potencial que la IA puede tener para los ciberdefensores”.
“Creemos que este trabajo tiene un tremendo potencial defensivo”, dijeron los investigadores de Google. “Encontrar vulnerabilidades en el software incluso antes de su lanzamiento significa que los atacantes no tienen margen para competir: las vulnerabilidades se solucionan antes de que los atacantes tengan la oportunidad de usarlas”.
El esfuerzo es parte de un proyecto llamado Big Sleep, que es una colaboración entre Google Project Zero y Google DeepMind. Surgió de un proyecto anterior que comenzó a trabajar en la investigación de vulnerabilidades con la ayuda de grandes modelos de lenguaje.
Google señaló que en la conferencia de seguridad DEFCON en agosto, los investigadores de ciberseguridad encargados de crear herramientas de investigación de vulnerabilidades asistidas por IA descubrieron otro problema en SQLite que inspiró a su equipo a ver si podían encontrar una vulnerabilidad más grave.
Variantes difusas
Muchas empresas como Google utilizan un proceso llamado “fuzzing” en el que se prueba el software proporcionándole datos aleatorios o no válidos diseñados para identificar vulnerabilidades, provocar errores o bloquear el programa.
Pero Google dijo que la fuzzing no hace lo suficiente para “ayudar a los defensores a encontrar los errores que son difíciles (o imposibles) de encontrar”, y agregó que tienen “esperanzas de que la IA pueda reducir esta brecha”.
“Creemos que este es un camino prometedor para finalmente cambiar la situación y lograr una ventaja asimétrica para los defensores”, dijeron.
“La vulnerabilidad en sí es bastante interesante, junto con el hecho de que la infraestructura de prueba existente para SQLite (tanto a través de OSS-Fuzz como la propia infraestructura del proyecto) no encontró el problema, por lo que investigamos un poco más”.
Google dijo que una de las principales motivaciones del Big Sleep es el problema persistente de las variantes de vulnerabilidad. Uno de los problemas más preocupantes que encontró Google en 2022 fue el hecho de que más del 40% de los días cero observados eran variantes de vulnerabilidades que ya se habían informado.
Más del 20% de los errores también eran variantes de días cero anteriores, agregaron los investigadores.
Google dijo que continúa descubriendo exploits para variantes de vulnerabilidades encontradas y parcheadas previamente.
“A medida que esta tendencia continúa, está claro que la fuzzing no logra detectar tales variantes, y que para los atacantes, el análisis manual de variantes es un enfoque rentable”, dijeron los investigadores.
“También creemos que esta tarea de análisis de variantes se adapta mejor a los LLM actuales que el problema de investigación de vulnerabilidades más general y abierto. Al proporcionar un punto de partida (como los detalles de una vulnerabilidad previamente solucionada) eliminamos mucha ambigüedad de la investigación de vulnerabilidades y partimos de una teoría concreta y bien fundada: ‘Este fue un error anterior; probablemente haya otro similar en alguna parte’”.
El proyecto aún se encuentra en las primeras etapas y solo utilizan pequeños programas con vulnerabilidades conocidas para evaluar el progreso, agregaron.
Advirtieron que si bien este es un momento de validación y éxito para su equipo, reiteraron que se trata de “resultados altamente experimentales”.
“Cuando se les proporcionan las herramientas adecuadas, los LLM actuales pueden realizar investigaciones de vulnerabilidades”, dijeron.
“La posición del equipo de Big Sleep es que, en la actualidad, es probable que un fuzzer específico para un objetivo sea al menos igual de efectivo (para encontrar vulnerabilidades). Esperamos que en el futuro este esfuerzo genere una ventaja significativa para los defensores: con el potencial no solo de encontrar casos de prueba que fallan, sino también de proporcionar un análisis de la causa raíz de alta calidad, la clasificación y la solución de problemas podrían ser mucho más económicas y más eficaz en el futuro”.
Varios investigadores de ciberseguridad coincidieron en que los hallazgos son prometedores. El fundador de Bugcrowd, Casey Ellis, dijo que la investigación de modelos de lenguaje a gran escala es prometedora y destacó específicamente su uso en variantes como “realmente inteligente”.
“Aprovecha los puntos fuertes de la forma en que se forman los LLM, soluciona algunas de las deficiencias de la confusión y, lo más importante, imita la economía y la tendencia hacia la agrupación de investigaciones de seguridad del mundo real”, dijo.