OpenAI mide las alucinaciones de sus LLM (y las de sus competidores)

Para evaluar mejor la precisión de sus grandes modelos de lenguaje, OpenAI ha desarrollado SimpleQA, un punto de referencia dedicado a respuestas objetivas. Está confirmado: los modelos GPT todavía tienen límites.

Todos lo sabemos y lo hemos experimentado: los LLM pueden alucinar respuestas incorrectas. OpenAI, por supuesto, espera corregir la situación y mejorar la confiabilidad de sus modelos. Para ello, la empresa presentó SimpleQA, su propio punto de referencia de código abierto para medir la precisión de la respuesta de modelos de lenguaje grandes. El desarrollo de esta nueva herramienta ha puesto de relieve las limitaciones actuales de los LLM para determinadas cuestiones.

SimpleQA fue diseñado para evaluar la capacidad de los modelos OpenAI para responder preguntas breves, enfocadas y basadas en hechos. La metodología se basa en un conjunto de 4326 preguntas claras, con respuestas verificables, destinadas a simplificar la evaluación. Al limitar el alcance del punto de referencia a preguntas bien definidas, OpenAI afirma que SimpleQA permite una medición más precisa de la factibilidad.

Preguntas deliberadamente difíciles

Aclaración importante: para la selección de las indicaciones interrogativas, los entrenadores de IA desarrollaron preguntas objetivas y respuestas precisas, cumpliendo criterios estrictos: una respuesta única, que permanece constante en el tiempo, y una tendencia a provocar alucinaciones. De hecho, los investigadores solo seleccionaron preguntas a las que al menos una versión del LLM de OpenAI había proporcionado una respuesta incorrecta. Por lo tanto, los resultados reflejan el desempeño de los modelos en preguntas deliberadamente difíciles, no su capacidad general para responder preguntas fácticas.

Un máximo de 40% de respuestas correctas.

Los resultados indican que GPT-4o, la versión actual de GPT-4, logra alrededor del 40% de respuestas correctas, mientras que el modelo GPT-4 o1-Preview obtiene una puntuación ligeramente superior. Los modelos más pequeños tienen un rendimiento aún menor.

Según los investigadores de OpenAI, SimpleQA podría fomentar la investigación de una IA más fiable. “La correlación entre la capacidad de proporcionar respuestas breves y objetivas y la capacidad de escribir respuestas detalladas sigue siendo una cuestión abierta”, agregaron.

Hacer que los LLM sean más confiables es probablemente una cuestión aún más crucial ahora que OpenAI ha lanzado su propio motor de búsqueda. Leer sobre el tema >> ¿Estás seguro de que quieres utilizar un chatbot como motor de búsqueda?

Swiss

Preguntas deliberadamente difíciles

Un máximo de 40% de respuestas correctas.

Related posts