GPT-4 obtiene una puntuación del 54% en la prueba de Turing

GPT-4 obtiene una puntuación del 54% en la prueba de Turing
GPT-4 obtiene una puntuación del 54% en la prueba de Turing
-

Los modelos de lenguaje han logrado enormes avances en los últimos años y ahora son capaces de generar contenido textual que a menudo es indistinguible del escrito por humanos. Dos investigadores del Departamento de Ciencias Cognitivas de la Universidad de California en San Diego querían saber si dos de ellos, GPT-3.5 y GPT-4 y un programa de procesamiento del lenguaje natural de los años 60, Eliza, podían engañar a un humano, liderando hacerles creer que ellos mismos eran humanos: el famoso Test de Turing. GPT-4 lo aprobó con gran éxito, logrando una impresionante puntuación del 54%.

Alan M. Turing fue un matemático británico visionario, cuyo trabajo pionero sentó las bases de la informática moderna y dio forma al desarrollo de la inteligencia artificial. El prestigioso Premio Turing, considerado el Nobel de la informática, fue creado para rendirle homenaje. Es especialmente famoso por su contribución decisiva al descifrado del código Enigma alemán durante la Segunda Guerra Mundial.

En su artículo “Computing Machinery and Intelligence”, publicado en octubre de 1950, Alan M. Turing propuso un “juego de imitación” destinado a determinar si una máquina puede pretender ser un humano durante una conversación de texto. Si un interrogador humano no puede diferenciar la máquina del humano en más del 30% de los casos después de cinco minutos de interacción, la máquina ha superado esta prueba, posteriormente denominada prueba de Turing.

Si bien Eliza, que también fue evaluada en este estudio, no fue sometida a él, otros programas informáticos han declarado haber superado el test de Turing o variaciones del mismo. En 1970, Parry, un programa creado por Kenneth Colby, que se hacía pasar por un paciente esquizofrénico paranoide, consiguió engañar a algunos expertos psiquiátricos. Se considera un hito en el campo de la simulación del comportamiento humano complejo y el precursor de las esculturas que conocemos hoy.

Vladimir Veselov, Eugene Demchenko y Sergey Ulasen desarrollaron un agente conversacional, Eugene Goostman, en 2001, haciéndose pasar por un niño ucraniano de 13 años. En 2014, durante una competición en la Universidad de Reading, Eugene Goostman engañó al 33% de los jueces haciéndoles creer que era humano, lo que se presentó como un aprobado del Test de Turing. Sin embargo, esta afirmación ha provocado un debate sobre la definición y los criterios precisos de la prueba.

GPT-4 supera con éxito la prueba de Turing

En su estudio titulado “La gente no puede distinguir GPT-4 de un humano en una prueba de Turing”Benjamin K. Bergen, investigador principal del Laboratorio de Cognición y Lenguaje de la UC, y Cameron R. Jones, estudiante de doctorado allí, evaluaron 3 sistemas de IA (ELIZA, GPT-3.5 y GPT-4) en una prueba aleatoria. Prueba de Turing controlada y preregistrada.

Los investigadores reclutaron a 500 participantes en la plataforma en línea Prolific, que se dividieron aleatoriamente en cinco grupos distintos. La misión del primero era demostrar a sus interlocutores que era realmente un humano, los otros cuatro determinar, tras una conversación de cinco minutos, si habían interactuado con un humano o con un sistema de inteligencia artificial.

Las cifras del estudio.

Sólo el 22% de los participantes creía que ELIZA era humana. Este histórico programa informático desarrollado por Joseph Weizenbaum entre 1964 y 1966 simula la conversación de un psicoterapeuta, sus respuestas están predefinidas mediante palabras clave en las interacciones con los pacientes.

GPT-3.5 logró una puntuación más que respetable con un 50%, pero GPT-4 la superó con un 54%. Sin embargo, están por debajo del grupo humano que logró convencer a los demás participantes en el estudio de que efectivamente eran humanos (67%).

Trascendencia

Para los investigadores, los resultados sugieren que los factores estilísticos y socioemocionales son más determinantes para el éxito en el test de Turing que las nociones tradicionales de inteligencia. Por lo tanto, la forma en que una IA se comunica, su estilo y su capacidad para gestionar los aspectos emocionales de las conversaciones desempeñan un papel crucial en la percepción de su humanidad.

Estos resultados alimentan los debates sobre qué constituye realmente la inteligencia artificial. Si una IA puede ser percibida como humana sin alcanzar una inteligencia general equivalente a la de los humanos, esto plantea dudas sobre los criterios de inteligencia y conciencia.

Por otro lado, sugieren que el engaño de los actuales sistemas de IA podría pasar desapercibido, generando riesgos de desinformación y manipulación. Además, un estudio reciente de la École Polytechnique Fédérale de Lausanne (EPFL) destacó el poder persuasivo de los modelos de lenguaje grande (LLM) durante las interacciones en línea. Los investigadores demostraron que cuando a GPT-4 se le proporcionaba información personal sobre su interlocutor, el modelo adaptaba sus argumentos de forma mucho más eficaz que un ser humano para cambiar de opinión.

Referencias de artículos: “La gente no puede distinguir GPT-4 de un humano en una prueba de Turing”arXiv:2405.08007

Autores y afiliaciones: Benjamin K. Bergen y Cameron R. Jones, Departamento de Ciencias Cognitivas, Universidad de California, San Diego

-

NEXT OpenAI lanza GPT crítico para reparar GPT-4