GPT-4 ha pasado la prueba de Turing. Una primicia mundial

⇧ [VIDÉO] También te puede gustar el contenido de este socio.

En su artículo de 1950, Alan Turing argumentó que los sistemas de inteligencia artificial algún día serían tan buenos en el juego de imitación humana que un interrogador humano no tendría más del 70% de posibilidades de notar la diferencia entre la máquina y el humano en 5 minutos de interacción. . Así, la tasa de éxito (que una máquina “pase el test de Turing”) se estableció en un 30%. Casi 70 años después, el GPT-4 de OpenAI ha superado con creces ese punto de referencia, según un experimento reciente del departamento de ciencias cognitivas de la Universidad de California en San Diego. Según los investigadores de la UCSD, la mayoría de los examinados no pudieron distinguir el GPT-4 de un hablante humano, lo que sugiere que la famosa prueba de Turing se aprobó por primera vez en la historia.

La prueba de Turing, originalmente llamada “juego de imitación” por Alan Turing en 1950, se utiliza para determinar si la capacidad de una máquina para conversar es equivalente e indistinguible de la de un ser humano. Para que una máquina pase la prueba, debe poder entablar una conversación con una persona mientras le da la ilusión de que es humana.

En un nuevo estudio, los investigadores de la UCSD realizaron una prueba de Turing aleatorizada, controlada y preregistrada. Durante este experimento, evaluaron tres sistemas: el chatbot ELIZA (el primer chatbot, creado en los años 60 para simular a un psicoterapeuta), GPT-3.5 y GPT-4.

El equipo reunió a 500 participantes y los dividió en 4 grupos: un grupo tenía que charlar con un humano, mientras que los otros tres tenían que interactuar con uno de los tres modelos de IA. Las conversaciones duraron cinco minutos. A continuación, los participantes debían dar su opinión general y anunciar si su interlocutor era, en su opinión, humano o no. Las tasas de éxito (es decir, la tasa de conversaciones identificadas como “humanas”) para cada grupo fueron las siguientes: ELIZA, que es un sistema preprogramado que carece de un modelo de lenguaje grande (LLM), fue considerada humana en sólo el 22% de los casos; GPT-3.5 obtuvo una puntuación del 50%, mientras que GPT-4 se consideró humano el 54% de las veces; ¡El participante humano obtuvo una puntuación de sólo el 67%!

Teniendo en cuenta los resultados de GPT-3.5 y GPT-4, el equipo de investigación de la UCSD considera que ambos modelos han pasado la prueba de Turing. Según ellos, lo interesante es sobre todo el porcentaje del 54% obtenido por GPT-4, porque va más allá de un porcentaje que puede atribuirse al puro azar (la famosa referencia al juego de cara o cruz, en el que cara y cruz las colas tienen cada una exactamente un 50% de posibilidades de aparecer). Además, basándose en la puntuación de ELIZA, dedujeron que, para un chatbot simple, la prueba es lo suficientemente sensible como para distinguir modelos de IA más o menos avanzados.

“ Las máquinas pueden confabular, reuniendo justificaciones plausibles después del hecho, tal como lo hacen los humanos. dijo Nell Watson, investigadora de IA en el Instituto de Ingenieros Eléctricos y Electrónicos (IEEE). “ Pueden estar sujetos a sesgos cognitivos, ser engañados y manipulados y volverse cada vez más engañosos. Todo esto significa que los sistemas de IA expresan emociones similares a las humanas, lo que los hace más humanos que los enfoques anteriores que se limitaban a una lista de respuestas predefinidas. », continúa Watson.

Ver también

Sin embargo, los resultados del estudio también sugieren que dominar el lenguaje natural es suficiente para pasar el Test de Turing y que, por tanto, el enfoque es demasiado simplista. Los investigadores también han afirmado que los factores estilísticos y socioemocionales juegan aquí un papel más importante que las nociones tradicionales de inteligencia. De todos modos, este es un importante paso adelante para la inteligencia artificial.

“ Los modelos de lenguaje son infinitamente flexibles, capaces de sintetizar respuestas a una amplia gama de temas, expresarse en lenguajes o sociolectos particulares y presentarse con personalidad y valores impulsados por el carácter. Este es un gran paso adelante », concluye Watson.

Fuente: arXiv

Related posts