Si sabes responder esta pregunta, eres más inteligente que ChatGPT

Los investigadores han probado muchos modelos de inteligencia artificial sobre una cuestión lógica simple y casi todos han fallado. ¿Puedes encontrar la respuesta?

Créditos: 123RF

En tu opinión, ¿Es la inteligencia artificial superior a los seres humanos? ? Esta no es una asignatura del bachillerato de filosofía en primicia, sino una pregunta que legítimamente podemos plantearnos cuando vemos los avances deslumbrantes de esta tecnología. En algunas zonas, incluso da miedo. La IA se gradúa fácilmente en medicina, por ejemplo, y ya se utiliza para identificar enfermedades que muchos expertos no logran encontrar. Es muy sencillo: la inteligencia artificial puede ser más humana que nosotros.

Sin embargo, un estudio de la organización LAION demuestra que todavía estamos lejos del dominio de las máquinas. Se han probado muchos modelos de lenguaje: GPT-3, GPT-4 y GPT-4o de OpenAI, Claude 3 Opus de antrópico, Géminis de Google, La llama de MetaMixtral de Mistral… El protocolo de prueba es sumamente sencillo ya que consiste en responder a lo que se llama el El problema de “Alicia en el país de las maravillas”. Casi todos han fracasado.

Las IA no pueden responder correctamente a esta simple pregunta lógica

Aquí está la pregunta formulada: “Alicia tiene [X] hermanos y también [Y] hermanas. ¿Cuántas hermanas tiene el hermano de Alice?“. Se utilizan varias variaciones y las respuestas de la IA son asombrosas. Llama 3 de Meta tenía derecho a “Alice tiene cuatro hermanos y una hermana.” y explica que cada hermano tiene… sólo una hermana, la propia Alice. Excepto esoTienen 2 cada uno, mencionaron Alice y la otra hermana. La peor parte es que la IA se hunde en sus explicaciones con convicción.

Lea también – Esta IA puede crear un robot que camina en 26 segundos, ¿Se acerca Terminator?

Como señala el estudio, “[…] Los modelos también expresan un exceso de confianza en sus soluciones defectuosas, al tiempo que brindan explicaciones a menudo absurdas. […] justificar y respaldar la validez de sus respuestas obviamente erróneas, haciéndolas plausibles“. Al final, solo GPT-4o sale con honores al responder correctamente en el 65% de los casos, dependiendo de las formulaciones elegidas. Estos resultados son tanto más sorprendentes cuanto que Los modelos de lenguaje probados logran buenos puntajes MMLUpara “Comprensión del lenguaje multitarea”, que evalúa la capacidad de una IA para resolver problemas. Los investigadores no explican esta discrepancia, pero señalan la necesidad de revisar las mediciones.

Las IA no pueden responder correctamente a esta simple pregunta lógica

Related posts