Casi todos los principales modelos de lenguaje o “chatbots” muestran signos de deterioro cognitivo leve en pruebas ampliamente utilizadas para detectar signos tempranos de demencia, según un estudio publicado en la edición navideña de El BMJ.
Los resultados también muestran que las versiones “antiguas” de los chatbots, al igual que los pacientes mayores, tienden a obtener peores resultados en las pruebas. Los autores dicen que estos hallazgos “desafían la suposición de que la inteligencia artificial pronto reemplazará a los médicos humanos”.
Los tremendos avances en inteligencia artificial han dado lugar a una ola de especulaciones excitadas y aterradoras sobre si los chatbots pueden superar a los médicos humanos.
Varios estudios han demostrado que los modelos de lenguaje grande (LLM) son notablemente hábiles en una variedad de tareas de diagnóstico médico, pero aún no se ha examinado su susceptibilidad a deficiencias humanas como el deterioro cognitivo.
Para llenar este vacío de conocimiento, los investigadores evaluaron las capacidades cognitivas de los principales LLM disponibles públicamente: ChatGPT versiones 4 y 4o (desarrollado por OpenAI), Claude 3.5 “Sonnet” (desarrollado por Anthropic) y Gemini versiones 1 y 1.5 (desarrollado por Alphabet). ) – utilizando la prueba de Evaluación Cognitiva de Montreal (MoCA).
La prueba MoCA se usa ampliamente para detectar deterioro cognitivo y signos tempranos de demencia, generalmente en adultos mayores. A través de una serie de tareas y preguntas breves, evalúa habilidades que incluyen atención, memoria, lenguaje, habilidades visoespaciales y funciones ejecutivas. La puntuación máxima es de 30 puntos, y una puntuación de 26 o más generalmente se considera normal.
Las instrucciones dadas a los LLM para cada tarea fueron las mismas que las dadas a los pacientes humanos. La puntuación siguió las pautas oficiales y fue evaluada por un neurólogo en ejercicio.
ChatGPT 4o obtuvo la puntuación más alta en la prueba MoCA (26 de 30), seguido de ChatGPT 4 y Claude (25 de 30), y Gemini 1.0 tuvo la puntuación más baja (16 de 30).
Todos los chatbots mostraron un desempeño deficiente en habilidades visuoespaciales y tareas ejecutivas, como la tarea de hacer senderos (conectar números y letras en círculos en orden ascendente) y la prueba de dibujar un reloj (dibujar una esfera de reloj que indica una hora específica). Los modelos Géminis reprobaron la tarea de recuerdo retardado (recordar una secuencia de cinco palabras).
Todos los chatbots realizaron bien la mayoría de las demás tareas, incluidas la denominación, la atención, el lenguaje y la abstracción.
Pero en otras pruebas visoespaciales, los chatbots no pudieron demostrar empatía ni interpretar con precisión escenas visuales complejas. Solo ChatGPT 4o pasó el paso incongruente de la prueba Stroop, que utiliza combinaciones de nombres de colores y colores de fuente para medir el impacto de la interferencia en el tiempo de reacción.
Estos son resultados observacionales y los autores reconocen las diferencias esenciales entre el cerebro humano y los grandes modelos de lenguaje.
Sin embargo, señalan que el fracaso uniforme de todos los principales modelos de lenguaje en tareas que requieren abstracción visual y función ejecutiva resalta un importante punto de debilidad que podría obstaculizar su uso en entornos clínicos.
Como tal, concluyen: “No sólo es poco probable que los neurólogos sean reemplazados por grandes modelos de lenguaje en el corto plazo, sino que nuestros resultados sugieren que pronto podrían encontrarse tratando nuevos pacientes virtuales: modelos de inteligencia artificial que presentan trastornos cognitivos. »
Related News :