En EPFL, ChatGPT responde solo el 85% de las preguntas

Friday 29th November 2024 03:51 PM

Disponible desde finales de 2022, ChatGPT ha superado la marca de los 100 millones de usuarios en menos de un mes. Desde entonces, la IA se ha ido imponiendo poco a poco en muchos hogares y empresas. Sin embargo, hasta ahora no se ha realizado un estudio en profundidad sobre el impacto potencial de los asistentes de IA en los métodos de evaluación utilizados por las instituciones educativas.

Por ello, los investigadores de la EPFL llevaron a cabo un estudio a gran escala en 50 cursos de su escuela. Forman parte de nueve programas de Licenciatura y Maestría en línea y cubren una amplia gama de disciplinas. “Estos datos se reunieron en un formato que pensamos que se parecería más a la forma en que los estudiantes los comunicarían”, explica Antoine Bosselut, jefe del Laboratorio de Procesamiento del Lenguaje Natural (PLN) y miembro del Centro de IA de la Universidad. EPFL.

Los científicos utilizaron ocho estrategias de estimulación (el arte de formular solicitudes de tal manera que la inteligencia artificial comprenda completamente lo que se está buscando) para producir respuestas. Descubrieron que GPT-4 responde correctamente al 65,8% de las preguntas en promedio e incluso puede proporcionar la respuesta correcta en al menos una estrategia de estimulación para el 85,1% de las preguntas. “Nos sorprendieron los resultados. Nadie esperaba que los asistentes de IA obtuvieran un porcentaje tan alto de respuestas correctas en tantos cursos”, afirma Anna Sotnikova, científica de PNL y coautora de la publicación.

De este modo, los investigadores han demostrado teóricamente la vulnerabilidad de las evaluaciones al uso de la IA por parte de los estudiantes. Si ChatGPT puede obtener su título de ingeniería simplemente asimilando los cursos a medida que los estudiantes los reciben, ¿qué nos prueba que realmente tendrán las habilidades académicas requeridas? “A corto plazo, deberíamos insistir en que las evaluaciones sean más difíciles, no en el sentido de la dificultad de las preguntas, sino en el sentido de la complejidad de la propia evaluación”, sugiere Antoine Bosselut, en el comunicado publicado este viernes. .