Con inteligencia artificial, sólo entre el 65 y el 75% de las cotizaciones ofrecidas eran precisas… insuficiente

Hay que actuar con rapidez para utilizar los LLM (Large Language Models), estas herramientas que nos ayudan a escribir artículos. Se trata de una investigación publicada a principios de abril de 2024 en JMIR (Journal of Medical Internet Research). Las revistas del grupo JMIR han publicado hasta la fecha 150 artículos sobre inteligencia artificial (IA) en el ámbito de la salud. JMIR, que tiene 25 años, es la mejor revista en la disciplina de ‘Informática Médica’.

Evaluación del rendimiento y la confiabilidad del modelo de lenguaje grande para citas y referencias en escritura académica: estudio interdisciplinario

Fue un equipo chino el que hizo este trabajo al lanzar ChatGPT-3.5 en julio/agosto de 2023. Le pidieron que escribiera la introducción de 5 artículos de ciencias naturales y 5 artículos de ciencias humanas. ChatGPT generó 102 referencias que los autores analizaron. Hay demasiadas alucinaciones. Aquí está la Tabla 2 del artículo que se entiende fácilmente:

Para interpretar, repito’La distancia de Levenshtein fue significativamente mayor en humanidades que en ciencias naturales, lo que refleja la menor precisión del DOI..’

Progreso esperado: ¿cuándo?

En abril de 2024 debemos estar muy atentos y controlar las citas, no sólo su existencia, sino también su interés. ¿No es mejor hacerlo sin el LLM para ir más rápido? No sé. ¡Cuidado con las alucinaciones! Los LLM pueden inventar referencias recopilando elementos exactos: los autores existen en una publicación, luego el título es el de otro artículo y la referencia (revista, año, páginas) puede haber sido tomada de otro artículo.

Pequeño artículo que debería hacerse en otros campos científicos, incluida la medicina, y con más temáticas. La introducción a este artículo es didáctica, quizás demasiado larga. Surge la cuestión de la reproducibilidad: según la indicación, según el período de interrogatorio, los resultados probablemente sean diferentes.

En resumen, los LLM no son confiables para las citas, pero ¿por cuánto tiempo?

PD: gracias a Nicolas de Chanaud por su tuit

Evaluación del rendimiento y la confiabilidad del modelo de lenguaje grande para citas y referencias en escritura académica: estudio interdisciplinario

Progreso esperado: ¿cuándo?

Related posts