resultados potencialmente prometedores, pero la integración debe perfeccionarse

Thursday 21st November 2024 08:40 AM

¿Puede la IA mejorar la precisión de los diagnósticos médicos? Los investigadores de UVA Health, una red de atención médica afiliada a la Universidad de Virginia, se propusieron responder esa pregunta. El resultado de su estudio es sorprendente: si bien la IA puede superar a los médicos en determinadas tareas de diagnóstico, su integración en su flujo de trabajo no mejoró significativamente su rendimiento general.

Los modelos de lenguaje grande (LLM) han mostrado resultados prometedores al aprobar exámenes de razonamiento médico, ya sean preguntas de opción múltiple o abiertas. Sin embargo, aún está por determinar su impacto en la mejora del razonamiento diagnóstico de los médicos en situaciones reales.

Andrew S. Parsons, que supervisa la enseñanza de habilidades clínicas a estudiantes de medicina en la Facultad de Medicina de la Universidad de Virginia y codirige Clinical Reasoning Research Collaborative, y sus colegas de UVA Health querían llevar ChatGPT Plus (GPT-4) a la prueba. Su estudio fue publicado en la revista científica JAMA Network Open y aceptado este mes en el simposio de 2024 de la Asociación Estadounidense de Informática Médica.

Metodología de estudio

Los investigadores reclutaron a 50 médicos que practicaban medicina familiar, medicina interna y medicina de emergencia para lanzar un ensayo clínico controlado y aleatorio en tres hospitales líderes: UVA Health, Stanford y el Centro Médico Beth Israel Deaconess de Harvard. La mitad de ellos fueron asignados aleatoriamente para usar ChatGPT además de métodos convencionales como Google o sitios de referencia médica como UpToDate, mientras que la otra mitad se basó únicamente en estos métodos convencionales.

Los participantes tuvieron 60 minutos para revisar hasta 6 viñetas clínicas, herramientas educativas utilizadas en el campo médico para evaluar y mejorar las habilidades clínicas de los profesionales de la salud. Estas viñetas, basadas en casos reales, incluían detalles de la historia de los pacientes, exámenes físicos y resultados de pruebas de laboratorio.

Resultados

El estudio encontró que los médicos que utilizaron ChatGPT Plus lograron una precisión diagnóstica media del 76,3%, ligeramente superior al 73,7% de los médicos que confiaron únicamente en herramientas tradicionales. Si la diferencia sigue siendo modesta, Chat GPT Plus, utilizado de forma independiente, logró una impresionante precisión del 92%.

Si bien los participantes del ensayo que utilizaron ChatGPT Plus alcanzaron un diagnóstico ligeramente más rápido en general (519 segundos frente a 565 segundos por caso), paradójicamente redujeron la precisión del diagnóstico de la IA.

Para los investigadores, esta caída en la precisión podría deberse a las indicaciones utilizadas. Destacan la necesidad de capacitar a los médicos en el uso óptimo de la IA, en particular mediante el uso de indicaciones de manera más efectiva. Alternativamente, las organizaciones de atención médica podrían comprar indicaciones predefinidas para implementarlas en el flujo de trabajo y la documentación clínica.

Dicen que ChatGPT Plus probablemente no funcionaría tan bien en la vida real, donde entran en juego muchos otros aspectos del razonamiento clínico, particularmente para determinar los efectos posteriores de los diagnósticos y las decisiones de tratamiento. Piden estudios adicionales para evaluar las capacidades de los grandes modelos lingüísticos en estas áreas y están realizando un estudio similar sobre la toma de decisiones de gestión.

Conclusiones

Los resultados revelan un matiz clave: aunque los LLM son capaces de lograr un rendimiento independiente impresionante, su uso además de los métodos tradicionales no ha mejorado significativamente la precisión diagnóstica de los médicos.

Los investigadores advierten que “Los resultados de este estudio no deben interpretarse como que indican que los LLM deben usarse para el diagnóstico de forma independiente sin supervisión médica” agregando eso “Se necesitan más avances en las interacciones hombre-máquina para aprovechar el potencial de la IA en los sistemas de apoyo a las decisiones clínicas”.

También lanzaron una red de evaluación de IA en ambas costas llamada ARiSE (Evaluación científica y de investigación de IA) para evaluar más a fondo los resultados de GenAI en la atención médica.

Referencias de artículos

“Influencia de un gran modelo de lenguaje en el razonamiento diagnóstico. Un ensayo clínico aleatorizado” doi: 10.1001/jamanetworkopen.2024.40969

Equipo de investigación: Ethan Goh, Robert Gallo, Jason Hom, Eric Strong, Yingjie Weng, Hannah Kerman, Joséphine A. Cool, Zahir Kanjee, Andrew S. Parsons, Neera Ahuja, Eric Horvitz, Daniel Yang, Arnold Milstein, Andrew PJ Olson, Adam Rodman y Jonathan H. Chen.