DayFR Spanish

La IA sanitaria, destinada a ahorrar dinero, requiere muchos seres humanos caros

-

Preparar a los pacientes con cáncer para decisiones difíciles es el trabajo de un oncólogo. Sin embargo, no siempre se acuerdan de hacerlo. En el Sistema de Salud de la Universidad de Pensilvania, se pide a los médicos que hablen sobre el tratamiento de un paciente y sus preferencias al final de la vida a través de un algoritmo artificialmente inteligente que predice las posibilidades de muerte.

Pero está lejos de ser una herramienta que se configura y se olvida. Una verificación técnica de rutina encontró que el algoritmo se degradó durante la pandemia de covid-19, empeorando la predicción de muerte en 7 puntos porcentuales, según un estudio de 2022.

Probablemente hubo impactos reales. Ravi Parikh, oncólogo de la Universidad de Emory y autor principal del estudio, dijo a KFF Health News que la herramienta falló cientos de veces a la hora de incitar a los médicos a iniciar esta importante discusión (posiblemente evitando la quimioterapia innecesaria) con los pacientes que la necesitaban.

Él cree que varios algoritmos diseñados para mejorar la atención médica se han debilitado durante la pandemia, no solo el de Penn Medicine. “Muchas instituciones no monitorean sistemáticamente el desempeño” de sus productos, dijo Parikh.

Los problemas algorítmicos son una faceta de un dilema que los científicos informáticos y los médicos han reconocido desde hace mucho tiempo, pero que está empezando a intrigar a los ejecutivos e investigadores de los hospitales: los sistemas de inteligencia artificial requieren un seguimiento y una dotación de personal constantes para poder configurarlos y seguir funcionando correctamente.

En pocas palabras: se necesita gente y más máquinas para asegurarse de que las nuevas herramientas no se estropeen.

“Todo el mundo piensa que la IA nos ayudará a mejorar nuestro acceso y capacidades, mejorar la atención, etc. dijo Nigam Shah, científico jefe de datos de Stanford Health Care. “Esto está muy bien, pero si aumenta el costo de la atención en un 20%, ¿es sostenible? »

A los funcionarios del gobierno les preocupa que los hospitales no tengan los recursos para poner a prueba estas tecnologías. “Miré muy hacia adelante”, dijo el comisionado de la FDA, Robert Califf, durante un panel reciente de la agencia sobre IA. “No creo que exista un solo sistema de atención médica en los Estados Unidos que pueda validar un algoritmo de IA implementado en un sistema de atención clínica. »

La IA ya está muy extendida en la atención sanitaria. Los algoritmos se utilizan para predecir el riesgo de muerte o deterioro de los pacientes, sugerir diagnósticos o clasificar a los pacientes, registrar y resumir las visitas para ahorrar el trabajo de los médicos y aprobar reclamaciones de seguros.

Si los evangelistas de la tecnología tienen razón, la tecnología será omnipresente y rentable. La firma de inversión Bessemer Venture Partners ha identificado alrededor de 20 nuevas empresas de inteligencia artificial centradas en la salud que están en camino de generar 10 millones de dólares en ingresos cada una al año. La FDA ha aprobado casi mil productos con inteligencia artificial.

Evaluar si estos productos funcionan es un desafío. Evaluar si continúan funcionando –o si han desarrollado el software equivalente a una junta rota o un motor con fugas– es aún más complicado.

Tomemos, por ejemplo, un estudio reciente de Yale Medicine que evalúa seis “sistemas de alerta temprana”, que alertan a los médicos cuando es probable que las condiciones de los pacientes se deterioren rápidamente. Una supercomputadora analizó los datos durante varios días, dijo Dana Edelson, médica de la Universidad de Chicago y cofundadora de una empresa que proporcionó un algoritmo para el estudio. El proceso fue exitoso y mostró enormes diferencias en el rendimiento entre los seis productos.

No es fácil para los hospitales y proveedores seleccionar los mejores algoritmos para sus necesidades. El médico promedio no tiene una supercomputadora y no existe Consumer Reports sobre IA.

“No tenemos ningún estándar”, dijo Jesse Ehrenfeld, ex presidente inmediato de la Asociación Médica Estadounidense. “Hoy en día no puedo decirles nada que sea un estándar sobre cómo se evalúa, monitorea y revisa el desempeño de un modelo de algoritmo, habilitado para IA o no, cuando se implementa. »

Quizás el producto de IA más común en los consultorios médicos se llama documentación ambiental, un asistente tecnológico que escucha y resume las visitas de los pacientes. El año pasado, los inversores de Rock Health rastrearon el flujo de 353 millones de dólares hacia estas empresas de documentación. Pero Ehrenfeld dijo: “Actualmente no existe ningún estándar para comparar los resultados de estas herramientas. »

Y eso es un problema, porque incluso los pequeños errores pueden ser devastadores. Un equipo de la Universidad de Stanford intentó utilizar grandes modelos de lenguaje (la tecnología detrás de herramientas de inteligencia artificial populares como ChatGPT) para resumir los historiales médicos de los pacientes. Compararon los resultados con lo que escribiría un médico.

“Incluso en el mejor de los casos, los modelos tenían una tasa de error del 35 por ciento”, dijo Shah de Stanford. En medicina, “cuando estás escribiendo un resumen y se te olvida una palabra, como ‘fiebre’, quiero decir, eso es un problema, ¿no?

A veces, las razones por las que fallan los algoritmos son bastante lógicas. Por ejemplo, los cambios en los datos subyacentes pueden erosionar su eficacia, como cuando los hospitales cambian de proveedores de laboratorio.

A veces, sin embargo, los obstáculos se revelan sin motivo aparente.

Sandy Aronson, directora técnica del programa de medicina personalizada del Mass General Brigham en Boston, dijo que cuando su equipo probó una aplicación destinada a ayudar a los asesores genéticos a localizar literatura relevante sobre variantes del ADN, el producto adolecía de “no determinismo”, es decir, cuando me preguntan lo mismo. Pregunta varias veces durante un corto período de tiempo, esto arrojó resultados diferentes.

Aronson está entusiasmado con el potencial de los grandes modelos de lenguaje para resumir el conocimiento de los asesores genéticos con exceso de trabajo, pero “la tecnología debe mejorar”.

Si las mediciones y los estándares son raros y pueden ocurrir errores por razones extrañas, ¿qué deberían hacer las instituciones? Invierte muchos recursos. En Stanford, dijo Shah, se necesitaron de ocho a diez meses y 115 horas de trabajo para verificar la imparcialidad y confiabilidad de dos modelos.

Los expertos entrevistados por KFF Health News plantearon la idea de que la inteligencia artificial monitoree la inteligencia artificial, con un experto en datos (humanos) monitoreando ambas. Todos reconocieron que esto requeriría que las organizaciones gastaran aún más dinero, una tarea difícil dadas las realidades de los presupuestos hospitalarios y el número limitado de especialistas en tecnología de IA.

“Es fantástico tener una visión en la que derretiremos los icebergs para tener un modelo que monitoree su patrón”, dijo Shah. “¿Pero es esto realmente lo que quería? ¿Cuántas personas más necesitaremos? »

Este artículo fue reimpreso de khn.org, una sala de redacción nacional que produce periodismo en profundidad sobre temas de salud y es uno de los principales programas operativos de KFF, la fuente independiente de investigación, encuestas y políticas de salud.

Related News :