Las indicaciones automatizadas hacen que GPT-4 sea eficiente en temas médicos

Un estudio reciente de Microsoft Research revela que GPT-4, gracias a una estrategia de incitación particular, supera a los LLM especializados en medicina. El método de descubrimiento, que puede aplicarse en otros campos, podría poner en duda la pertinencia de realizar un “ajuste” en la formación LLM.

Microsoft Research ha publicado un estudio que demuestra la capacidad de GPT-4 para superar a un LLM especialmente capacitado en el campo médico. En un estudio anterior publicado en marzo de 2023, Microsoft Research ya había ilustrado cómo estrategias muy simples revelaban las capacidades de GPT-4 en términos de conocimiento médico, sin ningún ajuste particular. Investigaciones posteriores revelan la eficacia de lo que los investigadores han denominado “Medprompt”, un método de estimulación compuesto. Los resultados publicados son inequívocos: GPT-4 logra más del 90 % de precisión en el conjunto de datos MedQA y supera a los modelos existentes en los nueve puntos de referencia de MultiMedQA, al tiempo que reduce la tasa de error en un 27 % en comparación con MedPaLM 2, el LLM médico de Google Deepmind.

Aprendizaje en contexto y cadena de pensamiento.

El método se distingue por su enfoque híbrido, que combina el aprendizaje en contexto y la cadena de pensamiento. Según Microsoft Research, el método funciona porque utiliza un mensaje general, lo que permite a GPT-4 generar sus propias cadenas de pensamiento para aprender en contexto. Por tanto, el enfoque desmantela la eficacia de la capacidad autogenerativa de GPT-4. Además, “esta observación se hace eco de otros informes de que GPT-4 tiene una capacidad emergente de superación personal a través de la introspección, como la autoverificación”, afirman los investigadores de Microsoft en su artículo académico.

¿Se cuestiona el “ajuste fino”?

El método desarrollado por Microsoft Research podría poner en duda la necesidad de perfeccionar los LLM con el objetivo de lograr un rendimiento óptimo en áreas específicas. Según los investigadores de Microsoft, sus resultados sugieren que estrategias de estimulación adecuadas podrían reducir la necesidad de realizar estos costosos ajustes. Sin embargo, el “ajuste fino” también tiene sus ventajas, en particular porque permite entrenar modelos especializados que son más livianos (que requieren menos recursos computacionales) que los grandes modelos generales como GPT-4.

Tenga en cuenta que el alcance de “Medprompt”, a pesar de su nombre, va más allá del campo médico. De hecho, la metodología no incluye ningún elemento específicamente orientado a la medicina. Por lo tanto, el enfoque podría aplicarse fácilmente a otras áreas. Los investigadores ya han observado su eficacia en exámenes de competencias profesionales en diversos campos, entre ellos la ingeniería eléctrica, el aprendizaje automático, la filosofía, la contabilidad, el derecho y la psicología.

Aprendizaje en contexto y cadena de pensamiento.

¿Se cuestiona el “ajuste fino”?

Related posts