OpenAI creó un modelo de IA para “criticar” ChatGPT

A medida que los chatbots de IA entran en nuestras vidas, la necesidad de saber cuándo brindan información verdadera o inventada, o si están “alucinando” se vuelve cada vez más apremiante. Los desarrolladores han implementado varias soluciones, como citas, para verificar la fuente de una noticia o, en el caso de Gemini, la doble verificación, que permite al chatbot evaluar si hay contenido en la web que confirme su respuesta. Ahora ChatGPT también cuenta con una herramienta para comprobar la veracidad de sus afirmaciones, al menos a la hora de escribir código: CriticGPT. Anunciado ayer por OpenAI, CriticGPT es un nuevo modelo basado en GPT-4 que analiza el código creado por ChatGPT y señala errores potenciales, lo que facilita a los humanos detectar problemas que de otro modo pasarían desapercibidos. El modelo sirve como asistente de IA para los humanos que revisan el código de programación generado por ChatGPT, con el objetivo de hacer que los sistemas de IA se comporten como los humanos esperan. Este proceso, llamado “alineación”, se produce a través de una herramienta llamada “Aprendizaje reforzado a partir de la retroalimentación humana” (RLHF), que se basa en comparar diferentes respuestas de ChatGPT a medida que se comparan y evalúan.

Aunque CriticGPT es similar a ChatGPT, la diferencia notable es que, para entrenarlo, los investigadores le mostraron un conjunto de datos que contenía ejemplos de código con errores insertados intencionalmente, enseñándole a reconocer e informar varios errores de codificación. Antes de publicarlo, OpenAI comparó los resultados de los análisis humanos del código ChatGPT con y sin el modelo “crítico”. El resultado fue alentador: el 63% de los anotadores prefirieron las reseñas del modelo a las realizadas por el propio ChatGPT, informando cómo CriticGPT escribió reseñas más completas, produjo menos reseñas innecesarias, generó menos falsos positivos y, en general, redujo las tasas de alucinaciones. Los investigadores también crearon una nueva técnica llamada Force Sampling Beam Search (FSBS), que ayuda a CriticGPT a escribir revisiones más detalladas del código, lo que le permite ajustar su precisión y actuar eficazmente sobre las alucinaciones. Todo dinámicamente según sea necesario.

Según los informes, CriticGPT podría resultar útil no sólo en la revisión de código. Los investigadores aplicaron el modelo a un subconjunto de datos de entrenamiento de ChatGPT que los anotadores humanos ya habían considerado válidos. Sorprendentemente, CriticGPT identificó errores en el 24% de estos casos, errores que luego fueron confirmados por revisores humanos. OpenAI cree que esto demuestra el potencial del modelo para ser utilizado en tareas más generales, donde puede que no haya una evaluación humana cuidadosa. En cualquier caso, la tasa de error del 24% en los datos utilizados para el entrenamiento de ChatGPT debería ser una señal de alerta en sí misma. Esto significa que casi uno de cada cuatro puntos de datos utilizados para entrenar ChatGPT contiene un error. CriticGPT es sin duda una solución prometedora, pero como todos los modelos de IA plantea problemas. En primer lugar, fue entrenado con respuestas ChatGPT relativamente cortas, lo que puede hacerlo inadecuado para evaluar tareas complejas. Además, aunque tiene tasas bajas de alucinaciones, eso no significa que esté libre de ellas y, en términos absolutos, siguen siendo muy altas. OpenAI afirma que los anotadores cometen errores de etiquetado después de ver alucinaciones en los modelos, pero no se han compartido datos al respecto.

Además, el equipo de investigación reconoce que CriticGPT es más eficaz a la hora de identificar errores que se pueden encontrar en una ubicación específica del código. En el mundo real, los errores a menudo pueden distribuirse en varias partes de una respuesta, lo que presenta un desafío que aún no se ha analizado y que se abordará en futuras iteraciones del modelo. En el futuro, OpenAI planea integrar modelos similares a CriticGPT en su proceso de etiquetado RLHF, brindando a sus capacitadores soporte de IA. Sin embargo, para algunos expertos, algunas respuestas pueden resultar demasiado difíciles de evaluar, incluso con la ayuda de CriticGPT, lo que sería contraproducente. De hecho, el temor son los falsos negativos, es decir, problemas que podrían pasar desapercibidos y que constituyen uno de los mayores riesgos del aprendizaje automático.

Related posts