Aunque CriticGPT es similar a ChatGPT, la diferencia notable es que, para entrenarlo, los investigadores le mostraron un conjunto de datos que contenía ejemplos de código con errores insertados intencionalmente, enseñándole a reconocer e informar varios errores de codificación. Antes de publicarlo, OpenAI comparó los resultados de los análisis humanos del código ChatGPT con y sin el modelo “crítico”. El resultado fue alentador: el 63% de los anotadores prefirieron las reseñas del modelo a las realizadas por el propio ChatGPT, informando cómo CriticGPT escribió reseñas más completas, produjo menos reseñas innecesarias, generó menos falsos positivos y, en general, redujo las tasas de alucinaciones. Los investigadores también crearon una nueva técnica llamada Force Sampling Beam Search (FSBS), que ayuda a CriticGPT a escribir revisiones más detalladas del código, lo que le permite ajustar su precisión y actuar eficazmente sobre las alucinaciones. Todo dinámicamente según sea necesario.
Según los informes, CriticGPT podría resultar útil no sólo en la revisión de código. Los investigadores aplicaron el modelo a un subconjunto de datos de entrenamiento de ChatGPT que los anotadores humanos ya habían considerado válidos. Sorprendentemente, CriticGPT identificó errores en el 24% de estos casos, errores que luego fueron confirmados por revisores humanos. OpenAI cree que esto demuestra el potencial del modelo para ser utilizado en tareas más generales, donde puede que no haya una evaluación humana cuidadosa. En cualquier caso, la tasa de error del 24% en los datos utilizados para el entrenamiento de ChatGPT debería ser una señal de alerta en sí misma. Esto significa que casi uno de cada cuatro puntos de datos utilizados para entrenar ChatGPT contiene un error. CriticGPT es sin duda una solución prometedora, pero como todos los modelos de IA plantea problemas. En primer lugar, fue entrenado con respuestas ChatGPT relativamente cortas, lo que puede hacerlo inadecuado para evaluar tareas complejas. Además, aunque tiene tasas bajas de alucinaciones, eso no significa que esté libre de ellas y, en términos absolutos, siguen siendo muy altas. OpenAI afirma que los anotadores cometen errores de etiquetado después de ver alucinaciones en los modelos, pero no se han compartido datos al respecto.
Además, el equipo de investigación reconoce que CriticGPT es más eficaz a la hora de identificar errores que se pueden encontrar en una ubicación específica del código. En el mundo real, los errores a menudo pueden distribuirse en varias partes de una respuesta, lo que presenta un desafío que aún no se ha analizado y que se abordará en futuras iteraciones del modelo. En el futuro, OpenAI planea integrar modelos similares a CriticGPT en su proceso de etiquetado RLHF, brindando a sus capacitadores soporte de IA. Sin embargo, para algunos expertos, algunas respuestas pueden resultar demasiado difíciles de evaluar, incluso con la ayuda de CriticGPT, lo que sería contraproducente. De hecho, el temor son los falsos negativos, es decir, problemas que podrían pasar desapercibidos y que constituyen uno de los mayores riesgos del aprendizaje automático.