Ampliar los modelos trae cada vez menos, reducirlos funciona cada vez mejor

Tuesday 19th November 2024 11:40 AM

Sólo necesitas usar ChatGPT y otros por un tiempo para darte cuenta de las capacidades de estos modelos y sus límites, comenzando por sus fabricaciones. Para muchos líderes de la industria, estos problemas iniciales se resolverían aumentando el tamaño de los modelos y los volúmenes de datos con los que se entrenan. Mejor aún, esta escala cada vez mayor permitiría tarde o temprano alcanzar el Santo Grial de la IA general.

Esta lógica o esta ley empírica, que justifica trimestre tras trimestre las inversiones en las capacidades informáticas de los hiperescaladores, convence cada vez a menos gente e incluso sus seguidores más fervientes empiezan a dudar. Así, GPT-5, el próximo “modelo de frontera” de OpenAI anunciado para finales de año, no mostraría el mismo progreso que sus predecesores, informa The Information. Las mejoras de rendimiento esperadas no se producirían y, a pesar del aumento de los parámetros (17 billones según algunas fuentes), los modelos siguen produciendo alucinaciones, errores de razonamiento y otras respuestas incongruentes. Ilya Sutskever, ex compañero de Sam Altman en OpenAI y ahora director de su propia empresa, dijo a Reuters que los resultados del aumento de la formación previa se han estancado.

“Cada nueva versión de un modelo importante parece ofrecer sólo ganancias marginales con respecto a las versiones anteriores, lo que indica que los proveedores están viendo rendimientos decrecientes. Por ejemplo, si bien GPT-4 muestra mejoras con respecto a GPT-3.5 en razonamiento y tareas especializadas, las ganancias no son proporcionales al aumento masivo de los recursos informáticos necesarios”, dice Erik Schwartz, director de IA de Tricon Infotech en The Stack media.

El hecho de que OpenAI y otros estén confrontando y reconociendo los límites del enfoque centrado en el tamaño deleita a los expertos que ya lo dudaban, como Gary Marcus y, más recientemente, Yann Lecun. “Las altas valoraciones de empresas como OpenAI y Microsoft se basan en gran medida en la idea de que los LLM, a medida que se desarrollen, se convertirán en inteligencias artificiales generales. Como siempre dije, es sólo una fantasía. No existe una solución basada en principios para las alucinaciones en sistemas que se basan en estadísticas del lenguaje sin una representación explícita de los hechos y sin herramientas explícitas para razonar sobre esos hechos”, escribe Gary Marcus en su blog.

Gráfico creado por Gary Marcus sobre la evolución del rendimiento del modelo (medido según el benchmark MMLU).

Mejoras de inferencia y usos limitados.

Por supuesto, este no es el final de los principales modelos lingüísticos. Los modelos actuales han demostrado sus asombrosas capacidades conversacionales y de generación de contenidos y su adopción continuará allí donde sus límites no supongan un problema: el chatbot para recomendaciones turísticas sí, el utilizado para diagnóstico médico automatizado no. Por otro lado, para abordar una IA más fiable y más general, sin duda será necesario desarrollar nuevas técnicas complementarias, como la IA neurosimbólica de Marcus o la IA de planificación de Lecun.

Además, otras técnicas aplicadas no al entrenamiento sino a la inferencia, es decir en el momento de la interacción con los modelos existentes, permiten reducir los problemas de confabulación, aunque sin eliminarlos. El uso de información controlada para alimentar las respuestas (RAG), la explicación restringida del razonamiento en segundo plano (cadena de pensamiento, utilizada en el o1 de OpenAI) se encuentran entre los métodos ya explotados para mejorar los resultados de los modelos existentes. Sin olvidar el encadenamiento de agentes especializados y el desarrollo de grandes modelos especializados entrenados sobre corpus de contenidos controlados.

El cambio en la carga computacional del preentrenamiento a la inferencia presagia un cambio en la distribución de la capacidad, con menos megacentros que concentran todas las GPU y más energía distribuida en los cuatro rincones del mundo cerca de los usuarios, analiza Sonya Huang, socia de Sequoia Capital. . Microsoft lleva varios meses tranquilizando a sus accionistas prometiéndoles que se podrán reutilizar costosas infraestructuras de formación para realizar inferencias.

Los modelos pequeños compiten con sus mayores.

Si el rendimiento de los modelos grandes tiende a converger y mejorar sólo marginalmente, los modelos pequeños progresan a gran velocidad. Y resultan ser más baratos y consumen menos energía, tanto para el entrenamiento como para la inferencia. Kai-Fu Lee compartió recientemente un modelo ultraeficiente desarrollado por su empresa 01.ai (sexto en el punto de referencia LMSYS, según la empresa), entrenado por sólo 3 millones de dólares y que muestra una inferencia que cuesta 10 centavos por un millón de tokens. En comparación, el entrenamiento del GPT-4 habría costado casi 100 millones de dólares (frente a los mil millones del GPT-5) y el millón de tokens se factura entre 10 y 60 dólares.

Si 01.ai se ha centrado principalmente en optimizar las inferencias, están de moda otros métodos para reducir el tamaño de los modelos. Una técnica es la eliminación selectiva de ciertas capas de un modelo grande con un impacto insignificante en el rendimiento. Con este proceso, Nvidia ha desarrollado modelos que logran un rendimiento comparable al Mistral 7B y Llama-3 8B, mientras utilizan hasta 40 veces menos tokens de entrenamiento. , según el informe sobre el estado de AI.

Otra técnica, la destilación, implica el uso de modelos grandes para producir datos refinados que luego se utilizan para entrenar modelos más pequeños y eficientes. El modelo Gemma 2 9B de Google, por ejemplo, se fusionó con su hermano mayor Gemma 2 27B.

La ambición de ejecutar modelos GenAI en teléfonos inteligentes estimula estos desarrollos de modelos menos exigentes. Por lo tanto, Apple está desarrollando modelos más pequeños para impulsar su servicio Apple Intelligence. Por su parte, Microsoft diseñó el phi-3.5-mini, un modelo con 3.800 millones de parámetros que rivaliza con el Llama 3.1 8B. Utilizando la cuantificación de 4 bits, una técnica que reduce la precisión con la que se representan los pesos y las activaciones, el modelo utiliza sólo 1,8 GB de memoria, lo que permite realizar inferencias en un dispositivo móvil.

Igual rendimiento a menor coste

Por lo tanto, con un rendimiento equivalente, es cada vez más posible utilizar modelos a escala que consuman menos energía. También es posible hacerlo a menor coste. Según el análisis de Guido Appenzeller, inversor de Andreessen Horowitz, el coste de un LLM que ofrece una determinada potencia ha disminuido drásticamente en los últimos dos años. Así, cuando se lanzó a finales de 2021, GPT-3 costaba 60 dólares por un millón de tokens para un rendimiento de 42 en el punto de referencia MMLU (una prueba establecida que cubre temas en unas cincuenta disciplinas). Hoy en día, es posible lograr el mismo puntaje con Llama 3.2 3B, vendido por 6 centavos por millón de tokens en Together.ai. El precio para los usuarios se ha dividido por 1000 en tres años.

El gráfico logarítmico de Guido Appenzeller muestra que, como tendencia, el precio de los tokens para un rendimiento determinado (aquí 42 y 83 en el índice de referencia MMLU) se ha dividido por 10 cada año (línea de puntos).