Las empresas de inteligencia artificial como OpenAI están tratando de superar retrasos y desafíos inesperados en la búsqueda de modelos de lenguaje cada vez más grandes mediante el desarrollo de técnicas de entrenamiento que utilizan formas más humanas para permitir que los algoritmos “pensen”.
Una docena de científicos, investigadores e inversores en IA dijeron a Reuters que creen que las técnicas, que son la base del modelo o1 recientemente lanzado por OpenAI, podrían remodelar la carrera armamentista en el campo de la IA e impactar los tipos de recursos que las empresas de IA tienen una demanda insaciable. desde energía hasta tipos de chips.
OpenAI se negó a hacer comentarios para este artículo. Después del lanzamiento del chatbot viral ChatGPT hace dos años, las empresas de tecnología, cuyas valoraciones se han beneficiado enormemente del auge de la IA, argumentaron públicamente que “escalar” los modelos actuales añadiendo datos y potencia informática conduciría sistemáticamente a la mejora de los modelos de IA. .
Pero hoy, algunos de los científicos más destacados en el campo de la IA están hablando de los límites de esta filosofía de que “cuanto más grande, mejor”.
Ilya Sutskever, cofundador de Safe Superintelligence (SSI) y OpenAI AI Labs, dijo recientemente a Reuters que los resultados del aumento del preentrenamiento (la fase de entrenamiento de un modelo de IA que utiliza una gran cantidad de datos sin etiquetar para comprender patrones y estructuras del lenguaje) ha llegado a una meseta.
Sutskever es ampliamente reconocido como uno de los primeros defensores de la idea de lograr avances significativos en la IA generativa mediante el uso de más datos y potencia informática para el aprendizaje previo, lo que finalmente dio origen a ChatGPT. Sutskever dejó OpenAI a principios de este año para fundar SSI.
“La década de 2010 fue la era de la ampliación, pero una vez más estamos en la era de las maravillas y los descubrimientos. Todo el mundo está buscando lo siguiente”, afirmó el Sr. Sutskever. “Es más importante que nunca ampliar lo correcto.
Sutskever se negó a dar más detalles sobre cómo su equipo está abordando el problema y se limitó a decir que SSI está trabajando en otro enfoque para desarrollar el preentrenamiento.
Detrás de escena, los investigadores de los principales laboratorios de inteligencia artificial han experimentado retrasos y resultados decepcionantes en la carrera por lanzar un modelo de lenguaje grande que supere al modelo GPT-4 de OpenAI de casi dos años, según tres fuentes familiarizadas con los asuntos privados.
Las “unidades” para modelos grandes pueden costar decenas de millones de dólares si funcionan cientos de chips simultáneamente. Es posible que los investigadores no sepan cómo funcionan los modelos hasta que se complete la ejecución, lo que puede llevar meses.
Otro problema es que los grandes modelos lingüísticos absorben enormes cantidades de datos y los modelos de IA han agotado todos los datos fácilmente accesibles del mundo. La escasez de energía también ha obstaculizado los ciclos de formación, ya que el proceso requiere grandes cantidades de energía.
Para superar estas dificultades, los investigadores están explorando la “computación en tiempo real”, una técnica que mejora los modelos de IA existentes durante la llamada fase de “inferencia”, es decir, cuando se utiliza el modelo. Por ejemplo, en lugar de elegir inmediatamente una única respuesta, un modelo podría generar y evaluar múltiples posibilidades en tiempo real y, en última instancia, elegir el mejor camino a seguir.
Este método permite que los modelos dediquen más potencia de procesamiento a tareas difíciles como problemas matemáticos o de codificación u operaciones complejas que requieren un razonamiento y una toma de decisiones similares a los humanos.
“Resultó que hacer que un robot piense durante sólo 20 segundos durante una partida de póquer logra el mismo rendimiento que multiplicar el modelo por 100.000 y entrenarlo 100.000 veces más”, dijo en el evento Noam Brown, investigador de OpenAI que trabajó en o1. la conferencia TED AI en San Francisco el mes pasado.
OpenAI adoptó esta técnica en su nuevo modelo conocido como “o1”, anteriormente conocido como Q* y Strawberry, sobre el que Reuters informó por primera vez en julio. El modelo O1 puede “pensar” en problemas en múltiples pasos, similar al razonamiento humano. También implica el uso de datos y comentarios de estudiantes de doctorado y expertos de la industria. El ingrediente secreto de la serie O1 es otra serie de entrenamientos realizados en modelos “básicos” como el GPT-4, y la compañía dice que planea aplicar esta técnica a modelos más básicos y más importantes.
Mientras tanto, investigadores de otros laboratorios líderes en inteligencia artificial, como Anthropic, xAI y Google DeepMind, también han estado trabajando para desarrollar sus propias versiones de la técnica, según cinco personas familiarizadas con el trabajo.
“Vemos muchos frutos al alcance de la mano que podemos aprovechar para mejorar estos modelos muy rápidamente”, dijo Kevin Weil, gerente de producto de OpenAI, en una conferencia de tecnología en octubre. “Para cuando la gente se ponga al día, intentaremos estar tres pasos por delante.
Google y xAI no respondieron a las solicitudes de comentarios y Anthropic no hizo comentarios de inmediato.
Las implicaciones podrían cambiar el panorama competitivo del hardware de IA, dominado hasta ahora por la demanda insaciable de los chips de IA de Nvidia. Destacados capitalistas de riesgo, desde Sequoia hasta Andreessen Horowitz, que han pagado miles de millones para financiar el costoso desarrollo de modelos de IA en numerosos laboratorios de IA, incluidos OpenAI y xAI, están tomando nota de la transición y evaluando el impacto en sus costosas apuestas.
“Este cambio nos llevará de un mundo de clusters masivos de preentrenamiento a nubes de inferencia, que son servidores distribuidos basados en la nube para la inferencia”, dijo a Reuters Sonya Huang, socia de Sequoia Capital.
La demanda de los chips de inteligencia artificial de última generación de Nvidia ha impulsado su ascenso hasta convertirse en la empresa más valiosa del mundo, superando a Apple en octubre. A diferencia de los chips de aprendizaje, donde domina Nvidia, el gigante de los chips podría enfrentarse a una mayor competencia en el mercado de inferencia.
Preguntada sobre el posible impacto en la demanda de sus productos, Nvidia recordó las recientes presentaciones de la compañía sobre la importancia de la técnica detrás del modelo o1. Su director ejecutivo, Jensen Huang, ha hablado de una creciente demanda de utilizar sus chips para realizar inferencias.
“Ahora hemos descubierto una segunda ley de escala, y es la ley de escala en el momento de la inferencia… Todos estos factores han llevado a una demanda increíblemente alta de Blackwell”, dijo Huang el mes pasado en una conferencia en India, refiriéndose. al último chip de IA de la compañía.