DayFR Spanish

OpenAI obtiene resultados comparables a los de un humano en una prueba que evalúa la “inteligencia general” – descifrado

-

Un nuevo modelo de inteligencia artificial (IA) acaba de lograr resultados similares a los humanos en una prueba diseñada para medir la “inteligencia general”, resultados mucho mejores que los de las IA anteriores. ¿Qué sabemos exactamente sobre este progreso y qué significa?


El 20 de diciembre de 2024, el sistema o3 de OpenAI obtuvo una puntuación del 85 % en la prueba comparativa ARC-AGI, significativamente más alta que el mejor resultado de la IA anterior (55 %) y equivalente a los resultados humanos promedio. o3 también obtuvo buenos resultados en un examen de matemáticas muy difícil.

La creación de inteligencia artificial “general” es el objetivo declarado de todos los principales laboratorios de investigación de IA. El reciente anuncio de OpenAI parece indicar que la compañía acaba de lograr una hazaña en esta dirección. (ndlt: La abreviatura francesa de “inteligencia general artificial” es “IAG”, pero este acrónimo se utiliza a veces para hablar de inteligencia artificial generativa, que es una familia particular de sistemas de inteligencia artificial, que explotan en particular el aprendizaje profundo, y de la cual ChatGPT es el miembro de la mayoría de los medios.)

Aunque es necesario cierto escepticismo, muchos investigadores y desarrolladores de IA tienen la sensación de que las líneas se están moviendo: la posibilidad de una inteligencia artificial general parece más tangible, más actual de lo que pensaban hasta ahora. ¿Qué pasa con eso? Intentemos descifrar este anuncio.

Generalización e inteligencia artificial

Para comprender qué significa el resultado obtenido por o3 de OpenAI, debemos observar la naturaleza de la prueba ARC-AGI que pasó o3.

Esta es una prueba que evalúa la “eficiencia de la muestra” de un sistema de IA (ndlt: a veces se traduce como “eficiencia de datos”), es decir su capacidad de adaptarse a una nueva situación, o, en términos más técnicos, la capacidad de un modelo de aprendizaje automático para obtener un buen rendimiento con un aprendizaje basado en pocos datos.

Esto se debe a que el entrenamiento de estos modelos normalmente se basa en conjuntos de datos muy grandes, lo que hace que su entrenamiento sea costoso. Un sistema de inteligencia artificial como ChatGPT (GPT-4) no es muy “eficiente en términos de datos”: fue entrenado con millones de ejemplos de texto humano, de los cuales derivó reglas probabilísticas que dictan las secuencias de palabras más probables. Este método es eficaz para generar textos generales u otras tareas “comunes”; pero en el caso de tareas poco comunes o más especializadas, el sistema es menos eficiente porque tiene pocos datos para cada una de estas tareas.

Los sistemas de inteligencia artificial como ChatGPT son muy efectivos para tareas generales, como recetas de cocina, pero no son adecuados para situaciones especializadas debido a la falta de datos para entrenarlos lo suficiente.
Bianca De Marchi/AAP

Hasta que los sistemas de IA puedan aprender de una pequeña cantidad de ejemplos (de un pequeño conjunto de datos), es decir, demostrar cierta “eficiencia de los datos”, no podrán adaptarse a situaciones más raras, solo se usarán para fines muy repetitivos. tareas y aquellas para las que es tolerable el fracaso ocasional.

La capacidad de resolver con precisión problemas nuevos o desconocidos basándose en pocos datos se denomina “capacidad de generalización”. Se considera un elemento necesario, incluso fundamental, de la inteligencia.

Cuadrículas y patrones

Es por eso que la prueba comparativa ARC-AGI, que evalúa la inteligencia “general”, utiliza pequeños problemas de cuadrícula como el que se presenta a continuación. A partir de un número muy limitado de ejemplos, la persona o la IA que se está probando debe encontrar el modelo que transforma la cuadrícula izquierda en la cuadrícula derecha. Lo que se evalúa aquí es la “eficiencia de los datos”.

Una tarea de ejemplo de la prueba comparativa ARC-AGI.
Premio ARCO

Cada ejercicio comienza aportando tres ejemplos, de los que se deben extraer reglas, que “generalizan” los tres ejemplos… y permiten resolver el cuarto.

Esto se parece mucho a las pruebas de coeficiente intelectual.

Encontrar las reglas necesarias y suficientes para adaptarse

No sabemos exactamente cómo OpenAI hizo esto, pero los resultados de las pruebas en sí sugieren que el modelo o3 es muy adaptable: a partir de unos pocos ejemplos, encontró reglas generalizables que le permitieron resolver los ejercicios.

Para abordar este tipo de ejercicios, debes encontrar las reglas necesarias y suficientes para resolver el ejercicio, pero no imponerte reglas adicionales, que serían a la vez inútiles y restrictivas. Podemos demostrar matemáticamente que estas reglas mínimas son la clave para maximizar la capacidad de uno para adaptarse a nuevas situaciones.

¿Qué queremos decir con “reglas mínimas”? La definición técnica es complicada, pero las reglas mínimas son generalmente aquellas que pueden describirse en declaraciones más simples.

En el ejemplo anterior, la regla podría expresarse como: “Cualquier forma con una línea que sobresalga se moverá hasta el final de esa línea y cubrirá cualquier otra forma con la que se superponga en su nueva posición”.

¿Busca cadenas de pensamiento?

Si bien todavía no sabemos cómo OpenAI logró esto, parece poco probable que los ingenieros optimizaran deliberadamente el sistema o3 para encontrar reglas mínimas, pero o3 debe haber encontrado esas reglas.

Sabemos que OpenAI comenzó con su versión genérica del modelo o3 (que se diferencia de la mayoría de los otros modelos de lenguaje grandes porque puede dedicar más tiempo a “pensar” en preguntas difíciles) y luego lo entrenó específicamente para realizar la prueba ARC-AGI.

El investigador francés de IA François Chollet, quien diseñó la prueba de referencia (Nota del editor: y quién trabajó en Google hasta hace poco.), cree que o3 busca diferentes “cadenas de pensamiento” que describen los pasos a seguir para resolver la tarea. (Nota del editor: Una “cadena de pensamiento” es una estrategia explotada en la IA, que imita una estrategia humana que consiste en dividir un problema complejo en unidades pequeñas y más simples, conduciendo paso a paso a una solución global.)

Luego, o3 elegiría la “mejor” cadena de pensamiento basándose en una regla definida de manera relativamente pragmática y vaga, en un enfoque “heurístico”.

Esta estrategia no sería muy distinta a la que utiliza el sistema AlphaGo de Google para buscar diferentes posibles secuencias de movimientos capaces de vencer al campeón del mundo de go en 2016.

En 2016, el sistema AlphaGo AI venció al campeón mundial de Go, Lee Sedol.
Lee Jin-man/AP

Podemos pensar en estas cadenas de pensamiento como programas que se adaptan a los ejemplos y nos permiten resolverlos. Por supuesto, si o3 realmente explota un método similar al utilizado en AlphaGo, era necesario proporcionarle a o3 una heurística o regla suave, para permitirle determinar qué programa era el mejor. Porque se podrían generar miles de programas diferentes, cada uno aparentemente tan válido como el otro, para intentar resolver los tres ejemplos. Podríamos imaginar una heurística que “seleccione el programa mínimo” o que “seleccione el programa más simple”.

Sin embargo, si se trata de un mecanismo similar a AlphaGo, simplemente pídale a una IA que cree una heurística. Esto es lo que sucedió con AlphaGo: Google entrenó un modelo para calificar diferentes secuencias de movimientos como mejores o peores que otras.

Lo que todavía no sabemos

La pregunta que surge por tanto es la siguiente: ¿realmente estamos más cerca de la inteligencia artificial general? Si o3 funciona como se acaba de describir, es posible que el modelo subyacente no funcione mucho mejor que los modelos anteriores.

Los conceptos que el modelo aprende de datos textuales (o más generalmente del lenguaje humano) pueden no ser más generalizables que antes. En cambio, podríamos simplemente estar en presencia de una “cadena de pensamiento” más generalizable, descubierta a través de los pasos adicionales del entrenamiento de una heurística especializada para la prueba en cuestión hoy.

Veremos más claro, como siempre, con más perspectiva y experiencia en torno a o3.

De hecho, no se sabe casi nada sobre este sistema: OpenAI ha realizado presentaciones en los medios de comunicación bastante limitadas y las primeras pruebas se han reservado a un puñado de investigadores, laboratorios e instituciones especializadas en la seguridad de la IA.

Evaluar el verdadero potencial de o3 requerirá un trabajo extenso, incluida la determinación de con qué frecuencia falla y tiene éxito.

Sólo cuando o3 se lance al público sabremos si es tan adaptable como un humano promedio.

De ser así, podría tener un impacto económico enorme y revolucionario, y marcar el comienzo de una nueva era de inteligencia artificial capaz de superarse. Necesitaremos nuevos criterios para evaluar la propia inteligencia artificial general y reflexionar seriamente sobre cómo debería gobernarse.

De lo contrario, o3 y su puntuación en la prueba ARC-AGI seguirán siendo un resultado impresionante, pero nuestra vida diaria seguirá siendo prácticamente la misma.

Related News :