Sin embargo, como explica EPFL, los modelos de formación capaces de procesar múltiples modalidades representan un desafío importante. Las marcadas diferencias entre los tipos de datos dificultan el entrenamiento. Y a menudo se descuidan ciertas modalidades, comprometiendo la calidad y precisión del modelo general.
Una red neuronal llamada 4M
Para superar estas limitaciones, un equipo del Laboratorio de Aprendizaje e Inteligencia Visual (VILAB), dentro de la Facultad de Ciencias de la Computación y Comunicaciones (IC) de la EPFL, desarrolló 4M, con el apoyo de Apple (cuyo director de investigación de IA acaba de ser nombrado profesor de la EPFL). Este proyecto tiene como objetivo crear una red neuronal capaz de manejar una amplia gama de tareas y modalidades.
“Cuando pasamos al modelado multimodal, no tenemos que limitarnos al lenguaje. Traemos otras modalidades, incluidos sensores. Por ejemplo, podemos comunicarnos sobre una naranja usando la palabra “naranja”, como en los modelos de lenguaje, pero también a través de una colección de píxeles, que indican cómo se ve la naranja, o mediante el sentido del tacto, capturando la sensación de tocar una naranja. . Si juntas diferentes modalidades, obtendrás una encapsulación más completa de la realidad física que intentamos modelar”, explica Amir Zamir, director de VILAB.
Los modelos vuelven a hacer trampa
Este marco formativo, sin embargo, aún no ha logrado una verdadera unificación de modalidades. Según Amir Zamir, “las modelos hacen trampa y crean un pequeño conjunto de modelos independientes. Un conjunto de parámetros resuelve un problema, otro conjunto de parámetros resuelve otro y, en conjunto, parecen resolver el problema general. Pero en realidad no unifican sus conocimientos de una manera que permita una representación conjunta compacta del medio ambiente que sería un buen portal al mundo.
El equipo VILAB continúa perfeccionando 4M, con el fin de lograr una capacidad sólida para unificar modalidades. El objetivo es desarrollar una arquitectura genérica de código abierto que permita a investigadores y expertos de otras disciplinas adaptar el modelo a sus necesidades específicas.