Abrir los modelos de IA, una forma de acelerar su optimización… y encontrar tu hueco en el mercado

Thursday 21st November 2024 03:13 PM

Ésta es una de las observaciones que surgieron al final de los dos días de conferencia. puntoAIlos días 17 y 18 de octubre, en el Folies Bergère: después de una fase marcada por el auge de los modelos cerrados -los de OpenAI a la cabeza-, los modelos más abiertos empiezan a hacerse un hueco en el mercado de la IA generativa.

“Un mercado enorme” para Google

Entre los conversos recientes se encuentra Google, que ofrece desde febrero de 2024. una serie de modelos “abiertos” para desarrolladores – sin dejar de centrarse en su modelo patentado Gemini. “El mercado de código abierto es enorme. Aquí es donde están la mayoría de los desarrolladores”explicó Armand Joulin, director de investigación de Google Deepmind durante la conferencia. Los modelos Gemma -así se llaman- han registrado más de 20 millones de descargas en menos de seis meses.

Para Google, que OpenAI ha dejado atrás en la carrera por la IA generativa, este enfoque abierto también es una forma de recuperar parte de su retraso. Meta, con sus modelos LLaMA, también ha seguido la misma estrategia. Por su parte, El unicornio francés MistralAI había elegido el código abierto desde el principio..

Más de un millón de modelos en Hugging Face

“El código abierto aplicado a modelos grandes permite a la comunidad construir modelos mejores, más pequeños y más eficientes con el tiempo. Es por eso que el código abierto casi siempre termina poniéndose al día”.estima Merve Noyan, ingeniera defensora del aprendizaje automático en abrazando la cara.

Este pionero de la IA de código abierto sabe un par de cosas: creado en 2016 por los franceses Clément Delangue, Julien Chaumond y Thomas WolfHugging Face ha sabido reunir a una comunidad muy comprometida en todo el mundo, que es hoy su fuerza. La plataforma enumera más de 140.000 modelos para generación de texto, por ejemplo, mientras que hay más de un millón de modelos disponibles para otras tareas, que van desde la visión por computadora hasta el reconocimiento automático de voz.

La provisión de modelos y herramientas de código abierto permite a una comunidad de investigadores, desarrolladores y usuarios colaborar, experimentar y mejorar los modelos existentes para optimizarlos. El acceso a la IA ahora se ve facilitado en gran medida por la existencia de numerosas bibliotecas y herramientas que simplifican el desarrollo y la implementación de modelos.

Datos sintéticos para entrenar a Moshi

Sin embargo, si los modelos son “abiertos”, o incluso de fuente completamente abierta, no ocurre lo mismo con los datos que se utilizan para alimentarlos. “Las empresas que publican modelos generalmente no publican ningún dato, porque de ahí viene la ventaja competitiva », señala Merve Noyan. Pero existen soluciones comunitarias, como la agrupación de esfuerzos de recopilación y anotación, en particular a través del “Los datos son mejores juntos” de Hugging Face – o la generación de nuevos datos, llamados datos “sintéticos”.

Este es también el enfoque adoptado por Kyutai, el laboratorio de investigación inaugurado en noviembre de 2023 por Xavier Niel, Eric Schmidt y Rodolphe Saadé. Su inteligencia artificial vocal llamado Moshi fue desarrollado utilizando datos “fabricados” por un sistema de síntesis de voz capaz de clonar voces y generar diálogos, con el fin de compensar el bajo volumen de grabaciones de audio disponibles para entrenar el modelo.

De hecho, “Moshi es el primer modelo de voz de IA en tiempo real lanzado como código abierto”subraya Neil Zeghidour, cofundador de Kyutai y ex miembro de Google Deepmind. Una elección que era obvia, ya que para Kyutai, la“El objetivo es fomentar y facilitar en la medida de lo posible la adopción de tecnología de agentes de voz con fines de investigación y comercialización”.

En particular, los investigadores de Kyutai han publicado un artículo de investigación de 60 páginas que contiene todos los detalles técnicos de Moshi, lo que permitirá a otros comprender cómo funciona el modelo y reproducirlo. Para completar este enfoque de apertura y transparencia, también se publica el código modelo de formación.

¿Suficiente para que la joven startup francesa se consolide como la referencia de esta tecnología a escala mundial? Potencialmente, porque, como nos recuerda Merve Noyan, en términos de IA “no hay negocio [établie] n’a d’ventaja competitiva en el tiempo ».