Moshi, el primer asistente de voz con IA en tiempo real del mundo, se fabrica en Francia

Moshi, el primer asistente de voz con IA en tiempo real del mundo, se fabrica en Francia
Moshi, el primer asistente de voz con IA en tiempo real del mundo, se fabrica en Francia
-

Sólo habla inglés y aún no es muy estable, ¡pero Moshi tiene algo de talento! No estamos hablando aquí de un postre japonés: el Moshi (por Moshi-Moshi, el saludo japonés) es una IA conversacional única que acaba de ser presentada por Kyutai, el laboratorio de investigación cofundado por Xavier Niel, Rodolphe Saadé (director de CMA CGM) y Eric Schmidt (ex director ejecutivo de Google). El primero de su tipo en operar en tiempo real, por delante de OpenAI, que aún no se ha hecho público. Además, cuando se le pide que compare Moshi con el trabajo de OpenAI, el director de Kyutai, Patrick Perez, dice con una sonrisa: “¡Me comunicaré contigo cuando podamos probar al competidor!

Después de sólo seis meses de existencia, Kyutai –esfera en japonés– ha dado origen a una IA capaz de conversar. Sobre el papel, nada parece fuera de lo común si ya utilizas asistentes de voz. Sin embargo, Moshi ofrece un enfoque completamente nuevo. Y sobre todo, funcionamiento en tiempo real.

Publicidad, tu contenido continúa abajo

Sonido antes que palabras

© Adrián BRANCO para Les Numériques

En pocas palabras, las IA conversacionales actuales tienen un proceso operativo complejo: el sistema espera a que finalice la solicitud de audio y luego inicia el reconocimiento de voz; el LLM interpreta la consulta y habla en texto a voz. “Este proceso es muy largo y operar en texto hace que se pierda toda la demás información, particularmente las emociones.“, explicaron los equipos de Kyutai en el escenario.

Moshi no trabaja con este principio de reconocimiento de texto, sino con el de comprimir el flujo de audio en pseudopalabras sobre las que la IA comienza a trabajar directamente. Un trabajo que consiste en lanzar la predicción de las siguientes palabras de la consulta humana, predicción que permite la interacción en tiempo real. Una actuación posible gracias a que Moshi trabaja no con una, sino con dos transmisiones de audio al mismo tiempo: escuchar y hablar.

Publicidad, tu contenido continúa abajo

Una IA que corta el habla, imita a piratas y juega juegos de rol

© Adrián BRANCO para Les Numériques

Lo que destacó durante la presentación fue que las respuestas de la IA tendían a interrumpir al interlocutor humano. Como un niño demasiado ansioso que no escucha el final de la pregunta (o un adulto con exceso de cafeína), Moshi parecía estar en el punto de partida para responder lo más rápido posible.
Aunque el modelo podría ajustarse para que resultara un poco menos excitante, durante la demostración el equipo quiso “reproducir la inmediatez, las interrupciones, las emociones y el tono de una conversación real“. Una decisión acertada, ya que nos permitió resaltar la sorprendente velocidad de reacción de su IA, que piensa mientras escucha. Y que por tanto habla muy rápido. Y muy bien.

Una de las razones del excelente discurso de la IA es que el motor de conversión de texto a voz se basa en el trabajo de una humana real, una locutora llamada Alice (Kyutai no reveló su apellido). Además de la dicción, las grabaciones de audio del artista también permitieron a la IA entrenarse para modular su tono según emociones específicas. Hacer que la síntesis de sonido sea más realista que la vida.

Y sobre todo lúdico: durante la demostración, la IA de habla inglesa (el único idioma disponible por el momento) demostró sus habilidades para susurrar, tener miedo y reproducir un acento francés. O incluso jugar (de forma muy torpe y bastante imperfecta) a un juego de rol adoptando la voz caricaturizada de un pirata. ¡Buena suerte haciendo lo mismo con el Asistente de Google!

Cuatro productos en uno, seguridad integrada en los cimientos

© Adrián Branco para Les Numériques

Aparentemente, Kyutai solo anuncia Moshi, una IA conversacional en tiempo real. De hecho, se han lanzado cuatro productos: ¡nada mal para un equipo de ocho personas que sólo llevan 6 meses trabajando! Por un lado está Moshi, que funciona gracias a un LLM de 7 mil millones de parámetros (Helio). A esto se suma un nuevo códec de compresión de audio ultraeficiente llamado Mimi (que significa oído en japonés), basado en lo último en tecnología en el campo (un AutoEncoder Vector Quantised-Variational). Finalmente, es necesario agregar un mecanismo de marca de agua para archivos de audio. Un elemento de seguridad lejos de ser incidental en el ámbito de la IA.

Publicidad, tu contenido continúa abajo

Durante la presentación, los investigadores de Kyutai demostraron la capacidad de su síntesis de voz para clonar voces utilizando la de su patrón, Xavier Niel. Basado en un sonido de 7 segundos, Moshi puede continuar la secuencia sin supervisión, recreando perfectamente la voz objetivo. Y hacer hablar a Xavier Niel sobre un tema completamente diferente. En resumen: una (gran) puerta abierta a falsificaciones profundas.

Patrón y fundador de Kyutai, Xavier Niel está, una vez más, al frente de un proyecto tecnológico made in France.

© Adrián BRANCO para Les Numériques

En lugar de intentar evitar lo inevitable, los investigadores de Kyutai han desarrollado un sistema de marcado/marca de agua que permite integrar elementos en el archivo de audio. Un ruido imperceptible para el oído humano, pero que permite a los equipos, en caso de duda sobre la veracidad de una secuencia de audio, demostrar que el extracto fue efectivamente producido por Moshi.

Otro elemento de seguridad: el hormigonado de los datos de entrenamiento. Entre fuentes verificadas y diálogos sintéticos (para evitar infracciones de derechos de autor), los investigadores evitaron los escollos que enfrentan gigantes del sector como OpenAI, demandado por los periódicos por haber accedido ilegalmente a sus artículos. Para los diálogos sintéticos, los científicos generaron no menos de 100.000 transcripciones de audio de estilo oral a través de su LLM Helium.

Diseñado y formado en Francia.

Nabu23, la supercomputadora Scalewway en la que se entrenó a Moshi.

© Adrián BRANCO para Les Numériques

Publicidad, tu contenido continúa abajo

No es ningún milagro: IA, modelo de lenguaje, etc., todos estos programas requieren formación. Comprenda que los equipos de Kyutai tuvieron que calentar GPU en masa para procesar paquetes de datos y crear estos algoritmos. Y en el actual período de escasez de chips y potencia informática, asegurar esta potencia ha sido crucial. “Tenemos acceso asegurado a la GPU a partir de abril de 2023, incluso antes de que abra el laboratorio“, explica una fuente cercana al asunto. ¡Es decir, varios meses antes incluso de que se creara el laboratorio!

Feliz coincidencia (o no), Xavier Niel no es sólo uno de los tres santos patrones de Kyutai, sino también el gran jefe de Scaleway, el anfitrión francés más avanzado en términos de potencia informática: es el actor privado europeo que ha la mayor cantidad de GPU disponibles para alquiler. Por lo tanto, es en Scaleway, y más precisamente en la supercomputadora Nabu2023, cuyo detrás de escena les revelamos el pasado mes de diciembre, donde se entrenaron las IA de Kyutai.

Pero si su génesis tuvo lugar en el horno de las Nvidia H100 de Nabu2023, la IA actualmente se ejecuta mediante GPU convencionales menos potentes. E incluso comenzará una cura radical para adelgazar.

Del centro de datos al PC y al smartphone

© Adrián Branco para Les Numériques

Moshi ahora puede ejecutarse en GPU móviles, concretamente en las de Macbook Pro M, aunque la demostración en vivo de la ejecución local se interrumpió debido a un error. Al final, los equipos de Kyutai incluso han anunciado que quieren llevar Moshi a los teléfonos inteligentes. Una reducción de la potencia disponible que requerirá un enorme trabajo de optimización.

Publicidad, tu contenido continúa abajo

La demostración de Moshi de la GPU integrada en el SoC del Macbook Pro no fue un éxito total: ¡esperemos que haya sido el efecto de demostración!

© Adrián Branco para Les Numériques

Preguntado por Los digitales Sobre la posibilidad de ejecutar Moshi ya no en una GPU, sino en una NPU que consuma menos energía, Patrick Pérez nos dijo que no ve “No hay problema para que este sea el caso, pero Kyutai es un laboratorio de investigación. […] Este soporte debe realizarse en el lado del marco del software.“. En resumen: corresponde a los desarrolladores transferir el cálculo al chip de su elección.

Desarrolladores que podrán jugar como quieran con el código Kyutai. Ya que a diferencia de la competencia estadounidense, el trabajo de los franceses será de código abierto.

La apuesta del código abierto

© Adrián BRANCO para Les Numériques

Como laboratorio de investigación y sin ánimo de lucro (los 300 millones de euros aportados por Niel, Saadé y Schmidt son donaciones), Kyutai no tiene otro objetivo que hacer avanzar la investigación. Y “conservar los talentos franceses en nuestro territorio“, como nos dijo un miembro del séquito del laboratorio.

Este estatus tan diferente permite a Kyutai publicar los frutos de su investigación bajo una licencia de código abierto. “Apache o MIT, buscamos la licencia más permisiva“, nos dicen. El objetivo de la maniobra es “publicar trabajos académicos verdaderamente abiertos. Y beneficiarnos del trabajo de la comunidad en torno a nuestras herramientas para seguir avanzando“.

Según nuestra información, Kyutai sólo utilizó una pequeña fracción de los 300 millones de euros recaudados para la inauguración del laboratorio y logró dar a luz en un tiempo récord. Esto permite a este equipo tan pequeño unirse al Mistral y otros Hugging Face en el grupo líder de campeones franceses de desarrollo de IA. El alma académica y de código abierto además.

Publicidad, tu contenido continúa abajo

-

PREV ¿Has estado usando esta popular aplicación? ¡Necesitas cambiar tu contraseña!
NEXT ¡10 millones de jugadores se han enamorado de este videojuego gratuito y se puede jugar durante 5 días! ¡Amazon puede crear una sorpresa para el regreso a clases con este juego de rol!