Fugatto – La IA que transforma cualquier sonido bajo demanda | Inteligencia artificial

Monday 25th November 2024 10:33 AM

Los magos de NVIDIA acaban de presentar una tecnología que revolucionará el mundo del audio. ¿Su apodo? fugatoun modelo de inteligencia artificial que literalmente transforma cualquier sonido con una simple solicitud textual.

Esta versátil IA puede hacer malabarismos con todo tipo de sonidos: voces, música, efectos de sonido… Puede generar nuevos sonidos, modificar sonidos existentes o incluso inventar sonidos completamente nuevos que no existen en la naturaleza.

¿Soñaste con hacer maullar una trompeta? ¿Para darle un acento italiano a tu voz? ¿O tal vez transformar tu vieja demo acústica en una pista electrónica sobrealimentada? Bien fugato ¡Puedes hacerlo y mucho más!

El principio es sorprendentemente simple: usted proporciona audio y/o una descripción textual de lo que desea y la IA se encarga del resto. Por ejemplo, podrías preguntarle “Haz que esta guitarra suene como si la estuvieran tocando bajo el agua.” o “Transforma esa voz en la de un robot melancólico”. Y lo más fascinante es que fugato ¡Entiende perfectamente estas instrucciones poéticas!

Lo que hace que esta tecnología sea realmente increíble es su versatilidad porque, a diferencia de otros modelos de IA que se especializan en música (hola Suno) o en voz, fugato sobresale en todas las áreas. Todas las pruebas muestran que iguala o supera a los modelos especializados en sus respectivas tareas, al tiempo que proporciona una excelente flexibilidad.

Las aplicaciones potenciales son infinitas… Los productores musicales podrán crear rápidamente prototipos de diferentes arreglos, los creadores de videojuegos podrán generar paisajes sonoros dinámicos que se adapten al juego, las agencias de publicidad podrán adaptar fácilmente sus anuncios con diferentes acentos y los desarrolladores de aplicaciones podrán crear asistentes vocales personalizados. .

La verdadera destreza técnica de fugato radica en su capacidad para componer instrucciones que nunca había visto juntas durante su entrenamiento. Por ejemplo, puedes pedirle que cree el sonido de una tormenta que poco a poco se transforma en canto de pájaros o música electrónica.

Esta versatilidad se basa en una arquitectura sofisticada con 2.500 millones de parámetros, entrenados en más de 50.000 horas de datos de audio. El equipo de investigadores, liderado por Rafael Valle, desarrolló un enfoque innovador llamado ComposableARTque permite un control preciso sobre todos los aspectos de la generación de audio.

Esta tecnología también se beneficia de una funcionalidad de interpolación que permite medir con precisión la intensidad de los efectos. ¿Prefieres un ligero acento marsellés en lugar de uno fuerte? ¿O una voz que gradualmente cambia de feliz a triste? Este modelo puede hacerlo con notable delicadeza.

La diversidad del equipo internacional que desarrolló esta tecnología, con investigadores de India, Brasil, China, Jordania y Corea del Sur, ha contribuido en gran medida a las capacidades multilingües y multiacento del modelo. Me hubiera gustado probar esto, pero NVIDIA aún no ha anunciado una fecha de lanzamiento pública&mldr; ¡SÍ!

Sin embargo, ya existen otras alternativas: Meta ofrece un kit de desarrollo de audio de código abierto y Google tiene su propio modelo de conversión de texto a música llamado MusicLM.

Lo habrás entendido, fugato es un gran avance que sin duda transformará la forma en que creamos y manipulamos el sonido. ¡Tengo muchas ganas de probarlo!

Más información sobre Fugato