Nvidia acaba de presentar un nuevo modelo de inteligencia artificial, capaz de generar y manipular sonido mediante simples consultas de texto. Si bien la herramienta aún no está disponible para el público, un primer vistazo sugiere un enorme potencial en términos de diseño de sonido.
El gigante de los chips Nvidia continúa abriendo camino en el campo de la inteligencia artificial generativa. Desde hace varios años, la empresa está a la vanguardia gracias a sus tarjetas gráficas y chips para centros de datos, especialmente populares para entrenar e inferir los diferentes modelos subyacentes a las aplicaciones de IA generativa del público en general.
Pero la empresa no es sólo un diseñador de hardware, ni mucho menos. Por el contrario, una parte al menos igual de importante de su éxito se debe al vasto ecosistema de software que la empresa ha desarrollado a lo largo de los años. En el sector del diseño gráfico, el modelado 3D, la animación y los efectos especiales, su plataforma de aplicaciones RTX es omnipresente y ampliamente dominante.
Si Nvidia ya hizo un uso intensivo de diferentes tecnologías de inteligencia artificial para mejorar la representación gráfica en los videojuegos, con su famoso DLSS, la empresa ya no se limita a las imágenes. Después de anunciar, en junio pasado, un conjunto de herramientas para “dar vida” a personajes virtuales de gran tamaño, Nvidia acaba de presentar un proyecto que podría revolucionar otro sector: el del sonido.
Nvidia Fugatto: un modelo de IA para generar y manipular sonido
Por eso, el recién llegado a la gran familia de software de Nvidia se llama Fugatto, abreviatura de Transformador de audio generativo fundamental Opus 1. Este nombre poético es seguramente también una referencia a la habiendo huidopalabra que designa una sección musical escrita al estilo de fuga, una técnica de composición cuyos principios tienen cierta resonancia con los de los modelos de inteligencia artificial.
Fugatto se presenta así como un modelo fundacional dedicado a la generación y transformación del sonido, basado en consultas textuales expresadas en lenguaje natural. Este principio recuerda a otras aplicaciones orientadas a la creación musical, como Suno. Pero mientras que otras soluciones apuntan principalmente a crear canciones completas y listas para usar, Fugatto toma una dirección ligeramente diferente.
El proyecto de Nvidia en realidad parece apuntar más hacia la síntesis de audio (síntesis de audio), diseño de sonido (diseño de sonido) y procesamiento de sonido en general. En lugar de una especie de estación de trabajo de audio digital autónoma impulsada por IA, Fugatto se posiciona más como una nueva herramienta ultraflexible en la cadena de producción de sonido y música, junto con complementos y otros instrumentos virtuales.
Por ejemplo, Fugatto permite extraer ciertos componentes sonoros de un archivo de audio, para aislar voces, instrumentos o ruidos de fondo de una grabación, para reelaborarlos por separado o integrarlos en otro proyecto. Pero el modelo también puede transformar archivos de audio de forma asombrosa, aplicando un acento o entonación específica a una grabación vocal, o modulando el timbre de un instrumento para hacerlo “maullar”, “aullar” o incluso “rugir”.
Y obviamente, Fugatto es capaz de generar sonidos completamente nuevos a partir de instrucciones verbales escritas en lenguaje natural. En el vídeo de presentación, vemos (o más bien escuchamos) que el modelo puede generar paisajes sonoros complejos y en evolución, como un tren que se acerca y que gradualmente se transforma en una orquesta sinfónica, o una tormenta que lentamente se desvanece hasta convertirse en el canto de un pájaro.
Estos pocos ejemplos deberían bastar para despertar el interés de cualquier amante de la creación musical o diseño de sonido. Mientras que algunos disfrutan pasar horas manipulando su sintetizador de tabla de ondas favorito para crear texturas de sonido únicas, otros prefieren centrarse en aspectos como la composición o los arreglos, y la llegada de una herramienta como Fugatto debería sonar como una bendición para sus oídos.
Pero los ingenieros de sonido profesionales y los aficionados a las ondas también pueden encontrar lo que buscan. Después de crear un parche complex en su sintetizador favorito y escribió algunos patrones sonidos melódicos bien sentidos, bastaría con enviarlo todo a Fugatto y darle algunas instrucciones para transformar radicalmente sus muestras de sonido, antes de volver a importar todo a su secuenciador.
Por tanto, hay grandes posibilidades en perspectiva, pero que por el momento siguen siendo hipotéticas. Todo dependerá del modelo de distribución elegido por Nvidia: ¿el modelo podrá ejecutarse localmente, en una tarjeta gráfica RTX por ejemplo, o sólo funcionará online? ¿Será sólo una aplicación? autónomo (independiente) o ¿será posible integrarlo en forma de complementos en su secuenciador? Y de ser así, ¿qué formatos se ofrecerán (CLAP, VST, AAX, etc.)?
Tantas preguntas que a estas alturas no tienen respuesta. Fugatto es actualmente un impresionante proyecto de modelo de inteligencia artificial generativa, pero sin fecha de lanzamiento anunciada. Por lo tanto, tendremos que esperar un poco más y seguir los futuros anuncios de Nvidia para saber más al respecto, tal vez durante el CES en enero de 2025.