Nvidia acaba de presentar Fugatto, un modelo de síntesis de audio con IA nuevo y algo inusual; aparentemente es capaz de crear sonidos completamente originales que no existen en ningún otro lugar.
Los sistemas de síntesis de audio no son nuevos; Ya existen muchos modelos generativos capaces de producir discursos gigantescos o secuencias de notas musicales muy convincentes a partir de una simple consulta textual, como hacen ChatGPT y otros con el texto. Pero con Fugatto, Nvidia pretende superar los límites del concepto. De hecho, se basa en un nuevo método de formación propio que le permite “ Transforma cualquier mezcla de música, voces y ruidos. » sintetizar “ sonidos completamente nuevos ».
Un saxofón que maúlla y una ambulancia que canta
En la página de GitHub del proyecto, Nvidia presenta algunos ejemplos bastante convencionales, como una canción de rap con letra totalmente sintética. La segunda categoría, denominada “ Sonidos emergentes », contiene por otro lado algunos ejemplos mucho más… originales. En el menú: un saxofón que ladra o maúlla, una máquina de escribir susurra, un perro que habla, sirenas de ambulancia “cantando” a coro, o incluso un extraño sonido de violín derivado de la risa de bebé.
La mayoría de estos ejemplos son francamente extraños y, hay que reconocerlo, no particularmente convincentes. Pero desde un punto de vista estrictamente técnico, se trata de una innovación bastante interesante. Ya existen toneladas de modelos que son capaces de hibridar y transformar imágenes o texto de esta manera, pero hasta donde sabemos, Esta es la primera vez que un modelo de IA puede manipular el sonido de esta manera.
Suscríbete al Journal du Geek
Sin embargo, no hace mucho que los grandes modelos de lenguaje (LLM) como ChatGPT o generadores de imágenes como DALL-E o Midjourney consiguen ofrecer resultados convincentes. Hace apenas unos años estaban más o menos en la misma etapa que Fugatto; La mayoría de las veces, tendían a escupir frases que no tenían ningún sentido o imágenes que parecían más una papilla de píxeles que imágenes coherentes.
Por tanto, debemos ver en Fugatto una prueba de concepto muy interesante que aún está muy lejos de haber revelado todo su potencial. En última instancia, esta nueva herramienta podría permitir crear paisajes sonoros abstractos particularmente exóticos, del mismo modo que los generadores de imágenes modernos pueden crear objetos y paisajes que no existen reelaborando fotografías del mundo real.
« Queríamos crear un modelo que pudiera comprender y generar sonidos como lo hacen los humanos. », Explica el ingeniero Rafael Valle en la nota de prensa de Nvidia. “ Fugatto es nuestro primer paso hacia el futuro del aprendizaje multitarea no supervisado aplicado a la síntesis y transformación de audio. »
Desafortunadamente, el público en general aún no tiene la oportunidad de experimentar con Fugatto. Por el momento, se limita a un vídeo promocional y un trabajo de investigación acompañado de los pocos ejemplos citados anteriormente. Por tanto, será aconsejable estar atento a esta intrigante herramienta a la espera de que esté disponible para los usuarios de Internet.
???? Para no perderte ninguna novedad del Journal du Geek, suscríbete a Google News. Y si nos amas, tenemos un boletín informativo todas las mañanas.