Cuando la IA pone sonido en la imagen

El laboratorio DeepMind de Google ha logrado un avance significativo en el campo de la inteligencia artificial generativa. Sus investigadores acaban de desarrollar un sistema llamado V2A, capaz de producir bandas sonoras, efectos sonoros y diálogos para acompañar vídeos.

Hasta ahora, los modelos de IA existentes podían generar vídeos, pero permanecían en silencio, incapaces de crear ningún sonido que los acompañara. DeepMind ha conseguido llenar este vacío gracias a su sistema V2A, para “ vídeo a audio“. Este avance tecnológico bien podría revolucionar el mundo de la producción audiovisual.

El sistema V2A se basa en un modelo de IA entrenado en un gran conjunto de datos que consta de sonidos, transcripciones de diálogos y secuencias de vídeo. Formación muy avanzada que le permite analizar la píxeles sin procesar de un vídeo y generar acompañamiento sonoro perfectamente sincronizado.

Ya sea una banda sonora musical, efectos de sonido o incluso diálogos, esta IA puede crear todo para que coincida con el contenido visual. Y lo más sorprendente es que esta generación de audio se puede realizar sin ninguna descripción textual previa.

Limitaciones actuales

Aunque esta tecnología abre perspectivas prometedoras, especialmente en el ámbito de la conservación del patrimonio audiovisual, su calidad aún no es perfecta. DeepMind reconoce que el resultado sonoro generado por su IA carece actualmente de naturalidad y realismo.

El sistema tiene dificultades especiales para procesar vídeos degradados o que contienen artefactos. Por lo tanto, todavía son necesarias mejoras antes de una posible distribución a gran escala. De hecho, DeepMind no planea hacer que V2A sea accesible al público en general por el momento.

La empresa también quiere realizar evaluaciones en profundidad de la seguridad y los posibles impactos éticos de su potente sistema. Esto podría fácilmente desviarse para producir contenido paródico, difamatorio o infringir los derechos de autor sin el consentimiento de los titulares de los derechos. Se están realizando consultas con profesionales de los medios audiovisuales.

Los empleos audiovisuales amenazados

Más allá de los desafíos técnicos, V2A y tecnologías similares plantean interrogantes sobre su influencia futura en la industria cinematográfica y audiovisual. Si estas herramientas se generalizaran, podrían potencialmente amenazan muchas profesiones creativas vinculado a la producción audiovisual.

Compositores de música de cine, efectos de sonido y creadores de efectos de sonido o incluso los actores de doblaje podrían ver que sus servicios se vuelven en gran medida superfluos debido a sistemas de inteligencia artificial capaces de generar automáticamente estos elementos de audio. A riesgo de Descalificación y pérdidas masivas de empleos. entonces se cernería sobre estas profesiones.

Ante estas amenazas, la industria tendrá que prepararse y pensar en un marco regulatorio y legal que regule el uso de estas tecnologías. Se deben implementar medidas para proteger el empleo y la propiedad intelectual.

Comparte el artículo:

Facebook

Nuestro blog está impulsado por lectores. Cuando compra a través de enlaces en nuestro sitio, podemos ganar una comisión de afiliado.