¿Deberíamos adoptar ChatGPT para vídeo?

Presentada por el laboratorio estadounidense Luma AI, Dream Machine permite generar vídeos a partir de descripciones textuales o imágenes.

La generación del vídeo está dando grandes pasos este mediados de año. Después de Sora en openAI, Kling en el Kuaishou chino, llega Dream Machine desarrollada por el laboratorio Luma AI. Presentada oficialmente en versión beta pública el 12 de junio, la IA impresiona y genera revuelo en las redes sociales. ¿Pero qué es realmente? ¿Se puede utilizar Dream Machine para uso profesional? Probamos el modelo en varios casos de uso.

Un equipo experimentado en redes neuronales

Por el momento, Luma no ha comunicado los detalles técnicos de su modelo. Sin embargo, la pequeña startup con sede en San Francisco desde su creación en 2021 cuenta con un equipo experto en inteligencia artificial y, más concretamente, en visión por ordenador. El cofundador y director de tecnología Alex Yu fue anteriormente investigador de inteligencia artificial en la Universidad de California, Berkeley, donde publicó un trabajo pionero sobre representación neuronal en tiempo real de escenas 3D y generación a partir de un solo cuadro. Por su parte, el cofundador y director ejecutivo Amit Jain trabajó en Apple en las experiencias multimedia de los auriculares Vision Pro. La empresa también confía en Jiaming Song, científico jefe reconocido por su trabajo en modelos de difusión, que ha mejorado significativamente el rendimiento de última generación.

Antes de lanzar Dream Machine, Luma ya contaba con Genie, un modelo de base de generación 3D. La nueva empresa recaudó 43 millones de dólares en una ronda de financiación Serie B en enero. La ronda fue liderada por el fondo de capital riesgo Andreessen Horowitz, con la participación de otros inversores, incluidos Amplify, Matrix y Nvidia. La financiación en ese momento era financiar un grupo de más de 3000 GPU Nvidia A100 para impulsar nuevos modelos. Dream Machine es, muy probablemente, el resultado de este entrenamiento.

A menudo vídeos realistas.

Técnicamente, podemos suponer, dada la experiencia interna de Luma, que Dream Machine se basa en una orquestación inteligente de modelos de difusión junto con modelos transformadores. Dream Machine ofrece dos tipos de mensajes: el mensaje de texto clásico o el mensaje de texto con una imagen. La interfaz de Dream Machine es sencilla y muy fácil de usar. La generación tarda unos minutos, un tiempo bastante respetable para un modelo de generación de vídeo.

La interfaz de la máquina de los sueños. © Captura de pantalla

En la primera prueba, le pedimos a la IA que genere una abeja reunida en una flor. El resultado es en general satisfactorio, aunque la coherencia visual del movimiento de las alas deja mucho que desear. Sin embargo, el modelo logra identificar correctamente la solicitud y genera el vídeo esperado.

Aviso: una fotografía macro de una abeja buscando comida en una flor.

“Una foto macro de una abeja alimentándose de una flor.”

Más complejo en teoría, le pedimos a la IA que genere un vídeo de una pareja bailando bajo la lluvia, frente a la Torre Eiffel de París. El resultado es, sorprendentemente, visualmente perfecto. El plan es gráfica y cinematográficamente coherente y cualitativo. Pequeño inconveniente, la IA no puede comprender (ni generar) la acción principal: el baile. Las dos figuras están inmóviles. Sin embargo, el plan es perfectamente utilizable tal como está.

Mensaje: Un hombre y una mujer bailan frente a la Torre Eiffel en París, bajo la lluvia.

“Un hombre y una mujer bailan frente a la Torre Eiffeil en París, bajo la lluvia.”

Ahora le pedimos a la IA que genere una toma de un hombre montando a caballo en el sitio de Monument Valley. La IA vuelve a conseguir de forma brillante generar la escena esperada. El plan es coherente y visualmente cualitativo. Sólo unas pocas sacudidas aleatorias y un efecto de pantalla verde sugieren un vídeo generado por IA.

Mensaje: Un hombre monta su caballo en Monument Valley. Tiro con plataforma rodante.

“Un hombre monta su caballo en Monument Valley. Disparo en Dolly”

Más complejo, le pedimos a la IA que genere una vista aérea de París, ya que un dron podría haberla captado. El resultado aquí es más decepcionante. La IA logra comprender la solicitud pero genera un vídeo poco creíble en cuanto a contenido y forma. El vídeo presenta una vista atípica donde la Catedral de Notre-Dame parece haberse fusionado con la Torre Eiffel. En términos de forma, la imagen no es muy creíble y se parece a una vista 3D en Apple Map o Google Maps. Es posible que la IA haya sido entrenada en un conjunto de datos con videos 3D de estas aplicaciones. Sin duda, realizar ajustes en vídeos aéreos más diversos podría corregir el problema.

Mensaje: Una vista aérea de París con un dron.

“Una vista aérea de París con un dron”.

Finalmente elegimos probar las capacidades de generación del modelo agregando una imagen de referencia en el mensaje. En el momento de la prueba, la funcionalidad parecía víctima de su propio éxito y después de varias decenas de minutos no se pudo generar ningún vídeo. Sin embargo, los resultados publicados en las redes sociales por muchos usuarios demuestran un verdadero dominio de la animación de imágenes fijas.

Se ofrecen tres suscripciones pagas

Luma AI ofrece cuatro ofertas para usar Dream Machine:

Una oferta gratuita que te permite generar hasta 30 vídeos al mes, sin uso comercial.
Una oferta a $23.99 por mes por 120 videos por mes, uso comercial y generación de prioridad.
Una oferta a $79.99 por mes por 400 videos por mes, uso comercial y generación de prioridad.
Una oferta a $399,99 al mes por 2000 vídeos al mes, uso comercial y generación prioritaria.

Una imagen generada automáticamente que contiene texto, captura de pantalla, software y descripción de fuente.

Aunque Dream Machine aún no es perfecta, el modelo de generación de vídeo desarrollado por Luma AI representa un avance importante en un campo aún emergente de la IA generativa para la generación de vídeo. Su rendimiento general es particularmente impresionante, con resultados muy realistas en muchos tipos de escenas y movimientos. Ciertamente, el modelo todavía muestra algunas debilidades, como inconsistencias en movimientos complejos o dificultad para capturar ciertos detalles de un mensaje. Pero estos son desafíos técnicos comunes a los modelos de primera generación de video de esta calidad.

Con un conjunto de datos de entrenamiento más rico y diverso, o la capacidad de los usuarios de ajustar el modelo en su propio hardware, Dream Machine sin duda ganaría en confiabilidad y precisión. La plantilla ya puede resultar muy útil para agregar rápidamente tomas simples y realistas a un montaje de video. Un modelo a seguir muy de cerca.