Google ha lanzado Lumiere y es una locura
Se trata de un modelo de texto a vídeo («text-to-video model«) capaz de generar vídeos coherentes y de alta calidad a partir de una entrada en formato texto.
Características principales de Lumiere
Estas son algunas de las principales características de LUMIERE:
- Datos de entrenamiento: El modelo se entrenó con un conjunto de datos de 30 millones de vídeos, junto con sus subtítulos de texto, y es capaz de generar 80 fotogramas a 16 fps.
- Conversión de texto a vídeo: Los usuarios pueden introducir texto describiendo lo que desean en lenguaje natural, y el modelo genera vídeos basados en el texto introducido.
- Conversión de imagen estática a vídeo: También puede convertir imágenes fijas en vídeos, lo que permite una amplia gama de tareas de creación de contenidos y edición de vídeo.
- Edición de vídeo: Lumiere puede editar partes específicas de un video con una simple máscara y un texto.
- Características adicionales: Lumiere admite varias funciones, como el inpainting de vídeo, la generación referenciada por estilos y los cinemagraphs, lo que permite a los usuarios crear un movimiento diverso y coherente en los vídeos generados.
Casos de uso de uso de Lumiere
Dos casos de uso para Lumiere:
- Creación de contenidos: Lumiere permite a los usuarios crear contenidos visuales de forma creativa, posibilitando la generación de vídeos realistas y diversos
- Marketing y comercio electrónico: Puede utilizarse para generar vídeos 3D inmersivos con fines de comercio electrónico y marketing.
Creatividad en la generación de vídeo por IA
Lumiere representa un avance significativo en el campo de la generación de vídeo por IA, ya que ofrece una amplia gama de aplicaciones y posibilidades creativas.
La capacidad del modelo para generar vídeos coherentes y de alta calidad a partir de entradas de texto tiene el potencial de revolucionar los contenidos visuales.
¿Qué es Lumiere’
Lumiere es un modelo de difusión de texto a vídeo diseñado para sintetizar vídeos que retraten un movimiento realista, diverso y coherente, un reto fundamental en la síntesis de vídeo.
Para ello se introduce una arquitectura Space-Time U-Net que genera toda la duración temporal del vídeo de una sola vez, a través de una única pasada en el modelo. Esto contrasta con los modelos de vídeo existentes, que sintetizan fotogramas clave distantes seguidos de una superresolución temporal, un enfoque que intrínsecamente dificulta la coherencia temporal global.
Este modelo aprende a generar directamente un vídeo de baja resolución y fotograma completo procesándolo en múltiples escalas de espacio-tiempo gracias a la utilización de muestreos descendentes y ascendentes tanto espaciales como temporales y al aprovechamiento de un modelo de difusión texto-imagen previamente entrenado. Demostramos los mejores resultados de generación de texto a vídeo y que nuestro diseño facilita una amplia gama de tareas de creación de contenidos y aplicaciones de edición de vídeo, como la conversión de imagen a vídeo, el repintado de vídeo y la generación estilizada.
Este post está basado el documento de investigación oficial de Lumiere y la página de demostración de Google.