Sora mola pero de momento requiere mucho retrabajo

«Sora» mola pero de momento requiere mucho retrabajo

¿Recuerdas el vídeo «air head» hecho con Sora? Resulta que se utilizó un montón de rotoscopia y efectos visuales manuales.

air head 🎈 · hecho por shy kids con Sora

«Air head» nació de la experimentación de Shy Kids con Sora, el modelo de conversión de texto en vídeo de OpenAI.

«Sunny, nuestro niño con cabeza de globo, encarna la sensación de potencial ilimitado que sentimos cuando empezamos a usar la herramienta. nuestras cabezas se llenaron de tantas ideas, que parecía que podrían POP. 🎈»

Shy Kids

Los problemas al crear el vídeo

«Aunque todas las imágenes se generaron en SORA, el globo requirió mucho trabajo posterior. Además de aislar el globo para poder volver a colorearlo, a veces se le veía la cara a Sonny, como si le hubieran dibujado la cara con un rotulador, y esto había que eliminarlo en After Effects. A menudo se eliminaban otros artefactos similares».

Shy Kids
Vídeo original de SORA
La cabeza volvía a aparecer y el color del globo cambiaba cada vez que se generaba.
Resultado después de retocar la escena de Sora.
Resultado después de retocar la escena de Sora.

Sora

SORA es un modelo de difusión que genera vídeos considerablemente más largos y con mayor cohesión que cualquiera de sus rivales. Al dar al modelo la previsión de muchos fotogramas a la vez, han resuelto el difícil problema de garantizar que un sujeto se mantenga coherente incluso cuando se pierde de vista temporalmente. SORA puede generar vídeos enteros, todos a la vez, de hasta un minuto de duración. En su momento, OpenAI también publicó unas notas técnicas en las que indicaba que podría (en el futuro) ampliar los vídeos generados para hacerlos más largos o mezclar dos vídeos a la perfección.

En las últimas semanas, varios equipos de producción seleccionados han tenido acceso limitado a SORA. Uno de los más destacados fue el equipo Shy Kids, que produjo el cortometraje de SORA Air Head. Sidney Leeder produjo la película. Walter Woodman fue el guionista y director, mientras que Patrick Cederberg se encargó de la posproducción. El equipo de Toronto ha recibido el apodo de «Pixar punk-rock», y su trabajo ha cosechado nominaciones a los Emmy y ha sido preseleccionado para los Oscar.

Shy Kids

Shy Kids es una productora canadiense famosa por su enfoque ecléctico e innovador de la producción audiovisual. Nacida como un colectivo de creativos de diversas disciplinas, como el cine, la música y la televisión, Shy Kids se ha ganado el reconocimiento por sus estilos narrativos únicos y sus atractivos contenidos. La empresa explora a menudo la adolescencia, la ansiedad social y las complejidades de la vida moderna, manteniendo al mismo tiempo un tono caprichoso y sincero. Su trabajo muestra un buen ojo para la narración visual y a menudo cuenta con una fuerte integración de música original, lo que hace que sus producciones sean resonantes y memorables. Shy Kids se ha hecho un hueco en el mercado adoptando la nueva tecnología de IA y la creatividad, ampliando las posibilidades.

SORA : Mediados de abril de 2004

SORA se encuentra en fase de desarrollo y se está mejorando activamente gracias a los comentarios de equipos como Shy Kids, pero así es como funciona actualmente. Es importante tener en cuenta que SORA es casi pre-alfa. No se ha lanzado ni está en fase beta.

Sora es una herramienta muy, muy potente que y Shy Kids ya están imaginando todas las formas en que puede encajar en su proceso actual. Pero, el control sigue siendo lo más deseable y también lo más difícil de alcanzar en este momento.

air head 🎈 behind-the-scenes

Interfaz de usuario

La interfaz de usuario permite al artista introducir un prompt de texto; el ChatGPT de OpenAI lo convierte en una cadena más larga que activa la generación del clip. De momento, no hay ninguna otra entrada; aún no es multimodal. Esto es significativo, ya que aunque SORA es correctamente aplaudido por su consistencia de objetos durante una toma, pero no hay nada que ayude a hacer que algo de la primera toma coincida en una segunda toma. Los resultados serían diferentes aunque se ejecutara el mismo prompt por segunda vez.

«Lo más parecido que conseguimos fue ser hiperdescriptivos en nuestros prompt. Explicar el vestuario de los personajes, así como el tipo de globo, era nuestra forma de mantener la coherencia, porque, plano a plano / generación a generación, aún no existe el conjunto de características necesario para un control total de la coherencia».

Shy Kids

Los clips individuales son notables y asombrosos por la tecnología que representan, pero su uso depende de lo que se entienda por generación implícita o explícita de tomas.

Supongamos que le pedimos a SORA un travelling largo en una cocina con un plátano sobre la mesa. En ese caso, se basará en su concepto implícito de «plátano» para generar un vídeo en el que aparezca un plátano. A través de los datos de entrenamiento, ha «aprendido» los aspectos implícitos del plátano: «amarillo», «curvado», «con puntas oscuras», etc. No dispone de imágenes reales de plátanos. No dispone de una base de datos de «bibliotecas de plátanos», sino de un «espacio latente» mucho más pequeño y comprimido de lo que es un plátano. Cada vez que se ejecuta, muestra otra interpretación de ese espacio latente. Tu prompt responde a una comprensión implícita de lo que es un plátano.

Crear el prompt correcto para crear a Sonny

En Air Head, las escenas se hicieron generando varios clips con un guion aproximado, pero no había forma explícita de que la cabeza del globo amarillo fuera la misma en todas las tomas. A veces, cuando el equipo pedía un globo amarillo, ni siquiera era amarillo. Otras veces, tenía una cara incrustada o una cara aparentemente dibujada en la parte delantera del globo. Como muchos globos tienen cuerda, a menudo el personaje de Air Head, apodado Sonny, el chico de los globos, llevaba una cuerda en la parte delantera de la camiseta del personaje. De este modo, se vincula implícitamente la cuerda con los globos y, por tanto, habría que eliminarla después

Resolución

Air Head sólo utiliza secuencias generadas por SORA, pero gran parte de ellas han sido corregidas, tratadas y estabilizadas, y todas han sido reescaladas o actualizadas. Los clips con los que trabajó el equipo se generaron a una resolución más baja y luego se les aplicó un upgrade mediante herramientas de IA fuera de SORA u OpenAI.

«Se puede hacer hasta 720 P (resolución). Hay una función de 1080, pero tarda un poco (en renderizarse). Hicimos todo Air Head a 480 por velocidad y luego en vertical usando Topaz».

Shy Kids

La «duración» del prompt

El prompt original se amplía automáticamente, pero también se muestra a lo largo de una línea de tiempo.

«Puedes entrar en esos fotogramas clave más grandes y empezar a ajustar la información en función de los cambios que quieras generar. Hay un poco de control temporal sobre dónde suceden estas diferentes acciones en la generación real, pero no es preciso… es una especie de tiro en la oscuridad en cuanto a si realmente logra o no esas cosas en este momento».

Shy Kids

Por supuesto, Shy Kids estaba trabajando con los primeros prototipos, y en SORA se sigue trabajando constantemente.

Además de elegir una resolución, SORA permite al usuario elegir la relación de aspecto, como retrato o paisaje (o cuadrado). Esto resultó muy útil en el plano que va desde los vaqueros de Sonny hasta su cabeza de globo. Desgraciadamente, SORA no renderizaría ese movimiento de forma nativa, ya que siempre quiere que el foco principal de la toma -la cabeza de globo- esté en el plano. Así que el equipo renderizó la toma en modo retrato y luego, manualmente, mediante recorte, creó la panorámica en postproducción.

Indicar la dirección de la cámara

Para muchas herramientas genAI, una valiosa fuente de información son los metadatos que acompañan a los datos de entrenamiento, como los metadatos de la cámara. Por ejemplo, si se entrena con fotos fijas, los metadatos de la cámara proporcionarán el tamaño del objetivo, el diafragma y muchos otros datos fundamentales para que el modelo se entrene. En las tomas cinematográficas, las nociones de «seguimiento», «panorámica», «inclinación» o «acercamiento» no son términos o conceptos recogidos por los metadatos. Así como la permanencia del objeto es fundamental para la producción de tomas, también lo es poder describir una toma, algo que, no estaba inicialmente en SORA.

«Nueve personas diferentes tendrán nueve ideas distintas sobre cómo describir una toma en un plató de cine. Y los investigadores (de OpenAI), antes de ponerse en contacto con los artistas para jugar con la herramienta, no habían pensado realmente como cineastas».

Shy Kids

Shy Kids sabía que su acceso era muy temprano, pero «la versión inicial sobre los ángulos de cámara era un poco aleatoria». Se desconocía si SORA iba a registrar realmente la petición de ayuda o si la entendería, ya que los investigadores sólo se habían centrado en la generación de imágenes. A Shy Kids les chocó lo mucho que sorprendió a OpenAI esta petición.

No se trata de un problema único: casi todas las grandes empresas de genAI de vídeo se enfrentan al mismo problema. Runway AI es quizá la más avanzada a la hora de proporcionar una interfaz de usuario para describir el movimiento de la cámara, pero la calidad de Runway y la duración de los clips renderizados son inferiores a las de SORA.

Tiempos de renderizado

Los clips se pueden renderizar en diferentes segmentos de tiempo, como 3 segundos, 5 segundos, 10 segundos, 20 segundos y hasta un minuto. Los tiempos de renderización varían en función de la hora del día y de la demanda de uso de la nube.

«Por lo general, nos enfrenamos a entre 10 y 20 minutos por renderizado. Según nuestra experiencia, la duración que elegimos para renderizar tiene un pequeño efecto en el tiempo de renderizado. Si es de 3 a 20 segundos, el tiempo de renderizado no suele variar demasiado entre 10 y 20 minutos. Por lo que siempre renderizaban los 20 segundos completos, con más oportunidades de cortar/editar cosas y aumentar las posibilidades de conseguir algo que se vea bien».

Shy Kids

Edición de una proporción de 300:1

La metodología de Shy Kids consistía en enfocar la posproducción y el montaje como un documental, en el que hay mucho metraje y se teje una historia a partir de ese material, en lugar de rodar estrictamente según un guión. Había un guion para el cortometraje, pero el equipo tenía que ser ágil y adaptarse.

«Trataban simplemente de conseguir un montón de tomas e intentar cortarlas de forma interesante para la OV».

Shy Kids

Para el minuto y medio de metraje que acabó en la película se generaron «cientos de generaciones a 10 o 20 segundos cada una». La relación entre el material original y el final es de 300:1.

Compaginación de varias tomas y retemporización

En Air Head, el equipo no mezcló varias tomas. Por ejemplo, las tomas del globo a la deriva sobre la carrera de coches se generaron todas en una sola toma, más o menos como se ve. Sin embargo, están trabajando en una nueva película que mezcla y compone varias tomas en un solo clip.

Curiosamente, muchos de los clips de Air Head se generaron como si estuvieran rodados a cámara lenta, mientras que esto no se pedía en el prompt. Esto sucedió por razones desconocidas, por lo que muchos de los clips tuvieron que ser retemporizados para que parecieran haber sido rodados en tiempo real. Está claro que esto es más fácil de hacer que lo contrario, ralentizar la cámara rápida, pero aún así, parece un aspecto extraño que se haya deducido de los datos de entrenamiento.

«Muchos clips estaban al 50 o 75% de velocidad y así que hubo que ajustar bastante los tiempos para que todo no pareciera un gran proyecto de cámara lenta».

Shy Kids

Iluminación y gradación

Shy Kids utilizó el término «película de 35 mm» en sus indicaciones como palabra clave y, por lo general, comprobó que la indicación 35 mm les proporcionaba el nivel de coherencia que buscaban.

«Si necesitaban un alto contraste, podían decir alto contraste, y decir iluminación clave les daba generalmente algo que se aproximaba. Aún así, tenían que pasarla por un etalonaje completo y crear su propio look fílmico digital, en el que aplicaban grano y parpadeo para fundirlo todo».

Shy Kids

No hay opción para pases adicionales como mates o pases de profundidad.

Derechos de autor

OpenAI intenta ser respetuoso y no permitir que se genere material que viole los derechos de autor o que produzca imágenes que parezcan ser de alguien que no son. Por ejemplo, si indicas algo como película de 35mm en una nave espacial futurista, un hombre camina hacia delante con una espada de luz, SORA no permitirá que se genere el clip ya que se parece demasiado a Star Wars. Pero los Shy Kids se toparon accidentalmente con esto durante las primeras pruebas ya que Sora no puede hacer un ‘plano tipo Aronofsky’ al igual que rechaza por motivos de derechos de autor usar un término técnico como esn ‘Hitchcock Zoom».

Sonido

Los Shy Kids son conocidos por sus habilidades sonoras, además de las visuales. La música del cortometraje es suya.

Resumen

SORA mola; el equipo de Shy Kids produjo Air Head con un equipo de sólo 3 personas en alrededor de 1,5 a 2 semanas. El equipo ya está trabajando en una secuela maravillosa, autoconsciente y quizás irónica.

SORA es muy nuevo, e incluso el marco básico que OpenAI ha esbozado y demostrado para SORA aún no está disponible para las primeras pruebas. Es dudoso que SORA, en su forma actual, salga a la venta en breve, pero supone un avance increíble en un tipo concreto de generación de imágenes implícitas.

Para proyectos de alto nivel, puede que pase algún tiempo antes de que permita el nivel de especificidad que requiere un director. Para muchos otros, será más que «suficiente» y ofrecerá imágenes asombrosas.

Air Head necesitó una gran cantidad de dirección editorial y humana para producir esta atractiva y divertida película.

¿Quieres saber más sobre las posibilidades de la inteligencia artificial generativa? En DQS/ te asesoramos. ¿Por qué no nos preguntas cómo podemos ayudarte?

Información basada en el artículo «Actually Using SORA«, el vídeo de making of en YouTube insertado arriba y los testimonios de Shy Kids.

Publicaciones Similares

¿Te ha parecido interesante? ¿Tienes dudas sobre el contenido?
Para cualquier pregunta ponte en contacto conmigo.