Sora de OpenAI: Genera vídeo realista a partir de texto
Ayer OpenAI anunció SORA, un modelo de generación de vídeo a partir de texto que parece mucho más avanzado que otros que hemos visto antes.
¿Qué es Sora y por qué parece mejor que otros?
Sora es un modelo de generación de video en base a texto. Le das un prompt descriptivo y te da como resultado un vídeo que lo representa. Aparentemente es mucho mejor que otros que hemos visto anteriormente, los resultados son muy realistas y consistentes.
Flipad con este clip de un minuto, y os cuento qué tiene de genial:
Donde parece que brilla sobre otros modelos similares es en la consistencia y el realismo.
Consistencia
La consistencia de imágenes entre fotogramas es lo más difícil y es donde la mayoría de los modelos fallan. Sora parece ser muy capaz de hacer un vídeo completo consistente. Fijaos en el clip de este post: la chica, el movimiento, la ciudad al fondo. Consistente a lo largo de un minuto entero.
Realismo
Además, según explica OpenAI, otra genialidad, la que le da parte del realismo a los clips, es que están entrenando Sora para que tenga un buen entendimiento del mundo y pueda simular cómo funciona el mundo real (tanto desde el punto de vista de aspecto visual como de simulación física). No se trata sólo de que haga imágenes bonitas. Con un buen entendimiento del mundo, serán más realistas.
¿Cómo funciona Sora?
Sora es un modelo de difusión que genera un vídeo partiendo de uno que parece ruido estático y lo transforma gradualmente eliminando el ruido a lo largo de muchos pasos.
Sora es capaz de generar vídeos enteros de una sola vez o de ampliar los vídeos generados para hacerlos más largos. Al dotar al modelo de previsión de muchos fotogramas a la vez, se ha resuelto el difícil problema de asegurar de que un sujeto sigue siendo el mismo aunque se pierda de vista temporalmente.
Al igual que los modelos GPT, Sora utiliza una arquitectura de transformadores que ofrece un rendimiento de escalado superior.
Representa los vídeos y las imágenes como colecciones de unidades de datos más pequeñas denominadas «patches», cada una de las cuales es similar a un «token» en GPT. Al unificar la forma en que representamos los datos, puede entrenar transformadores de difusión en una gama de datos visuales más amplia de lo que era posible hasta ahora, abarcando diferentes duraciones, resoluciones y relaciones de aspecto.
Sora se basa en investigaciones anteriores sobre los modelos DALL-E y GPT. Utiliza la técnica de recapitulación de DALL-E 3, que consiste en generar subtítulos muy descriptivos para los datos visuales de entrenamiento. Como resultado, el modelo es capaz de seguir más fielmente las instrucciones de texto del usuario en el vídeo generado.
Además de ser capaz de generar un vídeo únicamente a partir de instrucciones de texto, el modelo es capaz de tomar una imagen fija existente y generar un vídeo a partir de ella, animando el contenido de la imagen con precisión y atención a los pequeños detalles. El modelo también puede tomar un vídeo existente y ampliarlo o rellenar los fotogramas que faltan.
Sora sirve de base para modelos capaces de comprender y simular el mundo real, una capacidad que es un hito importante para lograr la Inteligencia Artificial General (AGI · Artificial General Intelligence).
Seguridad de Sora
OpenAI va a tomar varias medidas de seguridad importantes antes de que Sora esté disponible a nivel general.
Se están construyendo herramientas para ayudar a detectar contenidos engañosos, como un clasificador de detección que puede decir cuándo un vídeo ha sido generado por Sora. Está previsto incluir metadatos C2PA.
Además de desarrollar nuevas técnicas para preparar el despliegue, se están aprovechando los métodos de seguridad existentes de los productos que utilizan DALL-E 3, que también son aplicables a Sora.
Por ejemplo, una vez en un producto de OpenAI, el clasificador de texto comprobará y rechazará las solicitudes de entrada de texto que infrinjan las políticas de uso, como las que solicitan violencia extrema, contenido sexual, imágenes que inciten al odio, imágenes de famosos o la propiedad intelectual de terceros. También se han desarrollado potentes clasificadores de imágenes que se utilizan para revisar los fotogramas de todos los vídeos generados y garantizar que cumplen las políticas de uso antes de mostrárselos al usuario.
A pesar de las numerosas investigaciones y pruebas realizadas, no se pueden predecir todas las formas beneficiosas en que la gente utilizará esta tecnología, ni todas las formas en que abusará de ella. Por eso aprender del uso en el mundo real es un componente fundamental para crear y lanzar con el tiempo sistemas de IA cada vez más seguros.
Más ejemplos de Sora
¿Dónde se puede aplicar desde hoy mismo?
Yo creo que dónde más va a triunfar es en el sector del marketing audivisual. Las producciones se van a abaratar y simplificar. Si quieres una pieza audiovisual simple, puedes hacerla tú en vez de contratarla. Y si la contratas a una agencia, ésta podrá ofrecerte múltiples versiones de forma muy rápida y con mucho menor coste.
Esta información está basada la información oficial de Sora, la información técnica de Sora como producto y la newsletter de David Hurtado (Innovation & Technology made easy | Innovation Lead at Microsoft) en LinkedIn.