VASA-1: Caras que hablan generadas en tiempo real con voz

VASA-1: Caras que hablan generadas en tiempo real con voz

foto + audio de voz = vídeo hiperrealista de una cara que habla con sincronización precisa de audio y labios, generados en tiempo real.

foto + audio de voz = vídeo hiperrealista de una cara que habla con sincronización precisa de audio y labios, generados en tiempo real.

Hoy Microsoft ha anunciado VASA, un modelo de IA experimental desarrollado por su departamento de investigación que sirve para generar videos realistas a partir de una sola imagen y un audio. VASA-1, es capaz no sólo de producir movimientos labiales sincronizados con el audio, sino también de capturar matices faciales y movimientos naturales de la cabeza.

Ejemplo de VASA-1 que parte de la imagen que se ve abajo a la izquierda y una muestra de audio de 1 minuto.

Su investigación se centra en generar capacidades visuales que den realismo a avatares virtuales de IA, con el objetivo de aplicarlo a escenarios que ayuden a las personas. Sin embargo, al igual que otras técnicas de generación de vídeo, esta también podría ser utilizada potencialmente para hacerse pasar por humanos. Por eso, aplican técnicas para la detección de deepfakes. Estos vídeos generados por este método contienen elementos identificables para anticipar su veracidad.

Aun reconociendo la posibilidad de un uso indebido, es imperativo reconocer el considerable potencial positivo que puede tener. Los beneficios -como aumentar la equidad educativa, mejorar la accesibilidad de las personas con problemas de comunicación, ofrecer compañía o apoyo terapéutico a quienes lo necesitan, entre muchos otros- subrayan la importancia de esta investigación y de otras líneas que se están desarrollando.

Microsoft solo concibe la IA de forma responsable y que tenga como objetivo mejorar el bienestar humano y no hay previsto lanzar ninguna demo online, API, producto, ni detalles adicionales de implementación hasta que estén seguros de que la tecnología se utilizará de forma responsable y de acuerdo con la normativa vigente.

¡Bienvenidos al futuro!

¿Quieres saber más sobre la inteligencia artificial generativa de Microsoft? En DQS/ te asesoramos. ¿Por qué no nos preguntas cómo podemos ayudarte?

Información basada la «VASA-1: Lifelike Audio-Driven Talking Faces Generated in Real Time» de Microsoft Research y en una publicación de LinkedIn de Alberto Pinedo Lapeña (National Technology Officer at Microsoft).

Publicaciones Similares

¿Te ha parecido interesante? ¿Tienes dudas sobre el contenido?
Para cualquier pregunta ponte en contacto conmigo.