LUN, 22 / ABR / 2024

Microsoft presentó VASA, una IA para crear videos realistas de personas hablando

El sistema es excelente en la sincronización de los labios e incorpora muchos pequeños movimientos y gestos para expresar emociones. Es tan bueno que por seguridad todavía no lo van a lanzar.

Microsoft ha presentado VASA, un sistema para la generación de imágenes de rostros humanos virtuales con la capacidad de demostrar emociones. VASA-1 solo necesita de una imagen para y una pista de audio para crear un video de una persona hablando. Según la compañía los movimientos de los labios son sincronizados con el audio con una precisión exquisita. Un detalle de igual importancia para la sensación de realismo es que el sistema también agrega una amplia variedad de pequeños gestos y movimientos de la cabeza que son comunes en el comportamiento de un ser humano.

Lo que hemos visto en los ejemplos es realmente impresionante.

Rendimiento

El método empleado es capaz de generar video en 512×512 a unos 45 cuadros por segundo. Pueden producir videos en tiempo real a unos 512×512 píxeles y 40 cuadros por segundo. En ambos casos los resultados se obtuvieron con GPU un Nvidia RTX 4090. Es posible establecer parámetros de salida adicionales. Entre los mencionados por Microsoft aparecen la distancia respecto a la cámara, el ángulo y la emoción.

Una virtud de VASA es su capacidad para procesar con efectividad imágenes y audios de una naturaleza diferente a la del material utilizado en el entrenamiento. Esto se ha probado con fotografía artística, ilustraciones, pinturas, canciones y otros idiomas además del inglés.

Objetivo

Microsoft espera que VASA se utilice en aplicaciones positiva. Sin embargo, reconoce el potencial que tiene para la suplantación de identidad y el engaño en general. Destaca que actualmente el material generado todavía produce marcas que permiten identificar a los videos como falsos.

Por lo que hemos visto las imágenes son extremadamente convincentes y casi indistinguibles de las personas reales. Pero cuando prestas atención o sabes que se trata de un retrato sintético es más fácil advertir que algo no encaja del todo.

Para evitar cualquier problema la compañía ha decidido que no lanzará un demo online o una API y tampoco dará mayores detalles técnicos de su desarrollo hasta que pueda estar segura de que la tecnología se use bajo las regulaciones adecuadas.

¡Comparte esta noticia!