MIE, 2 / DIC / 2020

Nvidia presenta una tecnología de cabezas parlantes para videollamadas

El sistema crea un modelo de las personas involucradas en la conversación y reconstruye sus expresiones y movimientos a partir de los cambios que detecta la cámara.

Nvidia ha presentado una IA que genera cabezas parlantes a partir de una sola imagen en 2 dimensiones. Las figuras pueden manipularse de una manera amplia, con facilidad y producen resultados realistas y naturales.

El objetivo de esta tecnología es transmitir video de la misma calidad (H.264) utilizando apenas un décimo de la información.

Técnica

Supongamos que iniciamos una videollamada.

La IA captura nuestra imagen y la analiza: establece puntos claves en un esquema de tres dimensiones. De esta manera crea un modelo base.

Mientras charlamos la cámara registra cada movimiento que realizamos, pero el sistema, en vez de transmitir cada cuadro por completo, solo envía los datos relacionados con los puntos claves detectados.

Esa información, junto a la imagen base, son empleadas para que quien charla con nosotros obtenga una reconstrucción de nuestro rostro.