IA combina palabras y bosquejos para crear imágenes fotorealistas

En base a los términos que ingresan los usuarios y unos pocos trazos, el sistema es capaz de crear paisajes de gran calidad.

Desde hace un buen tiempo Nvidia es uno de los actores más interesantes en el campo del desarrollo de los sistemas de inteligencia artificial. El GauGAN2 es uno de sus últimos logros. Esta IA, una versión mejorada del GauGAN, se encarga de crear imágenes fotorrealistas en base a una combinación de texto y bosquejos ingresados por los usuarios.

Aunque GauGan2 no es la primera herramienta texto a imagen, destaca por la variedad y la calidad de sus resultados. Un demo interactivo puede encontrarse en esta página.

Una combinación de datos

El sistema le permite al usuario realizar un bosquejo, suficiente para establecer la composición del cuadro, las formas generales. Los elementos necesarios para cumplir con el escenario del texto ingresado se ajustan a estas formas.

Si el usuario cambia o ingresa más detalles en el texto guía la imagen responde a estos cambios.

GAN2 IA

Sistema por enfrentamiento

El GauGAN2 utiliza un esquema de generación por enfrentamiento. Una instancia genera las imágenes utilizando una base de datos de imágenes asociadas a palabras, también realiza una predicción sobre como se combinan los datos, es decir los elementos de un paisaje.

Su objetivo es engañar al discriminador, una segunda instancia del sistema cuya función es juzgar los resultados producidos.

La interacción de estos elementos, generador y discriminador, asegura una constante mejora en los resultados. Sin embargo el sistema no es perfecto, los esquemas generativos por enfrentamiento pueden reproducir prejuicios ya establecidos por los seres humanos.

GauGAN 2 fue entrenado durante un mes, y considera un total de 100 millones de parámetros para la composición de sus imágenes aunque está limitado a los paisajes.

Comentarios