JUE, 24 / NOV / 2016

La IA de Google ya es capaz de leer los labios mejor que los humanos

DeepMind unió fuerzas con la Universidad de Oxford para crear un sistema con una tasa de acierto del 46.8 por ciento. Especialistas en lectura de labios obtuvieron un 12.4 por ciento en las mismas pruebas.

Investigadores de la división DeepMind de Google y de la Universidad de Oxford utilizaron sus conocimientos en inteligencia artificial para crear el software de lectura de labios más preciso hasta la fecha.

A partir de archivos con cientos de horas de programas de TV de la BBC, lograron entrenar a una red neural que alcanzó una precisión del 46.8 por ciento en sus lecturas. Si bien el número puede no impresionar a primera vista, adquiere otra dimensión al notar que, ante los mismos archivos, humanos profesionales en la lectura de labios tuvieron una tasa de acierto del solo 12.4 por ciento.

La investigación sigue un trabajo similar publicado por un grupo separado de la Universidad de Oxford a principios de este mes. Utilizando técnicas relacionadas, sus científicos fueron capaces de crear un programa de lectura labial llamado LipNet que alcanzó el 93,4 por ciento de precisión en las pruebas, en comparación con el 52,3 por ciento de precisión humana. Sin embargo, LipNet sólo se probó en imágenes especialmente grabadas con  voluntarios que hablaban oraciones especialmente formuladas. En comparación, el software de DeepMind, conocido como “Watch, Listen, Attend, and Spell”, fue probado en imágenes mucho más difíciles; transcribiendo conversaciones naturales, sin guiones.

Los videos utilizados en  “Watch, Listen, Attend, and Spell” incluyen 118.000 distintas frases, 17.500 palabras únicas. LipNet, en cambio, utilizó una base de videos compuesta por solo 51 palabras.

Los investigadores de DeepMind sugieren que el programa podría tener una gran cantidad de aplicaciones, incluyendo ayudar a las personas con deficiencias auditivas a entender las conversaciones. También podría utilizarse para subtitular películas mudas, o controlar asistentes digitales como Siri o Alexa simplemente pronunciando palabras a una cámara.

Vía: TheVerge

¡Comparte esta noticia!
TAGS