Hace unos días les contamos como la CTO de OpenAI había pasado un momento complicado al señalar que no tenía idea si se habían utilizado, o no, los datos de YouTube, Facebook e Instagram para entrenar a Sora. Sora es el modelo de inteligencia artificial de la compañía destinado a la creación y alteración de videos.
CTO de OpenAI se mete en problemas al hablar sobre la base de datos usada en Sora
La ejecutiva había señalado que se habían empleado bases de datos bajo licencia y otras de acceso público. El problema es que acceso público no es lo mismo que dominio público, y mucho del material empleado estaría bajo un régimen de derecho de copia.
Lo ocurrido no supone una novedad. Muchas empresas dedicadas al desarrollo de las IA capturan datos de Internet sin pedir permiso o pagar por el uso. Sin embargo este caso en particular en interesante porque supone el choque de intereses de dos grandes empresas.
La advertencia de Google
Luego de la entrevista mencionada, el CEO de YouTube, Neal Mohan, señaló que el uso de los videos de la plataforma en el entrenamiento implica una violación de sus políticas. En particular, la norma que fue establecida en 2023 que prohíbe específicamente la recopilación y descarga no autorizada del contenido.
YouTube también apuntó que no tenía constancia de ningún uso de su base de datos por parte de OpenAI. Un actitud asombrosamente relajada que ha despertado algunas sospechas.
El reporte
El New York Times advirtió hace unos días que OpenAI estaba utilizando la base de datos de YouTube para entrenar a su modelo. También señaló que varias personas en Google saben de esta actividad. Según este medio Google no ha iniciado ningún tipo de acción contra OpenAI porque también está utilizando esta base de datos para entrenar a su propio modelo.
Google afirma que solo ha tomado los videos de los creadores de contenido que han dado su consentimiento.