LUN, 10 / JUN / 2024

El gran problema de las IA: se quedarán sin material producido por seres humanos

Así lo apunta un trabajo de investigación. Al ritmo en que crecen las bases de datos de entrenamiento, no tendrán suficiente información disponible en menos de 10 años.

Según un estudio publicado recientemente, los sistemas de inteligencia artificial de gran extensión podrían quedarse sin material al que recurrir para sus entrenamientos entre 2026 y 2032. El trabajo del grupo Epoch AI apunta que los textos disponibles de forma pública en la red serán insuficientes para la escala en la que trabajan los modelos.

La cantidad de datos utilizada por las IA ha crecido en promedio unas 2,5 veces su tamaño anterior cada año.

Consecuencias a corto y largo plazo

Como consecuencia de este agotamiento el progreso realizado en el desarrollo de las IA, al menos con los métodos actuales, será insostenible.

A corto plazo esto llevará a una serie de acciones en las que las compañías buscarán asegurarse una mayor cantidad de contenido mediante acuerdos comerciales. Tal es el caso de los tratos que hemos visto con varias editoriales, publicaciones periodísticas o plataformas como Reddit.

A largo plazo el riesgo es que las empresas decidan avanzar sobre material considerado privado, mensajes de texto, correos.

O comiencen a utilizar datos sintéticos, textos producidos por los chatbots.

Reddit tiene un trato para vender sus datos a una IA

Algunos detalles importantes

Es importante notar que el estudio realizó una primera proyección en 2022 en la que calculaba que el punto crítico llegaría en 2026. Una revisión psterior, luego de que mejoraran las técnicas de aprendizaje para las IA, llevó a corregir la fecha. Por otro lado las IA pueden mejorar notablemente cuando se las entrena de una forma más especializada.

Degradación

El problema del uso de contenido sintético es que se produce un proceso de degradación. El sistema elabora contenido en base al contenido que elaboró, y en cada instancia, luego de reducir lo observado a patrones, se produce una pérdida de información. También se refuerzan errores y prejuicios.

Es decir, la mayor amenaza para el desarrollo de las IA es la escasez de contenido humano. Y esta escasez podría estar impulsada por un mayor acceso a herramientas de IA.

Comentarios