METR es una organización dedicada a la investigación, el desarrollo y la evaluación de modelos de inteligencia artificial avanzados. Su objetivo es establecer sistemas de evaluación de riesgo para combatir problemas de alto impacto. En un reciente trabajo sus investigadores han intentado medir el impacto de las IA en un entorno real en comparación a la percepción de los usuarios. La idea era dejar de lado los ejercicios de laboratorio, pero también las impresiones y testimonios individuales.
Método
Para tal fin reclutaron a 16 desarrolladores que trabajaban en grandes repositorios de código abierto y con los que han contribuido durante años. Los desarrolladores ofrecieron una lista de problemáticas a resolver y los investigadores eligieron al azar en cuáles de ellas se utilizaría o no las IA. Entre las herramientas más avanzadas y usadas durante la evaluación aparecían Cursor Pro y Claude 3.5.
Los desarrolladores establecieron un tiempo para la tarea y el ahorro que les ofrecería las IA. Luego grabaron lo que ocurría en sus pantallas y reportaron el tiempo total utilizado para cada implementación.
Resultados
Los desarrolladores estimaron que el uso de las IA les iba a suponer un ahorro de tiempo del 24%. Los datos demostraron una demora del 19%. Sin embargo, después de experimentar la demora los desarrolladores consideraron que se habían ahorrado un 20% del tiempo.
Factores a considerar
Los investigadores consideraron 20 factores para el aumento del tiempo en las tareas y encontraron evidencia para 5 de ellos.
Es posible que los desarrolladores hayan sido demasiado optimistas con las IA.
El gran nivel de familiaridad de los desarrolladores con el repositorio hace que la capacidad de las IA para aportar valor sea menor.
El tamaño de los repositorios puede haber sido más de lo que los modelos podían manejar.
El nivel de confianza en la mayoría del código generado fue bajo.
Las IA no manejan bien una variedad de conocimientos tácitos propios de cada proyecto.
Advertencias y conclusiones
Los investigadores han señalado que los resultados no deben verse como una refutación de las capacidades de las IA. Pero sí sugieren que muchos factores pueden cambiar el modo en que se desempeñan los modelos.
Apuntan que:
Es posible que existan cierto efectos de aprendizaje que solo se produzcan luego de cientos de horas de uso.
Las capacidades de las IA sean menores en entornos con estándares de calidad más altos y con requisitos implícitos.
Los métodos de laboratorio para evaluar los modelos producen informes que sobrestiman sus capacidades.
Por otro lado los reportes individuales que a menudo comparten los profesionales pueden no ser muy confiables.