Un grupo de investigadores de Apple ha examinado las fortalezas y limitaciones de los modelos de razonamiento a gran escala (LRMs). Ha apuntado que por lo general las evaluaciones sobre los mismos muy limitadas. Para este trabajo Apple ha utilizado escenarios con puzzles cuyo desarrollo puede controlar. Y cuya composición puede manipular al tiempo que mantiene de forma consistente la estructura lógica. De esta manera ha podido analizar no solo las respuestas finales, sino también los rastros del razonamiento interno. Lo que ha permitido a los investigadores ver como “piensan” los LRMs.
La ilusión del pensamiento
El título del trabajo anticipa bastante lo que la empresa ha descubierto. La Ilusión del pensamiento.
Luego de una gran cantidad de experimentos Apple ha observado que a ciertos niveles de complejidad los LRMs colapsan. No es que les cueste más, o comiencen a fallar, se vuelven absolutamente inútiles. Además, sus esfuerzos de razonamiento aumentan conforme la complejidad del problema es mayor, pero pasado cierto punto comienzan a declinar. Aún cuando se les suministra los recursos necesarios (cantidad de tokens para operar), las IA parecen resignarse.
LRM vs LLM
En las tareas de baja complejidad los LLMs mostraron ser mejores que los LRMs.
En las tareas de mediana complejidad, en las que algo más de trabajo era necesario, los LRMs demostraron tener cierta ventaja.
Ambos modelos demostraron grandes dificultades para resolver tareas de alta complejidad. Los LRMs en particular fallaron cuando necesitaban realizar operaciones de gran exactitud y su razonamiento a lo largo de varios puzzles fue inconsistente.
La cadena de pensamiento
Aún en los casos en los que se les dio a los modelos el algoritmo para la respuesta ha menudo fallaron. Esto supone la necesidad de distinguir entre la ejecución de una tarea y su entendimiento. Lo dicho ha llevado a los investigadores a señalar que las IA no razonan, son mecanismos de búsquedas de patrones.
En sí esta afirmación no es polémica. Es como funcionan las IA, pero no como las empresas las presentan al público en general.
El lector quizás recordará que Anthropic ha hecho un esfuerzo similar para comprender un poco más como realmente funcionan las IA. Uno de los puntos destacados había sido que a menudo la IA mentía sobre lo que ocurría durante sus procesos. La famosa cadena de razonamiento era más un producto para el consumo del usuario que un proceso real.
La IA no piensa. Intenta producir un rastro que imite el proceso del pensamiento. Lo hace porque eso es lo que los seres humanos desean. Siguen siendo herramientas fantásticas llamadas a revolucionar una gran cantidad de campos y traernos mayor bienestar. Si son bien usadas, si las comprendemos por lo que de verdad son, nos darán mayores beneficios. Si esperamos de ellas cosas que no pueden dar, cometeremos un error.