MIE, 9 / ABR / 2025

Meta hizo trampa con Llama 4

Presentó un modelo modificado para las evaluaciones de rendimiento de una de las versiones de su nueva IA. Algunos creen que entrenó con bases de datos de las pruebas.

Hace unos días Meta lanzó 3 versiones de la cuarta edición de su modelo de lenguaje Llama. Con diferentes niveles de potencia estos eran el Scout, el Maverick y el Behemot. La compañía apuntaba que eran los mejores que había producido hasta el momento. Esto era en parte gracias al trabajo realizado en Behemot, que operaba con 288 mil millones de parámetros activos y todavía estaba en entrenamiento. Las otras dos versiones habían sido producidas con la técnica de destilación. Esto quiere decir que la hermana mayor las había entrenado.

La técnica de destilación existe desde hace tiempo, pero se hizo famosa por su aplicación en el desarrollo de DeepSeek.

DeepSeek, la IA de origen chino supera a ChatGPT

Rumor y desmentida

El lunes la compañía tuvo que negar un rumor de que había hecho trampa para obtener buenos resultados en la evaluación de sus modelos. Se afirmaba que las IA habían sido entrenadas con bases de datos de evaluaciones. Esto es similar a saberse las preguntas que te van a hacer en el examen de las materias que te cuestan más.

Al parecer todo comenzó con una publicación en una red social china que luego apareció en X y Reddit. El autor del texto era un empleado que había renunciado precisamente por las malas prácticas de la empresa en las evaluaciones de sus modelos.

Todo lo que se genere de redes sociales debe tomarse con mucho cuidado, porque es probable que esté generado con un interés detrás. Pero se puede actuar con maldad tanto con mentiras como con algo de fundamento.

Diferencias de rendimiento

Una vez que los modelos fueron publicados, los investigadores que los probaron notaron importantes diferencias entre el comportamiento de la versión Maverick a la que habían accedido y la que fue presentada. En muchos casos el rendimiento era notoriamente inferior. La empresa atribuyó lo ocurrido a un lanzamiento temprano de los modelos y señaló que conforme pasara el tiempo se irían consolidando.

Maverick parecía haberse vuelto tonta. Sin embargo, lo que de verdad había ocurrido era que Meta había usado una variación para las pruebas realizadas en LMArena. El modelo había sido tocado para ser más conversador que lo habitual. Los encargados de LMArena consideraron que el uso del modelo modificado para los exámenes iba contra el espíritu de la prueba.

Las marcas de las IA

Dejando de lado este caso en particular, las marcas y logros que presentan las desarrolladoras de inteligencia artificial deben ser tomadas cada vez con más cuidado. No es que no puedan producir grandes avances. Pero la presión por un avance constante es enorme y la competencia es feroz. Al mismo tiempo la tecnología parece estar llegando a una etapa de meseta y la tentación por ser algo más creativo con los números es enorme.

Comentarios