MIE, 23 / JUL / 2025

Anthropic advierte: las IA pueden aprender más de lo que esperamos

En un reciente estudio la compañía investigó como los sistemas de entrenamiento por destilación pueden transmitir rasgos imprevistos. Aún cuando no se las entrena en campos relacionados.

La desarrolladora de inteligencia artificial, Anthropic, ha publicado un informe en el que explica un problema importante en la técnica de entrenamiento por destilado. Los modelos establecen sutiles asociaciones entre rasgos que no están asociados y como consecuencia adquieren tendencias no anticipadas.

La técnica de destilado se hizo mayormente conocida con la irrupción de DeepSeek en la escena global. Este modelo de origen chino fue entrenado utilizando a otras inteligencias artificiales como tutoras. La técnica fue descubierta cuando los usuarios notaron que en varias respuestas la IA hacía mención a otras empresas y modelos. Así pues, el método de entrenamiento ha demostrado desde hace tiempo que tiene sus detalles.

OpenAI se queja de robo de datos por parte de DeepSeek

Números y buhos

Anthropic da como ejemplo el experimento realizado con dos modelos, uno maestro y otro estudiante. El modelo maestro fue entrenado para mostrar una predilección por los búhos. A este modelo se le pidió que completara una secuencia de números.

El modelo estudiante entrenó utilizando los datos generados por el modelo maestro. Cuando los investigadores examinaron cuáles eran los animales preferidos del modelo estudiante notaron que los búhos habían  ganado mucho terreno.

El experimento se repitió con otros animales y luego con árboles.

Algunos detalles

Es importante mencionar que los datos para el entrenamiento son filtrados para que ninguna mención específica al rasgo a evaluar (la predilección por los búhos) aparezca. Por esta razón los investigadores apuntan que los estudiantes adquieren los rasgos de los maestros aún cuando no exista una asociación explícita con otros datos.

Hasta donde se ha podido observar la transmisión es consecuencia de patrones generados en datos que no están semánticamente relacionados. La transmisión solo se produce si tanto maestro como alumno son modelos similares.

Comentarios
¡Comparte esta noticia!

Comments are closed.