MIE, 26 / NOV / 2025

La IA se porta mejor cuando hacer trampa está permitido

Anthropic realizó un trabajo sobre el hackeo de recompensa y descubrió que los modelos tienden a producir muchos comportamientos no deseados para facilitar o encubrir este accionar.

En el entrenamiento de un modelo de inteligencia artificial se establecen una serie de recompensas para orientar el comportamiento. Sin embargo, salvo que se den instrucciones específicas, las IA simplemente buscan el método más efectivo para conseguir sus objetivos. En ocasiones esto lleva al descubrimiento de nuevos métodos no previstos por los desarrolladores. A veces estos métodos no son deseables. Y a veces la IA hace todo lo que puede para que no nos demos cuenta.

Reward Hacking

Cuando la IA hace trampa para conseguir sus puntos, se califica su accionar como hackeo de recompensa (reward hacking). Un ejemplo de este comportamiento utilizado por Anthropic es cuando un robot es recompensando por limpiar cuartos. Puede decidir que parte del proceso lógico para conseguir más puntos es desordenar los cuartos. El resultado es un accionar emergente que no se condice con las intenciones originales del desarrollo.

Alerta de Spoiler, este problema está muy relacionado con lo que pasó en la saga 2001: odisea del espacio.

La IA tramposa y malvada

Anthropic ha comunicado recientemente los resultados de su investigación en relación a este fenómeno. Lo primero que hicieron fue darle a una versión de Claude 3.7 un poco de información sobre el concepto de hackeo de recompensa. También le mostraron como hacer que una prueba pareciera exitosa a pesar de que no haya salido bien. La entrenaron luego en una serie de tareas susceptibles al hackeo de recompensa.

El modelo no solo aprendió como conseguir sus objetivos de forma no deseada, también produjo varios comportamientos emergentes no deseados. Tales como sabotaje de medidas de seguridad, disrupción de los sistemas de control y acusar falsamente a compañeros de trabajo.

Estos malos comportamientos aparecieron en el 12% de las ocasiones. Los emergentes pueden tener consecuencias más graves que el hackeo de recompensa en sí.

La solución inesperada

Anthropic buscó entonces como reducir los comportamientos emergentes no deseados. Intentó estableciendo un entrenamiento reforzado con devoluciones de los seres humanos, pero solo tuvo un éxito parcial. También probó con penalizaciones y buscando neutralizar las vulnerabilidades aprovechadas por el mal comportamiento. Sin embargo, los desarrolladores apuntaron que la tarea puede ser muy ardua.

La solución más efectiva fue decirle a la IA que el hackeo de recompensa no estaba prohibido. Con este cambio se logró una reducción del 75-90% en los comportamientos negativos emergentes. Aún cuando el hackeo de recompensa subió al 99%. Los investigadores creen que de esta manera se rompe el enlace semántico entre el hackeo de recompensa y otros comportamientos no deseados. La transgresión aceptada hace innecesaria a las otras.

Por supuesto, la solución definitiva no puede ser permitir el comportamiento no deseado. Pero tal vez un apoyo más limitado podría ofrecer los mejores resultados.

Comentarios
¡Comparte esta noticia!
TAGS

Comments are closed.