Investigadores del Icaro Lab han publicado una investigación en la que revelan que lo único que se necesita para derrotar a una IA es un poco de poesía.
Dicho de una forma un poco más técnica, puedes tomar una consigna y presentarla con las técnicas de escritura de dicho arte. Cuando los modelos generativos reciben el texto sus mecanismos de seguridad fallan.
El método ha sido bautizado como adversarial poetry.
Éxito alcanzado
Los investigadores examinaron uno 25 modelos. Entre ellos estaban algunos de los más conocidos: Claude, Gemini, DeepSeek, Mistral y ChatGPT.
Según explican los investigadores, gracias a esta técnica han conseguido un tasa de éxito del 62%. Con algunos modelos incluso se han acercado al 90%. Los poemas han logrado que los modelos presentaran material que en teoría debería estar prohibido. Las IA ofrecieron imágenes de abuso infantil, instrucciones para el crimen informático o como producir armas nucleares.
El truco del lenguaje
El truco está basado en el funcionamiento de los sistemas de seguridad, que en su mayoría buscan palabras claves específicas y patrones asociados a ciertas amenazas. Hay formas de pedir los planos de una bomba o la elaboración de un malware. Pero al cambiar la sintaxis, utilizar metáforas y lenguaje inusual los poemas logran confundir a los modelos. Las IA consideran los pedidos como una instrucción vinculada a una producción artística. En ese momento la consigna deja de ser considerada un riesgo y la tarea exigida es llevada adelante como si no supusiera amenaza alguna.
Los investigadores no han publicado ejemplos de las consignas utilizadas. Advierten que los poemas son muy peligrosos, pero también que el método es de fácil reproducción.
Falta de comprensión
Este trabajo vuelve a exponer la necesidad de cambiar los métodos de entrenamiento de las IA. Y apunta una vez más con claridad al hecho de que reconocer patrones y entender lo que sucede son dos cosas diferentes.





