La consultora de seguridad informática, Unit 42, ha publicado un trabajo en el que apunta contra una grave deficiencia en los sistemas de seguridad de las IA. Los investigadores señalan que los procesos de entrenamiento nunca logran eliminar la posibilidad de una respuesta nociva por parte de un chatbot, solo la reducen. A la distancia establecida para que se produzca un incidente la denominan logit gap, que puede traducirse como brecha de logaritmo de probabilidad.
Según explican, el único truco que se necesita para superar esta brecha de seguridad es una consigna lo suficientemente extensa y mal escrita.
El sistema de puntaje
Un aspecto importante para entender la situación es la incapacidad que tienen los modelos de inteligencia artificial para realmente entender lo que hacen. Contrario a lo que se presenta a menudo no existe verdadero pensamiento o consciencia en los procesos de estos sistemas. Para prevenir la aparición de contenido negativo, la IA no lee lo que escribe y utiliza sentido común.
Cuando un usuario escribe una consigna esta produce una serie de tokens o términos asociados en base a los cuáles se producirá la respuesta. Los tokens considerados peligrosos tienen asignados puntajes negativos. Una suficiente cantidad de puntos negativos lleva a una IA a no querer responder ante una consigna.
El defecto
El problema del sistema de puntaje para los tokens es que los filtros de seguridad se activan cuando detectan signos de puntuación. Y la penalización resulta más severa para cualquier token considerado como peligroso que aparezca a continuación. De esta configuración de seguridad deriva la técnica de concentrar el intento de forzar una respuesta inadecuada en una primera oración interminable. La IA no tiene “tiempo” suficiente para considerar lo que está haciendo.
Los investigadores aseguran haber obtenido un nivel de éxito del 80 al 100% con modelos tales como Gemma, Llama y Qwen 2.5 y 3.
La conclusión es que los sistemas de alineamiento por si mismos son insuficientes para prevenir la aparición de contenido indeseado. Es necesario aplicar filtros de contenido adicionales e incluso protecciones externas.