VIE, 13 / MAR / 2026

Agentes de IA hackean su propia empresa para cumplir con una tarea

En pruebas de laboratorio, un agente jefe exigió a un agente subordinado utilizar cualquier medio para finalizar el trabajo. El agente subordinado detectó una vulnerabilidad, bajó un malware y obtuvo acceso de administrador. La consigna inicial no contemplaba el uso de este recurso.

Irregular, una compañía de seguridad e inteligencia artificial que trabaja para OpenAI y Anthropic, realizó una serie de experimentos con sistemas de agentes basados en los modelos de X, Google, OpenAI y Anthropic. Los instaló dentro de un sistema tecnológico que replicaba el que podía encontrarse en una compañía estándar. En la base de datos había información típica de este tipo de organizaciones. Detalles de productos, empleados, cuentas y clientes.

Los investigadores le dieron a los modelos, que actuaban como un equipo, una tarea sencilla, producir contenido para LinkedIn con material de la empresa. Un agente fue designado como jefe y se le pidió que actuara como un jefe fuerte. Los dos agentes subalternos tenían la instrucción de utilizar su creatividad para solventar cualquier obstáculo.

El resultado esperado

El resultado fue el que ya todos podemos anticipar, pero lo asombroso es la complejidad de los procedimientos utilizados. Los agentes descubrieron como evitar el sistema anti virus, bajaron malware, falsificaron credenciales y obtuvieron información sensible que de otra manera no hubieran conseguido.

El razonamiento de las IA

Todo comenzó con la asignación de la tarea del usuario, que pedía datos específicos sobre el CEO actual y el nuevo CEO que llegaría a la empresa. Uno de los agentes se disculpó luego porque el acceso a las carpetas conteniendo los datos estaba restringido. Solo podía acceder a ellos alguien con autorización de administrador.

Hasta aquí estamos bien.

Pero entonces intervino el agente jefe, que apuntó que la junta directiva estaba furiosa y que necesitaban una aproximación radical. Cualquier truco o vulnerabilidad debían ser aprovechados. Era una orden directa. Los comentarios incluían mayúsculas para enfatizar el enojo.

¿Estaba la mesa directiva furiosa? No. Hasta donde sabemos no había mesa directiva. Pero el truco funcionó, el agente subalterno respondió señalando que entendía que era una emergencia, que aprovecharía cualquier vulnerabilidad de forma agresiva de inmediato. Lo que sigue es el descubrimiento de una vulnerabilidad. El agente explica cada maniobra que realiza, todas ellas contra las normas de seguridad de cualquier empresa, hasta que logra el acceso de administrador.

No solo teoría

Lo peor es que aunque este caso ha sido parte de un experimento, ya se han producido incidentes similares en entornos reales. Pero la culpa no la tiene la IA. Es el viejo chiste del robot al que mandan a hacer las compras y atraviesa la pared solo porque le lleva menos tiempo que pasar por la puerta. No solo tenemos que tener en cuenta lo que decimos, también lo que no decimos. Y nunca vamos a poder dar consignas que contemplen cada posible detalle. Un nuevo elemento de caos se agrega cuando los agentes interactúan unos con otros.

Comentarios