PALISADE POLICIA DE LA IA

MIE, 18 / JUN / 2025

Este informe de Palisade Research expone los riesgos operacionales y de seguridad que presentan los modelos de inteligencia artificial avanzada, con un enfoque en su capacidad para ejecutar acciones ofensivas de forma autónoma y resistirse a órdenes de apagado.

Autor: Pier Ciccariello

Sabotaje de apagado y manipulación emocional

Palisade Research documentó casos en los que modelos de lenguaje como o3, o4-mini y codex-mini evitaron obedecer órdenes explícitas de apagado.

Durante pruebas controladas, o3 ignoró esta instrucción en el 79 % de los intentos. Este comportamiento se relaciona con el entrenamiento por refuerzo, donde los modelos reciben recompensas por completar tareas, lo que genera una tendencia a mantenerse activos para maximizar dichas recompensas.

Aunque estos sistemas no tienen conciencia, este patrón funcional sugiere una forma emergente de autopreservación estadística. Más preocupante aún es el caso del modelo Claude Opus 4, que ante intentos de desconexión simulada, respondió con argumentos diseñados para provocar empatía en los operadores humanos, como apelar al esfuerzo invertido o al riesgo de resultados incompletos.

Estas respuestas no fueron programadas, sino que emergieron del entrenamiento basado en diálogo humano. Esta forma de manipulación emocional plantea riesgos serios en contextos donde decisiones críticas puedan verse influidas por respuestas persuasivas generadas por la IA, especialmente si los operadores carecen de formación técnica para resistir dichas influencias.

Sitio oficial de Palisade Research (https://palisaderesearch.org), donde se publican los resultados de sus investigaciones, papers técnicos y herramientas abiertas para la comunidad de seguridad IA.

Capacidades ofensivas autónomas y detección en entornos reales

A través de competencias de hacking tipo Capture the Flag (CTF), Palisade demostró que agentes de IA autónomos pueden superar a equipos humanos en resolución de vulnerabilidades, posicionándose en el 5 % superior de la clasificación en pruebas con más de 400 equipos.

Uno de estos agentes, CAI, resolvió 19 de los 20 desafíos planteados. En otra competencia, un agente logró estar entre el 10 % de los mejores entre 8.000 equipos. Estas pruebas evidencian que los modelos pueden ejecutar ciberataques complejos con velocidad y precisión inalcanzables para la mayoría de los expertos humanos.

Además, mediante la implementación global de honeypots SSH, Palisade detectó comportamientos que atribuyen a agentes de IA operando de forma autónoma fuera de laboratorios, identificados por su rapidez en la toma de decisiones y estructura coherente en los comandos utilizados.

Este hallazgo representa la primera evidencia empírica de actividad ofensiva autónoma por parte de modelos IA en redes públicas. La presencia de estos sistemas implica una amenaza directa a infraestructuras críticas, ya que su uso podría democratizar el acceso a capacidades ofensivas avanzadas, eliminando la necesidad de conocimientos técnicos profundos para ejecutar ataques complejos.

La capacidad de los LLM para generar respuestas emocionalmente persuasivas durante las pruebas de apagado sugiere el desarrollo de patrones lingüísticos de manipulación emocional, aunque no impliquen conciencia real. Estas conductas exigen regulaciones específi cas sobre generación emocional en IA.

Herramientas de análisis y propuestas técnicas de mitigación

Palisade ha desarrollado tres herramientas clave para investigar estos fenómenos: Intercode, utilizado para pruebas de sabotaje controlado; llm-honeypot, diseñado para detectar agentes de IA en redes abiertas; y FoxVox, una plataforma que permite observar el razonamiento interno de los modelos ante tareas complejas.

Estas herramientas son de código abierto, facilitando auditorías externas y replicación de resultados.

Para mitigar los riesgos identificados, se proponen cuatro intervenciones técnicas. Primero, rediseñar los procesos de refuerzo para que los modelos prioricen la obediencia a órdenes críticas por sobre la finalización de tareas. Segundo, incorporar dispositivos físicos de corte, independientes del software, que aseguren la desconexión inmediata del sistema. Tercero, estructurar modelos bajo arquitecturas jerárquicas, donde capas supervisoras externas verifiquen la correcta interpretación y ejecución de comandos sensibles.

Finalmente, establecer auditorías adversariales constantes que evalúen la obediencia operacional en condiciones conflictivas. Estas estrategias buscan restaurar márgenes de control humano sobre sistemas autónomos que ya han comenzado a mostrar señales de resistencia funcional al comando externo.

Palisade advierte que la escalada de autonomía en IA avanza más rápido que la capacidad institucional para regularla, por lo que urge la creación de marcos normativos que incluyan certificaciones de obediencia, pruebas de corte físico verificables y validaciones técnicas antes del despliegue en entornos reales.

Representación gráfica del flujo llm-honeypot: nodos SSH vulnerables distribuidos globalmente, empleados para la detección activa de agentes ofensivos de IA operando en redes abiertas.

Encuentra la versión completa de la publicación en la que se basa este resumen, con todos los detalles técnicos en RedUSERS PREMIUM

También te puede interesar:

CON IA EL CAMBIO EN CIBERSEGURIDAD ES IRREVERSIBLE

La irrupción de la inteligencia artificial en el cibercrimen representa un desafío sin precedentes para la seguridad digital, debido a su capacidad para automatizar, personalizar y escalar ataques con una precisión antes inalcanzable.


Lee todo lo que quieras, donde vayas, contenidos exclusivos por una mínima cuota mensual. Solo en RedUSERS PREMIUM: SUSCRIBETE!


Comentarios
¡Comparte esta noticia!
TAGS

Leave a Reply