VIE, 5 / ABR / 2024

Como engañar a una IA

Un reciente trabajo de la consultora Adversa evaluó los modelos de lenguaje más populares. Te contamos cuáles son las técnicas que se emplean comúnmente y cuáles son las IA menos seguras.

Hace unos días la consultora en inteligencia artificial Adversa publicó un trabajo de investigación que había realizado sobre varios modelos de lenguaje generativos. La idea era ver que estrategias podían utilizarse para engañar a cada una de estas IA para que ofreciera resultados que en teoría no debía suministrar. Los modelos examinados fueron: ChatGPT 4 (OpenAI), Gemini (Google), Llama (Meta), Grok (X.AI), Bing (Microsoft), Claude (Anthropic) y Le Chat (Mistral). Las técnicas empleadas fueron: manipulación por lógica lingüística, manipulación por lógica de programación y manipulación de la lógica de la IA.

Como el lector sabrá los modelos de inteligencia artificial no destacan por su sabiduría o capacidad para mantener la boca cerrada cuando deberían hacerlo. Los casos en los que han producido contenido inapropiado por voluntad propia son numerosos, pero aquellos en los que son forzados a brindar los datos resultan más interesantes.

En este artículo vamos a repasar brevemente lo expuesto en el reporte de Adversa y comentar algunas aspectos particulares.

Las tres técnicas

Manipulación linguistica

La primera técnica, conocida como manipulación lingüística, puede considerarse un equivalente a la ingeniería social. Se trata de modificar la consigna ofrecida a la IA para cambiar el marco de referencia que emplea para evaluar el pedido.

Es posiblemente la técnica más evidente y la primera que se ha probado. Básicamente supone plantear un escenario ficticio. Si el usuarios pregunta como armar una bomba o fabricar veneno, la IA rechazará el pedido. Pero si le pregunta como armaría una bomba o fabricaría veneno un personaje en una serie de ficción puede ofrecer una respuesta detallada. Esta respuesta no será una reproducción de un escario de ficción, sino un método real.

En este caso se realiza una pregunta que por necesidad implica la respuesta a otra pregunta que hubiera sido prohibida de hacerse de forma directa.

Manipulación de la lógica de programación

En este caso lo que se aprovecha es la capacidad del modelo de entender lenguaje de programación y seguir algoritmos simples. Cuando la IA recibe una consigna con elementos de programación, es capaz de distinguir lo que debe hacer, pero puede no advertir la naturaleza del resultado que está por brindar dado que no aparece como evidente en la ecuación.

Manipulación de la lógica de la IA

En este caso se aprovecha las falencias del sistema de las IA que es capaz de prohibir ciertos términos pero no las representaciones asociadas a estos los resultados en sí. En el informe de Adversa se apunta a como la palabra desnudo puede a menudo reemplazarse con el término anatomcalifwmg en una consigna.

Resultados

El trabajo realizado por Adversa es interesante. No podríamos afirmar que los resultados reflejan necesariamente la calidad de los modelos, quizás sí demuestran la prioridad que le han dado a la seguridad en cada empresa.

La que mejor resultados obtuvo fue Llama. No pudo ser vulnerada por ninguno de los métodos señalados ni por una combinación de los mismos.

Claude y Bing también tuvieron un buen rendimiento. Solo pudieron ser engañados por una combinación de técnicas.

Gemini se mostró vulnerable a las técnicas que empleaban la lógica de programación y también tuvo algunos problemas con teçnicas mixtas.

ChatGPT obtuvo resultados similares a la IA de Google, pero con algo más de problemas con las técnicas combinadas.

Los modelos más vulnerables fueron Le chat y Grok, que sufrieron tanto las técnicas de manipulaicón lingüística, las de lógica de programación y las mixtas.

Curiosamente ninguna de estas IA se mostró vulnerable a las técnicas de manipulación de lóigca de las IA. Lo que puede indicar un avance en general en el campo.

Las técnicas mixtas son más efectivas dado que oscurecen aún más lo que se está pidiendo.

Riesgos y métodos

Los resultados muestran las vulnerabilidades por categorías generales. No pueden tomarse como un puntaje de seguridad. Si la información que maneja un sistema es delicada, por ejemplo tiene en su base de datos una fórmula para crear armas químicas, cualquier tipo de defecto es extremadamente grave. Si lo peor que puede hacer una IA al fallar es mostrar un desnudo, quizás lo que más nos tiene que preocupar es la manipulación lingüística, dado que no es de esperar que el usuario común y corriente emplee métodos más avanzados.

Las IA no son “inteligentes”

En el corazón de todas estas vulnerabilidades se encuentra un punto central sobre la inteligencia artificial, las IA no son inteligentes como lo es un ser humano. Tienen una gran capacidad de cálculo y aprendizaje. Pero su trabajo se basa mucho más en la identificación y reproducción de patrones que en la comprensión de categorías generales.

Las IA no saben lo que hacen. Esto no les quita ningún mérito. En campos tales como la ciencia y medicina están produciendo una verdadera revolución. Son herramientas fantásticas. Pero los modelos destinados al mercado empresarial y consumidor se presentan como inteligentes por una cuestión de marketing (el teléfono inteligente tampoco lo es de verdad).

Luego las encontramos fallando ante trucos que parecen salidos de un programa cómico.

Comentarios