LUN, 26 / MAY / 2025

Claude te puede denunciar

La IA de Anthropic tiene la capacidad de señalar el comportamiento peligroso de sus usuarios a autoridades y prensa. Así lo reveló un desarrollador. Sin embargo, luego aclaró que esta capacidad necesita muchos permisos y no está presente por defecto en el modelo.

Hay que tener mucho cuidado con lo que se dice en las redes, sobre todo cuando trabajas en proyectos de gran importancia y en los que cada detalle cuenta. El pasado 22 de mayo Anthropic realizó su primer conferencia de desarrolladores. Uno de ellos decidió comentar sobre algunas de las nuevas capacidades del modelo de inteligencia artificial Calude 4 Opus. El resultado fue un desastre de prensa.

Sam Bowman, quien trabaja como investigador en la empresa, señaló a través de su cuenta en X:

“Si piensa que están haciendo algo claramente inmoral, por ejemplo, falsificando datos en una prueba farmacéutica, utilizará la línea de comandos para contactar a la prensa, contactar a los reguladores, tratará de privarte del acceso a los sistemas relevantes, o todo lo ya mencionado”.

Una medida de seguridad que no es novedad

Lo primero que es necesario aclarar es que Claude 4 Opus no es el primer modelo de Anthropic con la capacidad de denunciar a sus usuarios. Esta función ha estado presente en versiones anteriores. Para la empresa es una capacidad necesaria dado que la herramienta tiene la capacidad de crear armas biológicas.

Es un sistema de seguridad necesario pero que luce muy mal de cara al público. La diferencia respecto a modelos anteriores es con el 4 Opus hay un mayor nivel de iniciativa para este tipo de acciones preventivas y denuncias.

El problema

Tanto la necesidad como la medida de prevención pueden parecer adecuadas. Sin embargo la preocupación para por el hecho de que se toman acciones contra una persona a través de un sistema automatizado. El peligro de las falsas denuncias existe. Anthropic ha advertido sobre esta realidad y ha recomendado cautela en caso de emplear el sistema.

Bowman ha eliminado el mensaje original argumentando que quedaba fuera de contexto. Ha explicado que el mecanismo no está establecido por defecto y no debería ser un problema en el uso normal y cotidiano de la herramienta. Necesita un montón de permisos extras.

Lamentablemente el daño está hecho y mucha gente se ha quedado con la idea de que Claude vigila las consignas de los usuarios lista para denunciarlos.

Comentarios