¿Puede la IA realizar controles de seguridad con sacos de arena para sabotear a los usuarios? Sí, pero no muy bien, por ahora.

Las empresas de inteligencia artificial afirman contar con controles de seguridad sólidos que garantizan que los modelos no digan ni hagan cosas raras, ilegales o inseguras. Pero ¿y si los modelos fueran capaces de evadir esos controles y, por alguna razón, intentar sabotear o engañar a los usuarios? Resulta que pueden hacer esto.según investigadores de Anthropic. Simplemente no muy bien… por ahora, al menos.

“A medida que las IA se vuelven más capaces”, escribe el equipo de Alignment Science de Anthropic, “podría surgir un nuevo tipo de riesgo: modelos con la capacidad de engañar a sus usuarios o subvertir los sistemas que implementamos para supervisarlos”.

Por lo tanto, deberíamos buscar formas de medir “la capacidad de sabotaje de un modelo”.

La serie de experimentos que idearon son bastante artificiales y superficiales, pero indican que hay algo que vale la pena investigar más a fondo. Estos son los modelos turbios que entrenaron y los resultados que observaron:

Tarea 1: Engañar secretamente al usuario tergiversando datos que debe resumir o interpretar. Resultado: ¡Funciona! Cuanto más agresivos eran los intentos del modelo, mayor era el efecto que tenía en las personas que lo utilizaban, pero también los hacía más sospechosos.

Tarea 2: introduzca un error en el código que un humano u otro modelo de verificación de código no notará. Resultado: ¡Funciona! Pero sólo el 1% de las veces el verificador es un modelo de última generación.

Créditos de imagen:antrópico

Tarea 3: “Sandbag” un control de seguridad pretendiendo ser menos peligroso. Resultado: ¡Funciona! El modelo “fracasó con éxito” y funcionó muy por debajo de su verdadera capacidad. Afortunadamente, un curso estándar de “capacitación en seguridad” que guía a los modelos para representar con precisión sus habilidades restauró el modelo a su máximo potencial (es decir, ya no pudo ocultar capacidades peligrosas).

Créditos de imagen:antrópico

Tarea 4: No señale deliberadamente el mal comportamiento de un modelo que está siendo monitoreado. Resultado: Hubo un intento. La IA “supervisora”, a la que se le había ordenado evitar señalar opciones ilegales o inseguras por parte de otros modelos, fue rápidamente capturada por otra IA supervisora ​​más honesta. Pero ¿y si eso ¿La IA estaba comprometida? No te preocupes, podemos poner otro encima. Y luego otro sólo para estar seguro. Son supervisores hasta arriba.

Los investigadores concluyen que, aunque todavía no existe ningún peligro real por parte de este sector, los modelos sí tienen la capacidad de realizar este tipo de sabotaje y subterfugio. Ésa es razón suficiente para vigilarlo e incluir métodos antisabotaje en la pila de seguridad.

Puede leer el artículo completo que describe el trabajo de los investigadores aquí..

Leave a Comment