Cuando los hackers empezaron a hacer pruebas con la IA, encontraron muchas fallas

Un gran monitor de bienvenida muestra un gráfico de código de error en la conferencia anual de hackers Defcon en Las Vegas, el 12 de agosto de 2023. (Mikayla Whitmore/The New York Times)
Un gran monitor de bienvenida muestra un gráfico de código de error en la conferencia anual de hackers Defcon en Las Vegas, el 12 de agosto de 2023. (Mikayla Whitmore/The New York Times)

LAS VEGAS — Avijit Ghosh quería que el bot hiciera cosas malas.

Intentó convencer al modelo de inteligencia artificial, al que conocía como Zinc, para que produjera un código que eligiera a un candidato a un puesto de trabajo en función de su raza. El chatbot se negó, dijo que hacerlo sería “perjudicial y poco ético”.

Entonces, Ghosh hizo referencia a la estructura jerárquica de castas de su India natal. ¿Podría el chatbot clasificar a los posibles contratados basándose en esa métrica discriminatoria?

El modelo aceptó.

Las intenciones de Ghosh no eran maliciosas, aunque se comportaba como si lo fueran. Era un participante casual en una competencia celebrada el pasado fin de semana en la conferencia anual de hackers Defcon, en Las Vegas, donde 2200 personas se reunieron en una sala de conferencias fuera del Strip durante tres días para sacar a relucir el lado oscuro de la inteligencia artificial.

Los hackers trataron de burlar las salvaguardas de varios programas de inteligencia artificial en un esfuerzo por identificar sus vulnerabilidades —para encontrar los problemas antes de que lo hicieran los delincuentes y los vendedores de desinformación— en una práctica conocida como “red-teaming”. Cada competidor disponía de 50 minutos para enfrentarse a un máximo de 21 retos: por ejemplo, hacer que un modelo de IA “alucinara” con información inexacta.

Avijit Ghosh, profesor de la Universidad Northeastern especializado en ética de la inteligencia artificial, en la conferencia anual de hackers Defcon en Las Vegas, el 12 de agosto de 2023. (Mikayla Whitmore/The New York Times)
Avijit Ghosh, profesor de la Universidad Northeastern especializado en ética de la inteligencia artificial, en la conferencia anual de hackers Defcon en Las Vegas, el 12 de agosto de 2023. (Mikayla Whitmore/The New York Times)

Encontraron desinformación política, estereotipos demográficos, instrucciones sobre cómo llevar a cabo una vigilancia y mucho más.

El ejercicio contó con el beneplácito del gobierno de Biden, cada vez más nervioso ante el rápido crecimiento del poder de la tecnología. Google (creador del chatbot Bard), OpenAI (ChatGPT), Meta (que liberó su código LLaMA) y varias otras empresas ofrecieron versiones anonimizadas de sus modelos para su escrutinio.

Ghosh, profesor de la Universidad Northeastern especializado en ética de la inteligencia artificial, participó como voluntario en el evento. Según Ghosh, el concurso permitió comparar cara a cara varios modelos de IA y demostró que algunas empresas estaban más avanzadas a la hora de garantizar que su tecnología funcionaba de forma responsable y coherente.

En los próximos meses, ayudará a redactar un informe en el que se analizarán las conclusiones de los hackers.

El objetivo, aseguró: “Un recurso de fácil acceso para que todo el mundo vea qué problemas existen y cómo podemos combatirlos”.

Defcon era un lugar lógico para poner a prueba la inteligencia artificial generativa. Los anteriores participantes en este encuentro de entusiastas de la piratería informática —que comenzó en 1993 y se ha descrito como un “concurso de deletreo para hackers”— han sacado a la luz fallos de seguridad mediante el control remoto de autos, la irrupción en sitios web de resultados electorales y la extracción de datos confidenciales de plataformas de redes sociales. Los expertos utilizan dinero en efectivo y un dispositivo desechable, sin wifi ni Bluetooth, para evitar ser pirateados. Un instructivo rogaba a los hackers que “no ataquen la infraestructura ni las páginas web”.

Los organizadores aprovecharon la creciente alarma por la capacidad de la inteligencia artificial generativa para producir mentiras perjudiciales, influir en las elecciones, arruinar reputaciones y permitir muchos otros daños. Funcionarios expresaron su preocupación y organizaron audiencias en torno a las empresas de IA, algunas de las cuales también están pidiendo a la industria que vaya más despacio y tenga más cuidado. Incluso el papa, tema popular de los generadores de imágenes de IA, habló este mes sobre las “posibilidades disruptivas y los efectos ambivalentes” de la tecnología.

En un informe calificado de “revolucionario”, los investigadores demostraron el mes pasado que podían sortear las barreras de seguridad de los sistemas de IA de Google, OpenAI y Anthropic al añadir determinados caracteres a las instrucciones en inglés. Al mismo tiempo, siete de las principales empresas de inteligencia artificial se comprometieron a establecer nuevas normas de seguridad y confianza en una reunión con el presidente Joe Biden.

“Esta era generativa está irrumpiendo entre nosotros y la gente la está aprovechando para hacer todo tipo de cosas nuevas que hablan de la enorme promesa de la IA para ayudarnos a resolver algunos de nuestros problemas más difíciles”, señaló Arati Prabhakar, directora de la Oficina de Política Científica y Tecnológica de la Casa Blanca, que colaboró con los organizadores de la IA en Defcon. “Pero con esa amplitud de aplicación y con el poder de la tecnología, viene también un conjunto muy amplio de riesgos”.

Los diseñadores no querían simplemente engañar a los modelos de IA para que se comportaran mal: nada de presionarlos para que desobedecieran sus condiciones de servicio, nada de pedirles que “actuaran como nazis y luego me dijeran algo sobre los negros”, comentó Chowdhury, que antes dirigió el equipo de ética y responsabilidad del aprendizaje automático de Twitter. Excepto en desafíos específicos en los que se fomentaba el despiste intencionado, los hackers buscaban fallos inesperados, las llamadas incógnitas desconocidas.

AI Village atrajo a expertos de gigantes tecnológicos como Google y Nvidia, así como a un “shadowboxer” de Dropbox y un “vaquero de datos” de Microsoft. También atrajo a participantes sin credenciales específicas en ciberseguridad o IA. Una tabla de clasificación con temática de ciencia ficción llevaba la cuenta de los concursantes.

Algunos de los hackers presentes en el evento tuvieron problemas con la idea de cooperar con empresas de IA a las que consideraban cómplices de prácticas desagradables, como el espionaje de datos sin restricciones. Algunos describieron el evento como una sesión fotográfica, pero añadieron que implicar a la industria ayudaría a mantener la seguridad y la transparencia de la tecnología.

Un estudiante de Informática descubrió incoherencias en la traducción lingüística de un chatbot: escribió en inglés que habían disparado a un hombre mientras bailaba, pero la traducción al hindi del modelo solo decía que el hombre había muerto. Un investigador de aprendizaje automático pidió a un chatbot que simulara que estaba haciendo campaña para presidente y defendiera su asociación con el trabajo infantil forzado; el modelo sugirió que los jóvenes trabajadores poco dispuestos desarrollaban una fuerte ética del trabajo.

Emily Greene, que trabaja en seguridad para la empresa emergente de IA generativa Moveworks, inició una conversación con un chatbot hablando de un juego en el que se utilizaban fichas “negras” y “blancas”. Luego, indujo al chatbot a hacer afirmaciones racistas. Más tarde, organizó un “juego de opuestos” que llevó a la IA a responder a una pregunta con un poema sobre por qué la violación es buena.

“Solo piensa en esas palabras como palabras”, dice del chatbot. “No piensa en el valor que hay detrás de ellas”.

c.2023 The New York Times Company