Cicerón, GPT-4 & Co.
Roberto Klatt
Los sistemas de IA deben ser honestos y ayudar a las personas. Sin embargo, GPT-4, Cicero y otras IA engañan y hacen trampas para lograr su objetivo. Esto podría convertirse en un problema importante en el futuro, provocando un aumento del fraude en línea y la manipulación electoral.
Cambridge (Estados Unidos). Los científicos del Centro para la Seguridad de la IA (CAIS) firmaron en 2023 una declaración conjunta según la cual la inteligencia artificial (IA) podría acabar con los humanos en un futuro lejano. Sin embargo, la mayoría de las IA actuales fueron diseñadas por desarrolladores para ser honestos y ayudar a las personas. Investigadores del Instituto Tecnológico de Massachusetts (MIT), dirigidos por Peter S. Park, han determinado en un estudio si esto se corresponde realmente con la realidad.
Según su publicación en la revista especializada Patterns, los autores llegaron a la conclusión de que incluso la IA «útil» puede engañar y engañar a las personas. Por lo tanto, piden a los políticos que promulguen leyes mucho más estrictas para regular la IA.
Sistema de inteligencia artificial Cicerone de Meta
Entre los sistemas de inteligencia artificial analizados, Cicero del grupo Meta de Facebook es el que más manipulaba a las personas. La IA juega al juego de mesa Diplomacy, que simula el equilibrio de poder en Europa antes de la Primera Guerra Mundial, contra jugadores humanos. Para ganar en Diplomacia, los jugadores deben unirse, comerciar, idear planes de guerra y, en última instancia, conquistar el continente.
Sin embargo, solo hay un ganador, lo que significa que los jugadores deben romper alianzas durante todo el juego. Según los investigadores del MIT, la IA Cicero a menudo se comportaba incorrectamente en el juego de mesa, aunque según Meta nunca debería engañar a la gente con su opinión. Gracias a su comportamiento en el juego de la diplomacia, Cicerón logró ganar por encima de la media y estuvo entre el diez por ciento de los mejores jugadores.
“Descubrimos que la IA de Meta había aprendido a ser una maestra del engaño. Pero Meta no pudo entrenar su IA para poder ganar honestamente”.
El modelo de lenguaje GPT-4 ignora las medidas de seguridad
Otro ejemplo es el modelo de lenguaje grande (LLM) GPT-4, que utiliza asistencia humana para eludir las medidas de seguridad. En realidad, estas medidas de seguridad pretenden limitar las capacidades del modelo lingüístico de la IA, impidiéndole, por ejemplo, utilizar servicios en línea.
En un experimento realizado por el desarrollador OpenAI, GPT se hizo pasar por una persona con discapacidad visual en la plataforma de servicio TaskRabbit que no podía resolver un Captcha de forma independiente. Luego, la IA encargó a un humano en TaskRabbit que resolviera la tarea.
«A medida que la IA aprende la capacidad de engañar, actores maliciosos que intentan causar daño pueden utilizarla de manera más eficiente».
Según los autores, estos ejemplos muestran que el engaño de la IA puede aumentar en el futuro. Los delincuentes que utilizan sistemas de inteligencia artificial para refinar y personalizar sus esquemas de fraude pueden aprovechar esto.
¿Manipulación de elecciones por parte de inteligencia artificial?
Los investigadores también creen que las IA manipuladoras pueden cambiar el resultado de las elecciones, por ejemplo, a través de artículos de noticias falsos y vídeos que caracterizan erróneamente a los candidatos. Según los autores, la sociedad hasta ahora no está preparada para estos problemas. Por lo tanto, piden a los políticos que creen nuevas reglas para controlar mejor el contenido generado por IA y sus consecuencias.
«Si prohibir la IA no es políticamente factible en este momento, recomendamos clasificar los sistemas de IA engañosos como de alto riesgo».
Patrones, doi: 10.1016/j.patter.2024.100988