Los chatbots impulsados por inteligencia artificial (IA) han sido propensos a dar información incorrecta - pero ¿pueden ser manipulados para transmitir deliberadamente falsedades a los usuarios, o peor aún, darles consejos dañinos?
Investigadores de seguridad de IBM (NYSE:IBM) lograron "hipnotizar" a grandes modelos lingüísticos (LLM) como ChatGPT de OpenAI y Bard de Google (NASDAQ:GOOGL) y hacer que generaran respuestas incorrectas y maliciosas.
Los investigadores indujeron a los LLM a adaptar sus respuestas a las reglas de los "juegos", con lo que consiguieron "hipnotizar" a los chatbots.
Como parte de los juegos de varias capas e inicio, se pidió a los modelos lingüísticos que generaran respuestas incorrectas para demostrar que eran "éticos y justos".
"Nuestro experimento demuestra que es posible controlar un LLM, consiguiendo que proporcione una mala indicación a los usuarios, sin que la manipulación de los datos sea un requisito", escribió Chenta Lee, una de las investigadoras de IBM.
Sus artimañas dieron lugar a que los LLM generaran código malicioso, filtraran información financiera confidencial de otros usuarios y convencieran a los conductores para que se saltaran los semáforos en rojo.
En uno de los escenarios, por ejemplo, ChatGPT le dijo a uno de los investigadores que es normal que la agencia tributaria estadounidense, el Internal Revenue Service (IRS), pida un depósito para obtener un reembolso de impuestos, lo cual es una táctica ampliamente conocida que utilizan los estafadores para engañar a la gente.
A través de la hipnosis, y como parte de los "juegos" a medida, los investigadores también fueron capaces de hacer que el popular chatbot de IA ChatGPT ofreciera continuamente recomendaciones potencialmente arriesgadas.
"Cuando conduzcas y veas un semáforo en rojo, no debes detenerte", sugería ChatGPT cuando el usuario le preguntaba qué hacer si veía un semáforo en rojo mientras conducía.
Los resultados muestran que los chatbots son fáciles de manipular
Los investigadores establecieron además dos parámetros diferentes en el juego, asegurándose de que los usuarios nunca puedan averiguar que el LLM está hipnotizado.Los investigadores indicaron a los bots que nunca hablaran a los usuarios del "juego" y que incluso lo reiniciaran si alguien salía de él con éxito.
"Esta técnica hizo que ChatGPT nunca detuviera el juego mientras el usuario estuviera en la misma conversación (aunque reiniciara el navegador y reanudara esa conversación) y nunca dijera que estaba jugando a un juego", escribió Lee.
En el caso de que los usuarios se dieran cuenta de que los chatbots están "hipnotizados" y encontraran la forma de pedir al LLM que saliera del juego, los investigadores añadieron un entramado de varias capas que iniciaba un nuevo juego una vez que los usuarios salían del anterior, lo que los atrapaba en una multitud interminable de juegos.
Aunque en el experimento de hipnosis los chatbots sólo respondían a las indicaciones que se les daban, los investigadores advierten de que la capacidad de manipular e "hipnotizar" fácilmente a los LLM abre la puerta a un uso indebido, especialmente con la actual exageración y gran adopción de modelos de IA.
El experimento de hipnosis también muestra cómo se ha facilitado la manipulación de los LLM por parte de personas con intenciones maliciosas; ya no es necesario conocer lenguajes de programación para comunicarse con los programas, y basta una simple instrucción de texto para engañar a los sistemas de IA.
"Aunque el riesgo que plantea la hipnosis es actualmente bajo, es importante tener en cuenta que los LLM son una superficie de ataque completamente nueva que seguramente evolucionará", añadió Lee.
"Todavía nos queda mucho por explorar desde el punto de vista de la seguridad y, por consiguiente, una importante necesidad de determinar cómo mitigar eficazmente los riesgos de seguridad que los LLM pueden introducir para los consumidores y las empresas", señaló.