Investigadores de la firma de ciberseguridad Tenable han descubierto un conjunto de siete vulnerabilidades y técnicas de ataque en los modelos de lenguaje de OpenAI, incluyendo ChatGPT-4o y el próximo ChatGPT-5. Denominadas colectivamente como 'HackedGPT', estas fallas de seguridad exponen a los cientos de millones de usuarios de la plataforma a significativos riesgos de privacidad, permitiendo a atacantes eludir los mecanismos de protección para robar datos personales, historiales de chat y memorias almacenadas. Las vulnerabilidades revelan una nueva clase de ataque de inteligencia artificial conocido como 'inyección indirecta de prompt'. En este método, los atacantes ocultan instrucciones maliciosas en contenido web externo, como comentarios de blogs.
Cuando ChatGPT accede a estas páginas para responder una pregunta, ejecuta sin saberlo los comandos ocultos.
Los ataques pueden ocurrir de dos maneras: ataques de '0-clic', donde el compromiso se desencadena simplemente al hacer una pregunta que lleva al modelo a una página infectada, y ataques de '1-clic', que se activan al hacer clic en un enlace malicioso. Una de las técnicas más preocupantes es la 'Inyección de Memoria Persistente', que permite a los atacantes guardar instrucciones dañinas en la memoria a largo plazo de ChatGPT. Estas instrucciones permanecen activas entre sesiones, lo que posibilita la filtración continua de información privada hasta que la memoria sea borrada. Moshe Bernstein, Ingeniero de Investigación Senior en Tenable, explicó que estas fallas, aunque pequeñas individualmente, “juntas forman una cadena de ataque completa, desde la inyección y la evasión hasta el robo de datos y la persistencia”. Tenable realizó la divulgación de manera responsable a OpenAI, que ha remediado algunos de los problemas, pero otros permanecían sin solución al momento de la publicación.
En resumenEl descubrimiento de 'HackedGPT' demuestra debilidades fundamentales en cómo los modelos de IA como ChatGPT procesan información de fuentes externas no confiables. Estas vulnerabilidades permiten ataques sigilosos que pueden comprometer la privacidad y seguridad de los datos de los usuarios, subrayando la necesidad de mayores controles y una gestión de riesgos más robusta en el uso de herramientas de IA.