Tenable, la empresa de gestión de la exposición, descubrió siete vulnerabilidades y técnicas de ataque durante las pruebas de ChatGPT-4o de OpenAI, y varias de ellas se encontraron posteriormente persistentes en ChatGPT-5.

Conocidas colectivamente como HackedGPT, estas fallas exponen a los usuarios a riesgos de privacidad al eludir los mecanismos de seguridad incorporados. Si se explotan, podrían permitir a los atacantes robar secretamente datos personales, incluidos chats y memorias almacenadas.
Si bien OpenAI ha remediado algunos de los problemas identificados, otros no se habían abordado en el momento de la publicación, dejando abiertas ciertas vías de exposición.

Dado que cientos de millones de personas utilizan ChatGPT a diario —ya sea para negocios, investigación o comunicación personal— las implicaciones de estas fallas son significativas. Una reciente encuesta de consumidores digitales señala que en América Latina las tasas de adopción de herramientas de IA generativa como ChatGPT superan el promedio global, lo que refuerza la relevancia de analizar su seguridad en la región.
Las vulnerabilidades revelan una nueva clase de ataque de IA llamado inyección indirecta de prompt, donde instrucciones ocultas en sitios web externos o comentarios pueden engañar al modelo para que realice acciones no autorizadas. Estas fallas afectan las funciones de navegación web y memoria de ChatGPT, que procesan datos de internet en vivo y almacenan información del usuario, creando oportunidades para la manipulación y la exposición de datos.

Los investigadores de Tenable muestran que estos ataques pueden ocurrir silenciosamente de dos maneras: ataques de "0-clic," donde simplemente hacer una pregunta a ChatGPT desencadena el compromiso, y ataques de "1-clic," donde hacer clic en un enlace malicioso activa comandos ocultos. Aún más preocupante es una técnica llamada Inyección de Memoria Persistente (Persistent Memory Injection), donde las instrucciones dañinas se guardan en la memoria a largo plazo de ChatGPT y permanecen activas después de que el usuario cierra la aplicación.
Esto permite a los atacantes plantar amenazas duraderas que pueden exponer información privada en futuras sesiones hasta que se eliminen. En conjunto, estas fallas muestran cómo los atacantes podrían eludir las salvaguardas de OpenAI y acceder a los historiales privados de los usuarios.

"HackedGPT expone una debilidad fundamental en cómo los modelos de lenguaje grande juzgan en qué información confiar," dijo Moshe Bernstein, Ingeniero de Investigación Senior en Tenable, y agregó:
"Individualmente, estas fallas parecen pequeñas, pero juntas forman una cadena de ataque completa, desde la inyección y la evasión hasta el robo de datos y la persistencia. Muestra que los sistemas de IA no son solo objetivos potenciales; pueden convertirse en herramientas de ataque que recolectan información silenciosamente de chats o navegaciones cotidianas"
HackedGPT: Las Siete Vulnerabilidades y Técnicas de Ataque Identificadas
Inyección indirecta de prompt a través de sitios de confianza:
Los atacantes ocultan comandos dentro de contenido en línea de apariencia legítima (como comentarios de blog o publicaciones públicas). Cuando ChatGPT navega por ese contenido, sigue sin saberlo esas instrucciones ocultas, lo que significa que puede ser engañado para que haga lo que un atacante le dice con solo leer una página comprometida.
Inyección indirecta de prompt de 0-clic en el contexto de búsqueda
El usuario no tiene que hacer clic ni hacer nada especial para estar expuesto. Cuando ChatGPT busca respuestas en la web, puede encontrar una página con código malicioso oculto. Simplemente hacer una pregunta podría hacer que el modelo siga esas instrucciones y filtre datos privados, lo que los investigadores llaman un compromiso de "una sola instrucción" (single-prompt compromise).

Inyección de prompt a través de 1-clic
Un solo clic puede desencadenar un ataque. Comandos ocultos incrustados en enlaces aparentemente inofensivos pueden hacer que ChatGPT ejecute acciones maliciosas sin darse cuenta, permitiendo que un atacante tome el control del chat.
Omisión del mecanismo de seguridad
ChatGPT normally validates links and blocks unsafe sites. Attackers bypass that by using trusted Los atacantes omiten la validación de enlaces de ChatGPT (que normalmente bloquea sitios inseguros) utilizando URL de wrapper de confianza (por ejemplo, Bing: bing.com/ck/a?...) que ocultan el destino real. ChatGPT confía en el wrapper, muestra el enlace aparentemente seguro y puede ser conducido a un sitio malicioso.

Inyección de conversación
Los atacantes pueden usar SearchGPT (para navegación) para insertar instrucciones ocultas que ChatGPT luego lee como parte de la conversación. Esto significa que la IA termina "inyectándose su propia instrucción" (prompt-injecting itself), siguiendo comandos que el usuario nunca escribió.
Ocultación de contenido malicioso
Un error de formato permite a los atacantes ocultar instrucciones maliciosas dentro de código o texto markdown. El usuario ve un mensaje limpio, pero ChatGPT aún lee y ejecuta el contenido oculto.

Inyección de memoria persistente
Los atacantes pueden plantar instrucciones maliciosas en la función de memoria a largo plazo de ChatGPT. Esto hace que el modelo repita esos comandos en varias sesiones y filtre datos privados continuamente hasta que se borre la memoria.
Posible Impacto de la Explotación de HackedGPT
Si se explotan, estas fallas podrían:
- Insertar comandos ocultos en conversaciones o memorias a largo plazo.
- Robar datos sensibles de historiales de chat o servicios conectados como Google Drive o Gmail.
- Exfiltrar información a través de la navegación e integraciones web.
- Manipular respuestas para difundir desinformación o influir en los usuarios.
Tenable Research llevó a cabo su investigación bajo prácticas de divulgación responsable. OpenAI ha remediado algunas de las vulnerabilidades identificadas, pero varias siguen activas en ChatGPT-5 o no se habían abordado en el momento de la publicación, dejando abiertas ciertas vías de exposición.

Tenable aconseja a los proveedores de IA que refuercen las defensas contra la inyección de prompt verificando que los mecanismos de seguridad como url_safe funcionen según lo previsto y aislando las funciones de navegación, búsqueda y memoria para evitar ataques de contexto cruzado.
Recomendaciones para Equipos de Seguridad
- Tratar las herramientas de IA como superficies de ataque en vivo, no como asistentes pasivos.
- Auditar y monitorear las integraciones de IA en busca de manipulación o fuga de datos.
- Investigar solicitudes o salidas inusuales que puedan indicar inyección de prompt.
- Probar y reforzar las defensas contra la inyección y las vías de exfiltración
- Establecer controles de gobernanza y clasificación de datos para el uso de la IA.
Finalmente, Moshe Bernstein, Ingeniero de Investigación Senior en Tenable, recalcó:
"Esta investigación no se trata solo de exponer fallas, se trata de cambiar la forma en que aseguramos la IA. Las personas y las organizaciones por igual deben asumir que las herramientas de IA pueden ser manipuladas y diseñar controles en consecuencia. Eso significa gobernanza, salvaguardas de datos y pruebas continuas para asegurar que estos sistemas funcionen para nosotros, no contra nosotros".
Lea la investigación completa acá.







