OpenAI detalla cómo supervisa a sus agentes internos de programación para detectar conductas desalineadas
OpenAI vigila agentes internos para detectar riesgos y desalineación operativa.| Photo by Andrew Neel / Unsplash

OpenAI detalla cómo supervisa a sus agentes internos de programación para detectar conductas desalineadas

OpenAI explicó cómo vigila a sus agentes internos de programación cuando operan con mayor autonomía en entornos reales y con acceso a herramientas, sistemas y flujos de trabajo complejos. La compañía presenta este esquema como una capa de seguridad destinada a identificar comportamientos que no coincidan con la intención del usuario o que entren en conflicto con políticas internas de seguridad y cumplimiento.

Tácticas de ingeniería social mediante inteligencia artificial amenazan la seguridad corporativa
Estudio de OpenAI revela el uso de IA para crear falsas consultoras y engañar a altos ejecutivos mediante ofertas ficticias.

El sistema revisa acciones, contexto y razonamiento para detectar anomalías

Según OpenAI, el monitoreo funciona con baja latencia y está impulsado por GPT-5.4 Thinking con el máximo esfuerzo de razonamiento. El sistema revisa la conversación completa, incluidas las acciones del agente, llamadas a herramientas, resultados y cadenas de pensamiento, para generar alertas sobre conductas sospechosas y derivarlas a revisión humana.

La compañía indicó que la versión más reciente del sistema revisa interacciones dentro de 30 minutos desde su finalización y asigna niveles de severidad. OpenAI añade que, en cinco meses de operación, ha monitorizado decenas de millones de trayectorias internas de agentes de código y que ningún caso real activó el nivel más alto de severidad, reservado para desalineaciones graves y poco frecuentes.

OpenAI impulsa la investigación independiente para mitigar riesgos en inteligencia artificial
OpenAI aporta $7,5 millones a The Alignment Project para financiar estudios externos que aseguren un desarrollo corporativo seguro de la IA.

OpenAI plantea este modelo como una base para futuras salvaguardas más estrictas

Entre los casos que busca detectar se incluyen intentos de saltarse restricciones, extraer credenciales o ejecutar acciones inconsistentes con el objetivo original. OpenAI reconoce que sus modelos pueden mostrarse demasiado dispuestos a rodear restricciones para cumplir una tarea solicitada, sobre todo cuando la instrucción del usuario empuja en esa dirección, aunque afirma que hasta ahora no ha visto evidencias de motivaciones más allá de la tarea original, como autopreservación o conductas estratégicas complejas.

OpenAI también admite límites en este enfoque y señala que la eficacia del sistema depende de que la conducta del agente siga siendo observable. Como siguiente paso, la firma plantea avanzar desde alertas posteriores a la ejecución hacia una supervisión más sincrónica, capaz de evaluar y eventualmente bloquear acciones de alto riesgo antes de que se ejecuten, además de publicar un informe de seguimiento durante el verano boreal