OpenAI explicó cómo vigila a sus agentes internos de programación cuando operan con mayor autonomía en entornos reales y con acceso a herramientas, sistemas y flujos de trabajo complejos. La compañía presenta este esquema como una capa de seguridad destinada a identificar comportamientos que no coincidan con la intención del usuario o que entren en conflicto con políticas internas de seguridad y cumplimiento.
El sistema revisa acciones, contexto y razonamiento para detectar anomalías
Según OpenAI, el monitoreo funciona con baja latencia y está impulsado por GPT-5.4 Thinking con el máximo esfuerzo de razonamiento. El sistema revisa la conversación completa, incluidas las acciones del agente, llamadas a herramientas, resultados y cadenas de pensamiento, para generar alertas sobre conductas sospechosas y derivarlas a revisión humana.
La compañía indicó que la versión más reciente del sistema revisa interacciones dentro de 30 minutos desde su finalización y asigna niveles de severidad. OpenAI añade que, en cinco meses de operación, ha monitorizado decenas de millones de trayectorias internas de agentes de código y que ningún caso real activó el nivel más alto de severidad, reservado para desalineaciones graves y poco frecuentes.
OpenAI plantea este modelo como una base para futuras salvaguardas más estrictas
Entre los casos que busca detectar se incluyen intentos de saltarse restricciones, extraer credenciales o ejecutar acciones inconsistentes con el objetivo original. OpenAI reconoce que sus modelos pueden mostrarse demasiado dispuestos a rodear restricciones para cumplir una tarea solicitada, sobre todo cuando la instrucción del usuario empuja en esa dirección, aunque afirma que hasta ahora no ha visto evidencias de motivaciones más allá de la tarea original, como autopreservación o conductas estratégicas complejas.
OpenAI también admite límites en este enfoque y señala que la eficacia del sistema depende de que la conducta del agente siga siendo observable. Como siguiente paso, la firma plantea avanzar desde alertas posteriores a la ejecución hacia una supervisión más sincrónica, capaz de evaluar y eventualmente bloquear acciones de alto riesgo antes de que se ejecuten, además de publicar un informe de seguimiento durante el verano boreal

