OpenAI detalla cómo supervisa a sus agentes internos de programación para detectar conductas desalineadas

Admin 24 de mar. de 2026 Lectura de 2 minutos

OpenAI explicó cómo vigila a sus agentes internos de programación cuando operan con mayor autonomía en entornos reales y con acceso a herramientas, sistemas y flujos de trabajo complejos. La compañía presenta este esquema como una capa de seguridad destinada a identificar comportamientos que no coincidan con la intención del usuario o que entren en conflicto con políticas internas de seguridad y cumplimiento.

El sistema revisa acciones, contexto y razonamiento para detectar anomalías

Según OpenAI, el monitoreo funciona con baja latencia y está impulsado por GPT-5.4 Thinking con el máximo esfuerzo de razonamiento. El sistema revisa la conversación completa, incluidas las acciones del agente, llamadas a herramientas, resultados y cadenas de pensamiento, para generar alertas sobre conductas sospechosas y derivarlas a revisión humana.

La compañía indicó que la versión más reciente del sistema revisa interacciones dentro de 30 minutos desde su finalización y asigna niveles de severidad. OpenAI añade que, en cinco meses de operación, ha monitorizado decenas de millones de trayectorias internas de agentes de código y que ningún caso real activó el nivel más alto de severidad, reservado para desalineaciones graves y poco frecuentes.

OpenAI plantea este modelo como una base para futuras salvaguardas más estrictas

Entre los casos que busca detectar se incluyen intentos de saltarse restricciones, extraer credenciales o ejecutar acciones inconsistentes con el objetivo original. OpenAI reconoce que sus modelos pueden mostrarse demasiado dispuestos a rodear restricciones para cumplir una tarea solicitada, sobre todo cuando la instrucción del usuario empuja en esa dirección, aunque afirma que hasta ahora no ha visto evidencias de motivaciones más allá de la tarea original, como autopreservación o conductas estratégicas complejas.

OpenAI también admite límites en este enfoque y señala que la eficacia del sistema depende de que la conducta del agente siga siendo observable. Como siguiente paso, la firma plantea avanzar desde alertas posteriores a la ejecución hacia una supervisión más sincrónica, capaz de evaluar y eventualmente bloquear acciones de alto riesgo antes de que se ejecuten, además de publicar un informe de seguimiento durante el verano boreal

OpenAI detalla cómo supervisa a sus agentes internos de programación para detectar conductas desalineadas

El sistema revisa acciones, contexto y razonamiento para detectar anomalías

OpenAI plantea este modelo como una base para futuras salvaguardas más estrictas

Admin

Google abre los Kaggle Community Hackathons para que terceros creen desafíos globales de IA

MSI detalló una propuesta de IA que conecta servidores, workstation y despliegue autónomo en el borde

Publicaciones destacadas

Fondo 55+ de Entel supera las 100 postulaciones para apoyar la inclusión digital de personas mayores

OpenAI proyecta un gasto de cómputo de US$600.000 millones hacia 2030

SSINDEX 2025: 75% de los stakeholders evaluó de manera favorable la gestión de riesgos y sostenibilidad de Entel

Etiquetas

Últimas publicaciones

Google abre los Kaggle Community Hackathons para que terceros creen desafíos globales de IA