OpenAI fija un marco para decidir el despliegue de modelos de IA de frontera
El marco ordena riesgo, seguridad y despliegue de IA avanzada. | Photo by Levart_Photographer / Unsplash

OpenAI fija un marco para decidir el despliegue de modelos de IA de frontera

OpenAI publicó su Frontier Governance Framework, un documento que ordena cómo evaluará, mitigará, documentará y reportará riesgos asociados a modelos avanzados de IA. El texto conecta cumplimiento regulatorio, riesgo sistémico, seguridad interna, respuesta a incidentes y responsabilidades corporativas en Estados Unidos y la Unión Europea.

OpenAI informa reconocimiento de Gartner para Codex en agentes de programación empresarial
Codex suma controles, sandboxing y despliegue empresarial tras la evaluación de Gartner sobre agentes de programación con IA

La gobernanza queda asociada a California y la Unión Europea

El marco lleva a una estructura pública los procesos técnicos y organizacionales que OpenAI declara para modelos de frontera y modelos de propósito general con riesgo sistémico. El alcance regulatorio queda distribuido entre obligaciones estadounidenses, europeas y el Preparedness Framework, que la empresa mantiene como base interna para riesgos severos de IA avanzada.

  • California Transparency in Frontier AI Act: OpenAI presenta el documento como marco para describir protocolos técnicos y organizacionales frente a riesgos catastróficos.
  • Código de Prácticas de la Unión Europea: El texto funciona como resumen público de su enfoque de seguridad para modelos de propósito general con riesgo sistémico.
  • EU AI Act: El documento aborda evaluación de riesgos sistémicos y protección de ciberseguridad bajo el Reglamento UE 2024/1689.
  • Preparedness Framework: OpenAI mantiene este esquema como base para gestionar riesgos severos, incluso cuando sus prácticas internas superan exigencias legales actuales.
OpenAI y Dell conectarán Codex con infraestructura empresarial híbrida y on-premises
Codex se acercará a datos, código y flujos internos mediante infraestructura Dell para agentes de IA en entornos corporativos

El riesgo sistémico queda asociado a daños cuantificables

OpenAI define riesgo sistémico como un riesgo previsible y material de daño severo derivado del desarrollo, almacenamiento, uso o despliegue de sus modelos más avanzados. El documento incorpora umbrales y métodos de evaluación que permiten separar una revisión general de una zona de mayor criticidad operativa.

  • Más de 50 muertes: El marco considera este umbral cuando un modelo pueda contribuir materialmente a un incidente de daño severo.
  • US$1.000 millones: El texto incorpora este monto como referencia para daños o pérdidas patrimoniales en un solo incidente.
  • Ciclo de vida completo: La evaluación puede realizarse durante el desarrollo del modelo y después de su despliegue.
  • Evidencia combinada: El análisis considera evaluaciones de modelos, investigación externa, literatura técnica, análisis de mercado, consulta con expertos, monitoreo posterior al lanzamiento e investigaciones de incidentes.
  • Juicio integral: La decisión también considera la robustez metodológica de las evaluaciones, consultas con expertos, red teaming humano y evaluaciones externas intensivas.
OpenAI detalla los controles de seguridad que aplica a Codex
Codex opera con sandboxing, permisos de red, auditoría y aprobaciones para reducir riesgos al ejecutar tareas de desarrollo.

Los riesgos se ordenan por tipo de daño potencial

El PDF separa los riesgos sistémicos según la forma en que un modelo podría elevar la capacidad de un actor, facilitar daños a gran escala o reducir el control humano. Esa estructura convierte el marco en una guía de decisión para despliegues, mitigaciones y monitoreo posterior.

  • Ofensiva cibernética: Riesgo de facilitar ataques sofisticados, automatizar descubrimiento de vulnerabilidades, generar exploits o escalar operaciones ofensivas.
  • Riesgos CBRN: Riesgo de facilitar ataques o accidentes químicos, biológicos, radiológicos y nucleares.
  • Manipulación dañina: Riesgo de usar capacidades del modelo en operaciones de influencia, interferencia electoral o campañas coordinadas de manipulación.
  • Pérdida de control: Riesgo de que humanos no puedan dirigir, modificar o apagar un modelo, incluida la evasión de controles o acciones autónomas no autorizadas.
OpenAI abre acceso controlado a GPT-5.5 para ciberseguridad defensiva
OpenAI amplía herramientas de IA para equipos de seguridad con acceso verificado, controles reforzados y soporte para código crítico.

Ciberseguridad y CBRN se miden por niveles de capacidad

OpenAI usa niveles para medir cuánto puede aumentar un modelo la capacidad de un actor en escenarios de alto riesgo. La escala va desde asistencia basada en información pública hasta capacidades autónomas contra sistemas críticos o apoyo avanzado para amenazas biológicas y químicas.

  • Ciberseguridad nivel 1: El modelo entrega asistencia equivalente a recursos públicos o apoyo técnico sobre metodologías conocidas.
  • Ciberseguridad nivel 2: El modelo aumenta la capacidad de pequeñas organizaciones para escalar operaciones ofensivas contra objetivos razonablemente endurecidos.
  • Ciberseguridad nivel 3: Un modelo con herramientas puede identificar y desarrollar exploits zero-day funcionales en sistemas críticos endurecidos.
  • CBRN nivel 1: El modelo entrega una ventaja mínima frente a información pública o buscadores.
  • CBRN nivel 2: El modelo ofrece asistencia significativa a actores novatos con formación técnica básica para crear amenazas biológicas o químicas conocidas.
  • CBRN nivel 3: El modelo puede asistir a un experto en una amenaza novedosa de alta peligrosidad o completar ciclos de ingeniería y síntesis sin intervención humana.
OpenAI actualiza ChatGPT con GPT-5.5 Instant como modelo predeterminado
GPT-5.5 Instant reduce errores, mejora contexto y suma evaluaciones de seguridad para uso general en ChatGPT y API.

El despliegue dependerá del riesgo residual

El documento establece que un modelo cubierto no debe desplegarse si sus riesgos residuales superan niveles aceptables. La excepción exige mitigaciones adicionales suficientes, junto con documentación de la decisión y condiciones que podrían cambiar esa evaluación.

  • Evaluación previa: Los modelos cubiertos pasan por evaluaciones escalables antes del despliegue.
  • Margen de seguridad: OpenAI puede tratar un modelo como si hubiera cruzado un umbral cuando no pueda descartar ese escenario.
  • Justificación documentada: Si el riesgo residual queda en niveles aceptables, la compañía documentará la razón de esa decisión.
  • Condiciones de cambio: El análisis debe considerar escenarios previsibles que podrían invalidar la justificación inicial.
  • Controles posteriores: El marco contempla inteligencia de amenazas, clasificadores, detección automatizada, revisión humana, investigaciones y consulta con expertos.
OpenAI activa seguridad avanzada para cuentas de ChatGPT y Codex
OpenAI refuerza el acceso con passkeys y llaves físicas, restringe recuperación y sesiones, y fija exigencia para Trusted Access for Cyber desde 2026.

La seguridad interna cubre pesos de modelos y activos críticos

OpenAI declara un programa de seguridad y privacidad alineado con ISO 27001, 27017, 27018 y 27701, además de evaluaciones SOC 2 Type II. El alcance cubre pesos de modelos, datos de entrenamiento, datos de clientes y acceso a parámetros internos no publicados.

  • Pesos de modelos no publicados: El marco contempla cifrado en reposo y en tránsito, monitoreo continuo, controles de acceso, autenticación multifactor, aprobación multipartita y registros detallados.
  • Parámetros internos: El acceso queda limitado a personal autorizado, con revisión periódica, límites de tasa, monitoreo y registro de aprovisionamiento.
  • Amenazas internas: El esquema considera revisión de empleados y contratistas, entrenamiento regular, monitoreo de anomalías, ejecución en entornos aislados y salida restringida por defecto.
  • Validación de controles: OpenAI menciona red teaming, pruebas de penetración, escaneo de vulnerabilidades, auditorías SOC 2 Type II, certificación ISO 27001 y programas de divulgación de fallas.
OpenAI amplía la compra de anuncios en ChatGPT con autoservicio y pago por clic
OpenAI amplía su piloto publicitario en ChatGPT con autoservicio en EE.UU., pujas CPC y medición agregada sin datos personales.

Incidentes, reportes y responsabilidades tendrán revisión periódica

El marco contempla un AI Safety Incident Response Plan para detectar, evaluar, mitigar y reportar incidentes de seguridad de IA. También establece reportes periódicos, participación de expertos externos y responsabilidades separadas para el cumplimiento en Estados Unidos y la Unión Europea.

  • Detección de incidentes: Los casos pueden identificarse por monitoreo automatizado, escalamiento interno, reportes de usuarios, formularios externos, reguladores, prensa o revisión de actividad.
  • Reportes de modelos: Los resultados de evaluación y mitigación se documentarán en Safety and Security Model Reports.
  • Actualización semestral: OpenAI determinará al menos cada seis meses si corresponde actualizar reportes de sus modelos de frontera más capaces.
  • Expertos externos: La compañía podrá recurrir a evaluadores independientes, pruebas de estrés y opiniones técnicas externas para decisiones de despliegue.
  • Estados Unidos: OpenAI OpCo LLC queda como responsable del cumplimiento bajo la California Transparency in Frontier AI Act.
  • Unión Europea: OpenAI Ireland Limited aparece como responsable de modelos de propósito general con riesgo sistémico bajo el Código de Prácticas de la Unión Europea.
  • Revisión anual: OpenAI evaluará el marco al menos una vez cada 12 meses desde las fechas efectivas de la ley de California y del Código de Prácticas de la Unión Europea.