OpenAI presenta LifeSciBench para evaluar IA en ciencias de la vida
LifeSciBench mide razonamiento científico con artefactos y revisión experta independiente. | Creda con IA.

OpenAI presenta LifeSciBench para evaluar IA en ciencias de la vida

OpenAI presentó LifeSciBench, un benchmark diseñado para medir si los sistemas de IA pueden apoyar tareas realistas de investigación en ciencias de la vida. La evaluación no se limita a preguntas aisladas de biología, sino que aborda flujos donde los científicos deben interpretar evidencia incompleta, revisar resultados contradictorios, diseñar experimentos y tomar decisiones bajo incertidumbre.

OpenAI comprará Ona para llevar ejecución cloud segura a Codex
La operación incorpora entornos cloud persistentes para agentes, con control del cliente sobre infraestructura, datos y seguridad

Tareas científicas con revisión experta

LifeSciBench incluye 750 tareas escritas por expertos, distribuidas en siete flujos de trabajo y siete dominios biológicos. La taxonomía cubre manejo de evidencia, análisis, diseño y optimización, razonamiento científico, validación y operaciones, traducción y comunicación científica.

Cada tarea se estructura como una solicitud que un investigador podría entregar a un colaborador especializado. Puede incluir contexto, figuras, documentos, tablas, archivos de secuencia, estructuras químicas o referencias web, además de una respuesta abierta evaluada con una rúbrica específica.

OpenAI y Oracle habilitarán acceso a modelos y Codex mediante créditos OCI
Clientes de OCI podrán usar créditos cloud para acceder a modelos OpenAI y Codex sin abrir una ruta de compra separada en sus procesos internos.

OpenAI informó que 79% de las tareas requieren múltiples pasos de razonamiento o decisión, con un promedio de cuatro pasos por tarea. Además, 53% exige interpretar o sintetizar al menos un artefacto, lo que busca acercar la prueba a problemas científicos más cercanos al trabajo aplicado.

El conjunto fue construido por 173 científicos con formación doctoral y experiencia en biotecnología o farmacéutica. Luego fue validado por 453 revisores independientes, mientras que las rúbricas reúnen 19.020 criterios para evaluar precisión, justificación, límites, formato y utilidad de cada respuesta.

OpenAI actualiza la memoria de ChatGPT con un sistema más escalable
La nueva memoria busca conservar contexto, respetar preferencias y evitar recuerdos obsoletos para dar más continuidad entre conversaciones.

En resultados, OpenAI indicó que GPT-Rosalind mejora la tasa de aprobación exacta frente a GPT-5.5, desde 25,7% a 36,1%. Sin embargo, la compañía también reconoce brechas en tareas con muchos artefactos, diseño experimental y salidas exactas, por lo que LifeSciBench funciona como medición de capacidad práctica, no como sustituto de estudios en investigación real.