OpenAI presentó LifeSciBench, un benchmark diseñado para medir si los sistemas de IA pueden apoyar tareas realistas de investigación en ciencias de la vida. La evaluación no se limita a preguntas aisladas de biología, sino que aborda flujos donde los científicos deben interpretar evidencia incompleta, revisar resultados contradictorios, diseñar experimentos y tomar decisiones bajo incertidumbre.

Tareas científicas con revisión experta
LifeSciBench incluye 750 tareas escritas por expertos, distribuidas en siete flujos de trabajo y siete dominios biológicos. La taxonomía cubre manejo de evidencia, análisis, diseño y optimización, razonamiento científico, validación y operaciones, traducción y comunicación científica.
Cada tarea se estructura como una solicitud que un investigador podría entregar a un colaborador especializado. Puede incluir contexto, figuras, documentos, tablas, archivos de secuencia, estructuras químicas o referencias web, además de una respuesta abierta evaluada con una rúbrica específica.

OpenAI informó que 79% de las tareas requieren múltiples pasos de razonamiento o decisión, con un promedio de cuatro pasos por tarea. Además, 53% exige interpretar o sintetizar al menos un artefacto, lo que busca acercar la prueba a problemas científicos más cercanos al trabajo aplicado.
El conjunto fue construido por 173 científicos con formación doctoral y experiencia en biotecnología o farmacéutica. Luego fue validado por 453 revisores independientes, mientras que las rúbricas reúnen 19.020 criterios para evaluar precisión, justificación, límites, formato y utilidad de cada respuesta.

En resultados, OpenAI indicó que GPT-Rosalind mejora la tasa de aprobación exacta frente a GPT-5.5, desde 25,7% a 36,1%. Sin embargo, la compañía también reconoce brechas en tareas con muchos artefactos, diseño experimental y salidas exactas, por lo que LifeSciBench funciona como medición de capacidad práctica, no como sustituto de estudios en investigación real.


