OpenAI presentó GPT-Realtime-2, GPT-Realtime-Translate y GPT-Realtime-Whisper, tres modelos de audio para construir aplicaciones de voz en tiempo real desde la API. La actualización apunta a asistentes que conversan, traducen, transcriben y ejecutan acciones mientras la interacción sigue en curso.
La propuesta tiene foco directo en soporte, viajes, educación, eventos, salud, ventas y atención al cliente. En esos casos, la voz deja de operar solo como entrada o salida de audio, porque también puede activar herramientas, sostener contexto y responder a cambios durante una conversación.

GPT-Realtime-2 mejora agentes de voz con contexto y herramientas
GPT-Realtime-2 está diseñado para interacciones en vivo donde el modelo razona, mantiene la conversación, acepta correcciones, maneja interrupciones y puede llamar herramientas durante la sesión. OpenAI también aumentó la ventana de contexto de 32K a 128K e incorporó niveles ajustables de razonamiento, desde minimal hasta xhigh.
En pruebas de audio, OpenAI informa mejoras frente a GPT-Realtime-1.5. GPT-Realtime-2 con razonamiento high obtiene 15,2% más en Big Bench Audio, mientras la variante xhigh logra 13,8% más en Audio MultiChallenge.
Josh Weisberg, SVP and Head of AI at Zillow, vinculó el avance con asistentes de voz capaces de tomar acciones en escenarios regulados. Su evaluación combina confiabilidad en llamadas a herramientas, cumplimiento y viabilidad para uso productivo.
"Lo que destacó de GPT-Realtime-2 fue la inteligencia y la confiabilidad en llamadas a herramientas que aporta a interacciones de voz complejas. En nuestro benchmark adversarial más difícil, esto se traduce en una mejora de 26 puntos en la tasa de éxito de llamadas [...]".

Traducción en vivo y transcripción de baja latencia
GPT-Realtime-Translate traduce voz desde más de 70 idiomas de entrada hacia 13 idiomas de salida. OpenAI lo orienta a experiencias multilingües donde las personas hablan en su idioma preferido y reciben traducción en tiempo real, con transcripción durante la conversación.
Prateek Sachan, cofundador y CTO de BolnaAI, situó la mejora en un entorno exigente por diversidad fonética regional. Su caso se concentra en hindi, tamil y telugu, donde la continuidad conversacional depende de precisión, latencia y menor tasa de fallback.
"En nuestras evaluaciones en hindi, tamil y telugu, GPT-Realtime-Translate entregó tasas de error de palabra 12,5% menores que cualquier otro modelo que probamos, junto con menores tasas de fallback, mayor finalización de tareas y latencia capaz de sostener una conversación natural".
GPT-Realtime-Whisper completa el paquete con transcripción en streaming mientras la persona habla. El modelo apunta a subtítulos en vivo, reuniones, clases, eventos, atención al cliente, salud, ventas y otros flujos donde el texto debe generarse sin esperar el cierre de la conversación.
La Realtime API incorpora clasificadores activos, políticas contra usos dañinos y soporte para controles adicionales mediante Agents SDK. Los tres modelos ya están disponibles en la API, con precios definidos por tokens de audio o por minuto, según el servicio.


