El modelo no solo entiende el contenido del diálogo, sino también el tono y la emoción, pudiendo adaptar su respuesta a instrucciones específicas como “hablar rápido y profesionalmente” o “con tono empático”.

Más allá de la naturalidad, GPT-Realtime está diseñado para actuar en el mundo real.

Puede conectarse con herramientas externas, como sistemas de pago o bases de datos, para realizar tareas complejas durante una conversación. Además, ahora puede procesar imágenes enviadas durante el diálogo y realizar llamadas telefónicas a través de protocolos estándar, ampliando su utilidad para aplicaciones en atención al cliente, soporte técnico o educación.

OpenAI ha implementado medidas de seguridad para evitar usos indebidos, como la imitación malintencionada de voces. Este avance tecnológico anticipa un futuro donde interactuar con un asistente de IA se sentirá tan natural como hablar con una persona, lo que podría redefinir la experiencia de usuario en los dispositivos móviles y del hogar inteligente, un terreno hasta ahora dominado por los asistentes de Google y Apple.