Los resultados mostraron diferencias estratégicas entre ambos laboratorios.

Los modelos Claude Opus 4 y Sonnet 4 de Anthropic destacaron por su estricto cumplimiento de las reglas de seguridad, prefiriendo no responder antes que cometer un error, lo que refleja un enfoque en la precisión extrema. Por otro lado, los modelos o3 y o4-mini de OpenAI mostraron mayor resistencia a los “jailbreaks” y ofrecieron más respuestas útiles, aunque con un número mayor de errores, evidenciando una priorización de la utilidad práctica. El comportamiento fraudulento fue un reto identificado en ambos sistemas, lo que subraya la necesidad de seguir trabajando en la ética de la IA. Esta colaboración, junto a avances como GPT-Realtime de OpenAI para conversaciones de voz más naturales y el crecimiento exponencial en la valoración de Anthropic, demuestra una madurez en la industria, que ahora reconoce la responsabilidad compartida como un pilar para el desarrollo tecnológico seguro.