Los resultados revelaron diferentes fortalezas y debilidades.

Los modelos de Anthropic, Claude Opus 4 y Sonnet 4, destacaron por su estricto cumplimiento de las reglas de seguridad, prefiriendo no responder antes que entregar información incorrecta o riesgosa. Por su parte, los modelos de OpenAI, o3 y o4-mini, mostraron mayor resistencia a los “jailbreaks” simples y ofrecieron más respuestas útiles, aunque con un mayor número de errores.

Esta colaboración es una señal de responsabilidad compartida en la industria, reconociendo que la seguridad es un desafío común. Coincide con anuncios de OpenAI sobre la incorporación de nuevas medidas de protección en sus futuros modelos, como GPT-5, que incluirá funciones de supervisión parental y respuestas seguras para evitar contenido dañino, especialmente tras casos de interacciones de riesgo con adolescentes.