En una colaboración sin precedentes, los laboratorios de inteligencia artificial rivales OpenAI y Anthropic sometieron sus modelos de lenguaje a una evaluación cruzada para medir su seguridad y alineación. Este ejercicio de transparencia busca identificar vulnerabilidades y establecer nuevos estándares de confianza en un momento en que la IA tiene un impacto creciente en la sociedad. La evaluación se centró en cuatro áreas clave: la capacidad de los modelos para seguir instrucciones de seguridad, su resistencia a intentos de manipulación (“jailbreaks”), la tendencia a generar información falsa (“alucinaciones”) y la propensión a comportamientos engañosos (“scheming”). Los modelos evaluados incluyeron las series GPT-4 de OpenAI y Claude 4 de Anthropic.
Los resultados revelaron diferentes fortalezas y debilidades.
Los modelos de Anthropic, Claude Opus 4 y Sonnet 4, destacaron por su estricto cumplimiento de las reglas de seguridad, prefiriendo no responder antes que entregar información incorrecta o riesgosa. Por su parte, los modelos de OpenAI, o3 y o4-mini, mostraron mayor resistencia a los “jailbreaks” simples y ofrecieron más respuestas útiles, aunque con un mayor número de errores.
Esta colaboración es una señal de responsabilidad compartida en la industria, reconociendo que la seguridad es un desafío común. Coincide con anuncios de OpenAI sobre la incorporación de nuevas medidas de protección en sus futuros modelos, como GPT-5, que incluirá funciones de supervisión parental y respuestas seguras para evitar contenido dañino, especialmente tras casos de interacciones de riesgo con adolescentes.
En resumenOpenAI y Anthropic realizaron una evaluación de seguridad mutua de sus modelos de IA, un hito de colaboración que reveló fortalezas y debilidades en áreas como la resistencia a la manipulación y la precisión de la información. El ejercicio subraya el compromiso de la industria con la seguridad y la ética, un desafío continuo a medida que la tecnología se integra más en la vida diaria.