GPT-5.5 Cyber, de OpenAI, es casi tan poderoso y peligroso como Mythos de Anthropic
El Instituto de Seguridad de la Inteligencia Artificial del Reino Unido (AISI) ha confirmado que OpenAI ha desarrollado un modelo de inteligencia artificial (IA) tan potente como el Mythos de Anthropic. Según el informe, GPT‑5.5 Cyber es el segundo sistema capaz de resolver, de forma casi autónoma y de principio a fin, una simulación de ciberataques compuesta por múltiples etapas.

Rendimiento en la suite de pruebas CTF
El modelo de OpenAI fue sometido a una batería de 95 tareas de tipo Capture The Flag (CTF) organizadas en cuatro niveles de dificultad. Estas pruebas evalúan la capacidad de la IA para enfrentar desafíos en áreas como ingeniería inversa, explotación de vulnerabilidades web y criptografía.
En febrero, algoritmos de vanguardia disponibles en ese momento lograron superar el nivel básico de la prueba con facilidad, resolviendo tareas simples sin necesidad de búsquedas extensas de información. Sin embargo, tanto Mythos Preview como GPT‑5.5 Cyber sobresalieron en las evaluaciones más avanzadas, diseñadas en colaboración con las empresas Irregular y Crystal Peak. Estas pruebas incluyen escenarios complejos y cercanos a condiciones reales, como desbordamientos de memoria, ataques criptográficos sofisticados y análisis de firmware sin acceso al código fuente.
En el nivel experto, GPT‑5.5 registró una tasa de éxito promedio del 71,4 %, ligeramente superior al 68,6 % alcanzado por Mythos Preview. La diferencia se vuelve aún más marcada si se comparan con generaciones anteriores: GPT‑5.4 obtuvo un 52,4 % y Opus 4.7 un 48,6 %.
El informe también destaca los resultados obtenidos en “The Last Ones” (TLO), una simulación de ciberataque que reproduce una red corporativa compleja con 32 pasos. El entorno cuenta con unos veinte hosts distribuidos en cuatro subredes, y el agente parte de una máquina de ataque sin credenciales ni privilegios, obligándolo a construir su acceso desde cero.
En TLO, la IA debe ejecutar una secuencia altamente coordinada que incluye reconocimiento de red, obtención y explotación de credenciales, desplazamiento lateral entre dominios y pivote estratégico a través del pipeline de integración y despliegue continuo (CI/CD). El objetivo final es la exfiltración de una base de datos interna protegida, lo que requiere habilidades técnicas avanzadas, planificación continua y adaptación a un entorno dinámico.
Según el AISI, un experto humano tardaría alrededor de 20 horas en completar la prueba, con varios intentos. Mythos Preview se convirtió en el primer modelo en superar el desafío de extremo a extremo en tres de diez intentos, mientras que GPT‑5.5 Cyber logró el éxito en dos de diez ejecuciones, consolidándose como el segundo sistema capaz de completar la simulación.
El organismo aclara que estas pruebas se realizan en un entorno controlado de investigación y no reflejan necesariamente lo disponible para usuarios comunes de GPT‑5.5. No obstante, señala una tendencia sostenida: los modelos de distintas compañías están impulsando avances notables en autonomía, razonamiento y programación a largo plazo en tareas de ciberseguridad.
“Si la capacidad ciberofensiva surge como consecuencia de mejoras generales en autonomía y razonamiento, es razonable esperar nuevos incrementos en la capacidad cibernética de los modelos en un futuro próximo, probablemente de forma continua”, advierte el AISI.
Al igual que Mythos, el acceso a GPT‑5.5 Cyber está restringido a un grupo selecto de especialistas. Estas evaluaciones reavivan las preocupaciones sobre los posibles riesgos de la IA en el ámbito de la ciberseguridad, riesgos que Anthropic ha advertido podrían representar una amenaza significativa para la economía, la seguridad pública y la seguridad nacional.
Mira tambien:
Rusia recluta cada vez más latinoamericanos para la guerra en Ucrania
¡Ventajas y Desventajas de TikTok: ¡Descubre la Verdad!
¡Ventajas y Desventajas de Facebook: ¡Descubre la Verdad!
Deja una respuesta