Ya puedes usar Mythos de Anthropic, o al menos su versión para mortales, Fable 5

Anthropic ha anunciado el lanzamiento de dos nuevos modelos de inteligencia artificial: Claude Fable 5 y Claude Mythos 5. Según la compañía, ambos superan en capacidad al modelo Mythos Preview, que se presentó en abril de forma limitada a un grupo reducido de socios del sector tecnológico.

El despliegue inicial y restringido de Mythos Preview se debió a la preocupación de que sus potentes habilidades pudieran ser explotadas por actores malintencionados para crear herramientas de hacking capaces de sorprender a los defensores de ciberseguridad. Por esta razón, Anthropic decidió limitar el acceso y trabajar de la mano con el gobierno de EE. UU. en la fase de implementación.

Claude Fable 5: modelo abierto con restricciones de seguridad

Claude Fable 5, que ya está disponible para el público, comparte el mismo motor subyacente que Claude Mythos 5, pero incorpora “medidas de seguridad” que bloquean respuestas a preguntas relacionadas con ciberseguridad, biología y química. Cuando se detecta una solicitud en esas áreas, el sistema la redirige al modelo anterior Claude Opus 4.8. Lo mismo ocurre si Anthropic sospecha que un usuario intenta llevar a cabo una destilación —el proceso de entrenar un modelo más pequeño a partir de las respuestas de uno mayor—.

En una entrevista con WIRED, Diane Penn, directora de gestión de productos de Anthropic, explicó que la empresa había estado trabajando en la gestión de las capacidades de detección de vulnerabilidades de Mythos y otras funciones avanzadas desde antes del lanzamiento de abril. Las pruebas y el feedback de los usuarios han permitido afinar la estrategia de protección.

“Buscamos mejoras beneficiosas, aunque al principio no contábamos con la solución perfecta para cada caso de uso. De entre todos los enfoques posibles, este resultó ser el más viable y el mejor. Llegamos a la conclusión de que era la mejor opción para que los usuarios sacaran el máximo provecho de Fable 5”, afirmó Penn.

Según la propia compañía, el mecanismo de protección está diseñado para ser conservador, lo que implica que algunas consultas inofensivas pueden ser desviadas al modelo menos avanzado. Anthropic espera, con el tiempo, mejorar la precisión de sus clasificadores, pero por ahora considera que esta medida es la única forma segura de lanzar el modelo a gran escala.

Anthropic también ha anunciado que, además de ofrecer Claude Mythos 5 a los socios del proyecto Glasswing, brindará acceso a “investigadores selectos en biología”. La empresa señaló en su blog que proporcionará versiones sin restricciones a estos grupos reducidos “hasta que nuestro programa de acceso seguro esté disponible”, indicando la intención de ampliar el acceso en el futuro.

[shark_highlights items="Anthropic lanzó dos nuevos modelos de IA: Claude Fable 5 y Claude Mythos 5, con Fable 5 disponible para el público|El modelo Mythos Preview se desplegó inicialmente de forma limitada por el riesgo"]

Desde el lanzamiento de Mythos en abril, Anthropic ha subrayado que sus competidores, tanto en el sector privado como en el público, acabarán ofreciendo modelos con capacidades similares.

Los riesgos asociados a los modelos de nivel Mythos han obligado a empresas tecnológicas y gobiernos a reforzar sus defensas antes de que tales herramientas estén ampliamente disponibles para potenciales atacantes. Anthropic presentó Mythos a sus socios industriales dentro del consorcio llamado Proyecto Glasswing, con la idea de que sus miembros pudieran anticipar y mitigar amenazas antes de un despliegue más amplio.

En una actualización sobre Glasswing publicada la semana pasada, Anthropic declaró: “Estamos trabajando lo más rápido posible para lanzar de forma segura capacidades de nivel Mythos al público general. Para ello, necesitaremos medidas de seguridad muy sólidas que impidan el mal uso de las capacidades cibernéticas del modelo; medidas que aún no hemos desarrollado”.

Claude Fable 5, cuyo nombre sigue la tradición literaria de la compañía (al igual que los modelos Haiku, Sonnet y Opus), ofrece un rendimiento superior en ingeniería de software y tareas que requieren comprensión visual. Sin embargo, ese desempeño tiene un costo: los desarrolladores pagarán 10 USD por millón de tokens de entrada y 50 USD por millón de tokens de salida, el doble de lo que cuestan los modelos públicos de Anthropic, aunque sigue siendo menos que el precio de Mythos Preview.

El lanzamiento limitado de Claude Fable 5 refleja la tensión que enfrenta Anthropic: quiere poner a disposición del mercado un modelo de clase Mythos antes de que la industria haya resuelto los problemas de ciberseguridad vinculados a estos sistemas. En abril, OpenAI también lanzó de forma privada un modelo con supuestas capacidades avanzadas de ciberseguridad y creó un grupo de trabajo similar al Proyecto Glasswing. Tanto OpenAI como Anthropic han presentado solicitudes confidenciales para salir a bolsa y compiten por atraer a inversores antes de cotizar este año.

Como medida provisional, queda por ver cuán efectivas son en la práctica las salvaguardas de Claude Fable 5. Anthropic asegura que, después de más de 1 000 horas de pruebas de penetración, sus evaluadores no encontraron vulnerabilidades universales en el modelo. No obstante, los temores sobre la posibilidad de desarrollar protecciones equivalentes fueron la razón principal por la que la empresa decidió no lanzar los modelos de clase Mythos al público en abril, y esas preocupaciones continúan vigentes.

[shark_author]