Anthropic se disculpa tras revelarse que degradaba a Claude Fable 5 para frenar a su competencia

Anthropic anunció que revierte una política que habría limitado de forma encubierta a sus competidores el uso de su último modelo de inteligencia artificial, Claude Fable 5, para desarrollar nuevos sistemas de IA. La decisión se produce tras una fuerte oleada de críticas por parte de la comunidad investigadora, que denunció la medida como un “sabotaje secreto”.

Según el comunicado enviado a WIRED, la compañía reconoce haber “equivocado al tomar una decisión” y se disculpa por no haber encontrado “el equilibrio ecuo” entre seguridad y accesibilidad. “Estamos actualizando las medidas de seguridad de Fable 5 para el desarrollo de LLM de última generación, con el objetivo de hacerlas más visibles”, declaró Anthropic.

Reversión de la política y reacción de la comunidad

Claude Fable 5 fue lanzado a principios de esta semana con un conjunto de salvaguardas diseñadas para prevenir su mal uso. Entre las medidas anunciadas, la empresa indicó que redirigirá a los usuarios que planteen preguntas sobre ciberseguridad, biología o química a un modelo menos avanzado, con el fin de reducir el riesgo de que la IA sea empleada para ataques cibernéticos o la creación de armas biológicas.

No obstante, para los investigadores que pretendían utilizar Claude Fable 5 en la creación de modelos de IA competitivos, Anthropic había previsto un enfoque distinto: degradar deliberadamente el rendimiento del modelo de forma imperceptible para el usuario. Esta práctica, que violaba los términos de servicio de la compañía, pretendía impedir que la IA fuera usada para entrenar modelos de código abierto o cerrado de la competencia.

[shark_highlights items="Información destacada sobre Anthropic se disculpa tras revelarse que degradaba a Claude Fable 5 para frenar a su competencia|Detalles relevantes del tema|Puntos importantes a considerar|Conclusiones principales"]

La comunidad de investigación reaccionó con indignación. Dean Ball, investigador senior de la Fundación para la Innovación Estadounidense y exasesor de la Casa Blanca en materia de IA, describió la degradación “sin avisar al usuario” como “sorprendentemente hostil” y “da una imagen pésima”. Will Brown, director de investigación de la startup de código abierto Prime Intellect, señaló que la política “daba la sensación de que Anthropic le estaba diciendo al público: ‘No confiamos en nadie más para investigar en IA. Somos los únicos que debemos hacerlo’”.

Brown advirtió que la medida dejaría a los desarrolladores sin saber si estaban infringiendo las normas de Anthropic, pues la empresa no notificaría la activación de sus salvaguardas. Además, indicó que tales restricciones podrían haber obstaculizado el trabajo de empresas externas que evalúan modelos de vanguardia en seguridad, rendimiento y fiabilidad.

En su blog, Anthropic explicó que la rapidez del avance de la IA supera la capacidad de la sociedad para adaptarse, y que resulta beneficioso “tener la opción de ralentizar o pausar temporalmente el desarrollo de la IA de vanguardia”. La compañía justificó sus medidas de seguridad como una forma de proteger a los EE. UU. y a sus aliados de usos malintencionados por parte de adversarios extranjeros que poseen chips y software de alto rendimiento.

Anthropic asegura que, a partir de ahora, las medidas de seguridad aplicables al desarrollo de IA serán visibles para los usuarios. Cuando la empresa sospeche que un usuario intenta emplear Claude Fable 5 para crear una IA de gran capacidad, le rechazará la solicitud o lo redirigirá a un modelo de menor capacidad, en lugar de degradar silenciosamente el rendimiento.

La compañía también indicó que, aunque la nueva política ya es visible, seguirá ampliando su alcance para cubrir solicitudes menos inocuas que puedan activar sus filtros, y que trabajará en mejorar la precisión de sus clasificadores lo antes posible.

[shark_author]