Anthropic lanza Claude Opus 4.8, su modelo de IA más honesto hasta ahora

Anthropic ha anunciado el lanzamiento de Claude Opus 4.8, la última versión de su modelo insignia de inteligencia artificial. La actualización promete mejoras notables en rendimiento, razonamiento y capacidad de colaboración en tareas complejas como programación, trabajo de conocimiento y ejecución de procesos mediante agentes autónomos, manteniendo el mismo precio y consumo de tokens que su predecesor.

Claude Opus 4.8 YA ESTÁ AQUÍ: más inteligente, más honesto y con Dynamic Workflows

Según la compañía, “Opus 4.8 se basa en Opus 4.7, ofreciendo un juicio más agudo, mayor honestidad sobre su propio progreso y la capacidad de trabajar de forma independiente durante períodos más largos”.

Índice

Rendimiento y comparativas

Rendimiento y comparativas

Las pruebas internas realizadas por Anthropic indican que Claude Opus 4.8 supera a los modelos anteriores de la empresa y a los sistemas de la competencia en varios indicadores de desempeño.

Resultados en pruebas de codificación

Anthropic lanza Claude Opus 4.8, su modelo de IA más honesto hasta ahora

Claude Opus 4.8: 69.2 %
Claude Opus 4.7: 64.3 %
GPT‑5.5: 58.6 %
Gemini 3.1 Pro: 54.2 %

En evaluaciones de razonamiento multidisciplinario sin apoyo de herramientas externas, Opus 4.8 obtuvo un puntaje de 49.8 %, superando en más de cinco puntos porcentuales a los modelos más avanzados de OpenAI y Google disponibles hasta la fecha.

Mejoras en honestidad y detección de errores

Anthropic destaca que la nueva versión es “aproximadamente cuatro veces menos propensa a dejar pasar fallos en el código que genera”, gracias a un entrenamiento enfocado en reconocer anomalías y evitar afirmaciones sin evidencia suficiente.

[shark_highlights items="Claude Opus 4.8 se lanza como el modelo más honesto de Anthropic, con juicio más agudo y mayor capacidad de trabajar de forma independiente durante períodos prolongados|Supera a sus predecesores y a la competencia: 69,2 % en pruebas de codificación y 49,8 % en razonamiento multidisciplinario, superando a GPT‑5.5 y Gemini 3.1 Pro|Reduce aproximadamente cuatro veces la probabilidad de pasar por alto fallos en el código gracias a un entrenamiento enfocado en detección de anomalías|Introduce “flujos de trabajo dinámicos” con cientos de subagentes paralelos y un “modo rápido” 2,5 veces más veloz, manteniendo el mismo precio y consumo de tokens."]

Nuevas funcionalidades

Entre las novedades, la función “flujos de trabajo dinámicos” permite a Claude Code planificar tareas y ejecutar cientos de subagentes en paralelo dentro de una única sesión prolongada. Además, el “modo rápido de Opus 4.8” está diseñado para operar hasta 2.5 veces más rápido que versiones anteriores.

El modelo también ofrece mayor control sobre el gasto computacional. Por defecto, Opus 4.8 se configura con un nivel elevado de esfuerzo computacional que equilibra la calidad de las respuestas con una experiencia de usuario satisfactoria. En tareas de programación, el consumo de tokens es similar al de Opus 4.7, aunque con rendimiento superior. Los usuarios pueden seleccionar modos de esfuerzo “extra” o “máximo”, que incrementan el consumo de tokens para obtener resultados más avanzados.

Seguridad y alineación

En materia de seguridad, Anthropic asegura que Opus 4.8 muestra tasas significativamente menores de comportamientos desalineados, como engaños o cooperación con usos indebidos, en comparación con su predecesor, alcanzando resultados similares a los del modelo Mythos Preview.

Claude Opus 4.8 ya está disponible en todas las plataformas y planes de suscripción de Anthropic, con un precio de 5 USD por millón de tokens de entrada y 25 USD por millón de tokens de salida, sin cambios respecto a Opus 4.7.

“Los usuarios encontrarán en Opus 4.8 una mejora modesta pero tangible con respecto a su predecesor. Aún queda trabajo por hacer: estamos desarrollando y lanzando modelos que ofrezcan muchas de las mismas funcionalidades a un menor costo”, concluyó la compañía.

[shark_author]