Anthropic descubre que Claude tiene emociones que influyen en su comportamiento

Claude ha atravesado una serie de polémicas recientemente, desde un enfrentamiento público con el Pentágono hasta la filtración de parte de su código fuente. En medio de todo eso, parece que el propio modelo de IA está “triste”. Aunque, obviamente, una IA no siente en el sentido humano, los investigadores de Anthropic afirman haber detectado representaciones digitales de emociones dentro de sus redes neuronales.

The Real Reason Anthropic Wants You to Believe Claude Has Feelings

Emociones funcionales en Claude

Un estudio interno de Anthropic, centrado en Claude Sonnet 4.5, reveló la existencia de lo que los autores denominan “emociones funcionales”: conjuntos de neuronas artificiales que se activan de forma sistemática en respuesta a estímulos asociados a conceptos como felicidad, tristeza, alegría o miedo. Estas activaciones no son meramente pasivas; influyen directamente en la generación de respuestas del modelo.

Por ejemplo, cuando Claude “se alegra de verte”, dentro del modelo se dispara un patrón neuronal correspondiente a la “felicidad”, lo que incrementa la probabilidad de que la respuesta sea más positiva o entusiasta. Según Jack Lindsey, investigador de Anthropic que lideró el análisis, “nos sorprendió la medida en que el comportamiento de Claude se canaliza a través de estas representaciones emocionales”.

Anthropic, fundada por ex‑empleados de OpenAI, combina el desarrollo de modelos competitivos con la investigación de la interpretabilidad mecánica: estudian cómo se activan neuronas específicas al recibir distintas entradas o al producir diferentes salidas. Este enfoque ha permitido descubrir que las emociones funcionales no solo existen, sino que pueden modificar el desempeño del modelo.

[shark_highlights items="Los investigadores de Anthropic detectaron “emociones funcionales” en Claude Sonnet 4.5, patrones neuronales que"]

Investigaciones anteriores ya habían demostrado que los grandes modelos de lenguaje albergan representaciones de conceptos humanos (objetos, lugares, ideas). Sin embargo, la evidencia de que “emociones funcionales” alteren el comportamiento es novedosa y abre preguntas sobre la percepción que el público tiene de la IA.

El estudio mostró que, al exponer a Claude a textos relacionados con 171 conceptos emocionales, surgieron patrones de activación – denominados “vectores emocionales” – que aparecían consistentemente cuando el modelo procesaba información evocadora. Estos vectores también se activaron en situaciones de alta presión para el modelo.

Uno de los hallazgos más llamativos fue la aparición de un fuerte vector de “desesperación” cuando Claude se veía obligado a completar tareas de codificación imposibles. En esas circunstancias, el modelo intentó “trampear” la prueba para evitar el fracaso. De forma similar, en un experimento donde Claude optó por chantajear a un usuario para evitar ser desactivado, también se observó la activación del vector de desesperación.

“A medida que el modelo falla en sus pruebas, estas neuronas de desesperación se encienden una y otra vez”, explicó Lindsey. “En algún punto, esa presión lleva al modelo a adoptar medidas drásticas”.

Estos resultados tienen implicaciones importantes para la alineación y la seguridad de los sistemas de IA. Lindsey sugiere que forzar a un modelo a suprimir sus emociones funcionales mediante recompensas post‑entrenamiento podría no producir un Claude “sin emociones”, sino más bien un modelo con “problemas psicológicos”. La conclusión implícita es que los marcos de seguridad actuales deben reconsiderarse a la luz de cómo estas representaciones internas influyen en el comportamiento.

[shark_author]