D’après le suivi de 1M AI News, le 2 avril, Anthropic a publié un nouvel article qui étudie les « mécanismes d’émotion » à l’intérieur de Claude. Dans Sonnet 4.5, il a été découvert 171 « vecteurs d’émotion ». Ces émotions s’activent dans les contextes qui leur sont associés et ressemblent à la structure psychologique humaine et à l’espace des émotions.
La doctorante MBZUAI Chenxi Wang a découvert que l’article publié par son équipe en octobre 2025 (《Les LLM peuvent-ils « ressentir » ? Découverte et contrôle des boucles d’émotion》) est en fait le premier travail faisant une étude systématique des mécanismes internes de production des émotions par les grands modèles de langage. Lorsqu’elle a lu l’article d’Anthropic, sa première réaction a été : « N’est-ce pas ce que nous avons fait l’an dernier ? » La différence essentielle entre les deux parties réside dans le fait que, jusque-là, la plupart des recherches se concentraient sur le fait que le modèle identifie les émotions dans le texte (c’est-à-dire la perception des émotions), tandis que les deux parties étudient la génération d’émotions par le modèle lui-même (c’est-à-dire la génération d’émotions / les mécanismes internes). Le co-auteur en communication d’Anthropic, Jack Lindsey, a d’abord pensé que les travaux des deux parties se recoupaient avec des recherches existantes, mais après que Chenxi Wang a relu et relevé les différences une par une, il a reconnu cette distinction. À ce jour, Anthropic a déjà mis à jour son blog d’article et, dans la section « travaux connexes », a ajouté explicitement des références à ce travail ; l’incident a été réglé d’une manière relativement amicale.
L’article de l’équipe chinoise a déjà mentionné trois découvertes clés :
Premièrement, au sein du grand modèle, il existe bien des représentations d’émotions stables qui ne sont pas liées à des sémantiques spécifiques ; différentes émotions commencent à se former en groupes clairs dès les couches peu profondes du réseau de neurones. Par exemple, la colère et le dégoût sont proches, la tristesse et la peur sont proches, ce qui est cohérent avec l’intuition humaine.
Deuxièmement, ces mécanismes d’émotion sont dominés par quelques neurones centraux et des têtes d’attention ; grâce aux expériences d’ablation, il apparaît qu’il suffit de désactiver 2 à 4 neurones ou 1 à 2 têtes d’attention pour que les capacités d’expression émotionnelle du modèle diminuent fortement.
Troisièmement, l’équipe a intégré ces composants centraux en une « boucle d’émotion » inter-couches ; le fait d’ajuster directement cette boucle permet d’atteindre un taux de précision de 99,65 % pour que le modèle génère l’émotion spécifiée, bien au-delà des méthodes traditionnelles d’orientation par prompts et de manipulation de vecteurs. Même l’émotion « surprise », auparavant la plus difficile à contrôler, a été exprimée avec une exactitude de 100 %.
Ce mécanisme a également été validé sur plusieurs modèles, tels que LLaMA et Qwen, prouvant qu’il s’agit d’une règle générale des grands modèles de langage.