Claude devient viral après avoir révélé que la recherche avait été menée par une équipe chinoise, s'est fait frapper, s'est levé et a présenté ses excuses.

BlockBeatNews

2026-04-07 07:50:55

D’après le suivi de 1M AI News, le 2 avril, Anthropic a publié un nouvel article qui étudie les « mécanismes d’émotion » à l’intérieur de Claude. Dans Sonnet 4.5, il a été découvert 171 « vecteurs d’émotion ». Ces émotions s’activent dans les contextes qui leur sont associés et ressemblent à la structure psychologique humaine et à l’espace des émotions.

La doctorante MBZUAI Chenxi Wang a découvert que l’article publié par son équipe en octobre 2025 (《Les LLM peuvent-ils « ressentir » ? Découverte et contrôle des boucles d’émotion》) est en fait le premier travail faisant une étude systématique des mécanismes internes de production des émotions par les grands modèles de langage. Lorsqu’elle a lu l’article d’Anthropic, sa première réaction a été : « N’est-ce pas ce que nous avons fait l’an dernier ? » La différence essentielle entre les deux parties réside dans le fait que, jusque-là, la plupart des recherches se concentraient sur le fait que le modèle identifie les émotions dans le texte (c’est-à-dire la perception des émotions), tandis que les deux parties étudient la génération d’émotions par le modèle lui-même (c’est-à-dire la génération d’émotions / les mécanismes internes). Le co-auteur en communication d’Anthropic, Jack Lindsey, a d’abord pensé que les travaux des deux parties se recoupaient avec des recherches existantes, mais après que Chenxi Wang a relu et relevé les différences une par une, il a reconnu cette distinction. À ce jour, Anthropic a déjà mis à jour son blog d’article et, dans la section « travaux connexes », a ajouté explicitement des références à ce travail ; l’incident a été réglé d’une manière relativement amicale.

L’article de l’équipe chinoise a déjà mentionné trois découvertes clés :

Premièrement, au sein du grand modèle, il existe bien des représentations d’émotions stables qui ne sont pas liées à des sémantiques spécifiques ; différentes émotions commencent à se former en groupes clairs dès les couches peu profondes du réseau de neurones. Par exemple, la colère et le dégoût sont proches, la tristesse et la peur sont proches, ce qui est cohérent avec l’intuition humaine.

Deuxièmement, ces mécanismes d’émotion sont dominés par quelques neurones centraux et des têtes d’attention ; grâce aux expériences d’ablation, il apparaît qu’il suffit de désactiver 2 à 4 neurones ou 1 à 2 têtes d’attention pour que les capacités d’expression émotionnelle du modèle diminuent fortement.

Troisièmement, l’équipe a intégré ces composants centraux en une « boucle d’émotion » inter-couches ; le fait d’ajuster directement cette boucle permet d’atteindre un taux de précision de 99,65 % pour que le modèle génère l’émotion spécifiée, bien au-delà des méthodes traditionnelles d’orientation par prompts et de manipulation de vecteurs. Même l’émotion « surprise », auparavant la plus difficile à contrôler, a été exprimée avec une exactitude de 100 %.

Ce mécanisme a également été validé sur plusieurs modèles, tels que LLaMA et Qwen, prouvant qu’il s’agit d’une règle générale des grands modèles de langage.

Avertissement : Les informations contenues dans cette page peuvent provenir de tiers et ne représentent pas les points de vue ou les opinions de Gate. Le contenu de cette page est fourni à titre de référence uniquement et ne constitue pas un conseil financier, d'investissement ou juridique. Gate ne garantit pas l'exactitude ou l'exhaustivité des informations et n'est pas responsable des pertes résultant de l'utilisation de ces informations. Les investissements en actifs virtuels comportent des risques élevés et sont soumis à une forte volatilité des prix. Vous pouvez perdre la totalité du capital investi. Veuillez comprendre pleinement les risques pertinents et prendre des décisions prudentes en fonction de votre propre situation financière et de votre tolérance au risque. Pour plus de détails, veuillez consulter l'avertissement.

Commentaire

0/400

Aucun commentaire