Согласно мониторингу 1M AI News, 2 апреля Anthropic опубликовала новую научную работу, в которой исследуется «механика эмоций» внутри Claude: в Sonnet 4.5 обнаружено 171 «эмоциональное векторное представление». Эти эмоции активируются в связанных с ними контекстах и оказываются похожими на человеческие психологические структуры и пространство эмоций.
Аспирантка MBZUAI Chenxi Wang обнаружила, что именно их работа, опубликованная в октябре 2025 года («LLMs 会“感觉”吗?情绪回路的发现与控制»), стала первой системной работой по исследованию внутренних механизмов генерации эмоций у больших языковых моделей. Когда она прочитала статью Anthropic, ее первая реакция была: «Разве это не то, что мы сделали в прошлом году?» Ключевое различие между сторонами заключалось в следующем: ранее большинство исследований фокусировались на распознавании эмоций в тексте (то есть эмоциональном восприятии), тогда как обе стороны занимались изучением того, как модель сама генерирует эмоции (то есть эмоциональная генерация/внутренние механизмы). Руководитель связи Anthropic Jack Lindsey поначалу считал, что работы частично перекрываются с уже существующими исследованиями, но Chenxi Wang прочитала все материалы по пунктам и указала на различия — после этого он признал эту разграничительную линию. В настоящее время Anthropic обновила свой блог с публикацией: в разделе «Related Work» явно добавлены ссылки на эту работу, и спор был урегулирован в относительно дружелюбной манере.
В статье китайской команды были упомянуты три ключевых вывода:
Во-первых, внутри больших моделей действительно существуют устойчивые эмоциональные представления, не зависящие от конкретной семантики: разные эмоции начинают формироваться в четкие группы уже на мелких слоях нейросети, например, гнев и отвращение оказываются рядом, а печаль и страх — рядом, что согласуется с интуицией человека.
Во-вторых, эти эмоциональные механизмы определяются небольшим числом ключевых нейронов и головками внимания: согласно результатам экспериментов по абляции, достаточно отключить 2–4 нейрона или 1–2 головки внимания, чтобы способность модели выражать эмоции заметно снизилась.
В-третьих, команда интегрировала эти ключевые компоненты в межслойную «эмоциональную цепь» («эмоциональный контур»): прямое регулирование этой цепи позволяет добиваться точности генерации заданной эмоции до 99,65%, что далеко превосходит традиционные методы наведения подсказками и управления векторами; даже ранее самую сложную для контроля эмоцию «удивление» удалось выразить с точностью 100%.
Этот механизм был подтвержден на нескольких моделях, включая LLaMA и Qwen, что доказывает, что речь идет об общей закономерности больших языковых моделей.