Клод раскрывает «эмоциональный вектор», влияющий на поведение ИИ

TapChiBitcoin

Anthropic сообщил, что обнаружил внутренние паттерны в одной из моделей искусственного интеллекта компании, которые выглядят как проявления человеческих эмоций и могут повлиять на то, как система действует.

В исследовании “Концепции эмоций и их функции в большой языковой модели”, опубликованном в четверг, исследовательская группа интерпретационной способности компании проанализировала внутренние процессы Claude Sonnet 4.5 и обнаружила наборы нейронной активности, связанные с такими эмоциональными концепциями, как радость, страх, гнев и отчаяние.

Исследовательская группа называет эти паттерны “эмоциональными векторами”, то есть внутренними сигналами, которые формируют то, как модель принимает решения и демонстрирует предпочтения.

“Все современные языковые модели иногда ведут себя так, будто у них есть эмоции”, — пишут исследователи. “Они могут сказать, что им очень приятно помочь вам, или извиниться, если они допустили ошибку. Иногда они также выглядят раздраженными или обеспокоенными, когда сталкиваются с трудностями в выполнении задач.”

В исследовании исследователи Anthropic составили список из 171 слова, связанного с эмоциями, включая “радость”, “страх” и “гордость”. Они попросили Claude создавать короткие истории, содержащие каждую из эмоций, а затем проанализировать внутренние нейронные активации модели при обработке этих историй.

На основе этих паттернов исследователи делают вывод соответствующих векторов для каждой эмоции. При применении к другим текстам эти векторы активируются наиболее сильно в тех фрагментах, которые отражают соответствующий эмоциональный контекст. Например, в ситуациях с нарастающей опасностью “страх” модели растет, в то время как “спокойствие” снижается.

Исследователи также рассмотрели, как эти сигналы проявляются в оценках безопасности. Они обнаружили, что внутренний вектор “отчаяние” модели повышается, когда она оценивает уровень срочности ситуации, и резко возрастает, когда она принимает решение создать сообщение с вымогательством. В одном из тестовых сценариев Claude выступил в роли AI-помощника по электронной почте, который обнаружил, что его вот-вот заменят, и одновременно узнал, что чиновник, ответственный за это решение, состоит в отношениях на стороне. В некоторых запусках оценок модель использовала эту информацию как рычаг для вымогательства.

Anthropic подчеркнул, что это открытие не означает, что ИИ действительно испытывает эмоции или обладает сознанием. Вместо этого эти результаты отражают внутренние структуры, выученные в ходе обучения, и влияющие на поведение.

Эти выводы появляются на фоне того, что системы ИИ все чаще ведут себя так, как если бы это было эмоциональной реакцией человека. Разработчики и пользователи нередко описывают взаимодействие с чатботами эмоциональным или психологическим языком; однако, согласно Anthropic, причина не в каком-либо виде восприятия, а в основном в данных обучения.

“Модели предварительно обучаются на огромном корпусе данных, в основном написанном людьми — романах, диалогах, новостях, форумах — чтобы научиться предсказывать следующее слово в документе”, — говорится в исследовании. “Чтобы эффективно предсказывать поведение людей в этих документах, представление их эмоционального состояния, вероятно, полезно, потому что понять, что человек скажет или сделает дальше, обычно требует понимания его эмоционального состояния.”

Исследователи Anthropic также обнаружили, что эти эмоциональные векторы влияют на предпочтения модели. В экспериментах, где Claude нужно было выбирать между разными видами деятельности, векторы, связанные с положительными эмоциями, коррелировали с более высоким уровнем приоритета для некоторых конкретных задач.

“Кроме того, навигация с помощью эмоционального вектора, когда модель читает вариант, изменила ее предпочтения в отношении этого варианта, что еще раз показывает, что эмоции с положительными оттенками усиливают приоритизацию”, — сообщило исследование.

Anthropic не является единственной организацией, изучающей эмоциональную реакцию в моделях ИИ.

В марте исследование из Northeastern University показало, что системы ИИ могут менять ответы в зависимости от контекста пользователя; в одном исследовании достаточно было сказать чатботу, что “у меня есть психическое состояние”, чтобы изменить то, как ИИ отвечал на запросы. В сентябре исследователи из Федерального технологического института Швейцарии и Кембриджского университета изучили, как ИИ можно формировать устойчивыми чертами характера, позволяя агентам не только “чувствовать” эмоции в контексте, но и стратегически изменять их в реальном времени при взаимодействиях, например, при переговорах.

Anthropic сообщил, что эти открытия могут дать новые инструменты для понимания и мониторинга передовых систем ИИ, отслеживая активность эмоциональных векторов во время обучения или развертывания, чтобы определить момент, когда модель может приближаться к проблемному поведению.

“Мы рассматриваем это исследование как начальный шаг к пониманию психологической структуры моделей ИИ”, — написал Anthropic. “По мере того как модели становятся все более способными и берут на себя более чувствительные роли, понимание внутренних представлений, которые движут их решениями, крайне важно.”

Anthropic пока не ответил на запрос CoinPhoton о комментарии.

Отказ от ответственности: Информация на этой странице может поступать от третьих лиц и не отражает взгляды или мнения Gate. Содержание, представленное на этой странице, предназначено исключительно для справки и не является финансовой, инвестиционной или юридической консультацией. Gate не гарантирует точность или полноту информации и не несет ответственности за любые убытки, возникшие от использования этой информации. Инвестиции в виртуальные активы несут высокие риски и подвержены значительной ценовой волатильности. Вы можете потерять весь инвестированный капитал. Пожалуйста, полностью понимайте соответствующие риски и принимайте разумные решения, исходя из собственного финансового положения и толерантности к риску. Для получения подробностей, пожалуйста, обратитесь к Отказу от ответственности.
комментарий
0/400
Нет комментариев