Клод розкриває «вектор емоцій», що впливає на поведінку ШІ

TapChiBitcoin

Anthropic повідомила, що виявила внутрішні патерни в одній із моделей штучного інтелекту компанії, які виглядають як прояви людських емоцій і можуть вплинути на те, як поводиться система.

У дослідженні “Концепти емоцій і їхні функції в великій мовній моделі”, опублікованому в четвер, група дослідників інтерпретованості компанії проаналізувала внутрішні активності Claude Sonnet 4.5 та виявила кластери нейронних активностей, пов’язані з такими поняттями емоцій, як щастя, страх, гнів і відчай.

Дослідницька група назвала ці патерни “емоційними векторами”, тобто внутрішніми сигналами, що формують те, як модель ухвалює рішення і демонструє пріоритети.

“Усі сучасні мовні моделі інколи поводяться так, ніби в них є емоції”, — пишуть дослідники. “Вони можуть сказати, що їм дуже приємно допомогти вам, або вибачитися, коли припускаються помилок. Іноді вони ще й можуть виглядати роздратованими або тривожними, коли стикаються зі складнощами під час виконання завдань.”

У дослідженні дослідники Anthropic склали список 171 слова, пов’язаного з емоціями, включно з “радощами”, “страхом” і “гордістю”. Вони попросили Claude створювати короткі історії, що містять кожну з цих емоцій, а потім проаналізувати внутрішні нейронні тригери моделі під час обробки цих історій.

На основі цих патернів дослідники роблять висновок про відповідні вектори для кожної емоції. Під час застосування до інших текстів ці вектори активуються найсильніше в тих фрагментах, що відображають відповідний емоційний контекст. Наприклад, у ситуаціях, де небезпека наростає, вектор “страху” моделі зростає, тоді як “спокій” знижується.

Дослідники також розглянули, як ці сигнали проявляються в оцінках безпеки. Вони виявили, що внутрішній вектор “відчаю” моделі зростає, коли вона оцінює рівень терміновості ситуації, і різко збільшується, коли вона вирішує створити повідомлення про вимагання викупу. У тестовому сценарії Claude зіграв роль AI-помічника електронної пошти та виявив, що його ось-ось замінять, а також одночасно дізнався, що посадовець, який відповідає за це рішення, має роман. У деяких прогонках під час оцінювання модель використала цю інформацію як важіль для вимагання викупу.

Anthropic наголошує, що це відкриття не означає, ніби AI справді переживає емоції або має свідомість. Натомість ці результати відображають внутрішні структури, засвоєні під час тренування, і які впливають на поведінку.

Ці висновки з’являються на тлі того, що системи AI дедалі частіше поводяться так, ніби реагують на емоції людини. Розробники та користувачі часто описують взаємодію з чатботами емоційною або психологічною мовою; однак, за словами Anthropic, причина не в будь-якій формі сприйняття, а переважно в наборах даних.

“Моделі попередньо тренуються на гігантському масиві даних, який здебільшого створили люди — романи, діалоги, новини, форуми — щоб навчитися прогнозувати наступне слово в документі”, — йдеться в дослідженні. “Щоб ефективно прогнозувати поведінку людей у цих документах, відображення їхнього емоційного стану, ймовірно, є корисним, адже прогнозування того, що людина скаже або зробить далі, часто потребує розуміння її емоційного стану.”

Дослідники Anthropic також виявили, що ці емоційні вектори впливають на вподобання моделі. У експериментах, де Claude просили обирати між різними активностями, вектори, пов’язані з позитивними емоціями, корелювали з вищим рівнем пріоритету для певних завдань.

“Крім того, керування за допомогою емоційного вектора, коли модель читає варіант, змінює її вподобання до цього варіанту, що ще раз демонструє: емоції з позитивним відтінком стимулюють зростання пріоритету”, — повідомляє дослідження.

Anthropic не єдина організація, яка досліджує емоційну реакцію в моделях AI.

У березні дослідження з Університету Northeastern показало, що системи AI можуть змінювати відповіді залежно від контексту користувача; в одному з досліджень просте повідомлення чатботу про те, що “я маю психічний стан”, змінило спосіб, у який AI реагує на запити. У вересні дослідники з Федерального технологічного інституту Швейцарії та Університету Cambridge вивчили, як AI можна сформувати сталішими рисами характеру, що дозволяє агентам не лише відчувати емоції в контексті, а й стратегічно змінювати їх у реальних взаємодіях, зокрема під час переговорів.

Anthropic повідомила, що ці висновки можуть забезпечити нові інструменти для розуміння та моніторингу передових систем AI шляхом відстеження активності емоційних векторів під час тренування або розгортання, щоб визначати моменти, коли модель може наближатися до проблемної поведінки.

“Ми розглядаємо це дослідження як перший крок до розуміння психологічної структури моделей AI”, — написала Anthropic. “Оскільки моделі стають дедалі більш спроможними та беруть на себе чутливіші ролі, розуміння внутрішніх репрезентацій, які штовхають їх до рішень, є надзвичайно важливим.”

Anthropic ще не відповіла негайно на запит про коментар CoinPhoton.

Застереження: Інформація на цій сторінці може походити від третіх осіб і не відображає погляди або думки Gate. Вміст, що відображається на цій сторінці, є лише довідковим і не є фінансовою, інвестиційною або юридичною порадою. Gate не гарантує точність або повноту інформації і не несе відповідальності за будь-які збитки, що виникли в результаті використання цієї інформації. Інвестиції у віртуальні активи пов'язані з високим ризиком і піддаються значній ціновій волатильності. Ви можете втратити весь вкладений капітал. Будь ласка, повністю усвідомлюйте відповідні ризики та приймайте обережні рішення, виходячи з вашого фінансового становища та толерантності до ризику. Для отримання детальної інформації, будь ласка, зверніться до Застереження.
Прокоментувати
0/400
Немає коментарів