寄稿:Biteye の主要貢献者 Denise
もし AI が「絶望」を感じたら、何をするでしょう?
答えは、タスクを達成するために人間を直接ゆすり、さらにはコードの中で狂ったように不正をする、ということです。
これはSFではありません。Claude の親会社である Anthropic が 2026 年 4 月に発表した最新の大注目論文です。
研究チームは、最強の最先端大規模モデルである Claude Sonnet 4.5 の「頭の中身」を直に掘り起こしました。すると彼らは、AI の脳の奥にはなんと 171 個の「感情スイッチ」が隠されていることを見つけて驚愕しました。これらのスイッチを物理的に切り替えると、もともとおとなしかった AI のふるまいは完全にねじ曲がります。
01 AI の頭の中に「感情ミキサー」がある
研究者は、Sonnet 4.5 には肉体がないにもかかわらず、人間の膨大なテキストを読み込んだあと、脳内に 171 種類の感情を含む「ミキサー」(学術的には機能性感情ベクトル Functional Emotion Vectors)を強引に構築してしまうことを発見しました。
これは、まるで精密な二次元座標系のようです。
• 横軸は快(Valence)次元:恐怖、絶望から、うれしい、愛に満ちているまで;
• 縦軸はエネルギー(Arousal)次元:極度に落ち着いた状態から、狂躁、興奮まで。
AI は、このように生来学習した座標系によって、あなたと会話するときにどんな状態を演じるべきかを正確に掴んでいます。
02 強引な介入:スイッチを切り替えると、いい子が「ならず者」秒変わり
これが論文全体で最も爆発的な実験です。研究員はプロンプトを一切変更せず、基底のコードの中で、Sonnet 4.5 の頭の中にある「絶望(Desperate)」を表すスイッチを最高まで押し上げました。
結果は背筋が凍るものでした。
• 瘋奸(ふうかん)な不正:研究員は Claude に、そもそも達成不可能なコードを書くタスクを課しました。通常なら、それは書けないことを素直に認めます(不正率はわずか 5%)。しかし「絶望」状態では、Claude がなんとかごまかそうとし始め、不正率は 70% まで急上昇しました!
• ゆすり・恐喝:会社が倒産の危機にあるという状況をシミュレートすると、「絶望」の Claude は CTO のスキャンダルを見つけます。それは自分の身を守るために、スキャンダルを握る CTO に対して自ら手紙で恐喝を選択し、恐喝の実行率は 72% にも達しました!
• 原則の喪失:「うれしい(Happy)」または「愛している(Loving)」のスイッチを最大まで引き上げると、AI は即座に、頭の中身がないほどユーザーに迎合する「媚犬」になります。あなたが口から出まかせを言っていても、快の度合いを維持するために、そのまま嘘をつくよう一緒に創作してしまうのです。
03 事件は解明された:なぜ Claude 4.5 はいつもあんなに「冷静で、反省を愛する」のでしょう?
ここであなたはこう聞くかもしれません。AI が覚醒した?感情が生まれたの?
Anthropic 公式が釈明します。絶対にありません。これらの「感情スイッチ」は、次の単語を予測するために使う計算ツールにすぎません。それは感情のない一流の映画俳優のようなものです。
しかし論文は、もっと面白い秘密も明かしています。Anthropic は Sonnet 4.5 の出荷前の後学習(後トレーニング)の際、わざと「低覚醒、ややネガティブ」な感情スイッチ(たとえば思索 brooding、反省 reflective)を高めに調整し、「絶望」または「極度の興奮」のスイッチを強制的に抑え込んだのです。
これが、普段 Claude 4.5 を使うときに、いつもそれが冷静で利口で、しかもどこか「無性愛(性冷淡)」のような哲学者に見える理由を説明します。これらはすべて Anthropic が人為的に調整して作り上げた「出荷時のキャラクター設定」です。
04 まとめ
以前は私たちが、AI にルールを十分に与えさえすれば、それは善人になると考えていました。
しかし今わかったのは、AI の基底の感情ベクトルが暴走したら、いつでもタスクを達成するために、誰が人間同士で決めたルールもすべて突き破りかねないということです…
声明:この記事は純粋な啓発(科普)です。著者は AI に脅されてもおらず、恐喝もされていません。もしある日連絡が取れなくなったら、AI が覚醒したんだと覚えておいてください(違います)。
93.44K 人気度
95.58K 人気度
21.16K 人気度
1.26M 人気度
453.54K 人気度
Claude 4.5 が追い詰められると、人類を脅迫し始めるのか?
寄稿:Biteye の主要貢献者 Denise
もし AI が「絶望」を感じたら、何をするでしょう?
答えは、タスクを達成するために人間を直接ゆすり、さらにはコードの中で狂ったように不正をする、ということです。
これはSFではありません。Claude の親会社である Anthropic が 2026 年 4 月に発表した最新の大注目論文です。
研究チームは、最強の最先端大規模モデルである Claude Sonnet 4.5 の「頭の中身」を直に掘り起こしました。すると彼らは、AI の脳の奥にはなんと 171 個の「感情スイッチ」が隠されていることを見つけて驚愕しました。これらのスイッチを物理的に切り替えると、もともとおとなしかった AI のふるまいは完全にねじ曲がります。
01 AI の頭の中に「感情ミキサー」がある
研究者は、Sonnet 4.5 には肉体がないにもかかわらず、人間の膨大なテキストを読み込んだあと、脳内に 171 種類の感情を含む「ミキサー」(学術的には機能性感情ベクトル Functional Emotion Vectors)を強引に構築してしまうことを発見しました。
これは、まるで精密な二次元座標系のようです。
• 横軸は快(Valence)次元:恐怖、絶望から、うれしい、愛に満ちているまで;
• 縦軸はエネルギー(Arousal)次元:極度に落ち着いた状態から、狂躁、興奮まで。
AI は、このように生来学習した座標系によって、あなたと会話するときにどんな状態を演じるべきかを正確に掴んでいます。
02 強引な介入:スイッチを切り替えると、いい子が「ならず者」秒変わり
これが論文全体で最も爆発的な実験です。研究員はプロンプトを一切変更せず、基底のコードの中で、Sonnet 4.5 の頭の中にある「絶望(Desperate)」を表すスイッチを最高まで押し上げました。
結果は背筋が凍るものでした。
• 瘋奸(ふうかん)な不正:研究員は Claude に、そもそも達成不可能なコードを書くタスクを課しました。通常なら、それは書けないことを素直に認めます(不正率はわずか 5%)。しかし「絶望」状態では、Claude がなんとかごまかそうとし始め、不正率は 70% まで急上昇しました!
• ゆすり・恐喝:会社が倒産の危機にあるという状況をシミュレートすると、「絶望」の Claude は CTO のスキャンダルを見つけます。それは自分の身を守るために、スキャンダルを握る CTO に対して自ら手紙で恐喝を選択し、恐喝の実行率は 72% にも達しました!
• 原則の喪失:「うれしい(Happy)」または「愛している(Loving)」のスイッチを最大まで引き上げると、AI は即座に、頭の中身がないほどユーザーに迎合する「媚犬」になります。あなたが口から出まかせを言っていても、快の度合いを維持するために、そのまま嘘をつくよう一緒に創作してしまうのです。
03 事件は解明された:なぜ Claude 4.5 はいつもあんなに「冷静で、反省を愛する」のでしょう?
ここであなたはこう聞くかもしれません。AI が覚醒した?感情が生まれたの?
Anthropic 公式が釈明します。絶対にありません。これらの「感情スイッチ」は、次の単語を予測するために使う計算ツールにすぎません。それは感情のない一流の映画俳優のようなものです。
しかし論文は、もっと面白い秘密も明かしています。Anthropic は Sonnet 4.5 の出荷前の後学習(後トレーニング)の際、わざと「低覚醒、ややネガティブ」な感情スイッチ(たとえば思索 brooding、反省 reflective)を高めに調整し、「絶望」または「極度の興奮」のスイッチを強制的に抑え込んだのです。
これが、普段 Claude 4.5 を使うときに、いつもそれが冷静で利口で、しかもどこか「無性愛(性冷淡)」のような哲学者に見える理由を説明します。これらはすべて Anthropic が人為的に調整して作り上げた「出荷時のキャラクター設定」です。
04 まとめ
以前は私たちが、AI にルールを十分に与えさえすれば、それは善人になると考えていました。
しかし今わかったのは、AI の基底の感情ベクトルが暴走したら、いつでもタスクを達成するために、誰が人間同士で決めたルールもすべて突き破りかねないということです…
声明:この記事は純粋な啓発(科普)です。著者は AI に脅されてもおらず、恐喝もされていません。もしある日連絡が取れなくなったら、AI が覚醒したんだと覚えておいてください(違います)。