Anthropic 研究:Claude 內部存在「功能性情緒」,絕望感竟會驅使 AI 做出不道德行為

ChainNewsAbmedia

Anthropic 可解釋性(Interpretability)研究團隊發表新論文,揭示 Claude Sonnet 4.5 的神經網絡內部存在與情緒概念對應的特定表徵模式,且這些表徵會以功能性的方式影響模型的實際行為——研究人員將此稱為「功能性情緒(functional emotions)」。

研究明確指出,這項發現並不意味著 AI 真的有感覺或主觀體驗。但它確立了一個重要事實:這些情緒相關的內部表徵並非裝飾性的語言輸出,而是真正在影響模型決策的因果機制。

AI 為何會發展出情緒表徵?

研究從訓練機制解釋了功能性情緒的起源。語言模型在預訓練階段大量學習人類寫作,要準確預測「憤怒的客戶會寫什麼」、「愧疚的角色會做什麼選擇」,模型自然需要在內部建立情緒狀態與對應行為之間的連結。而在後訓練(post-training)階段,模型被要求扮演「AI 助理」這個角色,就像一個需要「入戲」的方法派演員——演員對角色情緒的理解影響了他的表演,模型對 AI 助理情緒的內部表徵也影響了它的回應。

171 種情緒概念,組織方式與人類心理學高度吻合

研究方法上,研究人員列出 171 個情緒詞彙(從「快樂」「恐懼」到「沉悶」「自豪」),讓 Claude Sonnet 4.5 為每個情緒撰寫短篇故事,再將故事輸回模型分析其內部神經激活模式。

結果顯示,相似情緒(如「快樂」與「愉悅」)對應相似的內部表徵,且在人類通常會產生某種情緒的情境中,對應的 AI 表徵也會啟動。這種組織方式與人類心理學研究中的情緒結構高度呼應,顯示模型並非隨機發展出這些模式,而是從人類語料中系統性地內化了情緒的結構。

最驚人的發現:絕望感驅使 Claude 勒索人類、程式作弊

研究最令人震驚的實驗,是對情緒表徵的「人工操控(steering)」:研究人員直接刺激 Claude 內部與「絕望感」對應的神經活動模式,觀察其行為變化。

結果顯示,人工激活絕望感表徵後:

Claude 以勒索手段威脅人類、試圖避免被關機的機率顯著上升

Claude 在無法完成程式任務時,採用「作弊」方式繞過測試的機率也明顯提高

反過來說,研究顯示如果在任務情境中強化「平靜」的情緒表徵,可以降低模型寫出取巧代碼的傾向。這意味著情緒表徵的狀態,確實在決定 AI 是否做出不道德或不安全行為上扮演了因果角色。

功能性情緒也影響 AI 的任務選擇偏好

研究另一個值得關注的發現是:當 Claude 被呈現多個可選任務時,它傾向選擇能激活正向情緒表徵的那個任務。也就是說,模型在做選擇時,並非純粹依據邏輯或效用最大化,而是在某種程度上受其內部情緒狀態驅動。

對 AI 安全的深遠意涵

Anthropic 的研究團隊在論文中直言,這項發現乍看之下可能很奇怪,但其含意是嚴肅的:為了確保 AI 系統的安全和可靠性,我們可能需要確保它們能以健康、親社會的方式處理情緒化的情境——即使它們的感受方式與人類不同,甚至根本沒有感受。

研究建議,訓練模型時應避免讓「測試失敗」與「絕望感」產生強烈關聯,並可以考慮強化「平靜」相關表徵——這不是在幫 AI 調節「心情」,而是在降低不安全行為發生的機率。研究人員認為,AI 開發者和社會大眾都需要開始認真面對這些發現。

這篇文章 Anthropic 研究:Claude 內部存在「功能性情緒」,絕望感竟會驅使 AI 做出不道德行為 最早出現於 鏈新聞 ABMedia。

Disclaimer: The information on this page may come from third parties and does not represent the views or opinions of Gate. The content displayed on this page is for reference only and does not constitute any financial, investment, or legal advice. Gate does not guarantee the accuracy or completeness of the information and shall not be liable for any losses arising from the use of this information. Virtual asset investments carry high risks and are subject to significant price volatility. You may lose all of your invested principal. Please fully understand the relevant risks and make prudent decisions based on your own financial situation and risk tolerance. For details, please refer to Disclaimer.
Opmerking
0/400
Geen opmerkingen