OpenAI最強競品訓練AI拆解LLM黑箱，意外窺見大模型「靈魂

巴比特_

2023-12-01 09:27:36

原文來源：新智元

圖片來源：由無界 AI生成

為了拆開大模型的「黑箱」，Anthropic可解釋性團隊發表了一篇論文，講述了他們通過訓練一個新的模型去理解一個簡單的模型的方法。

Anthropic發表的一項研究聲稱能夠看到了人工智慧的靈魂。它看起來像這樣：

論文位址：

在研究者看來，這個新的模型能準確地預測和理解原本模型中神經元的工作原理和組成機制。

Anthropic的可解釋性團隊最近宣布他們成功分解了一個類比AI系統中的抽象高維特徵空間。

創建一個可解釋的AI去理解「AI黑盒」

研究人員首先訓練了一個非常簡單的512神經元AI來預測文本，然後訓練了另一個名為「自動編碼器」的AI來預測第一個AI的啟動模式。

自動編碼器被要求構建一組特徵（對應更高維度AI中的神經元數量），並預測這些特徵如何映射到真實AI中的神經元。

結果發現，儘管原始AI中的神經元本身不易理解，但是新的AI中的這些模擬神經元（也就是「特徵」）是單義的，每特徵都表示一個指定的概念或功能。

例如，特徵#2663代表「God」這個概念。

啟動它的訓練語句中最強的一條來自「Josephus」的記錄中「當God降下暴雪時，他前往Sepphoris」。

可以看到頂端的啟動都是關於「God」的不同用法。

這個類比神經元似乎是由一組真實神經元（包括407,182和259）組成的。

這些真實神經元本身與「God」沒有太大關係，例如神經元407主要對非英語（尤其是重音拉丁字母）和非標準文本（如HTML標籤）有回應。

但是在特徵層面，一切都是井井有條的，當特徵2663被啟動時，它會增加文本中出現「bless」、「forbid」、「damn」或「-zilla」的概率。

這個AI並沒有將「God」這個概念與怪獸名字中的「God」區分開來。這可能是因為這個簡易AI沒有足夠的神經元資源來專門處理這個事。

但隨著AI具備的特徵數量增加，這種情況會發生改變：

在這棵樹的底部，你可以看到當這個AI具有越來越多的特徵時，它在數學術語中對「the」的理解是如何變化的。

首先，為什麼會有一個數學術語中「the」的特定特徵？這很可能是由於AI的預測需求——知道某些特定的「the」之後應該會跟隨一些數學詞彙，比如「numerator」或者「cosine」。

在研究人員訓練的最小的那個只有512個特徵的AI中，只有一個表示「the」的特徵，而在具有16384個特徵的最大AI中，這個特徵已經分支出了一個表示機器學習中「the」的特徵，一個表示複分析中「the」的特徵，以及一個表示拓撲學和抽象代數中「the」的特徵。

因此，如果能將系統升級到一個具有更多模擬神經元的AI，那表示「God」的特徵很可能會分裂成兩個——一個表示宗教中「God」的含義，另一個表示怪獸名字中「God」的含義。

後來，可能會有基督教中的God、猶太教中的God、哲學中的God等等。

研究小組對412組真實神經元和相應的模擬神經元進行了主觀可解釋性評估，發現模擬神經元的可解釋性整體上比較好：

一些特徵，比如表示「God」的特徵，是用於特定概念的。

許多其他高度可解釋的特徵，包括一些最可解釋的，是用於表示文本的「格式」，比如大寫或小寫字母、英語或其他字母表等。

這些特徵有多常見呢？也就是說，如果你在相同的文本數據上訓練兩個不同的4096個特徵的AI，它們會有大部分相同的4096個特徵嗎？它們會都有某些代表「God」的特徵嗎？

或者第一個AI會將「God」和「哥斯拉」放在一起，而第二個AI會將它們分開？第二個AI是否就完全不會有表示「God」的特徵，而是用那個空間存儲一些第一個AI不可能理解的其他概念？

研究小組進行了測試，發現他們的兩個AI模型是非常相似的！

平均而言，如果第一個模型中有一個特徵，第二個模型中最相似的特徵會有0.72的中值相關性。

看到了AI的靈魂

後續的工作將是什麼呢？

今年五月，OpenAI試圖讓GPT-4（非常大）理解GPT-2（非常小）。他們讓GPT-4檢查了GPT-2的個307200個神經元，並報告它發現的內容。

GPT-4找到了一系列有趣的結果和一堆隨機廢話，因為他們還沒有掌握將真實神經元投射到模擬神經元並分析模擬神經元的技巧。

儘管結果效果不明顯，但這確實是非常雄心勃勃的嘗試。

與Anthropic可解釋性文章中的這個AI不同，GPT-2是一個真實的（儘管非常小）AI，曾經也給大眾留下了深刻印象。

但是研究的最終目的是要能夠解釋主流的AI系統。

Anthropic的可解釋性團隊承認他們還沒有做到這一點，主要基於以下幾個原因：

首先，擴大自動編碼器的規模是一個很困難的事情。為了解釋GPT-4（或Anthropic的等效系統Claude）這樣的系統，你需要一個差不多同樣大小的解釋器AI。

但是訓練這樣規模的AI需要巨大的算力和資金支援。

其次，解釋的可擴充性也是一個問題。

即使我們找到了所有關於God、哥斯拉以及其他一切的模擬神經元，並畫出它們之間如何相連的巨大關係圖。

研究人員任然需要回答一些更複雜的問題，解決這些問題需要涉及成百上千萬的特徵和連接的複雜交互。

所以需要一些自動化的流程，也就是某種更大規模的「讓GPT-4告訴我們GPT-2在做什麼」。

最後，所有這些對理解人類大腦有什麼啟發？

人類也使用神經網路進行推理和處理概念。

人類大腦中有很多神經元，這一點和GPT-4是一樣的。

人類獲得的數據也非常稀疏——有很多概念（如烏賊）在日常生活中很少出現。

我們是否也在類比一個更大的大腦？

目前這還是一個非常新的研究領域，但已經有一些初步的發現，表明人類視覺皮層中的神經元確實以某種超定位的方式編碼特徵，與AI模型中觀察到的模式相似。

參考資料：

‌

查看原文

此頁面可能包含第三方內容，僅供參考（非陳述或保證），不應被視為 Gate 認可其觀點表述，也不得被視為財務或專業建議。詳見聲明。

讚賞
點讚
留言
轉發
分享

留言

0/400

暫無留言

巴比特_

熱門話題查看更多
#2025Gate年度帳單
5.47萬熱度
#加密市場小幅回暖
1.2萬熱度
#現貨黃金再創新高
8195 熱度
#日本央行明年或兩次加息
2918 熱度
#2026行情预测
2751 熱度

熱門 Gate Fun查看更多

1
GVGATE VIP
市值:$3668.48持有人數:2
0.49%
2
新年红包雨新年红包雨
市值:$3568.96持有人數:2
0.09%
3
BEATBEAT
市值:$3590.93持有人數:2
0.00%
4
BTC&ETHBitCoin and Ethereum
市值:$3579.31持有人數:1
0.00%
5
DOPEDopamine Drip
市值:$3596.96持有人數:2
0.00%