出典:新志源
画像ソース: Unbounded AIによって生成
大規模モデルの「ブラックボックス」を解き明かすために、Anthropic Explainabilityチームは、単純なモデルを理解するために新しいモデルをトレーニングする方法を説明する論文を発表しました。
Anthropicが発表した研究は、人工知能の魂を見ることができると主張しています。 次のようになります。
住所:
研究者によると、新しいモデルは、元のモデルのニューロンの動作原理と構成メカニズムを正確に予測して理解することができます。
Anthropicの説明可能性チームは最近、シミュレートされたAIシステムで抽象的な高次元特徴空間の分解に成功したと発表しました。
研究者らはまず、非常に単純な512ニューロンのAIをテキストを予測するように訓練し、次に「オートエンコーダー」と呼ばれる別のAIを訓練して、最初のAIの活性化パターンを予測しました。
オートエンコーダーは、一連の特徴 (高次元 AI のニューロンの数に対応) を構築し、これらの特徴が実際の AI のニューロンにどのようにマッピングされるかを予測するように求められます。
その結果、元のAIのニューロンは理解しにくいが、新しいAIのシミュレートされたニューロン(つまり「特徴」)は単一性であり、各特徴は特定の概念や機能を表していることがわかった。
たとえば、トレイト #2663 は “God” の概念を表します。
それを活性化するための最も強力なトレーニングフレーズは、ヨセフスの「吹雪が神に降り注ぐとき、彼はセフォリスに行く」という記録から来ています。
上部のアクティベーションは、すべて「神」のさまざまな使用法に関するものであることがわかります。
このシミュレートされたニューロンは、407、182、および259を含む一連の実際のニューロンで構成されているようです。
これらの実際のニューロン自体は「神」とはほとんど関係がなく、例えば、ニューロン407は主に英語以外のテキスト(特に強調されたラテン文字)や非標準テキスト(HTMLタグなど)に応答します。
しかし、機能レベルでは、すべてが順調であり、機能2663がアクティブになると、テキストに「bless」、「forbid」、「damn」、または「-zilla」が出現する確率が高まります。
AIは「神」の概念とモンスターの名前の「神」を区別しません。 これは、即席のAIがそれに対処するための十分なニューロンリソースを持っていないためかもしれません。
しかし、これはAIが持つ機能の数が増えるにつれて変化します。
このツリーの一番下では、AIが数学的に「the」をどのように理解するかが、より多くの特性を持つにつれて変化していることがわかります。
まず第一に、なぜ数学用語に「the」という特徴があるのでしょうか。 これはおそらく、特定の「the」を知っていると、その後に「分子」や「余弦」などの数学的な語彙が続く必要があるとAIが予測する必要があるためです。
研究者が512個の特徴量で学習させた最小のAIのうち、「the」を表すのは1つだけでしたが、16,384個の特徴を持つ最大のAIは、機械学習の「the」を表す1つの特徴量、複素解析の「the」を表す1つの特徴量、トポロジーと抽象代数で「the」を表す1つの特徴量に分かれていました。
したがって、より多くのニューロンをシミュレートしたAIにシステムをアップグレードすることができれば、「神」を表す特性は、宗教における「神」の意味と、怪物の名前における「神」の2つに分かれる可能性があります。
その後、キリスト教に神がいるかもしれないし、ユダヤ教に神がいるかもしれないし、哲学に神がいるかもしれない。
研究チームは、実際のニューロンの412グループとそれに対応するシミュレートされたニューロンの主観的な解釈可能性を評価し、シミュレートされたニューロンの解釈可能性が概ね良好であることを発見しました。
「神」を意味するものなど、いくつかの特徴は特定の概念に使用されます。
最も解釈しやすいものを含む、他の多くの高度に解釈可能な機能は、大文字または小文字、英語またはその他のアルファベットなどのテキストを表すために使用される「書式設定」です。
これらの機能はどの程度一般的ですか? つまり、同じテキスト データで 2 つの異なる 4096 特徴量 AI をトレーニングした場合、それらは同じ 4096 特徴量のほとんどを持つでしょうか? それらはすべて「神」を表す特定の特徴を持っていますか?
それとも、1つ目のAIが「神」と「ゴジラ」をくっつけて、2つ目のAIが分離するのでしょうか? 2番目のAIは「神」機能をまったく持たず、代わりにそのスペースを使用して、最初のAIが理解できなかった他の概念を格納するのでしょうか?
研究チームがテストしたところ、2つのAIモデルが非常に似ていることがわかりました。
平均して、最初のモデルに 1 つの特徴量がある場合、2 番目のモデルで最も類似した特徴量の中央値の相関は 0.72 になります。
次のステップ
今年の5月、OpenAIはGPT-4(非常に大きい)にGPT-2(非常に小さい)を理解させようとしました。 彼らはGPT-4にGPT-2の307,200個のニューロンを調べてもらい、その結果を報告しました。
GPT-4は、実際のニューロンをシミュレートされたニューロンに投影し、シミュレートされたニューロンを分析する技術をまだ習得していなかったため、一連の興味深い結果とランダムなナンセンスの束を発見しました。
成果は明白ではなかったが、非常に野心的な試みであった。
Anthropicの説明可能性の記事にあるこのAIとは異なり、GPT-2は本物の(非常に小さいながらも)AIであり、一般の人々にも感銘を与えています。
しかし、研究の最終的な目標は、主流のAIシステムを説明できるようにすることです。
Anthropicの説明可能性チームは、主にいくつかの理由から、まだこれを行っていないことを認めています。
まず第一に、オートエンコーダーのスケールアップは難しいことです。 GPT-4(またはAnthropicの同等のシステムであるClaude)のようなシステムを説明するには、ほぼ同じサイズの通訳AIが必要です。
しかし、この規模でAIをトレーニングするには、膨大な計算能力と財政的支援が必要です。
第二に、解釈のスケーラビリティも問題です。
神やゴジラなど、あらゆるものについてシミュレートされたニューロンをすべて見つけて、それらがどのようにつながっているかを巨大な図で描いたとしても。
研究者は、より複雑な疑問に答える必要があり、その解決には、何百万もの特徴やつながりが絡む複雑な相互作用が必要です。
ですから、何らかの自動化されたプロセス、ある種のより大きな「GPT-4にGPT-2が何をしているのかを教えてもらう」必要があります。
最後に、人間の脳を理解するために、これらすべてが何を言わなければならないのでしょうか?
また、人間は概念の推論や処理にニューラルネットワークを使用します。
人間の脳には多くのニューロンがあり、これはGPT-4と同じです。
人間が利用できるデータも非常に少なく、日常生活ではめったに登場しない概念(イカなど)がたくさんあります。
私たちも大きな脳を模倣しているのでしょうか?
これはまだ非常に新しい研究分野ですが、人間の視覚野のニューロンは、AIモデルで観察されるパターンと同様に、何らかの超局在的な方法で特徴をコード化していることを示唆する予備的な発見があります。
リソース:
50.4K 人気度
12.62K 人気度
7.16K 人気度
2.47K 人気度
2.86K 人気度
OpenAIの最強のライバルは、LLMブラックボックスを分解するようにAIを訓練し、偶然にも大規模モデルの「魂」を垣間見ました
出典:新志源
大規模モデルの「ブラックボックス」を解き明かすために、Anthropic Explainabilityチームは、単純なモデルを理解するために新しいモデルをトレーニングする方法を説明する論文を発表しました。
Anthropicが発表した研究は、人工知能の魂を見ることができると主張しています。 次のようになります。
研究者によると、新しいモデルは、元のモデルのニューロンの動作原理と構成メカニズムを正確に予測して理解することができます。
Anthropicの説明可能性チームは最近、シミュレートされたAIシステムで抽象的な高次元特徴空間の分解に成功したと発表しました。
「AIブラックボックス」を理解するために説明可能なAIを作成する
研究者らはまず、非常に単純な512ニューロンのAIをテキストを予測するように訓練し、次に「オートエンコーダー」と呼ばれる別のAIを訓練して、最初のAIの活性化パターンを予測しました。
オートエンコーダーは、一連の特徴 (高次元 AI のニューロンの数に対応) を構築し、これらの特徴が実際の AI のニューロンにどのようにマッピングされるかを予測するように求められます。
その結果、元のAIのニューロンは理解しにくいが、新しいAIのシミュレートされたニューロン(つまり「特徴」)は単一性であり、各特徴は特定の概念や機能を表していることがわかった。
たとえば、トレイト #2663 は “God” の概念を表します。
上部のアクティベーションは、すべて「神」のさまざまな使用法に関するものであることがわかります。
このシミュレートされたニューロンは、407、182、および259を含む一連の実際のニューロンで構成されているようです。
これらの実際のニューロン自体は「神」とはほとんど関係がなく、例えば、ニューロン407は主に英語以外のテキスト(特に強調されたラテン文字)や非標準テキスト(HTMLタグなど)に応答します。
しかし、機能レベルでは、すべてが順調であり、機能2663がアクティブになると、テキストに「bless」、「forbid」、「damn」、または「-zilla」が出現する確率が高まります。
AIは「神」の概念とモンスターの名前の「神」を区別しません。 これは、即席のAIがそれに対処するための十分なニューロンリソースを持っていないためかもしれません。
しかし、これはAIが持つ機能の数が増えるにつれて変化します。
まず第一に、なぜ数学用語に「the」という特徴があるのでしょうか。 これはおそらく、特定の「the」を知っていると、その後に「分子」や「余弦」などの数学的な語彙が続く必要があるとAIが予測する必要があるためです。
研究者が512個の特徴量で学習させた最小のAIのうち、「the」を表すのは1つだけでしたが、16,384個の特徴を持つ最大のAIは、機械学習の「the」を表す1つの特徴量、複素解析の「the」を表す1つの特徴量、トポロジーと抽象代数で「the」を表す1つの特徴量に分かれていました。
したがって、より多くのニューロンをシミュレートしたAIにシステムをアップグレードすることができれば、「神」を表す特性は、宗教における「神」の意味と、怪物の名前における「神」の2つに分かれる可能性があります。
その後、キリスト教に神がいるかもしれないし、ユダヤ教に神がいるかもしれないし、哲学に神がいるかもしれない。
研究チームは、実際のニューロンの412グループとそれに対応するシミュレートされたニューロンの主観的な解釈可能性を評価し、シミュレートされたニューロンの解釈可能性が概ね良好であることを発見しました。
最も解釈しやすいものを含む、他の多くの高度に解釈可能な機能は、大文字または小文字、英語またはその他のアルファベットなどのテキストを表すために使用される「書式設定」です。
それとも、1つ目のAIが「神」と「ゴジラ」をくっつけて、2つ目のAIが分離するのでしょうか? 2番目のAIは「神」機能をまったく持たず、代わりにそのスペースを使用して、最初のAIが理解できなかった他の概念を格納するのでしょうか?
研究チームがテストしたところ、2つのAIモデルが非常に似ていることがわかりました。
平均して、最初のモデルに 1 つの特徴量がある場合、2 番目のモデルで最も類似した特徴量の中央値の相関は 0.72 になります。
AIの魂を見た
次のステップ
今年の5月、OpenAIはGPT-4(非常に大きい)にGPT-2(非常に小さい)を理解させようとしました。 彼らはGPT-4にGPT-2の307,200個のニューロンを調べてもらい、その結果を報告しました。
GPT-4は、実際のニューロンをシミュレートされたニューロンに投影し、シミュレートされたニューロンを分析する技術をまだ習得していなかったため、一連の興味深い結果とランダムなナンセンスの束を発見しました。
成果は明白ではなかったが、非常に野心的な試みであった。
Anthropicの説明可能性の記事にあるこのAIとは異なり、GPT-2は本物の(非常に小さいながらも)AIであり、一般の人々にも感銘を与えています。
しかし、研究の最終的な目標は、主流のAIシステムを説明できるようにすることです。
Anthropicの説明可能性チームは、主にいくつかの理由から、まだこれを行っていないことを認めています。
まず第一に、オートエンコーダーのスケールアップは難しいことです。 GPT-4(またはAnthropicの同等のシステムであるClaude)のようなシステムを説明するには、ほぼ同じサイズの通訳AIが必要です。
しかし、この規模でAIをトレーニングするには、膨大な計算能力と財政的支援が必要です。
第二に、解釈のスケーラビリティも問題です。
神やゴジラなど、あらゆるものについてシミュレートされたニューロンをすべて見つけて、それらがどのようにつながっているかを巨大な図で描いたとしても。
研究者は、より複雑な疑問に答える必要があり、その解決には、何百万もの特徴やつながりが絡む複雑な相互作用が必要です。
ですから、何らかの自動化されたプロセス、ある種のより大きな「GPT-4にGPT-2が何をしているのかを教えてもらう」必要があります。
最後に、人間の脳を理解するために、これらすべてが何を言わなければならないのでしょうか?
また、人間は概念の推論や処理にニューラルネットワークを使用します。
人間の脳には多くのニューロンがあり、これはGPT-4と同じです。
人間が利用できるデータも非常に少なく、日常生活ではめったに登場しない概念(イカなど)がたくさんあります。
私たちも大きな脳を模倣しているのでしょうか?
これはまだ非常に新しい研究分野ですが、人間の視覚野のニューロンは、AIモデルで観察されるパターンと同様に、何らかの超局在的な方法で特徴をコード化していることを示唆する予備的な発見があります。
リソース: