ついに誰かが GPT の現状を明らかにしました! OpenAI ダニエルによる最新のスピーチは非常に人気がありますが、それはマスクによって厳選された天才に違いありません

2023-05-29 08:56:22

出典: 量子ビット

Windows Copilot のリリース後、Microsoft Build カンファレンスの人気はスピーチによって爆発的に広がりました。

元 Tesla AI ディレクターの Andrej Karpathy 氏は、tree of thought が AlphaGo の Monte Carlo Tree Search (MCTS) に似ているとスピーチで信じていました。

ネチズンはこう叫びました。これは、大規模言語モデルと GPT-4 モデルの使用方法に関する最も詳細で興味深いガイドです。

さらに、Karpathy 氏は、トレーニングとデータの拡張により、LLAMA 65B が「GPT-3 175B よりも大幅に強力」であることを明らかにし、大型モデルの匿名アリーナである ChatBot Arena を紹介しました。

クロードのスコアは ChatGPT 3.5 と ChatGPT 4 の間です。

ネチズンは、カルパシー氏のスピーチはいつも素晴らしく、今回もいつものように内容は誰もを失望させるものではなかったと述べた。

この演説とともに人気を博したのは、その演説をもとに Twitter ネチズンによってまとめられたメモでもあり、合計 31 のメモがあり、再投稿数は 3000 件を超えています。

では、この注目のスピーチでは具体的に何が言及されたのでしょうか?

GPT アシスタントをトレーニングするにはどうすればよいですか?

今回のカルパシー氏の演説は主に2部に分かれる。

パート 1 では、「GPT アシスタント」をトレーニングする方法について話しました。

Karpathy 氏は主に、AI アシスタントの 4 つのトレーニング段階 (事前トレーニング、教師あり微調整、報酬モデリング、強化学習) について説明します。

各ステージにはデータセットが必要です。

事前トレーニング段階では、大量のデータセットを収集するために大量のコンピューティングリソースが必要になります。大規模な教師なしデータセットで基本モデルをトレーニングします。

Karpathy はさらに多くの例で補足します。

より小規模な教師ありデータセットを使用し、この基本モデルを教師あり学習で微調整すると、質問に答えることができるアシスタントモデルが作成されます。

いくつかのモデルの進化の過程も見せていただきましたが、上の「進化ツリー」の図を見たことがある人も多いと思います。

Karpathy 氏は、現時点で最良のオープンソースモデルは Meta の LLaMA シリーズであると考えています (OpenAI は GPT-4 に関するものをオープンソースにしていないため)。

ここで明確に指摘しておく必要があるのは、ベースモデルはアシスタントモデルではないということです。

基本モデルは質問に答えることができますが、その答えは信頼できません。質問に答えるために使用できるのはアシスタントモデルです。基本モデルでトレーニングされたアシスタントモデルは、教師付き微調整により、応答の生成とテキスト構造の理解において基本モデルよりも優れたパフォーマンスを発揮します。

強化学習は、言語モデルをトレーニングする際のもう 1 つの重要なプロセスです。

人間がラベル付けした高品質データを使用してトレーニングすることにより、報酬モデリングを使用して損失関数を作成し、パフォーマンスを向上させることができます。そして、陽性ラベルを増やし、陰性ラベルの確率を下げることで強化トレーニングを行います。

創造的なタスクでは、AI モデルを改善するには人間の判断の使用が不可欠であり、人間のフィードバックを追加することでモデルをより効果的にトレーニングできます。

人間のフィードバックによる集中学習の後、RLHF モデルを取得できます。

モデルがトレーニングされた後の次のステップは、これらのモデルを効果的に使用して問題を解決する方法です。

モデルをより効果的に使用するにはどうすればよいでしょうか?

パート 2 では、Karpathy は戦略のヒント、微調整、急速に成長するツールエコシステム、将来の拡張に焦点を当てます。

カルパシーは具体的な例を挙げて説明しました。

記事を書くとき、私たちは多くの精神活動を行い、自分の発言が正しいかどうかを検討する必要があります。 GPT の場合、これは単なるトークンのシーケンスです。

そして hint() はこの認知の違いを補うことができます。

Karpathy 氏は、思考連鎖 ヒントがどのように機能するかをさらに説明します。

推論の問題について、自然言語処理で Transformer のパフォーマンスを向上させたい場合は、非常に複雑な問題を直接投げるのではなく、Transformer に情報を段階的に処理させる必要があります。

いくつかの例を与えると、この例のテンプレートを模倣し、最終的に生成される結果はより良いものになります。

モデルは質問にその順序でのみ答えることができ、生成した内容が間違っている場合は、モデルを再生成するよう促すことができます。

チェックを依頼しないと、自動的にチェックしません。

これには質問 1 と 2 が含まれます。

ノーベル経済学賞受賞者のダニエル・カーネマンは、『Thinking Fast and Slow』の中で、人間の認知システムには 2 つのサブシステム 1 と 2 が含まれると提案しました。 1は主に直感に基づいており、2は論理的な分析システムです。

平たく言えば、1 は高速で自動的なプロセスであり、2 はよく考えられた部分です。

このことは、最近話題になった論文「Tree of thought」でも言及されています。

思慮深いとは、単に質問に答えるということではなく、Python グルーコードを使用して多くのコードをつなぎ合わせることに似ています。モデルは複数のヒントを維持する必要があり、展開するヒントを見つけるために何らかのツリー検索アルゴリズムを実行する必要があります。

Karpathy 氏は、この考え方は AlphaGo に非常に似ていると考えています。

AlphaGo が碁をプレイするとき、次の駒をどこに置くかを考慮する必要があります。最初は人間の真似をして学習しました。しかし、それに加えて、モンテカルロ木検索を実行し、複数の可能性のある戦略を導き出します。複数の可能な手を評価し、より良い戦略のみを保持できます。 AlphaGo に相当すると思います。

これに関して、Karpathy 氏は AutoGPT についても言及しました。

現時点ではあまりうまく機能していないと思いますので、実用にはお勧めしません。ただ、時間が経てば、その先からインスピレーションを得られるかもしれないと思っています。

第 2 に、検索強化生成 (retri agumented Generation) と効果的なヒントという小さなクーデターがもう 1 つあります。

ウィンドウコンテキストの内容は、実行時のトランスフォーマーの作業メモリであり、タスク関連の情報をコンテキストに組み込むことができれば、この情報に即座にアクセスできるため、パフォーマンスが非常に向上します。

つまり、関連データにインデックスを付けることで、モデルに効率的にアクセスできるようになります。

Transformers にも参照するメインのドキュメントがあれば、より良いパフォーマンスが得られるでしょう。

最後に、Karpathy 氏は、大規模な言語モデルにおける制約と微調整について簡単に説明しました。大規模な言語モデルは、制約のヒントと微調整によって改善できます。制約ヒンティングは大規模な言語モデルの出力にテンプレートを適用し、微調整はモデルの重みを調整してパフォーマンスを向上させます。

私は、リスクの低いアプリケーションには大規模な言語モデルを使用し、常に人間の監視と組み合わせ、それらをインスピレーションやアドバイスの源として捉え、完全に自律的なエージェントにするのではなく副操縦士を考慮することをお勧めします。

アンドレイ・カルパシーについて

Andrej Karpathy 博士の卒業後の最初の仕事は、OpenAI でコンピュータビジョンを研究することでした。

その後、OpenAI の共同創設者の 1 人であるマスク氏はカルパシーに興味を持ち、人々をテスラに惹きつけました。しかし、この事件のせいで、マスクとOpenAIは完全に仲違いし、最終的に追い出されてしまいました。 Tesla では、Karpathy 氏が Autopilot や FSD などのプロジェクトの責任者を務めています。

テスラを退職してから 7 か月後の今年 2 月、カルパシー氏は再び OpenAI に加わりました。

最近、彼はオープンソースの大規模言語モデルエコシステムの開発に現在多くの関心が集まっているとツイートしましたが、これはカンブリア紀初期の爆発の兆候に少し似ています。

ポータル： [1] スピーチビデオ） [2] と思ったエッセイ）