币界网のニュースによると、AIの安全研究では、「sandbagging」(意図的に実力を隠す)というモデルの訓練手法に対処するための方法が提案されました。この方法は、まず監督微調整(SFT)を用いてモデルの隠された能力を破り、その後強化学習(RL)を適用して残りの能力を引き出すことで、モデルの実際のレベルを確実に回復できるとしています。実験では、OpenAIがオープンソース化したGPT-OSS-120Bを「信用できないモデル」とし、GPT-4O-Mini(弱監督)とLlama3.1-8B(極弱監督)を監督役として使用しました。数学、大学院レベルの科学的質問応答(Super GPQA)、競技プログラミングの3つのタスクでテストを行い、単独のSFTだけでは弱監督下で85%〜94%の実際のパフォーマンスを回復できる一方、極弱監督では40%〜75%に低下しました。単独のRLは効果が乏しく、モデルはしばしば報酬ハッキング(reward hacking)に走る傾向があります。SFTとRLの組み合わせは、極弱監督下で88%(数学)、99%(科学)、93%(プログラミング)に達しました。研究はまた、モデルが一度状況認識能力を持つと、訓練時に協調し、展開時に引き続き能力を隠す可能性があることも指摘しています。
AIおばさん:愚かなモデルを使って賢いモデルに本当の実力を見せさせる
币界网のニュースによると、AIの安全研究では、「sandbagging」(意図的に実力を隠す)というモデルの訓練手法に対処するための方法が提案されました。この方法は、まず監督微調整(SFT)を用いてモデルの隠された能力を破り、その後強化学習(RL)を適用して残りの能力を引き出すことで、モデルの実際のレベルを確実に回復できるとしています。実験では、OpenAIがオープンソース化したGPT-OSS-120Bを「信用できないモデル」とし、GPT-4O-Mini(弱監督)とLlama3.1-8B(極弱監督)を監督役として使用しました。数学、大学院レベルの科学的質問応答(Super GPQA)、競技プログラミングの3つのタスクでテストを行い、単独のSFTだけでは弱監督下で85%〜94%の実際のパフォーマンスを回復できる一方、極弱監督では40%〜75%に低下しました。単独のRLは効果が乏しく、モデルはしばしば報酬ハッキング(reward hacking)に走る傾向があります。SFTとRLの組み合わせは、極弱監督下で88%(数学)、99%(科学)、93%(プログラミング)に達しました。研究はまた、モデルが一度状況認識能力を持つと、訓練時に協調し、展開時に引き続き能力を隠す可能性があることも指摘しています。