OpenAIは、現在の評価メカニズムのバイアスを指摘し、解決策を提案するために、大規模言語モデルの錯覚レポートを公開しています。 (あらすじ:メタ・ザッカーバーグは忙しい!) 1億ドル以上の給料をあげて、2ヶ月で3人のAI天才が歩いた) (背景補足:a16z 最新のAIトップ100リストがリリースされました:Grokは1年でトップ4にジャンプし、中国のアプリケーションは世界的にブレイクスルー) OpenAIは今週初めに大規模言語モデルにおける「幻覚」の現象に関する研究を発表し、現在のトレーニングおよび評価方法により、モデルは知らないことを認めるのではなく、「自信を持って推測する」傾向があることを指摘し、これが幻覚の原因であり、次に何をすべきかを提案しますか? OpenAIの研究チームは、現在のモデルを学習させると、評価問題が複数選択式の形で大量に提示され、モデルが正解すれば点数を獲得でき、逆に「わからない」と答える点がなくなることを発見しました。 (これは非常に理解できます、答えがわからなくても多肢選択式の質問を受けると、無差別に記入され、少なくとも正しく入力する機会があります) レポートは、古いモデルのo4-miniと新しいバージョンのgpt-5-thinking-miniを比較するために、SimpleQAテストを例として取り上げています:前者はわずかに正確ですが、「幻覚率」は75%です。 後者はしばしば棄権することを選択しますが、エラー率は大幅に低下しています。 OpenAIはさらに、ほとんどの開発者が全体的な正解率の向上に注力しているが、「自信に満ちた間違い」が不確実性を認めるよりもはるかにユーザーに影響を与えることを無視していると指摘した。 研究チームは、問題の根本を「標準的なトレーニングと評価の手順は、不確実なときに限界を認めるのではなく、推測に対してモデルに報酬を与える」という一文にまとめました。 言い換えれば、錯覚は、モデルのハードウェアやパラメータのスケールが不十分であるのではなく、スコアリングルールがモデルに高リスク戦略を採用するように誘導しているということです。 精度が向上しても幻覚を治すことはできません このレポートでは、業界でよくある5つの誤解を分析しており、その中で最も重要な2つは次の通りです。 第二に、幻覚は避けられない副作用です。 OpenAIによると、現実世界は情報のギャップに満ちており、どのようなサイズのモデルでも「データの疎さ」の問題に遭遇する可能性があります。 本当の鍵は、モデルが「棄権」を選択する権利を持っているかどうかです。 また、このレポートでは、小規模なモデルが自身の知識のギャップを検出する可能性が高い場合があることも強調しています。 評価基準が調整されている限り、「謙虚な答え」の部分が採点され、「自信のある間違い」はさらに減点され、フルスケールモデルも幻覚を減らすことができます。 OpenAIは、不確実なシナリオでモデルを保守的に保つために、業界が「正しい回答率」から主要なKPIに誤った信頼性を含めるなどの「信頼性指標」に移行することを推奨しています。 フィンテックのシナリオ:信頼のギャップがリスクを増幅する ウォール街やシリコンバレーにとって、幻想は抽象的な学術的な問題ではなく、市場の意思決定に直接影響を与える変数です。 クオンツファンド、投資銀行、暗号通貨取引プラットフォームは、テキスト解析、センチメント解釈、さらには自動レポート作成のためにLLMにますます依存するようになっています。 モデルの財務報告や契約条件の詳細に錯覚がある場合、エラーはトランザクションアルゴリズムによって急速に増幅され、莫大な損失が発生する可能性があります。 したがって、規制当局と企業のリスク管理部門は、「モデル誠実さ」インデックスに注意を払い始めています。 多くの証券会社は、「回答の不確実性率」を内部受け入れに組み込んでおり、モデルが「より多くの情報が必要」な未知の領域でリターンを事前設定できるようにしています。 この変化は、最も効果的なAIソリューションであっても、信頼性のラベルを提供しなければ、金融市場での採用が困難になることを意味します。 次へ: 高得点競争から誠実なエンジニアリングへのシフト 最後に、OpenAIが提案する道筋は、評価仕様を書き直すことです: まず、間違った答えに対する自信に対して高いペナルティを設定します 次に、中程度の表現の不確実性に対して部分的なポイントを与えます 第三に、モデルは検証可能な参照ソースを返す必要があります。 研究チームによると、これにより、ポートフォリオ理論の「資本保全優先」と同様に、トレーニングフェーズでモデルに「リスク管理」を学習させることができるとのことです。 開発者にとって、これは、参加者が単にモデルのサイズと競争するのではなく、限られたコンピューティング予算内でいつ停止するかを正確に決定できる人であることを意味します。 投資家や規制当局にとって、新しい指標はリスクコントロールのためのより直感的なアンカーも提供します。 「謙虚さ」が新たな学習となるにつれ、AIエコシステムはスコア重視から信頼重視へと移行しています。 関連レポート:ETHが3600ドルを突破! ブラックロックはイーサリアムETFで誓約申請書を提出し、LDOは20%急騰 ブラックロックビットコインETF「IBIT」はすべての資金を上回り、10倍大きいS&P 500 ETFもXRPを稼ぎ、USDTを追い越して時価総額で3番目に大きい暗号通貨になりました! しかし、流動性の95%は利益ゾーンにあり、3ドルは長短の生涯と死のラインにソラナは表面的な繁栄しか持っていませんか? トークンが舞台裏の操作だけで上昇すると、オンチェーンサイクルが終わった可能性があります(OpenAIはAIの錯覚がある理由を説明していますか? 評価の神話を変えるための3つの解決策」この記事は、BlockTempoの「Dynamic Trend - The Most Influential Blockchain News Media」に最初に掲載されました。
22k 人気度
13k 人気度
28k 人気度
34k 人気度
12k 人気度
OpenAIはなぜAIの幻覚が存在するのかを説明していますか?評価の神話を変えるための3つの解決策
OpenAIは、現在の評価メカニズムのバイアスを指摘し、解決策を提案するために、大規模言語モデルの錯覚レポートを公開しています。 (あらすじ:メタ・ザッカーバーグは忙しい!) 1億ドル以上の給料をあげて、2ヶ月で3人のAI天才が歩いた) (背景補足:a16z 最新のAIトップ100リストがリリースされました:Grokは1年でトップ4にジャンプし、中国のアプリケーションは世界的にブレイクスルー) OpenAIは今週初めに大規模言語モデルにおける「幻覚」の現象に関する研究を発表し、現在のトレーニングおよび評価方法により、モデルは知らないことを認めるのではなく、「自信を持って推測する」傾向があることを指摘し、これが幻覚の原因であり、次に何をすべきかを提案しますか? OpenAIの研究チームは、現在のモデルを学習させると、評価問題が複数選択式の形で大量に提示され、モデルが正解すれば点数を獲得でき、逆に「わからない」と答える点がなくなることを発見しました。 (これは非常に理解できます、答えがわからなくても多肢選択式の質問を受けると、無差別に記入され、少なくとも正しく入力する機会があります) レポートは、古いモデルのo4-miniと新しいバージョンのgpt-5-thinking-miniを比較するために、SimpleQAテストを例として取り上げています:前者はわずかに正確ですが、「幻覚率」は75%です。 後者はしばしば棄権することを選択しますが、エラー率は大幅に低下しています。 OpenAIはさらに、ほとんどの開発者が全体的な正解率の向上に注力しているが、「自信に満ちた間違い」が不確実性を認めるよりもはるかにユーザーに影響を与えることを無視していると指摘した。 研究チームは、問題の根本を「標準的なトレーニングと評価の手順は、不確実なときに限界を認めるのではなく、推測に対してモデルに報酬を与える」という一文にまとめました。 言い換えれば、錯覚は、モデルのハードウェアやパラメータのスケールが不十分であるのではなく、スコアリングルールがモデルに高リスク戦略を採用するように誘導しているということです。 精度が向上しても幻覚を治すことはできません このレポートでは、業界でよくある5つの誤解を分析しており、その中で最も重要な2つは次の通りです。 第二に、幻覚は避けられない副作用です。 OpenAIによると、現実世界は情報のギャップに満ちており、どのようなサイズのモデルでも「データの疎さ」の問題に遭遇する可能性があります。 本当の鍵は、モデルが「棄権」を選択する権利を持っているかどうかです。 また、このレポートでは、小規模なモデルが自身の知識のギャップを検出する可能性が高い場合があることも強調しています。 評価基準が調整されている限り、「謙虚な答え」の部分が採点され、「自信のある間違い」はさらに減点され、フルスケールモデルも幻覚を減らすことができます。 OpenAIは、不確実なシナリオでモデルを保守的に保つために、業界が「正しい回答率」から主要なKPIに誤った信頼性を含めるなどの「信頼性指標」に移行することを推奨しています。 フィンテックのシナリオ:信頼のギャップがリスクを増幅する ウォール街やシリコンバレーにとって、幻想は抽象的な学術的な問題ではなく、市場の意思決定に直接影響を与える変数です。 クオンツファンド、投資銀行、暗号通貨取引プラットフォームは、テキスト解析、センチメント解釈、さらには自動レポート作成のためにLLMにますます依存するようになっています。 モデルの財務報告や契約条件の詳細に錯覚がある場合、エラーはトランザクションアルゴリズムによって急速に増幅され、莫大な損失が発生する可能性があります。 したがって、規制当局と企業のリスク管理部門は、「モデル誠実さ」インデックスに注意を払い始めています。 多くの証券会社は、「回答の不確実性率」を内部受け入れに組み込んでおり、モデルが「より多くの情報が必要」な未知の領域でリターンを事前設定できるようにしています。 この変化は、最も効果的なAIソリューションであっても、信頼性のラベルを提供しなければ、金融市場での採用が困難になることを意味します。 次へ: 高得点競争から誠実なエンジニアリングへのシフト 最後に、OpenAIが提案する道筋は、評価仕様を書き直すことです: まず、間違った答えに対する自信に対して高いペナルティを設定します 次に、中程度の表現の不確実性に対して部分的なポイントを与えます 第三に、モデルは検証可能な参照ソースを返す必要があります。 研究チームによると、これにより、ポートフォリオ理論の「資本保全優先」と同様に、トレーニングフェーズでモデルに「リスク管理」を学習させることができるとのことです。 開発者にとって、これは、参加者が単にモデルのサイズと競争するのではなく、限られたコンピューティング予算内でいつ停止するかを正確に決定できる人であることを意味します。 投資家や規制当局にとって、新しい指標はリスクコントロールのためのより直感的なアンカーも提供します。 「謙虚さ」が新たな学習となるにつれ、AIエコシステムはスコア重視から信頼重視へと移行しています。 関連レポート:ETHが3600ドルを突破! ブラックロックはイーサリアムETFで誓約申請書を提出し、LDOは20%急騰 ブラックロックビットコインETF「IBIT」はすべての資金を上回り、10倍大きいS&P 500 ETFもXRPを稼ぎ、USDTを追い越して時価総額で3番目に大きい暗号通貨になりました! しかし、流動性の95%は利益ゾーンにあり、3ドルは長短の生涯と死のラインにソラナは表面的な繁栄しか持っていませんか? トークンが舞台裏の操作だけで上昇すると、オンチェーンサイクルが終わった可能性があります(OpenAIはAIの錯覚がある理由を説明していますか? 評価の神話を変えるための3つの解決策」この記事は、BlockTempoの「Dynamic Trend - The Most Influential Blockchain News Media」に最初に掲載されました。