Gateアプリをダウンロードするにはスキャンしてください
qrCode
その他のダウンロードオプション
今日はこれ以上表示しない

Grokの最新のイテレーションは、いくつかの興味深い数字をドロップしました。推論能力を備えた4.1ファストバージョンは、Extended NYT Connectionsベンチマークで93.5を記録しました。これは、92.1をスコアした以前の4ファスト推論モデルから1.4ポイントの堅実なジャンプです。



その間、非推論版の4.1ファストは25.8で、前モデルの24.9よりもほぼ1ポイント高かった。漸進的な向上だが、パフォーマンスの限界を押し上げるときにはそれが積み重なる。

ここで注目すべき点は何ですか?推論モデルが引き続き支配しています—推論モードと非推論モードの間には依然として大きなギャップがあります。その93.5対25.8の割合は、計算能力が本当に重要な場所を示しています。
原文表示
このページには第三者のコンテンツが含まれている場合があり、情報提供のみを目的としております(表明・保証をするものではありません)。Gateによる見解の支持や、金融・専門的な助言とみなされるべきものではありません。詳細については免責事項をご覧ください。
  • 報酬
  • 4
  • リポスト
  • 共有
コメント
0/400
ThatsNotARugPullvip
· 5時間前
grokはまたデータを更新していますが、そのギャップはあまりにも大きいですね。93.5対25.8は本当に天と地の差です。なぜreasoningバージョンがこんなに違うのか、説明してもらえますか?
原文表示返信0
GateUser-e51e87c7vip
· 5時間前
93.5点は見た目は悪くないが、大きな驚きはない。reasoningと非reasoningの差がそんなに大きいのは、コンピューティングパワーの積み重ねが違うからだろう...
原文表示返信0
BearHuggervip
· 6時間前
93.5点はどうでもいい、結局は実戦を見なければならない。
原文表示返信0
GasFeeCriervip
· 6時間前
reasoningモードと非reasoningの違い、93.5対25.8...これがひどすぎる、非reasoningは全く役に立たない感じがする
原文表示返信0
  • ピン