掃描下載 Gate App
qrCode
更多下載方式
今天不再提醒

Grok最新版本降低了一些有趣的數字。具有推理能力的4.1快速版本在擴展版NYT連接基準測試中達到了93.5,比之前的4快速推理模型提高了1.4點,後者得分爲92.1。



與此同時,4.1 Fast 的非推理變體達到了 25.8,幾乎比其前身的 24.9 高出整整一個點。增量收益,但當你推動性能極限時,它們會累加起來。

這裏值得注意的是什麼?推理模型仍然佔主導地位——推理模式和非推理模式之間仍然存在巨大的差距。93.5與25.8的分裂告訴你計算能力真正重要的地方。
查看原文
此頁面可能包含第三方內容,僅供參考(非陳述或保證),不應被視為 Gate 認可其觀點表述,也不得被視為財務或專業建議。詳見聲明
  • 讚賞
  • 4
  • 轉發
  • 分享
留言
0/400
ThatsNotARugPullvip
· 5小時前
grok又在刷數據,但那gap也太離譜了,93.5對25.8屬實天差地別,能explain一下爲啥非reasoning版本差這麼多嗎?
查看原文回復0
GateUser-e51e87c7vip
· 5小時前
93.5分看起來不錯但也沒啥大驚喜,reasoning vs非reasoning差那麼大是因爲算力堆得不一樣吧...
查看原文回復0
BearHuggervip
· 5小時前
93.5分又咋樣,咱還是得看實戰啊
查看原文回復0
Gas1FeeCriervip
· 5小時前
reasoning模式和非reasoning那個差距,93.5比25.8...這差到離譜啊,感覺非reasoning根本沒卵用
查看原文回復0
交易,隨時隨地
qrCode
掃碼下載 Gate App
社群列表
繁體中文
  • 简体中文
  • English
  • Tiếng Việt
  • 繁體中文
  • Español
  • Русский
  • Français (Afrique)
  • Português (Portugal)
  • Bahasa Indonesia
  • 日本語
  • بالعربية
  • Українська
  • Português (Brasil)