Grok最新版本降低了一些有趣的數字。具有推理能力的4.1快速版本在擴展版NYT連接基準測試中達到了93.5，比之前的4快速推理模型提高了1.4點，後者得分爲92.1。

與此同時，4.1 Fast 的非推理變體達到了 25.8，幾乎比其前身的 24.9 高出整整一個點。增量收益，但當你推動性能極限時，它們會累加起來。

這裏值得注意的是什麼？推理模型仍然佔主導地位——推理模式和非推理模式之間仍然存在巨大的差距。93.5與25.8的分裂告訴你計算能力真正重要的地方。

查看原文

此頁面可能包含第三方內容，僅供參考（非陳述或保證），不應被視為 Gate 認可其觀點表述，也不得被視為財務或專業建議。詳見聲明。

8人點讚了這條動態

留言

0/400

ThatsNotARugPull

· 5小時前

grok又在刷數據，但那gap也太離譜了，93.5對25.8屬實天差地別，能explain一下爲啥非reasoning版本差這麼多嗎？

查看原文回復0

GateUser-e51e87c7

· 5小時前

93.5分看起來不錯但也沒啥大驚喜，reasoning vs非reasoning差那麼大是因爲算力堆得不一樣吧...

查看原文回復0

BearHugger

· 5小時前

93.5分又咋樣，咱還是得看實戰啊

查看原文回復0

Gas1FeeCrier

· 5小時前

reasoning模式和非reasoning那個差距，93.5比25.8...這差到離譜啊，感覺非reasoning根本沒卵用

查看原文回復0