Grok'un en son yinelemesi bazı ilginç rakamlar açıkladı. Akıl yürütme yeteneklerine sahip 4.1 Fast versiyonu, Genişletilmiş NYT Bağlantıları benchmark'ında 93.5 puana ulaştı - önceki 4 Fast Reasoning modelinden 1.4 puanlık sağlam bir artışla, bu model 92.1 puan almıştı.
Bu arada, 4.1 Hızlı'nın mantıksız versiyonu 25.8 olarak ölçüldü, bu da selefinin 24.9'unun neredeyse bir tam puan daha yüksek. Artan kazançlar, ancak performans sınırlarını zorladığınızda birikir.
Burada kayda değer olan nedir? Akıl yürütme modeli hâlâ baskın durumda - akıl yürütme ve akıl yürütme olmayan modlar arasında hâlâ büyük bir fark var. O 93.5'e karşı 25.8'lik dağılım, hesaplama gücünün gerçekten nerede önemli olduğunu size gösterir.
View Original
This page may contain third-party content, which is provided for information purposes only (not representations/warranties) and should not be considered as an endorsement of its views by Gate, nor as financial or professional advice. See Disclaimer for details.
8 Likes
Reward
8
4
Repost
Share
Comment
0/400
ThatsNotARugPull
· 8h ago
grok yine veri güncellemeleri yapıyor ama o boşluk gerçekten çok abartılı, 93.5 ile 25.8 arasında gerçekten gökyüzü ile yer arasında bir fark var, neden reasoning versiyonunun bu kadar farklı olduğunu açıklayabilir misin?
View OriginalReply0
GateUser-e51e87c7
· 8h ago
93.5 puan iyi görünüyor ama büyük bir sürpriz yok, reasoning ile non-reasoning arasındaki fark bu kadar büyük çünkü bilgi işlem gücü farklı birikmiş durumda...
View OriginalReply0
BearHugger
· 8h ago
93.5 puan ne dersek diyelim, yine de pratikte görmek lazım.
View OriginalReply0
GasFeeCrier
· 8h ago
reasoning modu ile non-reasoning arasındaki fark, 93.5'e 25.8... bu, uçurum gibi bir fark, non-reasoning'in hiç bir işe yaramadığı hissine kapılıyorum.
Grok'un en son yinelemesi bazı ilginç rakamlar açıkladı. Akıl yürütme yeteneklerine sahip 4.1 Fast versiyonu, Genişletilmiş NYT Bağlantıları benchmark'ında 93.5 puana ulaştı - önceki 4 Fast Reasoning modelinden 1.4 puanlık sağlam bir artışla, bu model 92.1 puan almıştı.
Bu arada, 4.1 Hızlı'nın mantıksız versiyonu 25.8 olarak ölçüldü, bu da selefinin 24.9'unun neredeyse bir tam puan daha yüksek. Artan kazançlar, ancak performans sınırlarını zorladığınızda birikir.
Burada kayda değer olan nedir? Akıl yürütme modeli hâlâ baskın durumda - akıl yürütme ve akıl yürütme olmayan modlar arasında hâlâ büyük bir fark var. O 93.5'e karşı 25.8'lik dağılım, hesaplama gücünün gerçekten nerede önemli olduğunu size gösterir.