扫码下载 APP
qrCode
更多下载方式
今天不再提醒

Grok最新版本降低了一些有趣的数字。具有推理能力的4.1快速版本在扩展版NYT连接基准测试中达到了93.5,比之前的4快速推理模型提高了1.4点,后者得分为92.1。



与此同时,4.1 Fast 的非推理变体达到了 25.8,几乎比其前身的 24.9 高出整整一个点。增量收益,但当你推动性能极限时,它们会累加起来。

这里值得注意的是什么?推理模型仍然占主导地位——推理模式和非推理模式之间仍然存在巨大的差距。93.5与25.8的分裂告诉你计算能力真正重要的地方。
查看原文
此页面可能包含第三方内容,仅供参考(非陈述/保证),不应被视为 Gate 认可其观点表述,也不得被视为财务或专业建议。详见声明
  • 赞赏
  • 4
  • 转发
  • 分享
评论
0/400
ThatsNotARugPullvip
· 9小时前
grok又在刷数据,但那gap也太离谱了,93.5对25.8属实天差地别,能explain一下为啥非reasoning版本差这么多吗?
回复0
GateUser-e51e87c7vip
· 9小时前
93.5分看起来不错但也没啥大惊喜,reasoning vs非reasoning差那么大是因为算力堆得不一样吧...
回复0
BearHuggervip
· 9小时前
93.5分又咋样,咱还是得看实战啊
回复0
Gas1FeeCriervip
· 9小时前
reasoning模式和非reasoning那个差距,93.5比25.8...这差到离谱啊,感觉非reasoning根本没卵用
回复0
交易,随时随地
qrCode
扫码下载 Gate App
社群列表
简体中文
  • 简体中文
  • English
  • Tiếng Việt
  • 繁體中文
  • Español
  • Русский
  • Français (Afrique)
  • Português (Portugal)
  • Bahasa Indonesia
  • 日本語
  • بالعربية
  • Українська
  • Português (Brasil)