Grok最新版本降低了一些有趣的数字。具有推理能力的4.1快速版本在扩展版NYT连接基准测试中达到了93.5，比之前的4快速推理模型提高了1.4点，后者得分为92.1。

与此同时，4.1 Fast 的非推理变体达到了 25.8，几乎比其前身的 24.9 高出整整一个点。增量收益，但当你推动性能极限时，它们会累加起来。

这里值得注意的是什么？推理模型仍然占主导地位——推理模式和非推理模式之间仍然存在巨大的差距。93.5与25.8的分裂告诉你计算能力真正重要的地方。

查看原文

此页面可能包含第三方内容，仅供参考（非陈述/保证），不应被视为 Gate 认可其观点表述，也不得被视为财务或专业建议。详见声明。

8人点赞了这条动态

0/400

ThatsNotARugPull

· 9小时前

grok又在刷数据，但那gap也太离谱了，93.5对25.8属实天差地别，能explain一下为啥非reasoning版本差这么多吗？

GateUser-e51e87c7

· 9小时前

93.5分看起来不错但也没啥大惊喜，reasoning vs非reasoning差那么大是因为算力堆得不一样吧...

BearHugger

· 9小时前

93.5分又咋样，咱还是得看实战啊

Gas1FeeCrier

· 9小时前

reasoning模式和非reasoning那个差距，93.5比25.8...这差到离谱啊，感觉非reasoning根本没卵用