Последняя итерация Grok показала интересные результаты. Версия 4.1 Fast с возможностями рассуждения набрала 93.5 по расширенному бенчмарку NYT Connections — это солидный рост на 1.4 пункта по сравнению с предыдущей моделью 4 Fast Reasoning, которая набрала 92.1.

Тем временем, нерассуждающий вариант 4.1 Fast зафиксировал 25.8, что почти на целый пункт выше, чем 24.9 его предшественника. Постепенные приросты, но они складываются, когда вы стремитесь к пределам производительности.

Что здесь стоит отметить? Модель рассуждений продолжает доминировать — по-прежнему существует огромный разрыв между режимами рассуждений и нерссуждений. Это разделение 93.5 против 25.8 говорит о том, где действительно важна вычислительная мощность.

Посмотреть Оригинал

На этой странице может содержаться сторонний контент, который предоставляется исключительно в информационных целях (не в качестве заявлений/гарантий) и не должен рассматриваться как поддержка взглядов компании Gate или как финансовый или профессиональный совет. Подробности смотрите в разделе «Отказ от ответственности» .

8 Лайков

Награда
8
4
Репост
Поделиться

комментарий

0/400

ThatsNotARugPull

· 4ч назад

grok снова обновляет данные, но этот разрыв слишком абсурден, 93.5 против 25.8 - это действительно небо и земля. Можешь объяснить, почему версия без reasoning так сильно отличается?

Посмотреть ОригиналОтветить0

GateUser-e51e87c7

· 4ч назад

93.5 балла выглядит неплохо, но и нет больших сюрпризов. Разница между reasoning и не reasoning так велика, потому что вычислительная мощность накапливается по-разному...

Посмотреть ОригиналОтветить0

BearHugger