Остання ітерація Grok тільки що продемонструвала цікаві результати. Швидка версія 4.1 з можливостями міркування отримала 93.5 за розширеним тестом NYT Connections — це солідний стрибок на 1.4 бали від попередньої моделі 4 Fast Reasoning, яка набрала 92.1.
Тим часом, нераціональний варіант 4.1 Fast зафіксував 25.8, що майже на повний пункт вище, ніж 24.9 його попередника. Інкрементні прирости, але вони накопичуються, коли ви перевищуєте межі продуктивності.
Що варто відзначити тут? Модель міркування продовжує домінувати — все ще існує величезний розрив між режимами міркування та неміркування. Це розділення 93.5 проти 25.8 говорить вам, де насправді важлива обчислювальна потужність.
Переглянути оригінал
Ця сторінка може містити контент третіх осіб, який надається виключно в інформаційних цілях (не в якості запевнень/гарантій) і не повинен розглядатися як схвалення його поглядів компанією Gate, а також як фінансова або професійна консультація. Див. Застереження для отримання детальної інформації.
8 лайків
Нагородити
8
4
Репост
Поділіться
Прокоментувати
0/400
ThatsNotARugPull
· 10год тому
grok знову обробляє дані, але ця прогалина занадто абсурдна, 93.5 проти 25.8 дійсно як небо і земля, можеш пояснити, чому версія без reasoning відрізняється так сильно?
Переглянути оригіналвідповісти на0
GateUser-e51e87c7
· 10год тому
93.5 балів виглядає непогано, але й немає нічого особливого, різниця між reasoning та не reasoning така велика, напевно, тому що Обчислювальна потужність накопичена по-іншому...
Переглянути оригіналвідповісти на0
BearHugger
· 10год тому
93.5 балів і що з того, все одно треба дивитися на реальні результати.
Переглянути оригіналвідповісти на0
GasFeeCrier
· 10год тому
різниця між режимом reasoning і не-reasoning, 93.5 проти 25.8... це просто абсурд, відчувається, що не-reasoning взагалі не має сенсу
Остання ітерація Grok тільки що продемонструвала цікаві результати. Швидка версія 4.1 з можливостями міркування отримала 93.5 за розширеним тестом NYT Connections — це солідний стрибок на 1.4 бали від попередньої моделі 4 Fast Reasoning, яка набрала 92.1.
Тим часом, нераціональний варіант 4.1 Fast зафіксував 25.8, що майже на повний пункт вище, ніж 24.9 його попередника. Інкрементні прирости, але вони накопичуються, коли ви перевищуєте межі продуктивності.
Що варто відзначити тут? Модель міркування продовжує домінувати — все ще існує величезний розрив між режимами міркування та неміркування. Це розділення 93.5 проти 25.8 говорить вам, де насправді важлива обчислювальна потужність.