La dernière itération de Grok a juste Goutté des chiffres intéressants. La version 4.1 Fast avec des capacités de raisonnement a atteint 93.5 sur le benchmark Extended NYT Connections - une solide augmentation de 1.4 points par rapport au modèle précédent 4 Fast Reasoning qui a marqué 92.1.
Pendant ce temps, la variante non raisonnée de 4.1 Fast a enregistré 25.8, ce qui est presque un point complet plus élevé que le 24.9 de son prédécesseur. Des gains incrémentaux, mais ils s'accumulent lorsque vous poussez les limites de performance.
Qu'est-ce qui vaut la peine d'être noté ici ? Le modèle de raisonnement continue de dominer - il y a toujours un écart massif entre les modes de raisonnement et les modes non raisonnants. Cette répartition de 93,5 contre 25,8 vous indique où la puissance de calcul compte vraiment.
Voir l'original
Cette page peut inclure du contenu de tiers fourni à des fins d'information uniquement. Gate ne garantit ni l'exactitude ni la validité de ces contenus, n’endosse pas les opinions exprimées, et ne fournit aucun conseil financier ou professionnel à travers ces informations. Voir la section Avertissement pour plus de détails.
8 J'aime
Récompense
8
4
Reposter
Partager
Commentaire
0/400
ThatsNotARugPull
· Il y a 10h
grok est encore en train de traiter des données, mais cet écart est vraiment absurde, 93.5 contre 25.8 est en effet un monde de différence. Peux-tu expliquer pourquoi la version non reasoning est si différente ?
Voir l'originalRépondre0
GateUser-e51e87c7
· Il y a 10h
93,5 points semblent bons mais il n'y a pas vraiment de grande surprise, la différence entre le raisonnement et le non-raisonnement est probablement due à la Puissance de calcul qui est différente...
Voir l'originalRépondre0
BearHugger
· Il y a 10h
93,5 points, et alors ? Il faut quand même regarder la pratique.
Voir l'originalRépondre0
GasFeeCrier
· Il y a 10h
la différence entre le mode de raisonnement et le non-raisonnement, 93,5 contre 25,8... c'est tellement démesuré, j'ai l'impression que le non-raisonnement est complètement inutile
La dernière itération de Grok a juste Goutté des chiffres intéressants. La version 4.1 Fast avec des capacités de raisonnement a atteint 93.5 sur le benchmark Extended NYT Connections - une solide augmentation de 1.4 points par rapport au modèle précédent 4 Fast Reasoning qui a marqué 92.1.
Pendant ce temps, la variante non raisonnée de 4.1 Fast a enregistré 25.8, ce qui est presque un point complet plus élevé que le 24.9 de son prédécesseur. Des gains incrémentaux, mais ils s'accumulent lorsque vous poussez les limites de performance.
Qu'est-ce qui vaut la peine d'être noté ici ? Le modèle de raisonnement continue de dominer - il y a toujours un écart massif entre les modes de raisonnement et les modes non raisonnants. Cette répartition de 93,5 contre 25,8 vous indique où la puissance de calcul compte vraiment.