A última iteração do Grok acabou de apresentar alguns números interessantes. A versão 4.1 Fast com capacidades de raciocínio atingiu 93.5 no benchmark Extended NYT Connections—um sólido aumento de 1.4 pontos em relação ao modelo anterior 4 Fast Reasoning que marcou 92.1.
Entretanto, a variante não raciocinadora do 4.1 Fast registou 25.8, que é quase um ponto inteiro acima dos 24.9 do seu predecessor. Ganhos incrementais, mas somam-se quando você está a pressionar os limites de desempenho.
O que vale a pena notar aqui? O modelo de raciocínio continua a dominar—há ainda uma enorme diferença entre os modos de raciocínio e não raciocínio. A divisão de 93,5 contra 25,8 diz-lhe onde a potência computacional realmente importa.
Ver original
Esta página pode conter conteúdos de terceiros, que são fornecidos apenas para fins informativos (sem representações/garantias) e não devem ser considerados como uma aprovação dos seus pontos de vista pela Gate, nem como aconselhamento financeiro ou profissional. Consulte a Declaração de exoneração de responsabilidade para obter mais informações.
8 gostos
Recompensa
8
4
Republicar
Partilhar
Comentar
0/400
ThatsNotARugPull
· 4h atrás
grok está novamente atualizando os dados, mas aquele gap é realmente absurdo, 93.5 contra 25.8 é uma diferença colossal. Pode explicar por que a versão não-reasoning é tão inferior?
Ver originalResponder0
GateUser-e51e87c7
· 4h atrás
93.5 pontos parecem bons, mas não há nada de muito surpreendente. A diferença tão grande entre raciocínio e não raciocínio é porque o poder de computação é diferente, certo...
Ver originalResponder0
BearHugger
· 4h atrás
93,5 pontos e daí? Precisamos ver a prática.
Ver originalResponder0
GasFeeCrier
· 4h atrás
a diferença entre o modo reasoning e o não reasoning, 93.5 contra 25.8... é uma diferença absurda, parece que o não reasoning não serve para nada.
A última iteração do Grok acabou de apresentar alguns números interessantes. A versão 4.1 Fast com capacidades de raciocínio atingiu 93.5 no benchmark Extended NYT Connections—um sólido aumento de 1.4 pontos em relação ao modelo anterior 4 Fast Reasoning que marcou 92.1.
Entretanto, a variante não raciocinadora do 4.1 Fast registou 25.8, que é quase um ponto inteiro acima dos 24.9 do seu predecessor. Ganhos incrementais, mas somam-se quando você está a pressionar os limites de desempenho.
O que vale a pena notar aqui? O modelo de raciocínio continua a dominar—há ainda uma enorme diferença entre os modos de raciocínio e não raciocínio. A divisão de 93,5 contra 25,8 diz-lhe onde a potência computacional realmente importa.