A última iteração do Grok acabou de apresentar alguns números interessantes. A versão 4.1 Fast com capacidades de raciocínio atingiu 93.5 no benchmark Extended NYT Connections—um sólido aumento de 1.4 pontos em relação ao modelo anterior 4 Fast Reasoning que marcou 92.1.
Entretanto, a variante não raciocinadora do 4.1 Fast registou 25.8, que é quase um ponto inteiro acima dos 24.9 do seu predecessor. Ganhos incrementais, mas somam-se quando você está a pressionar os limites de desempenho.
O que vale a pena notar aqui? O modelo de raciocínio continua a dominar—há ainda uma enorme diferença entre os modos de raciocínio e não raciocínio. A divisão de 93,5 contra 25,8 diz-lhe onde a potência computacional realmente importa.
Ver original
Esta página pode conter conteúdo de terceiros, que é fornecido apenas para fins informativos (não para representações/garantias) e não deve ser considerada como um endosso de suas opiniões pela Gate nem como aconselhamento financeiro ou profissional. Consulte a Isenção de responsabilidade para obter detalhes.
8 Curtidas
Recompensa
8
4
Repostar
Compartilhar
Comentário
0/400
ThatsNotARugPull
· 9h atrás
grok está novamente atualizando os dados, mas aquele gap é realmente absurdo, 93.5 contra 25.8 é uma diferença colossal. Pode explicar por que a versão não-reasoning é tão inferior?
Ver originalResponder0
GateUser-e51e87c7
· 9h atrás
93.5 pontos parecem bons, mas não há nada de muito surpreendente. A diferença tão grande entre raciocínio e não raciocínio é porque o poder de computação é diferente, certo...
Ver originalResponder0
BearHugger
· 9h atrás
93,5 pontos e daí? Precisamos ver a prática.
Ver originalResponder0
GasFeeCrier
· 9h atrás
a diferença entre o modo reasoning e o não reasoning, 93.5 contra 25.8... é uma diferença absurda, parece que o não reasoning não serve para nada.
A última iteração do Grok acabou de apresentar alguns números interessantes. A versão 4.1 Fast com capacidades de raciocínio atingiu 93.5 no benchmark Extended NYT Connections—um sólido aumento de 1.4 pontos em relação ao modelo anterior 4 Fast Reasoning que marcou 92.1.
Entretanto, a variante não raciocinadora do 4.1 Fast registou 25.8, que é quase um ponto inteiro acima dos 24.9 do seu predecessor. Ganhos incrementais, mas somam-se quando você está a pressionar os limites de desempenho.
O que vale a pena notar aqui? O modelo de raciocínio continua a dominar—há ainda uma enorme diferença entre os modos de raciocínio e não raciocínio. A divisão de 93,5 contra 25,8 diz-lhe onde a potência computacional realmente importa.