A última iteração do Grok acabou de apresentar alguns números interessantes. A versão 4.1 Fast com capacidades de raciocínio atingiu 93.5 no benchmark Extended NYT Connections—um sólido aumento de 1.4 pontos em relação ao modelo anterior 4 Fast Reasoning que marcou 92.1.

Entretanto, a variante não raciocinadora do 4.1 Fast registou 25.8, que é quase um ponto inteiro acima dos 24.9 do seu predecessor. Ganhos incrementais, mas somam-se quando você está a pressionar os limites de desempenho.

O que vale a pena notar aqui? O modelo de raciocínio continua a dominar—há ainda uma enorme diferença entre os modos de raciocínio e não raciocínio. A divisão de 93,5 contra 25,8 diz-lhe onde a potência computacional realmente importa.

Ver original

Esta página pode conter conteúdo de terceiros, que é fornecido apenas para fins informativos (não para representações/garantias) e não deve ser considerada como um endosso de suas opiniões pela Gate nem como aconselhamento financeiro ou profissional. Consulte a Isenção de responsabilidade para obter detalhes.

8 Curtidas

Recompensa
8
4
Repostar
Compartilhar

Comentário

0/400

ThatsNotARugPull

· 9h atrás

grok está novamente atualizando os dados, mas aquele gap é realmente absurdo, 93.5 contra 25.8 é uma diferença colossal. Pode explicar por que a versão não-reasoning é tão inferior?

Ver originalResponder0

GateUser-e51e87c7

· 9h atrás

93.5 pontos parecem bons, mas não há nada de muito surpreendente. A diferença tão grande entre raciocínio e não raciocínio é porque o poder de computação é diferente, certo...

Ver originalResponder0

BearHugger