O modelo de raciocínio open source Trinity-Large-Thinking da Arcee nos EUA, que afirma aproximar-se do Opus 4.6 e ser 96% mais barato

動區BlockTempo

A nova empresa de IA dos EUA Arcee lançou o modelo de inferência open source Trinity-Large-Thinking, que obteve 91,9 no benchmark de capacidades para agentes PinchBench, apenas atrás dos 93,3 do Opus 4,6. No benchmark de tarefas do agente Tau2-Airline, conseguiu ainda 88,0, ficando com a melhor pontuação entre todos os modelos comparados. O modelo utiliza uma arquitectura de mistura de especialistas esparsos com 400B; o preço da API é $0,90 por milhão de tokens de saída, cerca de 96% mais barato do que o Opus 4,6. Os pesos estão disponíveis para download aberto com licença Apache 2.0. Compilado e reportado pelo Dongqu Dongqu.
(Antecedentes: análise da OpenRouter de relatórios sobre 100 biliões de tokens: afinal, o que é que a humanidade usa a IA para fazer; a ascensão dos modelos chineses e os segredos da retenção dos utilizadores)
(Informação adicional: Claude Opus 4.6 chegou: escrever o teu compilador, fazer PowerPoints, e ainda descobrir, sem esforço, 500 vulnerabilidades zero-day — o teu trabalho… ele também quer experimentá-lo).

A Arcee, uma startup de IA nos EUA com menos de cem empregados, entregou no ranking de capacidades de agentes uma pontuação muito próxima da do modelo de topo da Anthropic — e com um preço que é apenas 4% do dela.

No passado, esta empresa não era uma área muito acompanhada pelos holofotes do mercado, mas o seu mais recente lançamento, o Trinity-Large-Thinking, já se colocou no grupo da frente em vários cenários de benchmark para agentes.

O PinchBench, desenvolvido pela Kilo, é actualmente um indicador importante na indústria para avaliar, em prática, a capacidade dos modelos em fluxos de trabalho de agentes. Neste teste, o Trinity-Large-Thinking obteve 91,9, enquanto o actual rei da categoria, o Opus 4,6, tem 93,3; a diferença é apenas 1,4%.

Noutro benchmark que simula um cenário real de apoio ao cliente, o Tau2-Airline, ele obteve ainda 88,0, acima de todos os modelos que participaram na comparação. Isto significa que, nas tarefas reais de agentes que exigem várias rondas de conversa e consulta repetida a ferramentas, este modelo open source tem efectivamente um nível muito elevado.

Já a tabela de preços da API da Arcee é de $0,90 por milhão de tokens de saída; a empresa afirma oficialmente que é cerca de 96% mais barato do que o Opus 4,6. Para cenários em que é preciso que o agente execute automaticamente por longos períodos e vá consumindo tokens continuamente, a diferença de custos poderá ser mais significativa do que a diferença de pontuações do modelo.

400B de parâmetros totais; em cada inferência, só “queima” 13B

De acordo com o blogue oficial da Arcee AI, a chave para obter este valor-preço está na escolha da arquitectura. O Trinity-Large-Thinking usa um desenho MoE esparso (mistura de especialistas): inclui 256 módulos de especialistas, mas, ao processar tokens, só activa 4 deles de cada vez. Ao fazer as contas, embora o modelo grande tenha 400B, na inferência prática só é necessário o encargo computacional correspondente a 13B; a eficiência de execução é aproximadamente 2-3 vezes superior à de modelos densos do mesmo patamar.

Comparado com o antecessor Preview, lançado no fim de Janeiro deste ano, a maior actualização é a adição de uma cadeia de raciocínio para inferência (reasoning thinking chain).

O Preview fazia apenas afinação por instruções; nesta versão Thinking, antes de responder, o modelo “pensa” — melhorando claramente a estabilidade na chamada de ferramentas multi-ronda e a coerência em contextos longos. A própria Arcee é muito directa: este modelo foi concebido para não colapsar durante ciclos de agentes de longa duração.

Todo o modelo base foi treinado com 20 milhões de dólares e em 33 dias; o pós-treino da versão Thinking demorou mais 9 meses a ser refinado.

O CEO da Arcee, Lucas Atkins, escreveu no texto do lançamento: “Getting here took difficult technical work, hard calls…Nobody did that. They kept pushing.”

O raciocínio geral não é o seu terreno

Naturalmente, ser especializado em agentes também implica concessões. No benchmark de raciocínio geral, o desempenho do Trinity-Large-Thinking não é tão impressionante. O GPQA-D obteve 76,3, enquanto o Kimi K2,5 tem 86,9 e o Opus 4,6 tem 89,2; a diferença é de, respectivamente, 10 e 13 pontos percentuais. O MMLU-Pro com 83,4 também fica no fundo entre os modelos comparados.

Mas parece que a Arcee não está disposta a competir “a sério” neste sentido; a empresa afirma que “o Trinity-Large-Thinking é o modelo open source mais forte fora da China em muitas dimensões”, e já indicou que os seus adversários não são o Opus ou o GPT, mas sim o ecossistema open source chinês, como DeepSeek e Kimi.

O Trinity-Large-Thinking já foi disponibilizado na OpenRouter; nos primeiros 5 dias, pode ser utilizado gratuitamente no OpenClaw. O Preview anterior também continuará a ser disponibilizado gratuitamente.

Falando do Preview da versão anterior: desde que entrou em serviço no fim de Janeiro, na plataforma OpenRouter acumulou mais de 3,37 biliões de tokens processados. Nos dados do OpenClaw, trata-se do modelo open source número um por utilização nos EUA e em 4.º lugar a nível global. Para uma startup de menor dimensão, esta taxa de adopção já provou que ele é barato e fácil de usar — e que existe procura no mercado.

Os pesos do modelo estão publicados no Hugging Face ao abrigo da licença Apache 2.0, pelo que qualquer pessoa pode descarregar, modificar e fazer deploy para uso comercial.

Isenção de responsabilidade: As informações contidas nesta página podem ser provenientes de terceiros e não representam os pontos de vista ou opiniões da Gate. O conteúdo apresentado nesta página é apenas para referência e não constitui qualquer aconselhamento financeiro, de investimento ou jurídico. A Gate não garante a exatidão ou o carácter exaustivo das informações e não poderá ser responsabilizada por quaisquer perdas resultantes da utilização destas informações. Os investimentos em ativos virtuais implicam riscos elevados e estão sujeitos a uma volatilidade de preços significativa. Pode perder todo o seu capital investido. Compreenda plenamente os riscos relevantes e tome decisões prudentes com base na sua própria situação financeira e tolerância ao risco. Para mais informações, consulte a Isenção de responsabilidade.
Comentar
0/400
Nenhum comentário