Cloudflare’s Workers AI platform oficialmente integrou o Kimi K2.5 de Moonshot AI, suportando contexto de 256K, chamadas multi-turn de ferramentas e entrada visual. O agente de auditoria de segurança interno da Cloudflare processa mais de 7 bilhões de tokens por dia, e após a troca, o custo foi reduzido em 77% em relação ao modelo comercial de nível médio.
(Resumindo: Cursor treinou o modelo com Kimi K2.5, mas não divulgou; desenvolvedores capturaram pacotes, deletaram sugestões, e a equipe oficial mudou de direção rapidamente — registros completos)
(Complemento: A Cloudflare, que protege contra crawlers, lançou a API de crawling de site completo com um clique, suportando perfeitamente RAG, atualizações incrementais e treinamento de modelos)
Índice deste artigo
Toggle
A plataforma Workers AI da Cloudflare fez uma grande novidade silenciosamente, segundo o blog oficial da Cloudflare, ao definir o Kimi K2.5 de Moonshot AI como modelo padrão para o SDK de Agents. Engenheiros da Cloudflare também usam esse modelo para tarefas reais de auditoria de segurança, economizando bastante.
Kimi K2.5 é um dos poucos modelos de código aberto que alcançam “padrões de ponta”, suportando janela de contexto de 256K, chamadas multi-turn de ferramentas, entrada visual e saída estruturada. Para tarefas de agentes que exigem raciocínio de textos longos, esses números já são bastante úteis.
Engenheiros da Cloudflare usam o Kimi K2.5 como principal para agentes de programação no ambiente OpenCode, além de implantarem um agente de revisão de código público chamado “Bonk”, integrado a pipelines automatizados.
Mais impressionante ainda é o cenário de auditoria de segurança interno. Esse agente processa mais de 7 bilhões de tokens por dia. Se usasse um modelo comercial padrão, o custo anual seria cerca de 2,4 milhões de dólares; com Kimi K2.5, o custo caiu 77%, economizando quase 1,85 milhões de dólares.
Esse número não é publicidade, é uma conta real divulgada pelos engenheiros da Cloudflare no blog oficial.
Só trocar o modelo não basta; a Cloudflare também lançou três melhorias na plataforma, focadas em reduzir custos e aumentar eficiência em cenários de diálogo prolongado:
A Cloudflare não usou frameworks de inferência prontos, mas desenvolveu seu próprio motor de inferência, o Infire, com núcleo personalizado. Utiliza paralelismo de dados, tensor e especialistas, além de uma arquitetura de processamento de prefixo separada.
Atualmente, Kimi K2.5 é o primeiro grande modelo de inferência lançado na Workers AI, demonstrando a ambição da Cloudflare na infraestrutura de IA, que pode integrar-se à plataforma web e ainda assim ser acessível.