De acordo com a monitorização do 1M AI News, a fundação sem fins lucrativos ARC Prize, fundada por François Chollet, criador do Keras, e Mike Knoop, cofundador da Zapier, lançou o benchmark ARC-AGI-3. Ao contrário das tarefas de raciocínio em grade estática das duas gerações anteriores, o ARC-AGI-3 é um conjunto de ambientes interativos por turnos, onde o Agente atua num mundo de grade de 64×64 com 16 cores, sem receber instruções ou pistas de objetivo, devendo explorar o ambiente de forma autónoma, inferir regras e condições de vitória, construir modelos do mundo e planear sequências de ações.
A pontuação usa o mecanismo de “eficiência de ações”, onde menos passos para completar o mesmo nível resultam numa pontuação mais alta, distinguindo verdadeira capacidade de raciocínio de uma busca exaustiva. Cada ambiente foi calibrado por humanos, confirmando que pode ser completado por humanos na primeira tentativa. As pontuações dos modelos de IA mais avançados até ao momento do lançamento são:
A introdução de uma nova versão deve-se parcialmente a preocupações de que o benchmark anterior foi “contaminado”. O artigo aponta que o Gemini 3 utilizou automaticamente, na cadeia de raciocínio, a relação de mapeamento de cores inteiras do ARC-AGI (por exemplo, “3 = verde”), embora essa relação nunca tenha sido mencionada na prompt, sugerindo fortemente que os dados de treino do modelo cobriam suficientemente as tarefas do ARC-AGI. O ARC-AGI-3 tenta resistir a essas atalhos de memória através de ambientes interativos e mecanismos de descoberta de objetivos autónomos. A competição ARC Prize 2026 oferece um prémio total superior a 2 milhões de dólares.