Según la monitorización de 1M AI News, la fundación sin fines de lucro ARC Prize, creada por François Chollet, fundador de Keras, y Mike Knoop, cofundador de Zapier, ha publicado la prueba de referencia ARC-AGI-3. A diferencia de las tareas de razonamiento en malla estática de las generaciones anteriores, ARC-AGI-3 es un conjunto de entornos interactivos por turnos, donde el agente actúa en un mundo de malla de 64×64 con 16 colores, sin recibir instrucciones ni indicaciones de objetivos, y debe explorar el entorno de forma autónoma, inferir las reglas y condiciones de victoria, construir un modelo del mundo y planificar la secuencia de acciones.
La puntuación se basa en un mecanismo de “eficiencia en las acciones”, donde menos pasos para completar un mismo nivel significa una puntuación más alta, diferenciando la verdadera capacidad de razonamiento de la búsqueda exhaustiva. Cada entorno ha sido calibrado con pruebas humanas, confirmando que puede ser completado por humanos en su primera interacción. Las puntuaciones de los modelos de IA más avanzados hasta la publicación son:
La introducción de esta nueva versión responde en parte a preocupaciones sobre la “contaminación” de las pruebas anteriores. El documento señala que Gemini 3 utilizó automáticamente en su cadena de razonamiento la relación de mapeo entre números y colores de ARC-AGI (por ejemplo, “3 = verde”), aunque en las instrucciones nunca se mencionó dicho mapeo, lo que sugiere fuertemente que los datos de entrenamiento del modelo cubrían ampliamente las tareas de ARC-AGI. ARC-AGI-3 está diseñado para resistir este tipo de atajos de memoria mediante entornos interactivos y mecanismos de descubrimiento de objetivos autónomos. La competencia ARC Prize 2026 ofrece un premio total superior a 2 millones de dólares.