Dominio total humano, AI máximo 0.37%: ARC-AGI-3 utiliza "juegos desconocidos" para evaluar la verdadera inteligencia del Agente

BlockBeatNews

Según la monitorización de 1M AI News, la fundación sin fines de lucro ARC Prize, creada por François Chollet, fundador de Keras, y Mike Knoop, cofundador de Zapier, ha publicado la prueba de referencia ARC-AGI-3. A diferencia de las tareas de razonamiento en malla estática de las generaciones anteriores, ARC-AGI-3 es un conjunto de entornos interactivos por turnos, donde el agente actúa en un mundo de malla de 64×64 con 16 colores, sin recibir instrucciones ni indicaciones de objetivos, y debe explorar el entorno de forma autónoma, inferir las reglas y condiciones de victoria, construir un modelo del mundo y planificar la secuencia de acciones.

La puntuación se basa en un mecanismo de “eficiencia en las acciones”, donde menos pasos para completar un mismo nivel significa una puntuación más alta, diferenciando la verdadera capacidad de razonamiento de la búsqueda exhaustiva. Cada entorno ha sido calibrado con pruebas humanas, confirmando que puede ser completado por humanos en su primera interacción. Las puntuaciones de los modelos de IA más avanzados hasta la publicación son:

  1. Vista previa de Google Gemini 3.1 Pro: 0.37%
  2. OpenAI GPT 5.4 (High): 0.26%
  3. Anthropic Opus 4.6 (Max): 0.25%
  4. xAI Grok-4.20 (Beta): 0.00%

La introducción de esta nueva versión responde en parte a preocupaciones sobre la “contaminación” de las pruebas anteriores. El documento señala que Gemini 3 utilizó automáticamente en su cadena de razonamiento la relación de mapeo entre números y colores de ARC-AGI (por ejemplo, “3 = verde”), aunque en las instrucciones nunca se mencionó dicho mapeo, lo que sugiere fuertemente que los datos de entrenamiento del modelo cubrían ampliamente las tareas de ARC-AGI. ARC-AGI-3 está diseñado para resistir este tipo de atajos de memoria mediante entornos interactivos y mecanismos de descubrimiento de objetivos autónomos. La competencia ARC Prize 2026 ofrece un premio total superior a 2 millones de dólares.

Ver originales
Aviso legal: La información de esta página puede proceder de terceros y no representa los puntos de vista ni las opiniones de Gate. El contenido que aparece en esta página es solo para fines informativos y no constituye ningún tipo de asesoramiento financiero, de inversión o legal. Gate no garantiza la exactitud ni la integridad de la información y no se hace responsable de ninguna pérdida derivada del uso de esta información. Las inversiones en activos virtuales conllevan riesgos elevados y están sujetas a una volatilidad significativa de los precios. Podrías perder todo el capital invertido. Asegúrate de entender completamente los riesgos asociados y toma decisiones prudentes de acuerdo con tu situación financiera y tu tolerancia al riesgo. Para obtener más información, consulta el Aviso legal.
Comentar
0/400
Sin comentarios