إكمال جميع مهام الإنسان، أعلى نسبة ذكاء اصطناعي 0.37%: ARC-AGI-3 يقيس ذكاء الوكيل الحقيقي باستخدام "لعبة غير معروفة"

BlockBeatNews

وفقًا لمراقبة 1M AI News، أصدر مؤسسة ARC Prize غير الربحية التي أسسها فرانسوا شوليه، مؤسس Keras، وشريك مؤسس Zapier، مايك كنوب، اختبار معيار ARC-AGI-3. على عكس مهمات الاستنتاج الثابتة في الجيلين السابقين، فإن ARC-AGI-3 هو مجموعة من البيئات التفاعلية ذات الجولة، حيث يتحرك الوكيل في عالم شبكي مكون من 64×64، ملون بـ16 لونًا، دون تلقي أي تعليمات أو مؤشرات هدف، ويجب أن يستكشف البيئة بشكل مستقل، ويستنتج القواعد وشروط الفوز، ويبني نموذجًا للعالم ويخطط تسلسل الأفعال.

يتم تقييم الأداء باستخدام آلية “كفاءة الحركة”، حيث كلما قل عدد الخطوات اللازمة لإكمال نفس المستوى، زادت الدرجة، وذلك لتمييز القدرة على الاستنتاج الحقيقي عن الحشو العشوائي. كل بيئة تم اختبارها بواسطة البشر، وتأكد أنها يمكن أن ينجح فيها الإنسان عند أول محاولة بنسبة 100%. أعلى نتائج نماذج الذكاء الاصطناعي حتى تاريخ الإصدار كانت كالتالي:

  1. جوجل Gemini 3.1 Pro Preview: 0.37%
  2. OpenAI GPT 5.4 (High): 0.26%
  3. Anthropic Opus 4.6 (Max): 0.25%
  4. xAI Grok-4.20 (Beta): 0.00%

يرجع جزء من إصدار النسخة الجديدة إلى المخاوف من أن المعايير السابقة قد تم “تلويثها”. وأشارت الورقة البحثية إلى أن Gemini 3 استخدم تلقائيًا علاقة التعيين بين الألوان والأعداد في ARC-AGI (مثل “3 = أخضر”) أثناء سلسلة الاستنتاج، على الرغم من أن ذلك لم يُذكر في التعليمات، مما يوحي بقوة أن بيانات تدريب النموذج قد غطت بشكل كافٍ مهام ARC-AGI. يهدف ARC-AGI-3 إلى مقاومة مثل هذه الاختصارات في الذاكرة من خلال بيئة تفاعلية وآلية اكتشاف الأهداف الذاتية. ويبلغ إجمالي جوائز مسابقة ARC Prize 2026 أكثر من مليوني دولار.

شاهد النسخة الأصلية
إخلاء المسؤولية: قد تكون المعلومات الواردة في هذه الصفحة من مصادر خارجية ولا تمثل آراء أو مواقف Gate. المحتوى المعروض في هذه الصفحة هو لأغراض مرجعية فقط ولا يشكّل أي نصيحة مالية أو استثمارية أو قانونية. لا تضمن Gate دقة أو اكتمال المعلومات، ولا تتحمّل أي مسؤولية عن أي خسائر ناتجة عن استخدام هذه المعلومات. تنطوي الاستثمارات في الأصول الافتراضية على مخاطر عالية وتخضع لتقلبات سعرية كبيرة. قد تخسر كامل رأس المال المستثمر. يرجى فهم المخاطر ذات الصلة فهمًا كاملًا واتخاذ قرارات مدروسة بناءً على وضعك المالي وقدرتك على تحمّل المخاطر. للتفاصيل، يرجى الرجوع إلى إخلاء المسؤولية.
تعليق
0/400
لا توجد تعليقات