في عالم مسابقات الخوارزمية، القواعد واضحة، والقيود صارمة، والتقييم لا يرحم.



@SentientAGI أصدرت LiveCodeBench Pro، التي نقلت هذه البيئة البرمجية الحقيقية بالكامل إلى نظام تقييم النماذج، وتم قبولها رسميًا من قبل @NeurIPSConf.

هذا النظام أعاد تعريف مفهوم "النموذج يكتب الكود".
تغطية عملية التقييم لمسار استدلال الخوارزمية الكامل: قراءة السؤال، تصميم الخطة، إنشاء الشيفرة، التجميع والتنفيذ، اجتياز الاختبارات المخفية.
تعمل كل مرحلة في بيئة Docker موحدة، حيث يتم الالتزام الصارم بمعايير المسابقة الأصلية فيما يتعلق بالوقت والذاكرة.

تستخدم التقييمات التقليدية غالبًا شروطًا مرنة ومجموعة أسئلة متكررة، مما يجعل نتائج النموذج تبدو مثيرة للإعجاب، لكنها صعبة التكرار.
LiveCodeBench Pro يستخرج أحدث الأسئلة مباشرة من المسابقات الحقيقية، ويثبت القيود في ذلك الوقت، ويضيف مرحلة hack بأسلوب Codeforces واختبار fuzz الداخلي.
نتائج التقييم خضعت للاختبار والتحقق بشكل كافٍ، مما يعكس القدرة الحقيقية للخوارزمية للنموذج وأداء تنفيذ الشيفرة.

تبدأ العملية بأكملها من نهاية المباراة: يقوم النظام تلقائيًا بانتزاع موضوع السؤال، مولد الإدخال ومنطق التقييم، ثم يقوم بتجميد قيود الأصل.
يجب أن يكمل النموذج حل المشكلة بالكامل ضمن الموارد المحدودة، ويولد برنامج C++ قابل للتجميع، ويخضع لاختبارات مخفية في بيئة موحدة.
كل تشغيل ينتج سجلًا كاملًا، واستهلاك الوقت، واستخدام الذاكرة، ومعلومات التجميع، ونتائج التقييم، مما يوفر أساسًا كاملاً للتحليل اللاحق.

مصدر المهمة يغطي العديد من منصات المسابقات الموثوقة:

- كود فورس يستمر في تقديم مجموعة متنوعة من أحدث الأسئلة؛
- ICPC تجسد تصميم وتنفيذ الخوارزمية السريعة تحت التعاون الجماعي؛
- IOI تقدم تحديات على مستوى الأولمبياد تستهدف هيكلة وتعقيد التحكم.

تستخدم صعوبة الموضوع نظام تصنيف ديناميكي مشابه لنظام إيلو:
≤2000 يعتبر سهل، 2000–3000 يعتبر متوسط، >3000 يعتبر صعب.
ستتغير درجات الصعوبة بناءً على سجلات حل المشكلات من قبل البشر والنماذج بشكل فوري، لضمان أن تكون نتائج التقييم قابلة للمقارنة وموثوقة في أوقات مختلفة.

يدعم LiveCodeBench Pro التكرار المحلي والمقارنة العامة.
ما عليك سوى استنساخ المستودع، وتثبيت Python 3.12 و Docker، وتكوين محول النموذج، لتتمكن من تشغيل التقييم بالكامل محليًا.
تستخدم النتائج المحلية نفس بيئة التحكيم ومجموعة البيانات مثل القائمة العامة، مما يضمن إمكانية المطابقة المباشرة بين الدرجات.

في كل مرة يتم فيها التشغيل، يتم إنشاء ملف JSON منظم، يسجل الحكم على كل سؤال، ووقت التشغيل، واستخدام الذاكرة، وعلامات الفشل، مما يسهل على فريق البحث تحديد مصدر المشكلة بعمق.
تظهر هذه البيانات نقاط الضعف المحددة للنموذج في المنطق بعيد المدى، واستراتيجيات البحث، والتحكم في التعقيد، أو تصميم هياكل البيانات، مما يوفر اتجاهًا واضحًا للتحسين.

في مرحلة السعي المتكرر لتحقيق درجات عالية وتقنيات التلميح في النماذج التوليدية، تقدم LiveCodeBench Pro مرجعًا نظيفًا.
إنه يعيد القدرة على الخوارزمية إلى السياق الحقيقي، مما يجعل النموذج يواجه نفس القواعد والضغوط التي يواجهها المبرمجون البشريون.
هذه اختبار يتعلق بالمنطق والتنفيذ، وهو أيضًا مرآة واضحة تعكس الحدود الحقيقية للنموذج في فهم البرمجة.

LiveCodeBench Pro تعيد الكود إلى عالم القواعد، وتعيد التقييم إلى واقع يمكن التحقق منه.

#KAITO #cookiedotfun #SentientAGI #Sentient
شاهد النسخة الأصلية
post-image
قد تحتوي هذه الصفحة على محتوى من جهات خارجية، يتم تقديمه لأغراض إعلامية فقط (وليس كإقرارات/ضمانات)، ولا ينبغي اعتباره موافقة على آرائه من قبل Gate، ولا بمثابة نصيحة مالية أو مهنية. انظر إلى إخلاء المسؤولية للحصول على التفاصيل.
  • أعجبني
  • تعليق
  • إعادة النشر
  • مشاركة
تعليق
0/400
لا توجد تعليقات
  • Gate Fun الساخنعرض المزيد
  • القيمة السوقية:$1.4Mعدد الحائزين:4825
  • القيمة السوقية:$1.2Mعدد الحائزين:5153
  • القيمة السوقية:$614Kعدد الحائزين:118
  • القيمة السوقية:$136.3Kعدد الحائزين:380
  • القيمة السوقية:$94.8Kعدد الحائزين:2204
  • تثبيت