AI2 تطلق وكيل الويب مفتوح المصدر بالكامل MolmoWeb: السيطرة على صفحات الويب بالاعتماد على "الرؤية" فقط

robot
إنشاء الملخص قيد التقدم

مؤسسة أبحاث الذكاء الاصطناعي (AI2) أصدرت مؤخرًا أداة وكيل شبكة مفتوحة المصدر بالكامل تُسمى MolmoWeb. تختلف عن الوكلاء التقليديين الذين يعتمدون على رمز الصفحة الأساسية (DOM)، حيث تعتمد MolmoWeb فقط على قراءة لقطات الشاشة لاتخاذ القرارات، مما يمثل قفزة نوعية في تقنية التوجيه الشبكي “المعتمد على الرؤية”.

التقنية الأساسية: “رؤية” صفحات الويب كما يفعل البشر

آلية عمل MolmoWeb بسيطة جدًا: تلتقط لقطة شاشة للنافذة الحالية للمتصفح، وتحللها بصريًا لتحديد الخطوة التالية (مثل النقر، التمرير، التصفح)، ثم تنفذها وتكرر العملية. هذا النمط “ما تراه هو ما تحصل عليه” يجعلها أكثر مرونة من الوكلاء التقليديين، حيث أن التخطيط البصري للصفحة عادةً ما يكون أكثر استقرارًا من رمز الصفحة الأساسي، كما أن عملية اتخاذ القرار شفافة تمامًا ويمكن تفسيرها من قبل المستخدم البشري.

قفزة في الأداء: نموذج صغير يتفوق على العمالقة

على الرغم من أن حجم معلمات MolmoWeb يقتصر على 4B و8B، إلا أن أداؤه أظهر قدرة “الميزان الصغير الذي يحقق نتائج كبيرة”:

الصدارة في الترتيب: في اختبار WebVoyager، حقق الإصدار 8B درجة تصل إلى 78.2%، مما يجعله من بين أفضل النماذج المفتوحة المصدر، واقترب من النموذج الخاص لـ OpenAI o3 (79.3%).

إمكانات هائلة: أظهرت الدراسات أن تشغيل المهام عدة مرات واختيار النتائج الأفضل يمكن أن يرفع معدل النجاح إلى 94.7%.

دقة التحديد: في اختبار تحديد عناصر واجهة المستخدم (UI)، تفوق حتى على Claude3 من شركة Anthropic.

الدعم بالبيانات: أكبر مجموعة بيانات مفتوحة على الإطلاق

لم تقتصر AI2 على فتح مصدر أوزان النموذج فحسب، بل أضافت أيضًا مجموعة بيانات ضخمة تُسمى MolmoWebMix. تتضمن هذه المجموعة:

  • 36,000 مهمة تصفح حقيقية قام بها متطوعون بشريون.

  • أكثر من 2.2 مليون لقطة شاشة مع أزواج أسئلة وأجوبة.

  • بيانات اصطناعية تم التحقق منها بواسطة GPT-4o. أظهرت التجارب أن البيانات الاصطناعية تتفوق على مسارات البشر في توجيه الوكيل للبحث عن “أفضل مسار”.

روح التعاون المفتوح والتحديات المستقبلية

حتى الآن، أصبح MolmoWeb متاحًا بشكل كامل بموجب ترخيص Apache2.0 على منصتي Hugging Face وGitHub. على الرغم من أن التحديات لا تزال قائمة في التعامل مع الأوامر المعقدة، والتحقق من تسجيل الدخول، والامتثال القانوني (مثل شروط الخدمة)، إلا أن AI2 تؤمن أن الشفافية الكاملة والتعاون المجتمعي هما السبيل الحقيقي لمواجهة احتكار البيانات من قبل شركات التكنولوجيا الكبرى.

شاهد النسخة الأصلية
قد تحتوي هذه الصفحة على محتوى من جهات خارجية، يتم تقديمه لأغراض إعلامية فقط (وليس كإقرارات/ضمانات)، ولا ينبغي اعتباره موافقة على آرائه من قبل Gate، ولا بمثابة نصيحة مالية أو مهنية. انظر إلى إخلاء المسؤولية للحصول على التفاصيل.
  • أعجبني
  • تعليق
  • إعادة النشر
  • مشاركة
تعليق
إضافة تعليق
إضافة تعليق
لا توجد تعليقات
  • Gate Fun الساخن

    عرض المزيد
  • القيمة السوقية:$2.32Kعدد الحائزين:1
    0.00%
  • القيمة السوقية:$2.33Kعدد الحائزين:1
    0.00%
  • القيمة السوقية:$2.33Kعدد الحائزين:1
    0.00%
  • القيمة السوقية:$2.33Kعدد الحائزين:1
    0.00%
  • القيمة السوقية:$2.37Kعدد الحائزين:2
    0.14%
  • تثبيت