لقد كانت مهارات Claude مشهورة لفترة قصيرة فقط، ولكن أمس أصدرت DeepSeek ورقة بحثية جديدة، وأخبرت السوق باستخدام Engram: ربما تكون وجهتكم خاطئة؟؟ الذكاء الاصطناعي LLM حقًا يعرض معارك إلهية يوميًا!😱



يمكن ملاحظة الفرق ببساطة من خلال المقارنة: أنثروبيك زودت النموذج بمساعد شخصي فائق، لمساعدتك في تنظيم 200 مستند، وتذكر جميع المحادثات؛ DeepSeek أكثر جرأة، حيث أجرت عملية جراحية دماغية مباشرة على النموذج، لزرع "عضو ذاكرة"، ليتمكن من الرد في أقل من ثانية مثل البحث في القاموس، دون الحاجة لتنشيط الشبكة العصبية خطوة بخطوة.

هذه المشكلة كان من المفترض أن تُحل منذ زمن.

من بنية Transform، فإن النماذج الكبيرة تتعامل مع المعرفة بشكل فطري كطالب متفوق يحفظ كل شيء عن ظهر قلب، ففي كل مرة تسأل "من هي الأميرة ديانا"، يتعين على دماغه المكون من 175 مليار معلمة أن يمر عبره من البداية للنهاية، هل تتخيل كم من موارد الحوسبة يُهدر؟

وهذا يشبه أنك كل مرة تريد أن تبحث عن كلمة، عليك أن تحفظ كامل قاموس أكسفورد من A إلى Z لتجد الإجابة، أليس هذا سخيفًا؟ حتى مع بنية MoE الشائعة الآن، كل مرة تحتاج لاسترجاع معلومة باردة، يتطلب الأمر استدعاء العديد من خبراء الحوسبة المكلفين.

1) الاختراق الرئيسي لـ Engram: جعل النموذج ينمو "عضو ذاكرة"

ما يفعله Engram بسيط جدًا، وهو فصل المعرفة الثابتة من "ذاكرة المعلمات"، ووضعها في جدول هاش قابل للتوسع، من خلال تقسيم N-gram وخرائط هاش متعددة الرؤوس، لتحقيق بحث بزمن ثابت O(1).

بعبارة بسيطة، هو إدارة نظام السياق، أو أن تجعل الذكاء الاصطناعي يحمل كتيب التعليمات، وعند مواجهة مشكلة، يفتح الكتاب ويبحث، لكن هدف Engram هو أن يخلق عضوًا جديدًا في الدماغ، مخصص لـ"استرجاع" بعض المعرفة الثابتة بسرعة، دون الحاجة للتفكير أو الاستنتاج.

مدى فاعليته؟ نموذج بـ 27 مليار معلمة يحقق زيادة قدرها 3.4% في مهمة المعرفة (MMLU)، وارتفعت قدرة استرجاع النصوص الطويلة من 84% إلى 97%. والأهم من ذلك، أن هذه المعلمات الذاكرية يمكن نقلها إلى ذاكرة DDR رخيصة أو حتى إلى القرص الصلب، وتكلفة الاستنتاج تصبح تقريبًا معدومة.

2) هل نحن في خضم سباق RAG وسباق بطاريات GPU؟

إذا نجح Engram، فإن أول من يتأثر ليس OpenAI، بل هو طريقة RAG (التوليد المعزز بالبحث) وأعمال NVIDIA في ذاكرة الفيديو، خاصة RAG الخاص بالمكتبات العامة.

لأن RAG في جوهره يجعل النموذج يبحث في قاعدة بيانات خارجية "عن المعلومات"، لكن البحث بطيء، والتكامل غير جيد، ويجب صيانة قاعدة البيانات الشعاعية. أما Engram، فدمج وحدة الذاكرة مباشرة في بنية النموذج، مما يجعل البحث سريعًا ودقيقًا، ويمكنه أيضًا تصفية تصادمات الهاش عبر بوابات السياق.

والأمر المثير أكثر هو أن اكتشاف "قانون التوسع على شكل U" في الورقة، حيث إذا خصص النموذج 20-25% من معلماته لـ Engram كـ"قرص ذاكرة"، وترك الـ75-80% المتبقية للشبكة العصبية التقليدية لـ"الاستنتاج"، فإن زيادة حجم الذاكرة بمقدار 10 أضعاف تؤدي إلى تحسينات لوغاريتمية في الأداء.

وهذا يكسر الاعتقاد السائد بأن "كلما زادت المعلمات، زادت الذكاء"، ويحول سباق التسلح من "تكديس H100 بلا حدود" إلى "قوة حساب معتدلة + ذاكرة ضخمة ورخيصة" إلى لعبة كفاءة.

هذا كل شيء.

لا أعلم، هل ستصدر DeepSeek V4 قبل أو بعد عيد الربيع، وهل ستطلق كل حيل Engram وmHC السابقة.

ثورة النموذج التي تنتقل من "الذكاء الحسابي فقط" إلى "الذكاء الحسابي + الذاكرة" ستثير على الأرجح موجة من الفوضى، فقط ننتظر كيف ستتصدى عمالقة مثل OpenAI وAnthropic، الذين يملكون ميزة موارد الحوسبة، لهذه التغييرات.
شاهد النسخة الأصلية
post-image
قد تحتوي هذه الصفحة على محتوى من جهات خارجية، يتم تقديمه لأغراض إعلامية فقط (وليس كإقرارات/ضمانات)، ولا ينبغي اعتباره موافقة على آرائه من قبل Gate، ولا بمثابة نصيحة مالية أو مهنية. انظر إلى إخلاء المسؤولية للحصول على التفاصيل.
  • أعجبني
  • تعليق
  • إعادة النشر
  • مشاركة
تعليق
0/400
لا توجد تعليقات
  • تثبيت