مصدر الصورة: تم إنشاؤه بواسطة الذكاء الاصطناعي غير محدود
من أجل فك “الصندوق الأسود” للنماذج الكبيرة ، نشر فريق قابلية التفسير الأنثروبولوجي ورقة تصف كيف يمكنهم تدريب نموذج جديد لفهم نموذج بسيط.
تدعي دراسة نشرتها Anthropic أنها قادرة على رؤية روح الذكاء الاصطناعي. يبدو مثل هذا:
عنوان:
وفقا للباحثين ، يمكن للنموذج الجديد التنبؤ بدقة وفهم مبدأ العمل وآلية تكوين الخلايا العصبية في النموذج الأصلي.
أعلن فريق التفسير في Anthropic مؤخرا أنهم نجحوا في تحليل مساحة ميزة مجردة عالية الأبعاد في نظام محاكاة الذكاء الاصطناعي.
إنشاء الذكاء الاصطناعي قابلة للشرح لفهم “الصندوق الأسود الذكاء الاصطناعي”
قام الباحثون أولا بتدريب الذكاء الاصطناعي بسيط للغاية مكون من 512 خلية عصبية للتنبؤ بالنص ، ثم قاموا بتدريب الذكاء الاصطناعي آخر يسمى “التشفير الذاتي” للتنبؤ بنمط تنشيط الذكاء الاصطناعي الأول.
يطلب من أجهزة التشفير الذاتي إنشاء مجموعة من الميزات (المقابلة لعدد الخلايا العصبية في الذكاء الاصطناعي ذات الأبعاد الأعلى) والتنبؤ بكيفية تعيين هذه الميزات للخلايا العصبية في الذكاء الاصطناعي الفعلي.
وجد أنه على الرغم من أن الخلايا العصبية في الذكاء الاصطناعي الأصلية لم يكن من السهل فهمها ، إلا أن الخلايا العصبية المحاكية في الذكاء الاصطناعي الجديد (أي “الميزات”) كانت أحادية اللون ، وكل ميزة تمثل مفهوما أو وظيفة محددة.
على سبيل المثال ، تمثل السمة # 2663 مفهوم “الله”.
أقوى عبارات التدريب لتنشيطها تأتي من سجل جوزيفوس الذي يقول “عندما تمطر العاصفة الثلجية على الله ، يذهب إلى صفوريس”.
يمكنك أن ترى أن عمليات التنشيط في الأعلى تدور حول الاستخدامات المختلفة ل “الله”.
يبدو أن هذه الخلية العصبية المحاكية تتكون من مجموعة من الخلايا العصبية الحقيقية ، بما في ذلك 407 و 182 و 259.
هذه الخلايا العصبية الحقيقية نفسها لا علاقة لها ب “الله” ، على سبيل المثال ، يستجيب Neuron 407 بشكل أساسي للنص غير الإنجليزي (خاصة الحروف اللاتينية المشددة) والنص غير القياسي (مثل علامات HTML).
ولكن على مستوى الميزة ، يكون كل شيء على ما يرام ، وعندما يتم تنشيط الميزة 2663 ، فإنها تزيد من احتمال ظهور “بارك” أو “ممنوع” أو “لعنة” أو “-zilla” في النص.
لا يميز الذكاء الاصطناعي مفهوم “الله” عن “الله” في اسم الوحش. قد يكون هذا لأن الذكاء الاصطناعي المرتجلة ليس لديها موارد عصبية كافية للتعامل معها.
لكن هذا سيتغير مع زيادة عدد الميزات التي الذكاء الاصطناعي:
في الجزء السفلي من هذه الشجرة ، يمكنك أن ترى كيف يفهم الذكاء الاصطناعي “ال” من الناحية الرياضية يتغير لأنه يحتوي على المزيد والمزيد من الخصائص.
بادئ ذي بدء ، لماذا توجد ميزة محددة ل “ال” في مصطلح رياضي؟ ربما يرجع ذلك إلى حاجة الذكاء الاصطناعي إلى التنبؤ بأن معرفة “ال” معينة يجب أن تتبعها بعض المفردات الرياضية ، مثل “البسط” أو “جيب التمام”.
من بين أصغر الذكاء الاصطناعي التي دربها الباحثون مع 512 ميزة فقط ، تمثل ميزة واحدة فقط “ال” ، في حين تم تقسيم أكبر الذكاء الاصطناعي مع 16,384 ميزة إلى ميزة واحدة تمثل “ال” في التعلم الآلي ، وميزة واحدة تمثل “ال” في التحليل المعقد ، وميزة واحدة تمثل “ال” في الطوبولوجيا والجبر المجرد.
لذلك ، إذا كان من الممكن ترقية النظام إلى الذكاء الاصطناعي به خلايا عصبية أكثر محاكاة ، فمن المحتمل أن تنقسم الخصائص التي تمثل “الله” إلى قسمين - أحدهما لمعنى “الله” في الدين والآخر ل “الله” باسم الوحش.
في وقت لاحق ، قد يكون هناك الله في المسيحية ، والله في اليهودية ، والله في الفلسفة ، وهلم جرا.
قام فريق البحث بتقييم قابلية التفسير الذاتي ل 412 مجموعة من الخلايا العصبية الحقيقية والخلايا العصبية المحاكية المقابلة ، ووجدوا أن قابلية تفسير الخلايا العصبية المحاكاة كانت جيدة بشكل عام:
تستخدم بعض الميزات ، مثل تلك التي تعني “الله” ، لمفاهيم محددة.
العديد من الميزات الأخرى القابلة للتفسير بدرجة كبيرة ، بما في ذلك بعض الميزات الأكثر قابلية للتفسير ، هي “التنسيق” المستخدم لتمثيل النص ، مثل الأحرف الكبيرة أو الصغيرة ، الإنجليزية أو الحروف الهجائية الأخرى ، إلخ.
ما مدى شيوع هذه الميزات؟ بمعنى ، إذا قمت بتدريب الذكاء الاصطناعي مختلفة من 4096 على نفس البيانات النصية ، فهل سيكون لديهم معظم ميزات 4096 نفسها؟ هل سيكون لديهم جميعا خصائص معينة تمثل “الله”؟
أم أن الذكاء الاصطناعي الأولى ستضع “الله” و “جودزيلا” معا ، وستفصل الذكاء الاصطناعي الثانية بينهما؟ ألن يكون للثاني الذكاء الاصطناعي ميزة “الله” على الإطلاق ، ولكن بدلا من ذلك يستخدم هذه المساحة لتخزين بعض المفاهيم الأخرى التي لم يكن الذكاء الاصطناعي الأول قادرا على فهمها؟
اختبره فريق البحث ووجد أن نموذجي الذكاء الاصطناعي متشابهين جدا!
في المتوسط ، إذا كانت هناك ميزة واحدة في النموذج الأول ، فإن الميزة الأكثر تشابها في النموذج الثاني سيكون لها ارتباط متوسط يبلغ 0.72.
رأيت روح الذكاء الاصطناعي
ماذا بعد؟
في مايو من هذا العام ، حاول OpenAI الحصول على GPT-4 (كبير جدا) لفهم GPT-2 (صغير جدا). طلبوا من GPT-4 فحص الخلايا العصبية البالغ عددها 307,200 في GPT-2 والإبلاغ عما وجده.
وجد GPT-4 سلسلة من النتائج المثيرة للاهتمام ومجموعة من الهراء العشوائي لأنهم لم يتقنوا بعد فن إسقاط الخلايا العصبية الحقيقية على الخلايا العصبية المحاكاة وتحليل الخلايا العصبية المحاكاة.
على الرغم من أن النتائج لم تكن واضحة ، إلا أنها كانت بالفعل محاولة طموحة للغاية.
على عكس هذا الذكاء الاصطناعي في مقالة Anthropic للتفسير ، فإن GPT-2 هو الذكاء الاصطناعي حقيقي (وإن كان صغيرا جدا) أثار إعجاب عامة الناس أيضا.
لكن الهدف النهائي للبحث هو أن تكون قادرا على شرح أنظمة الذكاء الاصطناعي السائدة.
يعترف فريق التفسير في Anthropic بأنهم لم يفعلوا ذلك بعد ، ويرجع ذلك أساسا إلى عدة أسباب:
بادئ ذي بدء ، يعد توسيع نطاق برامج التشفير التلقائي أمرا صعبا. من أجل شرح نظام مثل GPT-4 (أو نظام Claude المكافئ ل Anthropic) ، فأنت بحاجة إلى مترجم فوري الذكاء الاصطناعي بنفس الحجم تقريبا.
لكن تدريب الذكاء الاصطناعي على هذا النطاق يتطلب قوة حوسبة هائلة ودعما ماليا.
ثانيا ، قابلية التوسع في التفسير هي أيضا مشكلة.
حتى لو وجدنا كل الخلايا العصبية المحاكية عن الله ، جودزيلا ، وكل شيء آخر ورسمنا مخططا ضخما لكيفية ارتباطها.
لا يزال الباحثون بحاجة إلى الإجابة على أسئلة أكثر تعقيدا ، ويتطلب حلها تفاعلات معقدة تتضمن ملايين الميزات والاتصالات.
لذلك يجب أن يكون هناك بعض العمليات الآلية ، نوع من “دع GPT-4 يخبرنا بما يفعله GPT-2”.
أخيرا ، ماذا يقول كل هذا لفهم الدماغ البشري؟
يستخدم البشر أيضا الشبكات العصبية لمفاهيم التفكير والمعالجة.
هناك الكثير من الخلايا العصبية في الدماغ البشري ، وهذا هو نفس GPT-4.
كما أن البيانات المتاحة للبشر قليلة جدا - فهناك العديد من المفاهيم (مثل الحبار) التي نادرا ما تظهر في الحياة اليومية.
هل نحاكي أيضا دماغا أكبر؟
لا يزال هذا مجالا جديدا جدا للبحث ، ولكن كانت هناك بعض النتائج الأولية التي تشير إلى أن الخلايا العصبية في القشرة البصرية البشرية تقوم بتشفير الميزات بطريقة مفرطة ، على غرار الأنماط التي لوحظت في نماذج الذكاء الاصطناعي.
موارد:
شاهد النسخة الأصلية
قد تحتوي هذه الصفحة على محتوى من جهات خارجية، يتم تقديمه لأغراض إعلامية فقط (وليس كإقرارات/ضمانات)، ولا ينبغي اعتباره موافقة على آرائه من قبل Gate، ولا بمثابة نصيحة مالية أو مهنية. انظر إلى إخلاء المسؤولية للحصول على التفاصيل.
قام أقوى منافس ل OpenAI بتدريب الذكاء الاصطناعي على تفكيك الصندوق الأسود LLM ، ولمح بطريق الخطأ "روح" النموذج الكبير
المصدر الأصلي: نيو تشييوان
من أجل فك “الصندوق الأسود” للنماذج الكبيرة ، نشر فريق قابلية التفسير الأنثروبولوجي ورقة تصف كيف يمكنهم تدريب نموذج جديد لفهم نموذج بسيط.
تدعي دراسة نشرتها Anthropic أنها قادرة على رؤية روح الذكاء الاصطناعي. يبدو مثل هذا:
وفقا للباحثين ، يمكن للنموذج الجديد التنبؤ بدقة وفهم مبدأ العمل وآلية تكوين الخلايا العصبية في النموذج الأصلي.
أعلن فريق التفسير في Anthropic مؤخرا أنهم نجحوا في تحليل مساحة ميزة مجردة عالية الأبعاد في نظام محاكاة الذكاء الاصطناعي.
إنشاء الذكاء الاصطناعي قابلة للشرح لفهم “الصندوق الأسود الذكاء الاصطناعي”
قام الباحثون أولا بتدريب الذكاء الاصطناعي بسيط للغاية مكون من 512 خلية عصبية للتنبؤ بالنص ، ثم قاموا بتدريب الذكاء الاصطناعي آخر يسمى “التشفير الذاتي” للتنبؤ بنمط تنشيط الذكاء الاصطناعي الأول.
يطلب من أجهزة التشفير الذاتي إنشاء مجموعة من الميزات (المقابلة لعدد الخلايا العصبية في الذكاء الاصطناعي ذات الأبعاد الأعلى) والتنبؤ بكيفية تعيين هذه الميزات للخلايا العصبية في الذكاء الاصطناعي الفعلي.
وجد أنه على الرغم من أن الخلايا العصبية في الذكاء الاصطناعي الأصلية لم يكن من السهل فهمها ، إلا أن الخلايا العصبية المحاكية في الذكاء الاصطناعي الجديد (أي “الميزات”) كانت أحادية اللون ، وكل ميزة تمثل مفهوما أو وظيفة محددة.
على سبيل المثال ، تمثل السمة # 2663 مفهوم “الله”.
يمكنك أن ترى أن عمليات التنشيط في الأعلى تدور حول الاستخدامات المختلفة ل “الله”.
يبدو أن هذه الخلية العصبية المحاكية تتكون من مجموعة من الخلايا العصبية الحقيقية ، بما في ذلك 407 و 182 و 259.
هذه الخلايا العصبية الحقيقية نفسها لا علاقة لها ب “الله” ، على سبيل المثال ، يستجيب Neuron 407 بشكل أساسي للنص غير الإنجليزي (خاصة الحروف اللاتينية المشددة) والنص غير القياسي (مثل علامات HTML).
ولكن على مستوى الميزة ، يكون كل شيء على ما يرام ، وعندما يتم تنشيط الميزة 2663 ، فإنها تزيد من احتمال ظهور “بارك” أو “ممنوع” أو “لعنة” أو “-zilla” في النص.
لا يميز الذكاء الاصطناعي مفهوم “الله” عن “الله” في اسم الوحش. قد يكون هذا لأن الذكاء الاصطناعي المرتجلة ليس لديها موارد عصبية كافية للتعامل معها.
لكن هذا سيتغير مع زيادة عدد الميزات التي الذكاء الاصطناعي:
بادئ ذي بدء ، لماذا توجد ميزة محددة ل “ال” في مصطلح رياضي؟ ربما يرجع ذلك إلى حاجة الذكاء الاصطناعي إلى التنبؤ بأن معرفة “ال” معينة يجب أن تتبعها بعض المفردات الرياضية ، مثل “البسط” أو “جيب التمام”.
من بين أصغر الذكاء الاصطناعي التي دربها الباحثون مع 512 ميزة فقط ، تمثل ميزة واحدة فقط “ال” ، في حين تم تقسيم أكبر الذكاء الاصطناعي مع 16,384 ميزة إلى ميزة واحدة تمثل “ال” في التعلم الآلي ، وميزة واحدة تمثل “ال” في التحليل المعقد ، وميزة واحدة تمثل “ال” في الطوبولوجيا والجبر المجرد.
لذلك ، إذا كان من الممكن ترقية النظام إلى الذكاء الاصطناعي به خلايا عصبية أكثر محاكاة ، فمن المحتمل أن تنقسم الخصائص التي تمثل “الله” إلى قسمين - أحدهما لمعنى “الله” في الدين والآخر ل “الله” باسم الوحش.
في وقت لاحق ، قد يكون هناك الله في المسيحية ، والله في اليهودية ، والله في الفلسفة ، وهلم جرا.
قام فريق البحث بتقييم قابلية التفسير الذاتي ل 412 مجموعة من الخلايا العصبية الحقيقية والخلايا العصبية المحاكية المقابلة ، ووجدوا أن قابلية تفسير الخلايا العصبية المحاكاة كانت جيدة بشكل عام:
العديد من الميزات الأخرى القابلة للتفسير بدرجة كبيرة ، بما في ذلك بعض الميزات الأكثر قابلية للتفسير ، هي “التنسيق” المستخدم لتمثيل النص ، مثل الأحرف الكبيرة أو الصغيرة ، الإنجليزية أو الحروف الهجائية الأخرى ، إلخ.
أم أن الذكاء الاصطناعي الأولى ستضع “الله” و “جودزيلا” معا ، وستفصل الذكاء الاصطناعي الثانية بينهما؟ ألن يكون للثاني الذكاء الاصطناعي ميزة “الله” على الإطلاق ، ولكن بدلا من ذلك يستخدم هذه المساحة لتخزين بعض المفاهيم الأخرى التي لم يكن الذكاء الاصطناعي الأول قادرا على فهمها؟
اختبره فريق البحث ووجد أن نموذجي الذكاء الاصطناعي متشابهين جدا!
في المتوسط ، إذا كانت هناك ميزة واحدة في النموذج الأول ، فإن الميزة الأكثر تشابها في النموذج الثاني سيكون لها ارتباط متوسط يبلغ 0.72.
رأيت روح الذكاء الاصطناعي
ماذا بعد؟
في مايو من هذا العام ، حاول OpenAI الحصول على GPT-4 (كبير جدا) لفهم GPT-2 (صغير جدا). طلبوا من GPT-4 فحص الخلايا العصبية البالغ عددها 307,200 في GPT-2 والإبلاغ عما وجده.
وجد GPT-4 سلسلة من النتائج المثيرة للاهتمام ومجموعة من الهراء العشوائي لأنهم لم يتقنوا بعد فن إسقاط الخلايا العصبية الحقيقية على الخلايا العصبية المحاكاة وتحليل الخلايا العصبية المحاكاة.
على الرغم من أن النتائج لم تكن واضحة ، إلا أنها كانت بالفعل محاولة طموحة للغاية.
على عكس هذا الذكاء الاصطناعي في مقالة Anthropic للتفسير ، فإن GPT-2 هو الذكاء الاصطناعي حقيقي (وإن كان صغيرا جدا) أثار إعجاب عامة الناس أيضا.
لكن الهدف النهائي للبحث هو أن تكون قادرا على شرح أنظمة الذكاء الاصطناعي السائدة.
يعترف فريق التفسير في Anthropic بأنهم لم يفعلوا ذلك بعد ، ويرجع ذلك أساسا إلى عدة أسباب:
بادئ ذي بدء ، يعد توسيع نطاق برامج التشفير التلقائي أمرا صعبا. من أجل شرح نظام مثل GPT-4 (أو نظام Claude المكافئ ل Anthropic) ، فأنت بحاجة إلى مترجم فوري الذكاء الاصطناعي بنفس الحجم تقريبا.
لكن تدريب الذكاء الاصطناعي على هذا النطاق يتطلب قوة حوسبة هائلة ودعما ماليا.
ثانيا ، قابلية التوسع في التفسير هي أيضا مشكلة.
حتى لو وجدنا كل الخلايا العصبية المحاكية عن الله ، جودزيلا ، وكل شيء آخر ورسمنا مخططا ضخما لكيفية ارتباطها.
لا يزال الباحثون بحاجة إلى الإجابة على أسئلة أكثر تعقيدا ، ويتطلب حلها تفاعلات معقدة تتضمن ملايين الميزات والاتصالات.
لذلك يجب أن يكون هناك بعض العمليات الآلية ، نوع من “دع GPT-4 يخبرنا بما يفعله GPT-2”.
أخيرا ، ماذا يقول كل هذا لفهم الدماغ البشري؟
يستخدم البشر أيضا الشبكات العصبية لمفاهيم التفكير والمعالجة.
هناك الكثير من الخلايا العصبية في الدماغ البشري ، وهذا هو نفس GPT-4.
كما أن البيانات المتاحة للبشر قليلة جدا - فهناك العديد من المفاهيم (مثل الحبار) التي نادرا ما تظهر في الحياة اليومية.
هل نحاكي أيضا دماغا أكبر؟
لا يزال هذا مجالا جديدا جدا للبحث ، ولكن كانت هناك بعض النتائج الأولية التي تشير إلى أن الخلايا العصبية في القشرة البصرية البشرية تقوم بتشفير الميزات بطريقة مفرطة ، على غرار الأنماط التي لوحظت في نماذج الذكاء الاصطناعي.
موارد: