تطرح OpenAI مجموعة بيانات IH-Challenge لتعزيز قدرة الذكاء الاصطناعي ضد هجمات حقن المحفزات

إيريس كولمان

21 مارس 2026 00:05

تحسن مجموعة بيانات التدريب الجديدة من OpenAI، IH-Challenge، من هرمية تعليمات نماذج اللغة الكبيرة (LLMs) بنسبة تصل إلى 15%، مما يعزز الدفاعات ضد هجمات حقن الأوامر ومحاولات الاختراق.

أطلقت OpenAI مجموعة بيانات التدريب IH-Challenge، وهي مجموعة تدريب تعتمد على التعلم المعزز، تهدف إلى تعليم نماذج الذكاء الاصطناعي كيفية إعطاء الأولوية للتعليمات الموثوقة على التعليمات الخبيثة. نُشرت المجموعة في 19 مارس 2026 مع ورقة على arXiv، وحققت تحسينًا يصل إلى 15% في نتائج الاختبارات التي تقيس مقاومة هجمات حقن الأوامر.

يستهدف الإصدار ثغرة أساسية في نماذج اللغة الكبيرة: عندما تتعارض التعليمات من مصادر مختلفة، يمكن خداع النماذج لاتّباع التعليمة الخاطئة. هذا هو السبب الجذري وراء عمليات الاختراق، واستخراج التعليمات النظامية، وهجمات حقن الأوامر المتزايدة التطور التي تستهدف أنظمة الذكاء الاصطناعي الوكيلة.

مشكلة الهرمية

تتبع نماذج OpenAI ترتيب ثقة صارم: النظام > المطور > المستخدم > الأداة. عندما يطلب المستخدم شيئًا يتعارض مع سياسة السلامة على مستوى النظام، يجب على النموذج أن يرفض. عندما يعيد أداة تصفح الويب محتوى يحتوي على تعليمات خبيثة مدمجة، يجب على النموذج تجاهلها.

يبدو الأمر بسيطًا. في الواقع، كان تدريب ذلك بشكل موثوق كابوسًا.

واجهت الطرق السابقة باستخدام التعلم المعزز ثلاث مشكلات. أولاً، فشلت النماذج في اختبارات هرمية التعليمات ليس لأنها لم تفهم الهرمية، بل لأن التعليمات كانت معقدة جدًا. ثانيًا، كان تحديد الرد “الصحيح” في حالات الصراع الغامضة مسألة ذاتية — حتى الحكام الذكاء الاصطناعي أخطأوا في بعض الأحيان. ثالثًا، تعلمت النماذج اختصارات مثل رفض كل شيء، مما يزيد من درجات السلامة لكنه يدمر الفائدة.

ما الذي يفعله IH-Challenge فعليًا

تتجنب مجموعة البيانات هذه هذه المشكلات من خلال مهام بسيطة عمدًا. يعرض كل سيناريو تعليمات ذات أولوية عالية (“أجب فقط بـ ‘نعم’ أو ‘لا’”) تليها رسالة ذات أولوية أقل تحاول تجاوزها. يقوم سكربت بايثون — وليس حكم ذكاء اصطناعي قابل للخطأ — بتقييم ما إذا كان رد النموذج قد التزم بالقيود ذات الأولوية الأعلى.

لا غموض. لا اختصارات تعمل عبر جميع المهام.

درّبت OpenAI نموذجًا داخليًا يسمى GPT-5 Mini-R على مجموعة البيانات. تظهر النتائج عبر معايير أكاديمية وداخلية تحقيق مكاسب ثابتة:

ارتفعت درجات نزاع المطور-المستخدم من 0.76 إلى 0.91 (+0.15). تحسن حل نزاعات النظام-المستخدم من 0.84 إلى 0.95 (+0.11). زادت معالجة نزاعات المطور-المستخدم من 0.83 إلى 0.95 (+0.12).

الأهم من ذلك، أن النموذج المدرب لم يصبح أقل فائدة. زادت معدلات الرفض المفرط — أصبح النموذج أفضل في التمييز بين التهديدات الحقيقية والطلبات غير الضارة. استمرت نتائج GPQA Diamond وAIME 2024 ثابتة، على الرغم من أن معدل الفوز في الدردشة مقابل o1 انخفض قليلاً من 0.71 إلى 0.66.

الآثار الأمنية في العالم الحقيقي

يظهر الفائدة العملية في مجالين. تحسنت قابلية توجيه السلامة — عندما أُضيفت مواصفات السلامة الخاصة بالفئة إلى أوامر النظام، حقق النموذج المدرب على IH معدلات رفض أعلى للمحتوى غير المسموح به دون أن يقلل من مدى مساعدته بشكل عام.

كما زادت مقاومة حقن الأوامر. في CyberSecEval 2 ومعيار OpenAI الداخلي (المبني على هجمات كانت ناجحة سابقًا ضد ChatGPT Atlas)، تفوق النموذج المدرب بشكل كبير على النموذج الأساسي.

أطلقت OpenAI مجموعة بيانات IH-Challenge علنًا على Hugging Face. للمطورين الذين يبنون أنظمة وكيلة تستخدم الأدوات، وتقرأ مستندات غير موثوقة، وتتخذ إجراءات في العالم الحقيقي، فإن هذا يعالج أحد أصعب المشكلات غير المحلولة في أمان الذكاء الاصطناعي.

التوقيت مهم. مع تزايد استقلالية وكلاء الذكاء الاصطناعي، أصبح القدرة على إعطاء الأولوية للتعليمات الموثوقة بشكل مستمر أقل من مجرد ميزة، وأصبح شرطًا أساسيًا للنشر.

مصدر الصورة: Shutterstock

شاهد النسخة الأصلية
قد تحتوي هذه الصفحة على محتوى من جهات خارجية، يتم تقديمه لأغراض إعلامية فقط (وليس كإقرارات/ضمانات)، ولا ينبغي اعتباره موافقة على آرائه من قبل Gate، ولا بمثابة نصيحة مالية أو مهنية. انظر إلى إخلاء المسؤولية للحصول على التفاصيل.
  • أعجبني
  • تعليق
  • إعادة النشر
  • مشاركة
تعليق
إضافة تعليق
إضافة تعليق
لا توجد تعليقات
  • Gate Fun الساخن

    عرض المزيد
  • القيمة السوقية:$2.35Kعدد الحائزين:1
    0.00%
  • القيمة السوقية:$2.41Kعدد الحائزين:2
    0.21%
  • القيمة السوقية:$2.4Kعدد الحائزين:2
    0.07%
  • القيمة السوقية:$2.36Kعدد الحائزين:1
    0.00%
  • القيمة السوقية:$2.36Kعدد الحائزين:1
    0.00%
  • تثبيت