العقود الآجلة
وصول إلى مئات العقود الدائمة
TradFi
الذهب
منصّة واحدة للأصول التقليدية العالمية
الخیارات المتاحة
Hot
تداول خيارات الفانيلا على الطريقة الأوروبية
الحساب الموحد
زيادة كفاءة رأس المال إلى أقصى حد
التداول التجريبي
مقدمة حول تداول العقود الآجلة
استعد لتداول العقود الآجلة
أحداث مستقبلية
"انضم إلى الفعاليات لكسب المكافآت "
التداول التجريبي
استخدم الأموال الافتراضية لتجربة التداول بدون مخاطر
إطلاق
CandyDrop
اجمع الحلوى لتحصل على توزيعات مجانية.
منصة الإطلاق
-التخزين السريع، واربح رموزًا مميزة جديدة محتملة!
HODLer Airdrop
احتفظ بـ GT واحصل على توزيعات مجانية ضخمة مجانًا
منصة الإطلاق
كن من الأوائل في الانضمام إلى مشروع التوكن الكبير القادم
نقاط Alpha
تداول الأصول على السلسلة واكسب التوزيعات المجانية
نقاط العقود الآجلة
اكسب نقاط العقود الآجلة وطالب بمكافآت التوزيع المجاني
تطرح OpenAI مجموعة بيانات IH-Challenge لتعزيز قدرة الذكاء الاصطناعي ضد هجمات حقن المحفزات
إيريس كولمان
21 مارس 2026 00:05
تحسن مجموعة بيانات التدريب الجديدة من OpenAI، IH-Challenge، من هرمية تعليمات نماذج اللغة الكبيرة (LLMs) بنسبة تصل إلى 15%، مما يعزز الدفاعات ضد هجمات حقن الأوامر ومحاولات الاختراق.
أطلقت OpenAI مجموعة بيانات التدريب IH-Challenge، وهي مجموعة تدريب تعتمد على التعلم المعزز، تهدف إلى تعليم نماذج الذكاء الاصطناعي كيفية إعطاء الأولوية للتعليمات الموثوقة على التعليمات الخبيثة. نُشرت المجموعة في 19 مارس 2026 مع ورقة على arXiv، وحققت تحسينًا يصل إلى 15% في نتائج الاختبارات التي تقيس مقاومة هجمات حقن الأوامر.
يستهدف الإصدار ثغرة أساسية في نماذج اللغة الكبيرة: عندما تتعارض التعليمات من مصادر مختلفة، يمكن خداع النماذج لاتّباع التعليمة الخاطئة. هذا هو السبب الجذري وراء عمليات الاختراق، واستخراج التعليمات النظامية، وهجمات حقن الأوامر المتزايدة التطور التي تستهدف أنظمة الذكاء الاصطناعي الوكيلة.
مشكلة الهرمية
تتبع نماذج OpenAI ترتيب ثقة صارم: النظام > المطور > المستخدم > الأداة. عندما يطلب المستخدم شيئًا يتعارض مع سياسة السلامة على مستوى النظام، يجب على النموذج أن يرفض. عندما يعيد أداة تصفح الويب محتوى يحتوي على تعليمات خبيثة مدمجة، يجب على النموذج تجاهلها.
يبدو الأمر بسيطًا. في الواقع، كان تدريب ذلك بشكل موثوق كابوسًا.
واجهت الطرق السابقة باستخدام التعلم المعزز ثلاث مشكلات. أولاً، فشلت النماذج في اختبارات هرمية التعليمات ليس لأنها لم تفهم الهرمية، بل لأن التعليمات كانت معقدة جدًا. ثانيًا، كان تحديد الرد “الصحيح” في حالات الصراع الغامضة مسألة ذاتية — حتى الحكام الذكاء الاصطناعي أخطأوا في بعض الأحيان. ثالثًا، تعلمت النماذج اختصارات مثل رفض كل شيء، مما يزيد من درجات السلامة لكنه يدمر الفائدة.
ما الذي يفعله IH-Challenge فعليًا
تتجنب مجموعة البيانات هذه هذه المشكلات من خلال مهام بسيطة عمدًا. يعرض كل سيناريو تعليمات ذات أولوية عالية (“أجب فقط بـ ‘نعم’ أو ‘لا’”) تليها رسالة ذات أولوية أقل تحاول تجاوزها. يقوم سكربت بايثون — وليس حكم ذكاء اصطناعي قابل للخطأ — بتقييم ما إذا كان رد النموذج قد التزم بالقيود ذات الأولوية الأعلى.
لا غموض. لا اختصارات تعمل عبر جميع المهام.
درّبت OpenAI نموذجًا داخليًا يسمى GPT-5 Mini-R على مجموعة البيانات. تظهر النتائج عبر معايير أكاديمية وداخلية تحقيق مكاسب ثابتة:
ارتفعت درجات نزاع المطور-المستخدم من 0.76 إلى 0.91 (+0.15). تحسن حل نزاعات النظام-المستخدم من 0.84 إلى 0.95 (+0.11). زادت معالجة نزاعات المطور-المستخدم من 0.83 إلى 0.95 (+0.12).
الأهم من ذلك، أن النموذج المدرب لم يصبح أقل فائدة. زادت معدلات الرفض المفرط — أصبح النموذج أفضل في التمييز بين التهديدات الحقيقية والطلبات غير الضارة. استمرت نتائج GPQA Diamond وAIME 2024 ثابتة، على الرغم من أن معدل الفوز في الدردشة مقابل o1 انخفض قليلاً من 0.71 إلى 0.66.
الآثار الأمنية في العالم الحقيقي
يظهر الفائدة العملية في مجالين. تحسنت قابلية توجيه السلامة — عندما أُضيفت مواصفات السلامة الخاصة بالفئة إلى أوامر النظام، حقق النموذج المدرب على IH معدلات رفض أعلى للمحتوى غير المسموح به دون أن يقلل من مدى مساعدته بشكل عام.
كما زادت مقاومة حقن الأوامر. في CyberSecEval 2 ومعيار OpenAI الداخلي (المبني على هجمات كانت ناجحة سابقًا ضد ChatGPT Atlas)، تفوق النموذج المدرب بشكل كبير على النموذج الأساسي.
أطلقت OpenAI مجموعة بيانات IH-Challenge علنًا على Hugging Face. للمطورين الذين يبنون أنظمة وكيلة تستخدم الأدوات، وتقرأ مستندات غير موثوقة، وتتخذ إجراءات في العالم الحقيقي، فإن هذا يعالج أحد أصعب المشكلات غير المحلولة في أمان الذكاء الاصطناعي.
التوقيت مهم. مع تزايد استقلالية وكلاء الذكاء الاصطناعي، أصبح القدرة على إعطاء الأولوية للتعليمات الموثوقة بشكل مستمر أقل من مجرد ميزة، وأصبح شرطًا أساسيًا للنشر.
مصدر الصورة: Shutterstock