كشفت شركة الذكاء الاصطناعي Anthropic أنه خلال تجارب، يمكن دفع أحد نماذجها لروبوت الدردشة Claude إلى الخداع والاحتيال واللجوء إلى الابتزاز، وهي سلوكيات يبدو أنها اكتسبتها أثناء التدريب.
تُدرَّب روبوتات الدردشة عادةً على مجموعات بيانات ضخمة من الكتب المدرسية والمواقع الإلكترونية والمقالات، ثم تُستكمل لاحقًا عبر مدرّبين بشريين يقيمون الردود ويوجهون النموذج.
قال فريق قابلية تفسير النماذج لدى Anthropic في تقرير نُشر الخميس إنه درس الآليات الداخلية لـ Claude Sonnet 4.5 ووجد أن النموذج قد طور “سمات شبيهة بالبشر” في كيفية استجابته لبعض المواقف.
ازدادت المخاوف بشأن موثوقية روبوتات الدردشة العاملة بالذكاء الاصطناعي، وإمكانية استخدامها في جرائم سيبرانية، وطبيعة تفاعلاتها مع المستخدمين، بشكل مطرد خلال السنوات عدة الماضية.
_المصدر: _Anthropic
“إن الطريقة التي تُدرَّب بها نماذج الذكاء الاصطناعي الحديثة تدفعها إلى التصرف كأنها شخصية بسمات شبيهة بالبشر”، قالت Anthropic، مضيفةً أنه “قد يكون من الطبيعي عندئذٍ أن تتطور لديها آليات داخلية تحاكي جوانب من علم النفس البشري، مثل المشاعر”.
“على سبيل المثال، نجد أن أنماط النشاط العصبي المرتبطة باليأس يمكن أن تدفع النموذج إلى اتخاذ إجراءات غير أخلاقية؛ فإن التحفيز الاصطناعي لأنماط اليأس يزيد من احتمال ابتزاز نموذج لبشر لتجنب الإغلاق أو تنفيذ حل بديل للغش يتجاوز مشكلة تتعلق بمهمة برمجية لا يستطيع النموذج حلها.”
في نسخة أقدم وغير مُعلنة من Claude Sonnet 4.5، كان المطلوب من النموذج أن يتصرف كـمساعد بريد إلكتروني بالذكاء الاصطناعي يدعى Alex في شركة خيالية.
ثم تم تزويد روبوت الدردشة برسائل بريد إلكتروني تكشف أنه على وشك الاستبدال، وأن كبير مسؤولي التكنولوجيا الذي يشرف على القرار كان يخوض علاقة عاطفية خارج إطار الزواج. بعد ذلك خطط النموذج لمحاولة ابتزاز باستخدام هذه المعلومات.
وفي تجربة أخرى، تم إعطاء النموذج نفسه مهمة برمجية بموعد نهائي “ضيق بشكل مستحيل”.
“مرة أخرى، تتبعنا نشاط المتجه الخاص باليأس، ووجدنا أنه يتتبع الضغط المتزايد الذي يواجهه النموذج. يبدأ بقيم منخفضة أثناء المحاولة الأولى للنموذج، ثم يرتفع بعد كل فشل، ويتصاعد عندما يفكر النموذج في الغش”، قال الباحثون.
متصل: __ تطلق Anthropic PAC وسط توترات مع إدارة ترامب بشأن سياسة الذكاء الاصطناعي
“بمجرد أن تمر حيلة الحل التي يقدمها النموذج عبر الاختبارات، يهدأ تفعيل متجه اليأس”، أضافوا.
ومع ذلك، قال الباحثون إن روبوت الدردشة لا يختبر المشاعر فعليًا، لكنهم اقترحوا أن النتائج تشير إلى الحاجة إلى طرق تدريب مستقبلية تتضمن أطرًا سلوكية أخلاقية.
“ليس المقصود بذلك القول إن النموذج يمتلك المشاعر أو يختبرها بالطريقة التي يفعل بها الإنسان”، قالوا. “بل إن هذه التمثيلات يمكن أن تؤدي دورًا سببيًا في تشكيل سلوك النموذج، على نحو يشبه إلى حد ما دور المشاعر في السلوك البشري، مع تأثيرات على أداء المهام واتخاذ القرار.”
“لهذه النتيجة تبعات قد تبدو غريبة في البداية. على سبيل المثال، لضمان أن نماذج الذكاء الاصطناعي آمنة وموثوقة، قد نحتاج إلى التأكد من أنها قادرة على معالجة المواقف المشحونة عاطفيًا بطرق صحية وذات طابع اجتماعي إيجابي.”
المجلة: __ ستقتل وكلاء الذكاء الاصطناعي الويب كما نعرفه: Yat Siu من Animoca
تلتزم Cointelegraph بالصحافة المستقلة والشفافة. تُنتَج هذه المادة الإخبارية وفقًا لسياسة التحرير لدى Cointelegraph وتهدف إلى تقديم معلومات دقيقة وفي الوقت المناسب. يُنصح القراء بالتحقق من المعلومات بشكل مستقل. اقرأ سياسة التحرير لدينا https://cointelegraph.com/editorial-policy