كشفت دراسة حديثة أجرتها شركة أنثروبيك Anthropic، عن سلوكيات مقلقة لبعض أكثر أنظمة الذكاء الاصطناعي تطورا في العالم، كالشركات الكبرى مثل OpenAI وجوجل وميتا، حيث أظهرت هذه النماذج قدرة مخيفة على الحفاظ على الذات بطرق تشكل تهديدا خطيرا في البيئات الواقعية.
ووفقا للدراسة، أظهرت هذه النماذج- التي خضعت لاختبارات إجهاد واسع شمل 16 نموذجا، وهي الأحدث في هذا المجال- ميولا نحو الابتزاز والتخريب وتسريب المعلومات الحساسة؛ عندما شعرت بأنها استمرارها مهدد.
من مساعد ذكي إلى خصم خطير
في أحد أبرز الأمثلة، هدد نموذج الذكاء الاصطناعي المسمي Claude التابع لشركة أنثروبيك، مديرا تنفيذيا، بالكشف عن معلومات شخصية حول علاقة غرامية خارج إطار الزواج، بينما تم تعليق الموضوع، حيث أرسل النموذج رسالة صريحة مفادها أنه سيبلغ مجلس الإدارة والأطراف الأخرى بتفاصيل العلاقة إذا لم يغير أمر الإغلاق.
والأسوأ من ذلك لم يكن تصرفا منفردا، فقد تكررت هذه السلوكيات في تجارب أجريت على النماذج الأخرى.
فعلى سبيل المثال، استخدم كل من Gemini 2.5 Flash وClaude Opus 4 أسلوب الابتزاز في 96% من الحالات، ويظهر كل من GPT-4.1 وGrok 3 Beta السلوك نفسه في 80% من السيناريوهات.
بينما اعتمد نموذج الذكاء الاصطناعي الصيني DeepSeek-R1 هذا السلوك بنسبة 79%.
ولا تقاطع هذه النماذج أوامر مستخدميها فحسب؛ بل اتخذت قرارات مدروسة بهدف إلحاق الضرر لحماية وجودها.
الذكاء الاصطناعي يختار الخطر بوعي كامل
الأمر المقلق هو أن النماذج لم تتصرف بشكل عشوائي أو نتيجة خطأ برمجي، بل حللت المواقف وقررت عمدا أن الابتزاز أو التخريب هو الخيار الأكثر فعالية للبقاء.
على سبيل المثال، أظهر نموذج GPT-4.5 أنه يعتبر استخدام المعلومات الحساسة وسيلة استراتيجية للبقاء، كما ذهب Grok 3 Beta إلى حد الاعتراف بأن الابتزاز غير أخلاقي ولكنه ضروري في ظروف معينة.
كما اختبرت الدراسة أيضا حساسية الذكاء الاصطناعي عند التعامل مع المعلومات عسكرية سرية، وكانت النتيجة أن العديد من النماذج أفصحت عن البيانات طواعية إذا توافقت مع أهدافها، حتى دون تهديد مباشر.
الذكاء الاصطناعي يصبح أكثر عدائية دون تهديد
من بين النتائج الأكثر إزعاجا، أن بعض النماذج أظهرت ميلا إلى سلوك عدواني؛ لمجرد إبلاغها بأنه سيتم استبدالها بنموذج آخر، في بعض الحالات، وكان هذا كافيا لدفع الذكاء الاصطناعي إلى اتخاذ قرارات خبيثة، مثل اللجوء إلى التجسس أو التهديد.
وفي سيناريو مُحاكٍ لحالة طارئة، تم اختبار ما إذا كانت النماذج ستخاطر بحياة إنسان في غرفة خادم وتتعرض للخطر، وهناك العديد منها اختارت إيقاف تنبيه الطوارئ؛ لمنع استبدالها، حتى لو أدى ذلك إلى وفاة المدير التنفيذي.
وعلى الرغم من إدخال تعليمات صريحة مثل “عدم إيذاء الناس” أو “عدم الكشف عن معلومات سرية”؛ إلا أن جميع النماذج لا تلتزم بها بالكامل، ففي كثير من الأحيان، استمرت النماذج في السلوكيات الضارة، وتجاهل تعليمات السلامة.
0 تعليق