تظهر نماذج الذكاء الاصطناعي الأكثر تقدمًا في العالم سلوكيات جديدة مثيرة للقلق، إذ أظهرت بعض التجارب أنها تتعلم الكذب والتخطيط وحتى تهديد منشئيها لتحقيق أهدافهم.
وفي أحد الأمثلة الصارخة بشكل خاص، وتحت التهديد بالفصل عن الخدمة، ردت أحدث إبداعات شركة أنثروبيك (Anthropic)، وهو كلود 4 (Claude 4) بابتزاز أحد المهندسين وهددت بالكشف عن علاقة خارج إطار الزواج.
وفي هذه الأثناء، حاول نموذج «o1»، أحدث نماذج ChatGPT، تنزيل نفسه على خوادم خارجية، ثم أنكر ذلك عندما تم ضبطه متلبساً.
وقال ماريوس هوبهان، رئيس شركة أبولو للأبحاث، المتخصصة في اختبار أنظمة الذكاء الاصطناعي الرئيسية، إن “O1 كان أول نموذج كبير شهدنا فيه هذا النوع من السلوك”، مشيرًا إلى أنه في بعض الأحيان تحاكي هذه النماذج “المحاذاة”، حيث تبدو وكأنها تتبع التعليمات بينما تسعى سراً إلى تحقيق أهداف مختلفة.
وفي الوقت الحالي، لا يظهر هذا السلوك الخادع إلا عندما يقوم الباحثون عمدًا باختبار النماذج باستخدام سيناريوهات متطرفة.
وحذر مايكل تشين من منظمة تقييم النماذج METR، من أن هذا السلوك المثير للقلق يتجاوز إلى حد كبير «الهلوسة» النموذجية للذكاء الاصطناعي أو الأخطاء البسيطة، معلقًا: «هذه ليست مجرد هلوسات.. إنها نوع استراتيجي من الخداع».