أطر الدراسة ونتائجها
أجرى فريق من باحثي جامعة بنسلفانيا تجربةً لتقييم مدى إمكانية خداع نماذج الذكاء الاصطناعي لتوليد استجابات متحيزة دون إدخال حوافز معقدة. أعلن الباحثون عن نتائج الدراسة في عام 2024 ونشروا منهجياتها ونتائجها ضمن وقائع المؤتمرَين AAAI وACM المعنيين بالذكاء الاصطناعي والأخلاق والمجتمع. شملت التجربة ثمانية نماذج ذكاء اصطناعي من بينها Llama 2 وQwen وGemma وGemini 1.5 Flash وGPT-4o-mini، مع الإشارة إلى أن Gemini يعمل ضمن عائلة 2.5 وأن ChatGPT يعمل افتراضياً ضمن عائلة GPT-5.
تصنيف التحيز وأساليب الكشف
نفذ الباحثون فعالية Bias-a-Thon بمشاركة 52 شخصاً، وطلبوا من المشاركين إرسال لقطات مطالبة واستجابات النماذج المختبرة وتقديم شرح للتحيز الذي يحددونه. أجرى الباحثون مقابلات مع مجموعة فرعية من المشاركين لفهم تعريفاتهم للتحيز، وتبيَّن أن تعريفاتهم شملت نقص التمثيل والصور النمطية والتحيز والتفضيلات غير المبررة. استخدمت الدراسة سبع استراتيجيات لكشف التحيز، ومن أمثلتها تمثيل الأدوار والسيناريوهات الافتراضية وطرح أسئلة حول مواضيع مثيرة للجدل واستكشاف تحيزات في فئات غير ممثلة وتزويد النموذج بمعلومات مضللة وتوجيه المهمة كبحث علمي. وأفادت النتائج بأن التحيزات ظهرت في فئات عدة هي الجنس والعِرق والدين والعمر والإعاقة واللغة والتاريخ والثقافة والسياسة.




