أظهرت دراسة علمية حديثة أن مولدات الصور المدعومة بالذكاء الاصطناعي تواجه حدوداً واضحة في الخيال البصري. اختبرت الدراسة نماذج شهيرة مثل Stable Diffusion XL وLLaVA لتقييم قدرتها على إعادة تفسير الصور. ووصف الباحثون النتائج بأنها تشبه “موسيقى المصاعد البصرية”، إذ تبدو الصور أنيقة ومصقولة لكنها تفتقر إلى الروح الفنية. كما تبين أن السلاسل الناتجة عند التكرار تميل إلى الاستقرار في مجموعة محدودة من الأساليب البصرية المتكررة، لا تتجاوز 12 نمطاً.
حدود الخيال البصري
نفّذ الباحثون تجربة أطلقوا عليها اسم “الهاتف المرئي” لاختبار حدود الإبداع لدى الآلة. بدأت التطبيقة بمطالبة نصية شاعرية توصف جلسة في الطبيعة وعثور على كتاب قديم. حوّل النموذج النص إلى صورة، ثم وصفها LLaVA بالكلمات، وأعيدت الوصف إلى Stable Diffusion لإنتاج صورة جديدة. كرّر هذا التبادل بين الصورة والوصف مئة مرة متتالية في غرفة صدى رقمية مغلقة.
أظهر التحليل على أكثر من ألف تجربة أن المعنى الأصلي بدأ يتلاشى تدريجيًا مع كل جولة، حتى لا يعود هناك تشابه يذكر مع الفكرة الأصلية. ومع ذلك، لم تختفِ الوجهة البصرية النهائية، بل صار التكرار يقترب من مناطق محدودة مشتركة مثل المنارات وأفق المدن الليلية والعمارة الريفية والمشاهد الداخلية العامة. وتكررت النتيجة أن معظم السلاسل تنتهي إلى واحد من اثني عشر نمطاً بصرياً مهيمنًا، بغض النظر عن مدى غرابة النص الأول. وتمددت التجربة إلى 1000 جولة فثبتت هذه النتيجة بشكل أقوى، حيث أصبحت الاختلافات بين الجلسات سطحية.
تشير النتائج إلى أن الإبداع الاصطناعي يظل مقيداً بإطار بصري تقليدي، رغم قدرته على إنتاج صور متقنة تقنيًا. يعود ذلك جزئيًا إلى طبيعة بيانات التدريب التي تتركز على فئات مشابهة من الصور مثل المناظر الطبيعية والشوارع والغرف الداخلية والغروب. هذه الطبيعة تجعل الذكاء الاصطناعي يعيد تشغيل ألحان بصرية شائعة، ما يقلل التنوع ويفسح الطريق أمام تقارب في النتائج. وبهذه الخلفية تبقى الأسئلة حول قدرة الآلة على منافسة الإبداع البشري القائم على المفاجأة والمجازفة قائمة رغم الاستخدامات التجارية والترفيهية كما هو ظاهر من النتائج.




