أعلنت شركة DeepSeek في أكتوبر الماضي عن تقنية DeepSeek-OCR، وهي آلية تهدف إلى تعزيز معالجة المستندات الكبيرة والمعقدة عبر تمثيل النص بصرياً كوسيط لضغطه. وتفيد الشركة بأن هذه الطريقة يمكن أن تقلل عدد الرموز النصية (Tokens) بمعدل يتراوح بين 7 و20 مرة. وتستهدف التقنية تجاوز مشكلة “عنق زجاجة السياق الطويل” في نماذج الذكاء الاصطناعي من خلال تقليل الاعتماد على طول النصوص المدخلة. وتؤكد الشركة أن طريقة الضغط البصري تمثل خطوة نحو فهم أفضل للنصوص الطويلة ورفع كفاءة العمل على المستندات الضخمة.
أظهرت دراسة جديدة أُجريت من قبل باحثين من جامعة توهوكو اليابانية والأكاديمية الصينية للعلوم أن أداء DeepSeek-OCR كان غير متسق، وأنه يعتمد بشكل كبير على الأسبقيات اللغوية داخلياً وليس الفهم البصري الفعلي. وبيَّن الباحثون أن النتائج التي أعلنتها الشركة قد تكون مضللة، إذ أشاروا إلى أن دقة الإجابة عن أسئلة بصرية انخفضت إلى نحو 20% عند إضافة نص إضافي قد يؤثر في الاستدلال، مقارنةً بمتوسط يتجاوز 90% لدى نماذج ذكاء اصطناعي تقليدية. كما أشاروا إلى أن هذه النتائج تثير تساؤلات حول جدوى الاعتماد على الضغط البصري كمسار وحيد لتجاوز قيود السياق الطويل. وتُبرز الدراسة الحاجة إلى استكشاف حلول بديلة وموثوقة لمعالجة النصوص الطويلة.
آراء الوسط العلمي
لم يرد رد رسمي من الجهة المطورة عند وقوع الجدل، لكن بعض خبراء علوم الحاسوب وصفوا التقنية بأنها ليست فاشلة بل سلاح ذو حدين. قال باحث من جامعة العلوم والتكنولوجيا الصينية ويدير حالياً شركة ناشئة ببكين إن الاعتماد على المعرفة المكتسبة قد يفيد في مخطوطات غامضة، ولكنه قد يتحول إلى نقطة ضعف عند قراءة نص مطبوع بوضوح. أضاف أن لهذه التقنية مزاياها وتحدياتها في الوقت نفسه.
مستقبل تقنيات قراءة النصوص الطويلة
تؤكد الدراسة أن السباق نحو تحسين قدرات الذكاء الاصطناعي في فهم النصوص الطويلة لا يزال مفتوحاً وأنه لا توجد حلول سحرية تناسب جميع الحالات، وهو ما يدفع الباحثين للبحث عن استراتيجيات بديلة أكثر موثوقية. ويشير البحث إلى ضرورة تبني أساليب متعددة تجمع بين الأساليب البصرية واللغوية وتقييمها بشكل دقيق قبل الاعتماد الكامل. كما تُبرز النتائج أن نطاق تطبيق تقنيات الضغط البصري يتطلب تحديداً أفضل للحالات التي تستفيد منها وتلك التي تتطلب فهماً شاملاً للنص.




