أعلنت شركة DeepSeek عن طرح نموذج مفتوح المصدر باسم DeepSeek-OCR يسعى إلى إعادة تعريف تحليل النصوص ومعالجتها. يعتمد النموذج على تحويل النص إلى بُعد بصري باستخدام خرائط ثنائية الأبعاد لتجميع السياق الطويل في شكل يسهل على الآلة فهمه. وتؤكد الشركة أن هذا النهج الجديد يوفر استجابات أكثر دقة وبسرعة أعلى من الأساليب التقليدية من خلال تركيزه على المعلومات الأكثر صلة في النص.
التقنية الأساسية
تعتمد التقنية الأساسية على OCR، لكنها تتجاوز التعرّف الحرفي عبر تحويل الصفحات النصية إلى صور قبل تحليلها. يُعرف هذا المفهوم باسم “الضغط البصري للسياق” حيث يحوّل النموذج الصفحات الطويلة إلى صور ثم يترجمها إلى رموز بصرية مكثّفة أصغر حجماً من الرموز النصية. وعلى سبيل المثال، يمكن للنموذج معالجة مقال من 1000 كلمة باستخدام نحو 100 رمز بصري فقط، وهو إنجاز يهدف إلى تقليل حجم البيانات دون فقدان المعنى. هذا الأسلوب يساعد في التقاط المعلومات الأكثر صلة لتوليد استجابات أدق وأسرع.
أعلنت DeepSeek أن النموذج متاح حالياً عبر GitHub بموجب رخصة MIT، ما يسمح باستخدامه للأغراض الأكاديمية والتجارية. وأضافت الشركة أن DeepSeek-OCR حظي بإقبال واسع، حيث تجاوز عدد الإعجابات 6700 خلال 24 ساعة من الإطلاق، وهو ما يعكس الاهتمام الكبير بالنهج الجديد في معالجة النصوص بصرياً.


