تشير التحديثات الأخيرة في أنظمة الذكاء الاصطناعي إلى أن ChatGPT يحقق تفوقًا واضحًا على Gemini في مجالات تحتاج إلى عمق تفكير. وتدل النتائج أن التطورات السريعة قد تغيّر موازين القوة خلال أيام قليلة. وتبين الاختبارات فروقًا في الأداء بين النظامين تبعًا للمجال. وتبقى المقارنات ضمن إطار التحديث المستمر للموديلات.

الإجابة عن الأسئلة العلمية المعقدة

في اختبار GPQA Diamond المصمم لقياس التفكير العلمي على مستوى الدكتوراه في الفيزياء والكيمياء والأحياء، سجلت نسخة ChatGPT-5.2 نسبة 92.4% متفوقة بفارق طفيف على Gemini 3 Pro الذي حقق 91.9%. وتعرف هذه الأسئلة بأنها مضادة لمحركات البحث؛ لا يمكن الوصول لإجاباتها عبر بحث مباشر وتستلزم ربط مفاهيم علمية متعددة وتفادي الاستنتاجات السطحية. وتُظهر النتائج أن متوسط نتائج خريجي الدكتوراه يصل إلى نحو 65%، بينما لا يتجاوز غير المتخصصين 34%.

حل مشكلات البرمجة الواقعية

في SWE-Bench Pro الذي يعتمد على مشكلات مأخوذة من GitHub وتطلب فهم شيفرات معقدة وتقارير أعطال واقعية، أظهرت النتائج أن ChatGPT-5.2 حل نحو 24% من هذه القضايا، مقابل 18% لـGemini. ورغم أن النسب قد تبدو منخفضة، فإن الاختبار يبرز صعوبة المسائل الواقعية وتظل المقارنات البشرية أعلى في هذه الحالات. تبقى هذه النتائج دلالة على أن البشر يتفوقون في نهاية المطاف على النظامين في تطبيقات البرمجة الحرجة.

حل الألغاز البصرية والتفكير المجرد

في اختبار ARC-AGI-2 الذي يقيس استنتاج الأنماط المجردة من أمثلة محدودة، حقق ChatGPT-5.2 Pro نسبة 54.2% مقابل 31.1% لـGemini 3 Pro. وتوضح النتائج أن هذا المجال يمثل أحد أبرز التحديات في الذكاء الاصطناعي، ولكنه يظهر تفوقًا واضحًا لـChatGPT مقارنة بمعظم المنافسين. يبرز الاختبار قدرة النظام على ربط أمثلة محدودة بمفاهيم مجردة وليس الاعتماد على المعرفة العامة.

إطار التقييم

اعتمد التحليل على أحدث الإصدارات المدفوعة من النظامين مع التركيز على الاختبارات المعيارية بدلاً من المقارنات القائمة على التفضيلات الشخصية. ورغم وجود مجالات يظهر فيها Gemini تفوقًا في اختبارات أخرى، تمثل هذه المعايير الثلاثة مزيجًا من التفكير العلمي وحل المشكلات والذكاء المجرد. تظل المنافسة قائمة ومتغيرة مع استمرار التطوير في النظامين.

شاركها.