مشكلة اختبارات البرمجة بالذكاء الاصطناعي الحالية
صديقي، فيه حاجة مزعجة في طريقة اختبار قدرات الذكاء الاصطناعي على البرمجة. بنسأل أسئلة غلط تمامًا.
تخيل إنك بتختبر سائق بإنه يركن سيارته مرة واحدة في ظروف مثالية. ينجح، طيب. بس لو خليته يقود في زحمة مرور لشهور؟ هنا الفرق.
هيك بنعمل مع مساعدي البرمجة بالذكاء الاصطناعي. معظم الاختبارات تعطي مشكلة واحدة وتطلب حل واحد. الكود يشتغل، ونقول نجح. بس التطوير الحقيقي مش كده خالص.
البرمجة في الحياة الواقعية
في الواقع، ما بتكتب كود مرة وتمشي. بتستمر في:
- إضافة ميزات جديدة تتفاعل مع الكود القديم
- إصلاح أخطاء تظهر بعد أشهر
- تعديل كود قديم ليتناسب مع متطلبات جديدة
- التأكد إن تغييراتك ما تفسد حاجة تانية
الأمر فوضوي ومتكرر. بتحتاج تفكر في تطور الكود مع الوقت. حل سريع اليوم قد يسبب كابوس بعد نص سنة.
مرحباً بـ SWE-CI: اختبار المدى الطويل
الباحثون لاحظوا الفرق ده وصنعوا SWE-CI. أول معيار يختبر صيانة الكود على المدى الطويل.
بدل مشاكل سريعة، يعطي الذكاء الاصطناعي مهام تشبه تطور البرامج الحقيقي. زي:
- 100 تحدي برمجة مختلف
- كل واحد يغطي تاريخ تطوير متوسط 233 يوم
- يحتاج 71 التزام متتالي في المتوسط
- جولات متعددة من التحليل والكتابة
ده رائع لأنه يختبر قابلية صيانة الكود، مش بس صحته.
ليه ده مهم أكتر مما تتخيل
إحصائية صادمة: الصيانة تأخذ 60-80% من تكاليف مشروع البرمجيات. معظم الميزانية تروح على الحفاظ على الكود القديم، مش كتابة جديد.
لحد دلوقتي، كنا نختبر الـ20-40% السهلة بس.
الباحثون يذكروا قوانين ليمان، اللي تقول إن البرمجيات تتدهور طبيعيًا مع الوقت إلا لو عملت جهد لمنعها. زي الفوضى في الكون، الكود يتعقد مع الإضافات والإصلاحات.
إيه تأثير ده على تطوير الذكاء الاصطناعي
SWE-CI تغيير كبير في تقييم الذكاء الاصطناعي البرمجي. بدل "هل يقدر يكتب كود يشتغل؟"، نسأل "هل يقدر يكتب كود يتعامل معاه البشر على المدى الطويل؟"
الفرق هائل. ذكاء اصطناعي قد يعمل حيلة سريعة تمر الاختبارات، وآخر يكتب كود نظيف وقابل للتوسع. في الاختبارات القديمة، الاتنين ينجحوا. بس في الواقع، التاني أفضل بكتير.
الصورة الأكبر
البحث ده يؤكد فكرة في بالي: نحتاج ذكاء اصطناعي يفكر زي المبرمجين الكبار، مش المبتدئين.
المبتدئ يركز على إن الكود يشتغل. الكبير يركز على سهولة التغيير والتصحيح والتوسع. يفكر في اللي هيورث الكود بعد شهور (ربما هو نفسه).
SWE-CI أول معيار يختبر التفكير ده.
النظر للمستقبل
متحمس أشوف أداء نماذج الذكاء الاصطناعي الحالية على SWE-CI. أتوقع معظمهم يتعثروا في الصيانة الطويلة، حتى لو ممتازين في المشاكل الفردية.
بس ده مش خبر سيء. يعطينا طريق واضح للتحسين. بدل تسريع كتابة الكود، نركز على كتابة كود أفضل يدوم.
إيه رأيك؟ لاحظت فرق في تعامل مساعدي البرمجة مع الإصلاحات السريعة مقابل المشاريع الطويلة؟ شارك تجربتك في التعليقات.
المصدر: https://arxiv.org/pdf/2603.03823