Hozirgi AI kodlash testlaridagi muammo
AI ning kod yozish qobiliyatini sinashda bir narsa bezovta qiladi: biz noto'g'ri savollar beramiz.
Misol uchun, haydovchilikni faqat bir marta mukammal sharoitda parallel to'xtash bilan sinasakchi? U yaxshi bajarishi mumkin, lekin bir necha oy shiddatli tirbandlikda haydashga tushganda nima bo'ladi?
AI kod yordamchilarini ham shunday sinaymiz. Odatda bitta muammoni beramiz, u kod yozadi, ishlaydi – va tayyor. Lekin haqiqiy dasturiy ta'minot ishi umuman boshqacha.
Haqiqiy kodlash qanday?
Ommada kod yozib, ketmaysiz. Doimiy ravishda:
- Yangi funksiyalar qo'shasiz, eskilar bilan aralashtirasiz
- Oylar o'tib chiqqan xatolarni tuzatasiz
- Eskilarni yangi talablarga moslashtirasiz
- O'zgarishlaringiz boshqa joyni buzmasligiga ishonch hosil qilasiz
Bu tartibsiz, takroriy jarayon. Bugun ishlaydigan oddiy yechim yarim yildan keyin jahannamga aylanishi mumkin.
SWE-CI: Uzoq muddatli sinov
Tadqiqotchilar bu bo'shliqni ko'rib, SWE-CI ni yaratdi – AI ning uzoq muddatli kod saqlashini sinaydigan birinchi benchmark.
Bir martalik muammolar o'rniga, haqiqiy loyihalar rivojini aks ettiruvchi vazifalar beradi:
- 100 ta kod muammosi
- Har biri o'rtacha 233 kunlik tarix
- O'rtacha 71 ta ketma-ket commit
- Bir necha tahlil va kod aylanishi
Bu ajoyib, chunki birinchi marta kodning uzoq muddatli saqlanishini, nafaqat to'g'riligini sinaymiz.
Nega bu muhim?
Qiziq fakt: dastur loyihalarining 60-80% xarajati saqlashga ketadi. Yangi funksiyalarga emas, eskilarini ishlatib turishga.
Sobiq testlar faqat oson 20-40% ni qamrab oldi.
Tadqiqotchilar Lehman qonunlarini eslatadi: dastur vaqt o'tishi bilan tabiiy ravishda yomonlashadi, agar oldini olmasangiz. Bu kod uchun entropiya – funksiyalar va tuzatishlar bilan murakkablashadi.
AI rivoji uchun nimasi degani?
SWE-CI kodlash AI ni baholashda katta o'zgarish. "Ishlaydigan kod yozadimi?" o'rniga "Insonlar uzoq muddat ishlashi mumkin bo'lgan kod yozadimi?" deb so'ramiz.
Farqi katta. Bir AI tez fix qiladi, testlarni o'tkazadi. Boshqasi toza, kengaytiriladigan kod yozadi. Hozirgi testlarda ikkalasi ham bir xil baho oladi. Haqiqatda ikkinchisi qimmatroq.
Kengroq rasm
Bu tadqiqot meni o'ylantirgan narsani tasdiqlaydi: junior emas, senior dasturchilar kabi o'ylaydigan AI kerak.
Juniorlar kod ishlatishga e'tibor qaratadi. Seniorlar o'zgartirish, debug va kengaytirishni osonlashtiradi. Ular yarim yildan keyin kodni qabul qiladigan odam haqida o'ylaydi (o'zlari bo'lishi mumkin).
SWE-CI shu uzoq muddatli fikrlashni sinaydigan birinchi benchmark.
Oldinga
Hozirgi AI modellar SWE-CI da qanday natija berishini ko'rishga qiziqaman. O'ylaymanki, alohida muammolarni yaxshi yechishiga qaramay, uzoq muddatli saqlashda qiynaladi.
Bu yomon emas – yaxshilash yo'nalishini ko'rsatadi. AI ni tezroq kod yozishga emas, vaqt sinovidan o'tadigan yaxshi kod yozishga o'rgatamiz.
Sizningcha? AI yordamchilari tez fix va uzoq loyihalarda farq qilishini ko'rdingizmi? Izohlarda tajribangizni yozing.
Manba: https://arxiv.org/pdf/2603.03823