AI kod yozuvchi yordamchilari: Tez tuzatishlarda zo'r, lekin uzoq loyihalarda nol!

09 Mar 2026 16 ko'rish

Hozirgi AI kodlash testlaridagi muammo

AI ning kod yozish qobiliyatini sinashda bir narsa bezovta qiladi: biz noto'g'ri savollar beramiz.

Misol uchun, haydovchilikni faqat bir marta mukammal sharoitda parallel to'xtash bilan sinasakchi? U yaxshi bajarishi mumkin, lekin bir necha oy shiddatli tirbandlikda haydashga tushganda nima bo'ladi?

AI kod yordamchilarini ham shunday sinaymiz. Odatda bitta muammoni beramiz, u kod yozadi, ishlaydi – va tayyor. Lekin haqiqiy dasturiy ta'minot ishi umuman boshqacha.

Haqiqiy kodlash qanday?

Ommada kod yozib, ketmaysiz. Doimiy ravishda:

Yangi funksiyalar qo'shasiz, eskilar bilan aralashtirasiz
Oylar o'tib chiqqan xatolarni tuzatasiz
Eskilarni yangi talablarga moslashtirasiz
O'zgarishlaringiz boshqa joyni buzmasligiga ishonch hosil qilasiz

Bu tartibsiz, takroriy jarayon. Bugun ishlaydigan oddiy yechim yarim yildan keyin jahannamga aylanishi mumkin.

SWE-CI: Uzoq muddatli sinov

Tadqiqotchilar bu bo'shliqni ko'rib, SWE-CI ni yaratdi – AI ning uzoq muddatli kod saqlashini sinaydigan birinchi benchmark.

Bir martalik muammolar o'rniga, haqiqiy loyihalar rivojini aks ettiruvchi vazifalar beradi:

100 ta kod muammosi
Har biri o'rtacha 233 kunlik tarix
O'rtacha 71 ta ketma-ket commit
Bir necha tahlil va kod aylanishi

Bu ajoyib, chunki birinchi marta kodning uzoq muddatli saqlanishini, nafaqat to'g'riligini sinaymiz.

Nega bu muhim?

Qiziq fakt: dastur loyihalarining 60-80% xarajati saqlashga ketadi. Yangi funksiyalarga emas, eskilarini ishlatib turishga.

Sobiq testlar faqat oson 20-40% ni qamrab oldi.

Tadqiqotchilar Lehman qonunlarini eslatadi: dastur vaqt o'tishi bilan tabiiy ravishda yomonlashadi, agar oldini olmasangiz. Bu kod uchun entropiya – funksiyalar va tuzatishlar bilan murakkablashadi.

AI rivoji uchun nimasi degani?

SWE-CI kodlash AI ni baholashda katta o'zgarish. "Ishlaydigan kod yozadimi?" o'rniga "Insonlar uzoq muddat ishlashi mumkin bo'lgan kod yozadimi?" deb so'ramiz.

Farqi katta. Bir AI tez fix qiladi, testlarni o'tkazadi. Boshqasi toza, kengaytiriladigan kod yozadi. Hozirgi testlarda ikkalasi ham bir xil baho oladi. Haqiqatda ikkinchisi qimmatroq.

Kengroq rasm

Bu tadqiqot meni o'ylantirgan narsani tasdiqlaydi: junior emas, senior dasturchilar kabi o'ylaydigan AI kerak.

Juniorlar kod ishlatishga e'tibor qaratadi. Seniorlar o'zgartirish, debug va kengaytirishni osonlashtiradi. Ular yarim yildan keyin kodni qabul qiladigan odam haqida o'ylaydi (o'zlari bo'lishi mumkin).

SWE-CI shu uzoq muddatli fikrlashni sinaydigan birinchi benchmark.

Oldinga

Hozirgi AI modellar SWE-CI da qanday natija berishini ko'rishga qiziqaman. O'ylaymanki, alohida muammolarni yaxshi yechishiga qaramay, uzoq muddatli saqlashda qiynaladi.

Bu yomon emas – yaxshilash yo'nalishini ko'rsatadi. AI ni tezroq kod yozishga emas, vaqt sinovidan o'tadigan yaxshi kod yozishga o'rgatamiz.

Sizningcha? AI yordamchilari tez fix va uzoq loyihalarda farq qilishini ko'rdingizmi? Izohlarda tajribangizni yozing.

Manba: https://arxiv.org/pdf/2603.03823

#artificial intelligence #software development #code quality #ai benchmarks #continuous integration