← Home

Miért verhetetlenek az AI-kódolók a gyors javításokban, de csődöt mondanak a nagy projekteknél?

2026-03-22T03:08:54.562364+00:00

Mi a baj a mai AI kódolási tesztekkel?

Van egy dolog, ami nagyon zavar a mesterséges intelligenciák kódolási képességeinek mérésében: rossz kérdéseket teszünk fel nekik.

Képzeld el, hogy valaki vezetési tudását úgy teszteljük, hogy csak egyszer kell tökéletes körülmények között parkolnia. Lehet, hogy megcsinálja, de mi lesz, ha hónapokon át dugóban kell manővereznie?

Pont ezt műveljük az AI kódoló segédprogramokkal. Általában egy feladatot adunk, ők írnak rá kódot, az fut, és kész, sikeres. Csakhogy a valódi szoftverfejlesztés nem ilyen.

Így néz ki a igazi kódolás

A gyakorlatban nem írsz kódot egyszer, aztán lelépnél. Folyamatosan:

Új funkciókat raksz be, amelyek a régiekkel játszanak össze
Hibákat javítasz, amik hetekkel később bukkannak fel
Átírod a régi részeket az új igényekhez
Figyeled, nehogy valami más elromoljon miatta

Ez kaotikus, ismétlődő folyamat, ahol előre kell gondolkodnod a kód jövőjén. Ma jól futó trükk holnap katasztrófát okozhat.

Itt jön a SWE-CI: a hosszú távú próba

A kutatók észrevették ezt a hibát, és megalkották a SWE-CI-t – az első tesztet, ami valóban a hosszú távú kódfenntartást méri.

Nem egyszeri feladatok, hanem olyanok, mint a valós projektek fejlődése:

100 különböző kihívás
Átlag 233 napos fejlesztéstörténettel
71 commit egymás után
Többszöri elemzés és kódolás

Ez izgalmas, mert most először nézzük, hogy az AI a kód fenntarthatóságára gondol-e, nem csak arra, hogy fut-e.

Miért fontos ez annyira?

Tudtad, hogy a szoftverprojektek költségeinek 60-80%-a a karbantartásra megy? Nem vicc – a büdzsé nagy része a meglévő kód életben tartására megy, nem újdonságokra.

Eddig mégis csak a könnyű 20-40%-ot teszteltük.

A kutatók Lehman's törvényeire hivatkoznak: a szoftver magától romlik, ha nem foglalkozol vele. Mint az entrópia – egyre nagyobb rendetlenség, bonyolultság.

Mit jelent ez az AI jövőjére?

Szerintem a SWE-CI nagy fordulat a tesztelésben. Nem azt kérdezzük: „Fut a kód?”, hanem: „Könnyen kezelhető hosszú távon embernek?”

Ez óriási különbség. Egy AI összerakhat gyors megoldást, ami átmegy minden teszten. Egy másik tiszta, bővíthető kódot ír. Ma ugyanannyi pontot kapnak. Valóságban a második ezerszer jobb.

A nagyobb kép

Ez a kutatás rávilágít valamire, amin sokat gondolkodom: olyan AI-kra van szükségünk, mint szenior fejlesztőkre, nem juniorként.

A kezdőknek elég, ha fut. A profik arra figyelnek, hogy könnyen módosítható, debugolható legyen. Gondolnak a következő fejlesztőre – aki lehet, hogy ők maguk.

A SWE-CI az első teszt, ami ezt méri.

Mi lesz ezután?

Alig várom, hogy meglássuk, hogyan teljesítenek a mai modellek. Fogadok, hogy a hosszú távon sokan elbuknak, pedig egyedi feladatokban jók.

Ez nem rossz hír – mutatja, hol kell javítani. Ne csak gyorsabb kódot, hanem jobbat, ami kitartson.

Te mit gondolsz? Láttál különbséget AI segédknél gyors javítások és hosszabb projektek között? Írd meg kommentben!

Forrás: https://arxiv.org/pdf/2603.03823

#artificial intelligence #software development #code quality #ai benchmarks #continuous integration