Problemet med dagens tester av AI-koding
Det irriterer meg hvordan vi tester AI sin evne til å kode. Vi stiller feil spørsmål.
Tenk deg å teste en sjåfør kun på å parkere pent én gang. Den klarer det fint. Men hva med kaoset i rushtiden over måneder?
Det er akkurat det vi gjør med AI-koding. Tester gir én oppgave, én løsning. Koden funker, og vi jubler. Men ekte programvareutvikling er noe helt annet.
Slik ser ekte koding ut
I virkeligheten skriver du ikke kode én gang og glemmer det. Du jobber kontinuerlig med:
- Nye funksjoner som må passe inn i det gamle
- Feil som dukker opp lenge etterpå
- Omstrukturering for nye krav
- Sikkerhet mot at endringer ødelegger annet
Det er rotete, gjentakende arbeid. Du må tenke på hvordan koden utvikler seg fremover. En kjapp fiks i dag kan bli et mareritt om et halvt år.
SWE-CI: Testen som ser lengre frem
Forskere har nå skjønt problemet. De har laget SWE-CI – den første testen som sjekker AI sin håndtering av langsiktig kodevedlikehold.
I stedet for kjappe oppgaver, simulerer SWE-CI ekte programvareutvikling:
- 100 ulike kodingutfordringer
- Hver med i snitt 233 dagers utviklingshistorie
- Krever i gjennomsnitt 71 sammenhengende commiter
- Flere runder med analyse og iterasjoner
Dette er banebrytende. For første gang tester vi vedlikeholdbarhet, ikke bare om koden funker.
Hvorfor dette er viktig
Her er et sjokkerende tall: Vedlikehold tar 60–80 prosent av et programvareprosjekts kostnader. De fleste pengene går til å holde gammel kode i live, ikke nye funksjoner.
Likevel har vi testet AI kun på de enkle 20–40 prosentene.
Forskerne nevner Lehman's lover: Programvare forringer naturlig over tid med mindre du jobber mot det. Som en slags kaoslov for kode – ting blir verre uten aktiv innsats.
Konsekvenser for AI-utvikling
SWE-CI endrer spillet i hvordan vi vurderer koding-AI. Ikke lenger "kan den skrive fungerende kode?", men "kan den skrive kode som folk kan jobbe med over tid?".
Forskjellen er enorm. En AI kan hakke inn en midlertidig løsning som består testene. En annen lager ren, fleksibel kode som er enkel å endre. I dagens tester scorer begge likt. I virkeligheten vinner den andre klart.
Det store bildet
Denne forskningen bekrefter noe jeg har tenkt mye på: Vi trenger AI som tenker som seniorutviklere, ikke nybegynnere.
Nybegynnere får koden til å funke. Seniorer lager kode som er enkel å endre, feilsøke og utvide. De tenker på den som arver koden om seks måneder – kanskje seg selv.
SWE-CI er første test som fanger denne langsiktige tankegangen.
Fremtiden
Jeg gleder meg til å se hvordan dagens AI-modeller klarer SWE-CI. Magefølelsen sier de fleste sliter med vedlikeholdet, selv om de er flinke på enkeltoppgaver.
Men det er positivt – det peker ut veien videre. Slutt å jag etter mer kode raskere. Fokuser på bedre kode som holder.
Hva synes du? Har du sett forskjell på AI-assistenter i kjappe fikser versus store prosjekter? Del erfaringene dine i kommentarene!
Kilde: https://arxiv.org/pdf/2603.03823