Problemet med nutidens AI-kodningstests
Noget irriterer mig ved de fleste tests af AI's kodningsevner: Vi stiller de forkerte spørgsmål.
Forestil dig at teste en bilkørers færdigheder kun ved at lade vedkommende parkere én gang under perfekte forhold. Det går måske godt, men hvad med at køre i myldretid i månedsvis?
Præcis sådan tester vi AI-kodningshjælpere. De får ét problem, leverer én løsning. Koden kører, og vi jubler. Men virkeligheden i softwareudvikling er totalt anderledes.
Sådan ser ægte kodning ud
I praksis skriver du ikke kode én gang og glemmer det. Du arbejder løbende med:
- Nye funktioner, der skal passe til det gamle
- Fejlrettelser, der dukker op efter måneder
- Omstrukturering af gammel kode til nye behov
- Sikring af, at ændringer ikke ødelægger andet
Det er kaotisk, gentagende og kræver tanken på fremtiden. En hurtig løsning i dag kan blive et mareridt om et halvt år.
SWE-CI: Testen af det lange løb
Forskere har nu fanget problemet og lavet SWE-CI – det første benchmark, der tjekker AI's evne til langsigtede vedligeholdelser.
Her får AI-agenter opgaver, der ligner rigtig softwareudvikling over tid. Det inkluderer:
- 100 forskellige udfordringer
- Hver med i gennemsnit 233 dages udviklingshistorik
- Krævende 71 sammenhængende commits i snit
- Flere runder med analyse og kodning
Spændende nok tester det vedligeholdelsesevne frem for kun korrekthed.
Hvorfor det betyder noget
Her er et koldt faktum: Vedligeholdelse sluker 60-80% af et softwareprojects budget. De fleste penge går til at holde eksisterende kode i live – ikke til nye ting.
Indtil nu har vi testet AI på de lette 20-40%.
Forskere nævner Lehman's Love: Software forringer sig naturligt over tid, medmindre du kæmper imod. Det er kode-entropi – ting bliver rodet og komplekst af sig selv.
Betydningen for AI-udvikling
SWE-CI ændrer spillet i evaluering af kodnings-AI. Vi skal spørge: "Kan AI'en skrive kode, der holder med mennesker på lang sigt?" Ikke bare "Fungerer det?"
Forskel er enorm. Én AI hakker en midlertidig fix, der passer tests. En anden laver ren, fleksibel kode. I dag scorer de ens. I virkeligheden vinder den rene altid.
Det store billede
Forskningen understreger noget vigtigt: Vi skal have AI, der tænker som seniorudviklere, ikke juniorer.
Juniorer får koden til at køre. Seniorer sikrer, at den er let at ændre, debugge og udvide. De tænker på arvingen om seks måneder – måske sig selv.
SWE-CI er det første test, der måler den slags fremtidsvision.
Fremtiden
Jeg glæder mig til at se, hvordan nutidens AI-modeller klarer SWE-CI. Min mave siger, de fleste fejler vedligeholdelsesdelen, selvom de er stjerner i enkeltopgaver.
Det er godt – det viser vejen frem. Vi skal ikke bare gøre AI hurtigere, men bedre til kode, der holder.
Hvad synes du? Har du set forskelle i AI-hjælpere på hurtige fixes mod langsigtede projekter? Del dine oplevelser i kommentarerne.
Kilde: https://arxiv.org/pdf/2603.03823