← Home

AI-kodere er stjerner til hurtige patches – men totalt uduelige til store projekter

2026-03-22T03:08:04.701120+00:00

Problemet med nutidens AI-kodningstests

Noget irriterer mig ved de fleste tests af AI's kodningsevner: Vi stiller de forkerte spørgsmål.

Forestil dig at teste en bilkørers færdigheder kun ved at lade vedkommende parkere én gang under perfekte forhold. Det går måske godt, men hvad med at køre i myldretid i månedsvis?

Præcis sådan tester vi AI-kodningshjælpere. De får ét problem, leverer én løsning. Koden kører, og vi jubler. Men virkeligheden i softwareudvikling er totalt anderledes.

Sådan ser ægte kodning ud

I praksis skriver du ikke kode én gang og glemmer det. Du arbejder løbende med:

Nye funktioner, der skal passe til det gamle
Fejlrettelser, der dukker op efter måneder
Omstrukturering af gammel kode til nye behov
Sikring af, at ændringer ikke ødelægger andet

Det er kaotisk, gentagende og kræver tanken på fremtiden. En hurtig løsning i dag kan blive et mareridt om et halvt år.

SWE-CI: Testen af det lange løb

Forskere har nu fanget problemet og lavet SWE-CI – det første benchmark, der tjekker AI's evne til langsigtede vedligeholdelser.

Her får AI-agenter opgaver, der ligner rigtig softwareudvikling over tid. Det inkluderer:

100 forskellige udfordringer
Hver med i gennemsnit 233 dages udviklingshistorik
Krævende 71 sammenhængende commits i snit
Flere runder med analyse og kodning

Spændende nok tester det vedligeholdelsesevne frem for kun korrekthed.

Hvorfor det betyder noget

Her er et koldt faktum: Vedligeholdelse sluker 60-80% af et softwareprojects budget. De fleste penge går til at holde eksisterende kode i live – ikke til nye ting.

Indtil nu har vi testet AI på de lette 20-40%.

Forskere nævner Lehman's Love: Software forringer sig naturligt over tid, medmindre du kæmper imod. Det er kode-entropi – ting bliver rodet og komplekst af sig selv.

Betydningen for AI-udvikling

SWE-CI ændrer spillet i evaluering af kodnings-AI. Vi skal spørge: "Kan AI'en skrive kode, der holder med mennesker på lang sigt?" Ikke bare "Fungerer det?"

Forskel er enorm. Én AI hakker en midlertidig fix, der passer tests. En anden laver ren, fleksibel kode. I dag scorer de ens. I virkeligheden vinder den rene altid.

Det store billede

Forskningen understreger noget vigtigt: Vi skal have AI, der tænker som seniorudviklere, ikke juniorer.

Juniorer får koden til at køre. Seniorer sikrer, at den er let at ændre, debugge og udvide. De tænker på arvingen om seks måneder – måske sig selv.

SWE-CI er det første test, der måler den slags fremtidsvision.

Fremtiden

Jeg glæder mig til at se, hvordan nutidens AI-modeller klarer SWE-CI. Min mave siger, de fleste fejler vedligeholdelsesdelen, selvom de er stjerner i enkeltopgaver.

Det er godt – det viser vejen frem. Vi skal ikke bare gøre AI hurtigere, men bedre til kode, der holder.

Hvad synes du? Har du set forskelle i AI-hjælpere på hurtige fixes mod langsigtede projekter? Del dine oplevelser i kommentarerne.

Kilde: https://arxiv.org/pdf/2603.03823

#artificial intelligence #software development #code quality #ai benchmarks #continuous integration