Het probleem met AI-programmeer-tests van nu
Er klopt iets niet met hoe we AI's programmeerkennis toetsen. We stellen de verkeerde vragen.
Stel je voor: je test iemands rijvaardigheid door alleen te vragen om perfect in te parkeren. Het lukt, prima. Maar wat als die persoon wekenlang files moet trotseren?
Zo testen we AI-programmeurs nu ook. Eén opdracht, één oplossing. Code draait, succes. Maar echt programmeren werkt zo niet.
Hoe programmeerwerk er écht uitziet
In de praktijk schrijf je geen code en klaar. Je bent altijd bezig met:
- Nieuwe snufjes toevoegen aan oude code
- Bugs repareren die ineens opduiken
- Oude rommel herschrijven voor frisse eisen
- Zorgen dat niks kapotgaat elders
Het is chaotisch, herhalend werk. Je moet vooruitdenken. Een snelle fix vandaag? Morgen een ramp.
SWE-CI: Testen op de lange adem
Onderzoekers zagen dit gat en bedachten SWE-CI. De eerste test die AI's langdurig code-onderhoud meet.
Geen eenmalige klusjes. SWE-CI bootst echte softwaregroei na:
- 100 programmeeruitdagingen
- Gemiddeld 233 dagen ontwikkelgeschiedenis per stuk
- 71 commits achter elkaar
- Meerdere rondes analyseren en aanpassen
Boeiend: het checkt onderhoudbaarheid, niet alleen of code loopt.
Waarom dit crucialer is dan je denkt
Feit: 60-80% van een softwarebudget gaat op naar onderhoud. Niet naar nieuwe features, maar naar het draaiende houden van oud spul.
Tot nu testten we AI op die makkelijke 20-40%. De rest? Genegeerd.
Lehman's Laws zeggen het: software verslechtert vanzelf. Net als entropie. Zonder effort wordt het een zooitje.
Wat dit voor AI betekent
SWE-CI verandert alles in AI-evaluatie. Niet meer: "Kan het code schrijven die werkt?" Maar: "Kan het code maken die mensen jarenlang aankunnen?"
Dat scheelt veel. Een AI hackt een test erdoor met vuile trucs. Een andere bouwt schoon en flexibel. Nu scoren ze gelijk. In de praktijk wint de tweede altijd.
Het bredere plaatje
Dit onderzoek raakt iets groters: we willen AI als senior developers, geen juniors.
Juniors: code laten draaien. Seniors: code makkelijk aanpasbaar, debugbaar, uitbreidbaar. Ze denken aan de volgende programmeur – vaak henzelf.
SWE-CI is de eerste test die dit écht peilt.
Wat komt er nu?
Ik ben razend benieuwd hoe top-AI's scoren op SWE-CI. Ik gok: ze struikelen over lang onderhoud, ondanks korte opdrachten.
Geen ramp – het wijst de weg. Niet sneller meer code, maar beter code. Tijdbestendig.
Jij? Zie je AI's anders presteren bij snelle fixes of langlopende projecten? Deel het in de comments!
Bron: https://arxiv.org/pdf/2603.03823