← Home

AI-codehulpjes: Super voor snelle pleisters, ramp voor grote projecten

2026-03-22T03:09:06.052353+00:00

Het probleem met AI-programmeer-tests van nu

Er klopt iets niet met hoe we AI's programmeerkennis toetsen. We stellen de verkeerde vragen.

Stel je voor: je test iemands rijvaardigheid door alleen te vragen om perfect in te parkeren. Het lukt, prima. Maar wat als die persoon wekenlang files moet trotseren?

Zo testen we AI-programmeurs nu ook. Eén opdracht, één oplossing. Code draait, succes. Maar echt programmeren werkt zo niet.

Hoe programmeerwerk er écht uitziet

In de praktijk schrijf je geen code en klaar. Je bent altijd bezig met:

Nieuwe snufjes toevoegen aan oude code
Bugs repareren die ineens opduiken
Oude rommel herschrijven voor frisse eisen
Zorgen dat niks kapotgaat elders

Het is chaotisch, herhalend werk. Je moet vooruitdenken. Een snelle fix vandaag? Morgen een ramp.

SWE-CI: Testen op de lange adem

Onderzoekers zagen dit gat en bedachten SWE-CI. De eerste test die AI's langdurig code-onderhoud meet.

Geen eenmalige klusjes. SWE-CI bootst echte softwaregroei na:

100 programmeeruitdagingen
Gemiddeld 233 dagen ontwikkelgeschiedenis per stuk
71 commits achter elkaar
Meerdere rondes analyseren en aanpassen

Boeiend: het checkt onderhoudbaarheid, niet alleen of code loopt.

Waarom dit crucialer is dan je denkt

Feit: 60-80% van een softwarebudget gaat op naar onderhoud. Niet naar nieuwe features, maar naar het draaiende houden van oud spul.

Tot nu testten we AI op die makkelijke 20-40%. De rest? Genegeerd.

Lehman's Laws zeggen het: software verslechtert vanzelf. Net als entropie. Zonder effort wordt het een zooitje.

Wat dit voor AI betekent

SWE-CI verandert alles in AI-evaluatie. Niet meer: "Kan het code schrijven die werkt?" Maar: "Kan het code maken die mensen jarenlang aankunnen?"

Dat scheelt veel. Een AI hackt een test erdoor met vuile trucs. Een andere bouwt schoon en flexibel. Nu scoren ze gelijk. In de praktijk wint de tweede altijd.

Het bredere plaatje

Dit onderzoek raakt iets groters: we willen AI als senior developers, geen juniors.

Juniors: code laten draaien. Seniors: code makkelijk aanpasbaar, debugbaar, uitbreidbaar. Ze denken aan de volgende programmeur – vaak henzelf.

SWE-CI is de eerste test die dit écht peilt.

Wat komt er nu?

Ik ben razend benieuwd hoe top-AI's scoren op SWE-CI. Ik gok: ze struikelen over lang onderhoud, ondanks korte opdrachten.

Geen ramp – het wijst de weg. Niet sneller meer code, maar beter code. Tijdbestendig.

Jij? Zie je AI's anders presteren bij snelle fixes of langlopende projecten? Deel het in de comments!

Bron: https://arxiv.org/pdf/2603.03823

#artificial intelligence #software development #code quality #ai benchmarks #continuous integration