← Home

Proč AI kódovací asistenti excelují v rychlých opravách, ale selhávají u velkých projektů

2026-03-22T03:10:22.900439+00:00

Problém s testy AI na programování

Něco mě v tomhle všem štve. Testujeme AI na kódování špatně. Ptáme se na špatné věci.

Představte si, že hodnotíte řidiče jen podle toho, jestli umí zaparkovat na prázdné ulici. Super, zvládl to. Ale co když musí řídit v zácpě celé měsíce?

Přesně tak to chodí s AI pro kódování. Dáme jim jednu úlohu, napíšou kód, funguje to a máme vítěze. Jenže skutečné programování takhle nefunguje.

Jak to vypadá v praxi

V reálném světě kód ne napsáte a zapomenete. Pořád na něm děláte:

Přidáváte nové funkce, které se musí hodit k starému kódu
Odstraňujete chyby, co se objeví o půl roku později
Přepisujete starý kód pod nové požadavky
Dávejte pozor, aby změny nic jiného nerozbil

Je to chaotické, opakované a musíte myslet dopředu. Rychlá záplatka dnes? Za šest měsíců může být katastrofa.

Přichází SWE-CI: Test na dlouhou trať

Výzkumníci to pochopili a vymysleli SWE-CI. První benchmark, co testuje dlouhodobou údržbu kódu.

Místo jednorázovek dostane AI úkoly jako v reálném projektu. Konkrétně:

100 různých výzev
Každá pokrývá průměrně 233 dní vývoje
S 71 po sobě jdoucími commity
Vícenásobnými iteracemi analýzy a psaní

Super na tom je, že teď testujeme údržbu kódu, ne jen to, jestli funguje.

Proč je to důležitější, než si myslíte

Údržba kódu pohltí 60-80 % rozpočtu projektu. Žádná chyba – většina peněz jde na to, aby starý kód ještě žil, ne na novinky.

Dosud jsme AI testovali jen na těch snadných 20-40 %.

Autoři zmíní Lehmanovy zákony: software se sám kazí, pokud ho neudržujete. Jako entropie v kódu – s funkcemi a opravami se to hromadí chaos.

Co to znamená pro AI

SWE-CI mění pravidla hry. Místo „Umí napsat fungující kód?“ se ptáme „Umí napsat kód, se kterým se dá pracovat dlouho?“

Rozdíl je obrovský. Jedna AI napíše rychlou záplatku, co projde testy. Druhá udělá čistý, rozšiřitelný kód. Dnes by měly stejné skóre. V praxi je ale ta druhá k nezaplacení.

Širší pohled

Tohle ukazuje, co mě napadá už dlouho: Potřebujeme AI jako senior developery, ne juniory.

Junior řeší, aby to běželo. Senior myslí na změny, debug a rozšíření. Na toho, kdo kód zdědí za půl roku (možná sám sebe).

SWE-CI je první test, co to měří.

Co přijde dál

Těším se na výsledky současných AI na SWE-CI. Tuším, že s dlouhodobou údržbou budou mít problém, i když krátké úlohy zvládnou.

To není špatná zpráva – ukazuje cestu vpřed. Místo rychlejšího psaní kódu potřebujeme lepší kód, co vydrží.

Co vy? Viděli jste rozdíl mezi rychlými fixy a dlouhými projekty u AI? Pište do komentů.

Zdroj: https://arxiv.org/pdf/2603.03823

#artificial intelligence #software development #code quality #ai benchmarks #continuous integration