Problem z obecnymi testami kodowania AI
Coraz bardziej irytuje mnie sposób, w jaki sprawdzamy umiejętności programistyczne AI. Zadajemy złe pytania.
Wyobraź sobie, że oceniasz kierowcę, każąc mu tylko raz zaparkować idealnie. Super, udało się. Ale co z codzienną jazdą w korkach przez pół roku?
Dokładnie tak testujemy asystentów AI do kodowania. Dajemy jedno zadanie, AI pisze kod, działa – sukces. Tymczasem prawdziwe programowanie to coś zupełnie innego.
Jak naprawdę wygląda kodowanie
W praktyce nie piszesz kodu raz i zapominasz. Ciągle:
- Dodajesz funkcje, które muszą pasować do starego kodu
- Łatasz błędy, które wyskakują po miesiącach
- Przerabiasz stare fragmenty pod nowe potrzeby
- Dbasz, by zmiany nie rozwaliły reszty
To chaotyczny proces, pełen powtórek. Szybki trik na dziś jutro może stać się koszmarem.
SWE-CI: Test na dłuższą metę
Badacze w końcu to zauważyli i wymyślili SWE-CI – pierwszy benchmark sprawdzający, czy AI radzi sobie z długoterminową opieką nad kodem.
Zamiast jednorazówek, dostajesz zadania jak w prawdziwym projekcie:
- 100 wyzwań programistycznych
- Średnio 233 dni historii rozwoju
- Aż 71 commitów z rzędu
- Kilka rund analiz i poprawek
Po raz pierwszy sprawdzamy utrzymywalność kodu, nie tylko to, czy działa.
Dlaczego to takie ważne
Otóż maintenance pochłania 60-80% budżetu projektu. Większość pieniędzy idzie na pilnowanie starego kodu, nie na nowości.
A my do tej pory testowaliśmy AI tylko na tej łatwej reszcie – 20-40%.
Badacze przypominają Prawa Lehmana: oprogramowanie samo z siebie psuje się z czasem, jak entropia. Dodajesz funkcje, fixujesz bugi – i robi się bałagan, jeśli nie interweniujesz.
Co to znaczy dla rozwoju AI
SWE-CI zmienia podejście do oceny. Nie pytamy: "Czy AI pisze działający kod?", tylko: "Czy kod da się ogarnąć ludziom na lata?".
Różnica kolosalna. Jedno AI wklei brudny fix, które przejdzie testy. Drugie napisze czysto i elastycznie. Dziś oba dostaną max punktów. W realu to drugie jest na wagę złota.
Szerszy kontekst
To badanie pokazuje, co mi chodzi po głowie: chcemy AI jak senior developer, nie juniora.
Juniorzy skupiają się na "działa?". Seniorzy na "da się to zmieniać, debugować, rozszerzać?". Myślą o tym, kto przejmie kod za pół roku (może oni sami).
SWE-CI pierwszy raz to testuje.
Co dalej
Czekam z niecierpliwością na wyniki topowych modeli na SWE-CI. Obstawiam, że większość polegnie na maintenance, mimo sukcesów w prostych zadaniach.
To nie porażka – to wskazówka. Nie chodzi o szybsze pisanie kodu, tylko o lepszy kod, który przetrwa.
Co Wy na to? Widzieliście, jak AI radzi sobie z szybkimi fixami kontra długie projekty? Dajcie znać w komentarzach.
Źródło: https://arxiv.org/pdf/2603.03823