← Home

Dlaczego asystenci AI ratują kod w locie, ale zawodzą na długich projektach?

2026-03-22T03:09:28.595474+00:00

Problem z obecnymi testami kodowania AI

Coraz bardziej irytuje mnie sposób, w jaki sprawdzamy umiejętności programistyczne AI. Zadajemy złe pytania.

Wyobraź sobie, że oceniasz kierowcę, każąc mu tylko raz zaparkować idealnie. Super, udało się. Ale co z codzienną jazdą w korkach przez pół roku?

Dokładnie tak testujemy asystentów AI do kodowania. Dajemy jedno zadanie, AI pisze kod, działa – sukces. Tymczasem prawdziwe programowanie to coś zupełnie innego.

Jak naprawdę wygląda kodowanie

W praktyce nie piszesz kodu raz i zapominasz. Ciągle:

Dodajesz funkcje, które muszą pasować do starego kodu
Łatasz błędy, które wyskakują po miesiącach
Przerabiasz stare fragmenty pod nowe potrzeby
Dbasz, by zmiany nie rozwaliły reszty

To chaotyczny proces, pełen powtórek. Szybki trik na dziś jutro może stać się koszmarem.

SWE-CI: Test na dłuższą metę

Badacze w końcu to zauważyli i wymyślili SWE-CI – pierwszy benchmark sprawdzający, czy AI radzi sobie z długoterminową opieką nad kodem.

Zamiast jednorazówek, dostajesz zadania jak w prawdziwym projekcie:

100 wyzwań programistycznych
Średnio 233 dni historii rozwoju
Aż 71 commitów z rzędu
Kilka rund analiz i poprawek

Po raz pierwszy sprawdzamy utrzymywalność kodu, nie tylko to, czy działa.

Dlaczego to takie ważne

Otóż maintenance pochłania 60-80% budżetu projektu. Większość pieniędzy idzie na pilnowanie starego kodu, nie na nowości.

A my do tej pory testowaliśmy AI tylko na tej łatwej reszcie – 20-40%.

Badacze przypominają Prawa Lehmana: oprogramowanie samo z siebie psuje się z czasem, jak entropia. Dodajesz funkcje, fixujesz bugi – i robi się bałagan, jeśli nie interweniujesz.

Co to znaczy dla rozwoju AI

SWE-CI zmienia podejście do oceny. Nie pytamy: "Czy AI pisze działający kod?", tylko: "Czy kod da się ogarnąć ludziom na lata?".

Różnica kolosalna. Jedno AI wklei brudny fix, które przejdzie testy. Drugie napisze czysto i elastycznie. Dziś oba dostaną max punktów. W realu to drugie jest na wagę złota.

Szerszy kontekst

To badanie pokazuje, co mi chodzi po głowie: chcemy AI jak senior developer, nie juniora.

Juniorzy skupiają się na "działa?". Seniorzy na "da się to zmieniać, debugować, rozszerzać?". Myślą o tym, kto przejmie kod za pół roku (może oni sami).

SWE-CI pierwszy raz to testuje.

Co dalej

Czekam z niecierpliwością na wyniki topowych modeli na SWE-CI. Obstawiam, że większość polegnie na maintenance, mimo sukcesów w prostych zadaniach.

To nie porażka – to wskazówka. Nie chodzi o szybsze pisanie kodu, tylko o lepszy kod, który przetrwa.

Co Wy na to? Widzieliście, jak AI radzi sobie z szybkimi fixami kontra długie projekty? Dajcie znać w komentarzach.

Źródło: https://arxiv.org/pdf/2603.03823

#artificial intelligence #software development #code quality #ai benchmarks #continuous integration