Science & Technology
← Home
Dlaczego asystenci AI ratują kod w locie, ale zawodzą na długich projektach?

Dlaczego asystenci AI ratują kod w locie, ale zawodzą na długich projektach?

2026-03-22T03:09:28.595474+00:00

Problem z obecnymi testami kodowania AI

Coraz bardziej irytuje mnie sposób, w jaki sprawdzamy umiejętności programistyczne AI. Zadajemy złe pytania.

Wyobraź sobie, że oceniasz kierowcę, każąc mu tylko raz zaparkować idealnie. Super, udało się. Ale co z codzienną jazdą w korkach przez pół roku?

Dokładnie tak testujemy asystentów AI do kodowania. Dajemy jedno zadanie, AI pisze kod, działa – sukces. Tymczasem prawdziwe programowanie to coś zupełnie innego.

Jak naprawdę wygląda kodowanie

W praktyce nie piszesz kodu raz i zapominasz. Ciągle:

  • Dodajesz funkcje, które muszą pasować do starego kodu
  • Łatasz błędy, które wyskakują po miesiącach
  • Przerabiasz stare fragmenty pod nowe potrzeby
  • Dbasz, by zmiany nie rozwaliły reszty

To chaotyczny proces, pełen powtórek. Szybki trik na dziś jutro może stać się koszmarem.

SWE-CI: Test na dłuższą metę

Badacze w końcu to zauważyli i wymyślili SWE-CI – pierwszy benchmark sprawdzający, czy AI radzi sobie z długoterminową opieką nad kodem.

Zamiast jednorazówek, dostajesz zadania jak w prawdziwym projekcie:

  • 100 wyzwań programistycznych
  • Średnio 233 dni historii rozwoju
  • 71 commitów z rzędu
  • Kilka rund analiz i poprawek

Po raz pierwszy sprawdzamy utrzymywalność kodu, nie tylko to, czy działa.

Dlaczego to takie ważne

Otóż maintenance pochłania 60-80% budżetu projektu. Większość pieniędzy idzie na pilnowanie starego kodu, nie na nowości.

A my do tej pory testowaliśmy AI tylko na tej łatwej reszcie – 20-40%.

Badacze przypominają Prawa Lehmana: oprogramowanie samo z siebie psuje się z czasem, jak entropia. Dodajesz funkcje, fixujesz bugi – i robi się bałagan, jeśli nie interweniujesz.

Co to znaczy dla rozwoju AI

SWE-CI zmienia podejście do oceny. Nie pytamy: "Czy AI pisze działający kod?", tylko: "Czy kod da się ogarnąć ludziom na lata?".

Różnica kolosalna. Jedno AI wklei brudny fix, które przejdzie testy. Drugie napisze czysto i elastycznie. Dziś oba dostaną max punktów. W realu to drugie jest na wagę złota.

Szerszy kontekst

To badanie pokazuje, co mi chodzi po głowie: chcemy AI jak senior developer, nie juniora.

Juniorzy skupiają się na "działa?". Seniorzy na "da się to zmieniać, debugować, rozszerzać?". Myślą o tym, kto przejmie kod za pół roku (może oni sami).

SWE-CI pierwszy raz to testuje.

Co dalej

Czekam z niecierpliwością na wyniki topowych modeli na SWE-CI. Obstawiam, że większość polegnie na maintenance, mimo sukcesów w prostych zadaniach.

To nie porażka – to wskazówka. Nie chodzi o szybsze pisanie kodu, tylko o lepszy kod, który przetrwa.

Co Wy na to? Widzieliście, jak AI radzi sobie z szybkimi fixami kontra długie projekty? Dajcie znać w komentarzach.

Źródło: https://arxiv.org/pdf/2603.03823

#artificial intelligence #software development #code quality #ai benchmarks #continuous integration