← Home

Защо AI кодърите са майстори на бързи ремонти, но провалят големите проекти

2026-03-22T03:10:50.353215+00:00

Проблемът с тестовете за AI кодиране

Много ме дразни как тестваме уменията на AI да пише код. Задаваме грешни въпроси.

Представете си: тестваш шофьор, като го караш само веднъж да паркира перфектно. Добре, успява. Ами в задръстване месеци наред?

Точно така правим с AI помощниците за код. Даваме един проблем, теглят код, работи – и готово. Но настоящото разработване не е така.

В реалния свят не пишеш код веднъж и си тръгваш. Постоянно:

Всичко е хаос, повторения и мислене напред. Бърз фикс днес – главоболие утре.

Изследователите са хванали проблема и са създали SWE-CI – първият тест за дългосрочно поддържане на код.

Не еднократни задачи, а сценарии от реална еволюция на софтуер:

Това е ключът – проверява поддържаемост, не само правилност.

Ето факт: 60-80% от бюджета за софтуер отива за поддръжка. Не нови функции, а да държиш стария код жив.

Досега тествахме само лесните 20-40%.

Според Lehman's Laws софтуерът се влошава сам – като ентропия. Добавяш, поправяш – и се усложнява, освен ако не се бориш.

SWE-CI променя всичко. Вместо "пише ли работещ код?", питаме "пише ли код, който човек ще ползва дълго?".

Разликата е огромна. Един AI ще забие фикс, друг – чист, гъвкав код. Сега и двата получават пълни точки. В реалността вторият е злато.

Това показва: трябва AI като старши разработчици, не junior.

Junior правят да работи. Старши – да е лесно да се променя, дебъгва и разширява. Мислят за колегата след полгода (често себе си).

SWE-CI е първият тест за такова мислене.

Луд сам да видя как ще се справят топ моделите на SWE-CI. Чувствам, че ще се провалят в дългосрочното, макар да са супер в бързи задачи.

Но това е добре – дава посока. Не повече код по-бързо, а по-добър код, който издържа времето.

Вашето мнение? Виждали ли сте AI да се справя зле с дълги проекти? Споделете в коментарите!

Източник: https://arxiv.org/pdf/2603.03823

#artificial intelligence #software development #code quality #ai benchmarks #continuous integration