Проблемът с тестовете за AI кодиране
Много ме дразни как тестваме уменията на AI да пише код. Задаваме грешни въпроси.
Представете си: тестваш шофьор, като го караш само веднъж да паркира перфектно. Добре, успява. Ами в задръстване месеци наред?
Точно така правим с AI помощниците за код. Даваме един проблем, теглят код, работи – и готово. Но настоящото разработване не е така.
Какво е истинското кодиране
В реалния свят не пишеш код веднъж и си тръгваш. Постоянно:
- Добавяш функции, които се преплитат със старото
- Поправяш бъгове след месеци
- Преработваш код за нови нужди
- Внимаваш да не счупиш нещо друго
Всичко е хаос, повторения и мислене напред. Бърз фикс днес – главоболие утре.
SWE-CI: Тестът за дълъг бяг
Изследователите са хванали проблема и са създали SWE-CI – първият тест за дългосрочно поддържане на код.
Не еднократни задачи, а сценарии от реална еволюция на софтуер:
- 100 различни предизвикателства
- Всеки с средно 233 дни история
- 71 последователни комита на задача
- Многократни анализи и корекции
Това е ключът – проверява поддържаемост, не само правилност.
Защо е толкова важно
Ето факт: 60-80% от бюджета за софтуер отива за поддръжка. Не нови функции, а да държиш стария код жив.
Досега тествахме само лесните 20-40%.
Според Lehman's Laws софтуерът се влошава сам – като ентропия. Добавяш, поправяш – и се усложнява, освен ако не се бориш.
Какво значи за AI
SWE-CI променя всичко. Вместо "пише ли работещ код?", питаме "пише ли код, който човек ще ползва дълго?".
Разликата е огромна. Един AI ще забие фикс, друг – чист, гъвкав код. Сега и двата получават пълни точки. В реалността вторият е злато.
По-широката картина
Това показва: трябва AI като старши разработчици, не junior.
Junior правят да работи. Старши – да е лесно да се променя, дебъгва и разширява. Мислят за колегата след полгода (често себе си).
SWE-CI е първият тест за такова мислене.
Къде сме тръгнали
Луд сам да видя как ще се справят топ моделите на SWE-CI. Чувствам, че ще се провалят в дългосрочното, макар да са супер в бързи задачи.
Но това е добре – дава посока. Не повече код по-бързо, а по-добър код, който издържа времето.
Вашето мнение? Виждали ли сте AI да се справя зле с дълги проекти? Споделете в коментарите!
Източник: https://arxiv.org/pdf/2603.03823