ИИ-кодеры: мастера быстрых правок, провал на больших проектах

09 Мар 2026 11 просмотров

Проблема с тестами ИИ на программирование

Меня давно бесит, как тестируют ИИ для кодинга. Мы задаём неправильные вопросы.

Представьте: проверяете водителя, заставляя припарковаться один раз в идеальных условиях. Получилось? Отлично! А теперь пусть ездит в пробках месяцами. Вот так и с ИИ: даём одну задачу, код работает — победа. Но настоящая разработка совсем другая.

Как выглядит реальный кодинг

В жизни код не пишешь раз и забываешь. Постоянно:

Дописываешь фичи, которые мешают старому коду
Латаешь баги, вылезшие через полгода
Переписываешь старьё под новые задачи
Следишь, чтоб ничего не сломать

Это хаос, циклы правок и мысли о будущем. Быстрый хак сегодня — головная боль завтра.

SWE-CI: тест на долгую жизнь кода

Учёные заметили проблему и запустили SWE-CI — первый бенчмарк для проверки ИИ на долгосрочное обслуживание кода.

Не одиночные задачки, а сценарии из реальной эволюции софта:

100 вызовов
Каждый растянут на в среднем 233 дня истории
Требует 71 коммитов подряд
Много циклов анализа и правок

Круто, что теперь проверяют не только правильность кода, но и его поддерживаемость.

Почему это важно

Факт: на поддержку кода уходит 60–80% бюджета проекта. Большая часть — не на новые фичи, а на то, чтоб старое не развалилось.

А мы тестировали ИИ только на лёгкие 20–40%.

Есть законы Лемана: софт деградирует сам по себе, если не бороться. Как энтропия — добавляешь фичу, чинишь баг, и код усложняется.

Что это меняет в ИИ

SWE-CI — прорыв в оценке. Не "пишет ли код?", а "пишет ли код, с которым люди справятся через время?".

Разница огромная. Один ИИ накидает хардкод для тестов, другой — чистый, гибкий код. Сейчас оба на равных. В реальности второй — золото.

Шире взгляд

Исследование подтверждает мою мысль: ИИ должен мыслить как сеньор, а не как джуниор.

Джуниоры заставляют код работать. Сеньоры думают о изменениях, отладке, расширении. О том кодере, кто возьмёт эстафету через полгода (возможно, себе).

SWE-CI — первый тест на такое мышление.

Что дальше

Жду результатов топовых моделей на SWE-CI. Чую, с долгосрочкой многие облажаются, хоть и рвут одиночные задачи.

Это не провал — это roadmap. Не просто быстрее кодить, а лучше, чтоб выдерживал годы.

А вы как? Замечали, как ИИ справляется с быстрыми фиксами против больших проектов? Делитесь в комментах!

Источник: https://arxiv.org/pdf/2603.03823

#artificial intelligence #software development #code quality #ai benchmarks #continuous integration