Проблема с тестами ИИ на программирование
Меня давно бесит, как тестируют ИИ для кодинга. Мы задаём неправильные вопросы.
Представьте: проверяете водителя, заставляя припарковаться один раз в идеальных условиях. Получилось? Отлично! А теперь пусть ездит в пробках месяцами. Вот так и с ИИ: даём одну задачу, код работает — победа. Но настоящая разработка совсем другая.
Как выглядит реальный кодинг
В жизни код не пишешь раз и забываешь. Постоянно:
- Дописываешь фичи, которые мешают старому коду
- Латаешь баги, вылезшие через полгода
- Переписываешь старьё под новые задачи
- Следишь, чтоб ничего не сломать
Это хаос, циклы правок и мысли о будущем. Быстрый хак сегодня — головная боль завтра.
SWE-CI: тест на долгую жизнь кода
Учёные заметили проблему и запустили SWE-CI — первый бенчмарк для проверки ИИ на долгосрочное обслуживание кода.
Не одиночные задачки, а сценарии из реальной эволюции софта:
- 100 вызовов
- Каждый растянут на в среднем 233 дня истории
- Требует 71 коммитов подряд
- Много циклов анализа и правок
Круто, что теперь проверяют не только правильность кода, но и его поддерживаемость.
Почему это важно
Факт: на поддержку кода уходит 60–80% бюджета проекта. Большая часть — не на новые фичи, а на то, чтоб старое не развалилось.
А мы тестировали ИИ только на лёгкие 20–40%.
Есть законы Лемана: софт деградирует сам по себе, если не бороться. Как энтропия — добавляешь фичу, чинишь баг, и код усложняется.
Что это меняет в ИИ
SWE-CI — прорыв в оценке. Не "пишет ли код?", а "пишет ли код, с которым люди справятся через время?".
Разница огромная. Один ИИ накидает хардкод для тестов, другой — чистый, гибкий код. Сейчас оба на равных. В реальности второй — золото.
Шире взгляд
Исследование подтверждает мою мысль: ИИ должен мыслить как сеньор, а не как джуниор.
Джуниоры заставляют код работать. Сеньоры думают о изменениях, отладке, расширении. О том кодере, кто возьмёт эстафету через полгода (возможно, себе).
SWE-CI — первый тест на такое мышление.
Что дальше
Жду результатов топовых моделей на SWE-CI. Чую, с долгосрочкой многие облажаются, хоть и рвут одиночные задачи.
Это не провал — это roadmap. Не просто быстрее кодить, а лучше, чтоб выдерживал годы.
А вы как? Замечали, как ИИ справляется с быстрыми фиксами против больших проектов? Делитесь в комментах!
Источник: https://arxiv.org/pdf/2603.03823