Le vrai problème des tests d'IA en programmation
Ça me chiffonne depuis un moment : nos façons de tester les IA codeuses posent un gros souci. On leur pose les mauvaises questions.
Imaginez évaluer un pilote en le faisant garer en créneau une seule fois, sous un ciel bleu. Ça marche ? Super. Mais s'il doit affronter les embouteillages quotidiens pendant des mois ?
C'est pile ce qu'on fait avec les assistants IA pour coder. Un problème unique, une réponse unique. Le code tourne, on crie victoire. Sauf que le développement réel n'a rien à voir.
Le coding en vrai, c'est autre chose
Dans la vie pro, on ne code pas une fois pour toutes. On bosse en continu :
- Ajout de fonctionnalités qui touchent l'existant
- Correction de bugs qui surgissent des lustres après
- Remaniement du vieux code pour les nouveaux besoins
- Vérification que rien ne casse ailleurs
C'est chaotique, en boucle, et il faut anticiper l'avenir du code. Un bricolage qui passe aujourd'hui peut virer au cauchemar dans six mois.
SWE-CI : le test qui voit loin
Des chercheurs ont comblé ce vide avec SWE-CI, le premier benchmark pour la maintenance de code sur la durée.
Pas de one-shot ici. L'IA affronte des tâches qui copient l'évolution réelle d'un logiciel :
- 100 défis variés
- Chacun couvrant en moyenne 233 jours d'histoire dev
- Avec 71 commits successifs
- Et plusieurs tours d'analyse et de codage
Le top ? Ça mesure la maintenabilité du code, pas juste s'il fonctionne.
Pourquoi c'est crucial
Chiffre qui calme : la maintenance bouffe 60-80 % du budget d'un projet logiciel. Oui, vous avez bien lu. La plus grosse part va à entretenir l'existant, pas à inventer du neuf.
Pourtant, on testait les IA sur les 20-40 % faciles.
Les chercheurs rappellent les Lois de Lehman : un logiciel se dégrade tout seul avec le temps, comme l'entropie. Sans effort constant, ça empire.
L'impact sur les IA codeuses
SWE-CI change la donne pour évaluer les IA. Oubliez "Est-ce que ça code un truc qui marche ?". Posez plutôt : "Est-ce que ce code est vivable à long terme par des humains ?"
Énorme écart. Une IA peut bidouiller une solution qui passe les tests. Une autre pond du code propre, adaptable. Les vieux benchmarks les notent pareil. Dans la vraie vie, la seconde vaut de l'or.
La vision d'ensemble
Ça confirme ce que je pense fort : il nous faut des IA qui codent comme des seniors, pas des juniors.
Les juniors font marcher le code. Les seniors le rendent modifiable, debuggable, extensible. Ils pensent au dev qui reprendra dans six mois (souvent eux-mêmes).
SWE-CI est le premier test à traquer cette vision longue.
Et après ?
J'ai hâte de voir les scores des IA actuelles sur SWE-CI. Mon pari : elles galéreront sur la maintenance, même si elles excellent sur des problèmes isolés.
C'est positif : ça trace la route. Plutôt que d'accélérer la prod de code, apprenons-leur à coder mieux, pour durer.
Votre avis ? Vous avez vu des IA peiner sur des projets longs vs. des fixes rapides ? Racontez en com' !
Source : arxiv.org/pdf/2603.03823