← Home

Perché gli AI per il codice eccellono nelle toppe veloci ma falliscono nei progetti lunghi

2026-03-22T03:08:41.271308+00:00

Il problema dei test attuali per l'IA nel coding

Mi dà fastidio un aspetto dei test per le capacità di coding dell'IA: poniamo le domande sbagliate.

Provate a immaginare di valutare un guidatore facendogli fare solo una parallela in condizioni ideali. Funziona alla grande, ma poi? Come se la cava nel traffico caotico per mesi?

È proprio quello che facciamo con gli assistenti IA per il codice. Un problema singolo, una soluzione unica. Il codice gira, successo ottenuto. Ma lo sviluppo software reale non è così.

Come funziona davvero il coding nel mondo vero

Nella pratica, non scrivi codice una volta e basta. Continui a:

Aggiungere funzionalità che si intrecciano con il vecchio codice
Risolvere bug che saltano fuori dopo mesi
Riscrivere parti obsolete per nuove esigenze
Evitare di rompere tutto il resto

È un processo caotico, a iterazioni continue. Devi prevedere l'evoluzione futura. Un trucco veloce oggi può diventare un incubo domani.

Arriva SWE-CI: il test per il lungo periodo

I ricercatori hanno colto il problema e hanno creato SWE-CI, il primo benchmark che valuta la manutenzione del codice a lungo termine.

Niente più compiti isolati. Qui l'IA affronta scenari che imitano l'evoluzione reale del software:

100 sfide di coding diverse
Con una storia media di 233 giorni di sviluppo
Che richiedono in media 71 commit consecutivi
E vari cicli di analisi e modifiche

Meraviglioso: per la prima volta testiamo la manutenibilità del codice, non solo se funziona.

Perché conta tantissimo

Dato shock: la manutenzione assorbe il 60-80% dei costi totali di un progetto software. Non è un errore. La maggior parte del budget serve a tenere in piedi il codice esistente, non a creare roba nuova.

Fino a ieri, testavamo l'IA solo sulla parte facile, il 20-40%.

Gli autori citano le Leggi di Lehman: il software si degrada da solo col tempo, se non lo curi. È come l'entropia: più aggiungi e ripari, più si complica.

Cosa cambia per lo sviluppo dell'IA

SWE-CI segna una svolta. Non basta chiedersi: "Sa scrivere codice che funziona?". Meglio: "Sa creare codice che gli umani gestiscono per anni?".

La differenza è abissale. Un'IA può infinocchiare con un fix rigido che passa i test. Un'altra scrive codice pulito e flessibile. Oggi, stesso punteggio. Nella realtà, la seconda vince sempre.

La visione d'insieme

Questa ricerca conferma un mio pensiero ricorrente: vogliamo IA che ragionano da senior developer, non da junior.

I junior fanno funzionare il codice. I senior lo rendono modificabile, debuggabile, scalabile. Pensano al collega che erediterà il loro lavoro fra sei mesi (spesso se stessi).

SWE-CI è il primo test che misura questo approccio a lungo termine.

Prospettive future

Non vedo l'ora di scoprire come se la cavano i modelli IA attuali su SWE-CI. Scommetto che inciamperanno sulla manutenzione prolungata, pur eccellendo nei task singoli.

Non è una catastrofe: indica la strada da seguire. Basta con più codice veloce. Serve codice migliore, che resiste nel tempo.

Voi che ne dite? Avete visto differenze negli assistenti IA tra fix rapidi e progetti lunghi? Raccontatemi nei commenti.

Fonte: https://arxiv.org/pdf/2603.03823

#artificial intelligence #software development #code quality #ai benchmarks #continuous integration