Το πρόβλημα με τα σημερινά τεστ κώδικα για AI
Με ενοχλεί κάτι στα τεστ που κάνουμε στα AI για προγραμματισμό: ρωτάμε εντελώς λάθος πράγματα.
Φαντάσου να δοκιμάζεις οδηγούς μόνο με μία τέλεια παρκάρισμα. Θα τα καταφέρει, αλλά στον πραγματικό δρόμο με κίνηση;
Έτσι δοκιμάζουμε και τα AI. Ένα πρόβλημα, μία λύση. Λειτουργεί; Εντάξει. Αλλά η πραγματική ανάπτυξη λογισμικού δεν είναι έτσι.
Πώς είναι ο πραγματικός προγραμματισμός
Δεν γράφεις κώδικα μία φορά και φεύγεις. Συνέχεια:
- Προσθέτεις νέα χαρακτηριστικά που μπλέκονται με τα παλιά
- Φτιάχνεις σφάλματα που βγαίνουν μετά από μήνες
- Αναδιαμορφώνεις παλιό κώδικα για νέες ανάγκες
- Ελέγχεις να μην σπάσεις κάτι άσχετο
Είναι χαμός, επαναλήψεις, και σκέψη για το μέλλον. Ένα γρήγορο κόλπο σήμερα, εφιάλτης αύριο.
SWE-CI: Το τεστ του μακροπρόθεσμου
Επιστήμονες το κατάλαβαν και έφτιαξαν το SWE-CI. Πρώτο benchmark για μακροπρόθεσμη συντήρηση κώδικα.
Όχι μονά προβλήματα. Δίνει εργασίες σαν πραγματική εξέλιξη λογισμικού:
- 100 διαφορετικές προκλήσεις
- Κάθε μία με μέσο όρο 233 ημέρες ιστορικού
- 71 διαδοχικά commits κατά μέσο όρο
- Πολλές φάσεις ανάλυσης και κώδικα
Επικεντρώνεται στη συντηρησιμότητα, όχι μόνο στη σωστότητα.
Γιατί μετράει τόσο πολύ
Σοβαρό στατιστικό: η συντήρηση τρώει 60-80% του προϋπολογισμού ενός project. Όχι λάθος — τα λεφτά πάνε στη φροντίδα παλιού κώδικα, όχι σε νέα.
Μέχρι τώρα, τεστάραμε το εύκολο 20-40%.
Οι νόμοι του Lehman λένε: ο κώδικας φθείρεται μόνος του, σαν εντροπία. Χειροτερεύει με προσθήκες και επισκευές.
Τι σημαίνει για τα AI
Το SWE-CI αλλάζει τα δεδομένα. Δεν ρωτάμε "γράφει κώδικα που δουλεύει;". Ρωτάμε "γράφει κώδικα που αντέχει μακροπρόθεσμα;".
Διάφορα τεράστια. Ένα AI βάζει γρήγορο fix που περνάει tests. Άλλο γράφει καθαρό, επεκτάσιμο κώδικα. Στα παλιά τεστ, ίδιο σκορ. Στην πράξη, το δεύτερο κερδίζει.
Η μεγάλη εικόνα
Θέλουμε AI σαν έμπειρους developers, όχι πρωτάρηδες.
Οι νέοι φτιάχνουν να δουλεύει. Οι έμπειροι, να αλλάζει εύκολα, να debug-άρεται, να μεγαλώνει. Σκέφτονται τον επόμενο developer — ίσως τον εαυτό τους.
Το SWE-CI το μετράει αυτό.
Τι έρχεται
Περιμένω ανυπόμονα αποτελέσματα από τωρινά μοντέλα. Πιστεύω θα δυσκολευτούν στη συντήρηση, παρόλο που λύνουν γρήγορα προβλήματα.
Δεν είναι κακό. Μας δείχνει πού να βελτιωθούμε: καλύτερος κώδικας, όχι απλά πιο γρήγορος.
Εσύ τι λες; Παρατήρησες διαφορά σε γρήγορα fixes vs μακροπρόθεσμα projects με AI; Πες στα σχόλια!
Πηγή: https://arxiv.org/pdf/2603.03823