Science & Technology
← Home
AI Κώδικα: Βιώνουν στα Γρήγορα, Κολλάνε στα Μεγάλα

AI Κώδικα: Βιώνουν στα Γρήγορα, Κολλάνε στα Μεγάλα

2026-03-22T03:10:37.493146+00:00

Το πρόβλημα με τα σημερινά τεστ κώδικα για AI

Με ενοχλεί κάτι στα τεστ που κάνουμε στα AI για προγραμματισμό: ρωτάμε εντελώς λάθος πράγματα.

Φαντάσου να δοκιμάζεις οδηγούς μόνο με μία τέλεια παρκάρισμα. Θα τα καταφέρει, αλλά στον πραγματικό δρόμο με κίνηση;

Έτσι δοκιμάζουμε και τα AI. Ένα πρόβλημα, μία λύση. Λειτουργεί; Εντάξει. Αλλά η πραγματική ανάπτυξη λογισμικού δεν είναι έτσι.

Πώς είναι ο πραγματικός προγραμματισμός

Δεν γράφεις κώδικα μία φορά και φεύγεις. Συνέχεια:

  • Προσθέτεις νέα χαρακτηριστικά που μπλέκονται με τα παλιά
  • Φτιάχνεις σφάλματα που βγαίνουν μετά από μήνες
  • Αναδιαμορφώνεις παλιό κώδικα για νέες ανάγκες
  • Ελέγχεις να μην σπάσεις κάτι άσχετο

Είναι χαμός, επαναλήψεις, και σκέψη για το μέλλον. Ένα γρήγορο κόλπο σήμερα, εφιάλτης αύριο.

SWE-CI: Το τεστ του μακροπρόθεσμου

Επιστήμονες το κατάλαβαν και έφτιαξαν το SWE-CI. Πρώτο benchmark για μακροπρόθεσμη συντήρηση κώδικα.

Όχι μονά προβλήματα. Δίνει εργασίες σαν πραγματική εξέλιξη λογισμικού:

  • 100 διαφορετικές προκλήσεις
  • Κάθε μία με μέσο όρο 233 ημέρες ιστορικού
  • 71 διαδοχικά commits κατά μέσο όρο
  • Πολλές φάσεις ανάλυσης και κώδικα

Επικεντρώνεται στη συντηρησιμότητα, όχι μόνο στη σωστότητα.

Γιατί μετράει τόσο πολύ

Σοβαρό στατιστικό: η συντήρηση τρώει 60-80% του προϋπολογισμού ενός project. Όχι λάθος — τα λεφτά πάνε στη φροντίδα παλιού κώδικα, όχι σε νέα.

Μέχρι τώρα, τεστάραμε το εύκολο 20-40%.

Οι νόμοι του Lehman λένε: ο κώδικας φθείρεται μόνος του, σαν εντροπία. Χειροτερεύει με προσθήκες και επισκευές.

Τι σημαίνει για τα AI

Το SWE-CI αλλάζει τα δεδομένα. Δεν ρωτάμε "γράφει κώδικα που δουλεύει;". Ρωτάμε "γράφει κώδικα που αντέχει μακροπρόθεσμα;".

Διάφορα τεράστια. Ένα AI βάζει γρήγορο fix που περνάει tests. Άλλο γράφει καθαρό, επεκτάσιμο κώδικα. Στα παλιά τεστ, ίδιο σκορ. Στην πράξη, το δεύτερο κερδίζει.

Η μεγάλη εικόνα

Θέλουμε AI σαν έμπειρους developers, όχι πρωτάρηδες.

Οι νέοι φτιάχνουν να δουλεύει. Οι έμπειροι, να αλλάζει εύκολα, να debug-άρεται, να μεγαλώνει. Σκέφτονται τον επόμενο developer — ίσως τον εαυτό τους.

Το SWE-CI το μετράει αυτό.

Τι έρχεται

Περιμένω ανυπόμονα αποτελέσματα από τωρινά μοντέλα. Πιστεύω θα δυσκολευτούν στη συντήρηση, παρόλο που λύνουν γρήγορα προβλήματα.

Δεν είναι κακό. Μας δείχνει πού να βελτιωθούμε: καλύτερος κώδικας, όχι απλά πιο γρήγορος.

Εσύ τι λες; Παρατήρησες διαφορά σε γρήγορα fixes vs μακροπρόθεσμα projects με AI; Πες στα σχόλια!

Πηγή: https://arxiv.org/pdf/2603.03823

#artificial intelligence #software development #code quality #ai benchmarks #continuous integration