← Home

Los asistentes de IA en código: cracks en parches rápidos, un desastre en proyectos grandes

2026-03-22T03:08:22.317174+00:00

El gran fallo de las pruebas actuales para IA programadora

Me molesta algo en cómo evaluamos las habilidades de programación de la IA: hacemos las preguntas equivocadas.

Piénsalo así: ¿probarías a un conductor solo con un estacionamiento perfecto una vez? Puede que lo haga genial, pero ¿y si lo metes en el tráfico caótico de meses enteros?

Eso pasa con las pruebas de IA para código. Le dan un problema aislado, pide una solución única. El código sale, funciona y ¡listo, éxito! Pero el desarrollo real de software no es para nada así.

Así es la programación en la vida real

Fuera de los exámenes, no escribes código y te vas. Siempre estás:

Sumando funciones que chocan con lo viejo
Parcheando errores que salen de la nada después de meses
Reescribiendo código antiguo para nuevos pedidos
Asegurándote de que nada se rompa por sorpresa

Es un lío constante, con vueltas y más vueltas. Piensas en el futuro del código. Un truco rápido hoy puede ser un desastre mañana.

SWE-CI: la prueba que mira al largo plazo

Por fin, unos investigadores vieron el problema y armaron SWE-CI, el primer banco de pruebas que mide si la IA aguanta el mantenimiento de código a lo largo del tiempo.

Olvídate de problemas de un solo golpe. SWE-CI simula la evolución real de un proyecto con:

100 retos de programación distintos
Cada uno con un promedio de 233 días de historial
Necesitando 71 commits seguidos por cabeza
Rondas y rondas de análisis y cambios

Lo genial es que por primera vez probamos la mantenibilidad del código, no solo si funciona o no.

Por qué esto cambia todo

Dato duro: el mantenimiento se come el 60-80% del presupuesto de un proyecto de software. No es broma, la mayor parte del dinero va a mantener vivo lo viejo, no a crear lo nuevo.

Hasta ahora, evaluábamos a la IA solo en el 20-40% fácil del trabajo.

Los autores citan las Leyes de Lehman: el software se degrada solo si no lo cuidas. Es como la entropía en el código, se complica y ensucia con cada adición o arreglo.

Qué implica para el futuro de la IA

SWE-CI marca un antes y un después en cómo juzgamos IA programadoras. Ya no basta con "¿escribe código que anda?". Hay que preguntar: "¿escribe código que los humanos puedan usar y cambiar por años?".

La brecha es enorme. Una IA puede meter un parche sucio que pase tests, otra arma algo limpio y flexible. Hoy ambas sacan igual puntaje. En la práctica, la segunda vale oro.

La visión completa

Esto me confirma lo que vengo rumiando: queremos IA que piense como desarrolladores senior, no novatos.

Los juniors hacen que funcione. Los seniors lo hacen changeable, debuggeable y escalable. Miran al que hereda su código en seis meses (quizá ellos mismos).

SWE-CI es el primer test que mide ese pensamiento a futuro.

Hacia adelante

Tengo ganas de ver cómo les va a las IA actuales en SWE-CI. Apuesto que patinarán en lo de mantenimiento largo, aunque brillen en problemas sueltos.

Pero es buena señal: nos da un mapa claro para mejorar. No se trata de más código rápido, sino de código superior que resista el tiempo.

¿Qué opinas? ¿Ves diferencias en cómo las IA manejan parches rápidos versus proyectos largos? Cuéntame en los comentarios.

Fuente: https://arxiv.org/pdf/2603.03823

#artificial intelligence #software development #code quality #ai benchmarks #continuous integration