O Erro nos Testes de Codificação com IA Atual
Uma coisa que me incomoda nos testes de IA para programação: fazemos as perguntas erradas.
Pense assim: testar habilidade de dirigir só com uma manobra de estacionar em condições ideais. Pode dar certo na hora, mas e o trânsito caótico por meses?
É o que rola com assistentes de IA no código. Damos um problema só, pedimos uma solução única. O código roda, pronto: sucesso. Mas desenvolvimento real de software é bem diferente.
Como é Codificar na Vida Real
No dia a dia, código não é escrito e esquecido. Você vive:
- Acrescentando funções que mexem no que já existe
- Consertando erros que surgem depois de meses
- Reformulando trechos velhos para novas demandas
- Garantindo que nada quebre em outro canto
É um processo bagunçado, com idas e vindas. Exige prever o futuro do código. Um remendo rápido hoje vira dor de cabeça amanhã.
SWE-CI: O Teste de Longo Prazo
Pesquisadores viram esse buraco e criaram o SWE-CI — o primeiro benchmark que avalia manutenção de código ao longo do tempo.
Em vez de tarefas isoladas, o SWE-CI simula a evolução real de projetos. Veja só:
- 100 desafios de programação
- Cada um com média de 233 dias de histórico
- Exigindo 71 commits seguidos, em média
- Várias rodadas de análise e ajustes
O legal é que testa manutenibilidade do código, não só se ele roda certo.
Por Que Isso Importa Tanto
Fato duro: manutenção consome 60-80% do orçamento de um projeto de software. Não é exagero — a maior parte do custo é manter o que existe, não criar do zero.
Até agora, testávamos só os 20-40% fáceis.
Os autores citam as Leis de Lehman: software degrada sozinho com o tempo, a menos que você lute contra isso. É entropia no código — fica mais confuso à medida que cresce.
Impacto no Futuro da IA
SWE-CI muda o jogo na avaliação de IAs codificadoras. Sai o "Essa IA escreve código que funciona?" e entra "Ela cria código que humanos aguentam usar por anos?".
A diferença é brutal. Uma IA pode forçar uma solução que passa nos testes. Outra faz código limpo e flexível. Nos testes atuais, empatam. Na prática, a segunda vale ouro.
Visão Geral
Essa pesquisa reforça o que penso faz tempo: precisamos de IA que raciocine como devs sênior, não júnior.
Júnior faz funcionar. Sênior faz durar — fácil de alterar, debugar e expandir. Pensa no dev que herda o código meses depois (talvez ele mesmo).
SWE-CI é o primeiro teste que mede esse pensamento de longo prazo.
O Que Vem Por Aí
Mal posso esperar pra ver como as IAs atuais se saem no SWE-CI. Aposto que patinam na manutenção, mesmo brilhando em problemas pontuais.
Mas isso é bom: aponta o caminho. Em vez de mais código rápido, queremos código melhor, que resista ao tempo.
E você? Viu IAs boas em remendos rápidos, mas ruins em projetos longos? Conta nos comentários.
Fonte: https://arxiv.org/pdf/2603.03823