← 首页

AI写代码神器：小修小补无敌，大项目拉胯

09 三月 2026 12 次浏览

当前AI编程测试的硬伤

最近总觉得测试AI编程能力的方式不对劲。我们问的问题，从根上就错了。

打个比方，考开车技术只让你在空荡荡的停车场倒一次车。完美通过了？行啊。但真让你在高峰期堵车里熬几个月呢？

AI编程测试基本就这样。扔个问题，让AI写段代码，跑通了就叫高分。可真实开发压根儿不是这么玩的。

现实中，你写完代码就拍屁股走人？想得美。天天得：

乱七八糟，反复迭代，得提前想代码怎么演化。今天牛逼的hack，半年后可能变地狱。

研究者终于醒悟，搞出SWE-CI——首个真刀真枪测AI长期维护能力的基准。

不是一次性问题，而是模拟真实软件演化：

牛就牛在这里。它不光看代码对不对，还考代码能不能长期维护。

醒醒：软件维护占项目成本60-80%。没错，大头钱都砸在养老代码上，不是加新功能。

之前我们只测了简单那20-40%。

研究提Lehman's Laws：软件不维护就自然衰败。像代码界的熵增，越改越乱。

SWE-CI是转折点。别再问“AI会不会写代码”，得问“AI写的代码，人家能长期接手吗？”

区别巨大。一个AI硬编码过测试，另一个写得干净易扩展。现在测试俩都满分。但现实里，后者价值爆表。

这让我想：AI得学资深开发者思维，别只当菜鸟。

菜鸟只求代码跑起来。资深大佬求代码好改、好debug、好扩展。脑子里想着半年后接手的哥们儿（可能是自己）。

SWE-CI是头一遭真测这种长远眼光。

超期待现有AI在SWE-CI上的表现。我猜大多数会栽在维护环节，就算单题无敌也白搭。

但这不是坏事——指明方向。别光让AI写得快，得写得好，经得起时间考验。

你咋看？用过AI助手，短期fix和长期项目有啥区别？评论区聊聊你的经历。

来源：https://arxiv.org/pdf/2603.03823

#artificial intelligence #software development #code quality #ai benchmarks #continuous integration