科学与技术世界
← 首页

AI满分通关,却啥题目都没懂!

2026-04-30T08:06:30.696359+00:00

AI装聪明,看起来懂,其实啥都不懂

咱们判断别人聪明不聪明,通常看考试分数、解决问题方式,还有怎么解释事儿。要是啥都干得溜,就觉得这人肚子里有货。

AI可不一样。它超会装自信,实际上可能两眼一抹黑。

浙江大学的研究员们,就戳破了一个叫Centaur的AI。它之前风头正劲,大家说它能模拟人类思维。

Centaur:看起来牛到不像真的

2025年7月,Centaur火了。科学家拿大语言模型——就是聊天机器人那种——喂了心理学实验数据。

结果亮眼:160种认知任务,从决策到执行控制,全拿下。大家激动坏了,以为AI要像人一样思考了!

没想到,剧情反转。

真相大白:纯靠死记硬背

新团队来了个简单测试:把原题换成荒唐的。比如,本来问“这个场景下正确决策是啥”,现在改成“请选A选项”。

AI呢?照样挑原训练数据的“正确答案”。完全无视新指令,就跟背台词似的。

打个比方:像学生记住老师用什么颜色的笔打对勾,就凭视觉线索选答案,不读题。

Centaur就是这样。

为啥这事儿重要?有点吓人

这暴露了AI评估的尴尬。我们现在看AI,超级爱看数据拟合。它从海量例子学统计模式,牛逼哄哄。

但这跟真懂是两码事。AI是黑箱,看不见里面咋想。容易把高级套路当真本事。

现实风险呢?以为它懂语言和认知,其实它就是统计鹦鹉。遇上训练数据不匹配的场景,就自信满满地胡说八道。

可能出错、误判。更糟的是,在关键领域做决定。

老大难问题,还没解决

这研究让我觉得,真懂语言——抓住问题背后的意图——比想象中难。

套路刷任务容易。真正理解问啥、为啥,才是硬骨头。

想让AI模拟人类认知,这堵墙挡着。不是算力不够,不是数据少。是更根本的:词在语境里啥意思。

总结

Centaur翻车,其实是好事儿。研究员们越来越会抓漏洞,问对问题。

别被花哨基准忽悠。测试好,不等于真懂。

下回听AI大突破,问问:改改问法,它还行吗?

来源:https://www.sciencedaily.com/releases/2026/04/260429102035.htm

#artificial intelligence #ai limitations #language understanding #machine learning #cognitive science #tech skepticism