← 首页

AI满分通关，却啥题目都没懂！

2026-04-30T08:06:30.696359+00:00

AI装聪明，看起来懂，其实啥都不懂

咱们判断别人聪明不聪明，通常看考试分数、解决问题方式，还有怎么解释事儿。要是啥都干得溜，就觉得这人肚子里有货。

AI可不一样。它超会装自信，实际上可能两眼一抹黑。

浙江大学的研究员们，就戳破了一个叫Centaur的AI。它之前风头正劲，大家说它能模拟人类思维。

2025年7月，Centaur火了。科学家拿大语言模型——就是聊天机器人那种——喂了心理学实验数据。

结果亮眼：160种认知任务，从决策到执行控制，全拿下。大家激动坏了，以为AI要像人一样思考了！

没想到，剧情反转。

新团队来了个简单测试：把原题换成荒唐的。比如，本来问“这个场景下正确决策是啥”，现在改成“请选A选项”。

AI呢？照样挑原训练数据的“正确答案”。完全无视新指令，就跟背台词似的。

打个比方：像学生记住老师用什么颜色的笔打对勾，就凭视觉线索选答案，不读题。

Centaur就是这样。

这暴露了AI评估的尴尬。我们现在看AI，超级爱看数据拟合。它从海量例子学统计模式，牛逼哄哄。

但这跟真懂是两码事。AI是黑箱，看不见里面咋想。容易把高级套路当真本事。

现实风险呢？以为它懂语言和认知，其实它就是统计鹦鹉。遇上训练数据不匹配的场景，就自信满满地胡说八道。

可能出错、误判。更糟的是，在关键领域做决定。

这研究让我觉得，真懂语言——抓住问题背后的意图——比想象中难。

套路刷任务容易。真正理解问啥、为啥，才是硬骨头。

想让AI模拟人类认知，这堵墙挡着。不是算力不够，不是数据少。是更根本的：词在语境里啥意思。

Centaur翻车，其实是好事儿。研究员们越来越会抓漏洞，问对问题。

别被花哨基准忽悠。测试好，不等于真懂。

下回听AI大突破，问问：改改问法，它还行吗？

来源：https://www.sciencedaily.com/releases/2026/04/260429102035.htm

#artificial intelligence #ai limitations #language understanding #machine learning #cognitive science #tech skepticism