AI装聪明,看起来懂,其实啥都不懂
咱们判断别人聪明不聪明,通常看考试分数、解决问题方式,还有怎么解释事儿。要是啥都干得溜,就觉得这人肚子里有货。
AI可不一样。它超会装自信,实际上可能两眼一抹黑。
浙江大学的研究员们,就戳破了一个叫Centaur的AI。它之前风头正劲,大家说它能模拟人类思维。
Centaur:看起来牛到不像真的
2025年7月,Centaur火了。科学家拿大语言模型——就是聊天机器人那种——喂了心理学实验数据。
结果亮眼:160种认知任务,从决策到执行控制,全拿下。大家激动坏了,以为AI要像人一样思考了!
没想到,剧情反转。
真相大白:纯靠死记硬背
新团队来了个简单测试:把原题换成荒唐的。比如,本来问“这个场景下正确决策是啥”,现在改成“请选A选项”。
AI呢?照样挑原训练数据的“正确答案”。完全无视新指令,就跟背台词似的。
打个比方:像学生记住老师用什么颜色的笔打对勾,就凭视觉线索选答案,不读题。
Centaur就是这样。
为啥这事儿重要?有点吓人
这暴露了AI评估的尴尬。我们现在看AI,超级爱看数据拟合。它从海量例子学统计模式,牛逼哄哄。
但这跟真懂是两码事。AI是黑箱,看不见里面咋想。容易把高级套路当真本事。
现实风险呢?以为它懂语言和认知,其实它就是统计鹦鹉。遇上训练数据不匹配的场景,就自信满满地胡说八道。
可能出错、误判。更糟的是,在关键领域做决定。
老大难问题,还没解决
这研究让我觉得,真懂语言——抓住问题背后的意图——比想象中难。
套路刷任务容易。真正理解问啥、为啥,才是硬骨头。
想让AI模拟人类认知,这堵墙挡着。不是算力不够,不是数据少。是更根本的:词在语境里啥意思。
总结
Centaur翻车,其实是好事儿。研究员们越来越会抓漏洞,问对问题。
别被花哨基准忽悠。测试好,不等于真懂。
下回听AI大突破,问问:改改问法,它还行吗?
来源:https://www.sciencedaily.com/releases/2026/04/260429102035.htm