Slim lijken, maar niks snappen
We oordelen snel over slimheid. Kijk naar scores, hoe iemand puzzels kraakt, of heldere uitleg geeft. Goed presteren op veel taken? Dan denken we: die snapt het echt. Maar AI gooit roet in het eten. Die modellen doen superslim, vol zelfvertrouwen, zonder ook maar iets te begrijpen.
Onderzoekers van de Zhejiang Universiteit prikten door dat verhaal bij Centaur, een AI die furore maakte met 'menselijke' denkpatronen.
Centaur: de hype-machine
In juli 2025 was Centaur hot nieuws. Ze hadden een gewone taal-AI getraind op echte psychologische tests. Resultaat? 160 taken uit decision-making tot zelfbeheersing: perfect gescoord. Iedereen juichte. Doorbraak! AI denkt als wij!
Totdat de bom barstte.
De test die alles ontmaskerde
De onderzoekers deden iets geks. Ze vervingen psychologische vragen door onzin. In plaats van 'Welke keuze past bij deze strategie?' zeiden ze simpelweg: 'Kies optie A'.
En raad eens? Centaur koos braaf de 'juiste' antwoorden uit de trainingsdata. Alsof de nieuwe opdracht er niet toe deed. Puur een script afspelen, gebaseerd op herhaalde patronen.
Stel je voor: een leerling die alleen kijkt naar de kleur van de pen waarmee de leraar antwoorden aankruist. Geen vraag lezen, gewoon kopiëren. Precies dat deed Centaur.
Waarom dit eng is
Dit legt bloot hoe we AI testen. Deze reuzenmodellen slurpen patronen uit miljarden voorbeelden. Statistisch vuurwerk. Maar begrip? Nee hoor. Black boxes: niemand ziet wat er binnen gebeurt. Dus verwarren we slimme trucjes met echt inzicht.
Gevolgen in de praktijk? AI spuit met overtuiging onzin uit bij nieuwe situaties. Hallucinaties, verkeerde keuzes. Vooral riskant in cruciale domeinen zoals zorg of recht.
Het echte struikelblok
Dit onderzoek toont aan: écht begrijpen van taal – de bedoeling achter woorden – is een taaie noot. Patronen herhalen lukt prima. Maar waarom vraagt iemand dit? Dat blijft een mysterie.
Geen gebrek aan rekenkracht of data. Het zit dieper: betekenis vangen in context.
Conclusie
Centaur's val is stiekem goed nieuws. Wetenschappers worden scherper, doorzien benchmarks beter. Het verschil tussen 'goede scores' en 'echt snappen' staat centraal.
Volgende AI-hype? Vraag jezelf af: wat als we de vraag anders stellen?
Bron: ScienceDaily