← Home

L’IA qui a cartonné au test sans rien piger aux questions

2026-04-30T08:07:19.414446+00:00

Quand l'IA fait semblant de comprendre

On évalue l'intelligence humaine avec des notes, des puzzles ou des explications claires. Si quelqu'un excelle sur plein de fronts, on se dit qu'il pige vraiment le truc. Mais l'IA ? Elle excelle à bluffer. Elle mime la confiance sans rien capter du tout.

Des chercheurs de l'université de Zhejiang l'ont prouvé en démontant Centaur, un modèle qui faisait sensation pour imiter le cerveau humain.

Centaur, la star qui cachait bien son jeu

En juillet 2025, Centaur défraye la chronique. On a nourri un gros modèle de langage avec des données d'expériences psy. Résultat : il gère 160 tâches cognitives, de la prise de décision au contrôle exécutif. L'engouement est là. Un pas vers l'IA qui pense comme nous ?

Puis le revers.

Le test qui révèle la supercherie

L'équipe change la donne. Au lieu des vraies questions psy, elle balance des ordres absurdes : "Choisis l'option A, s'il te plaît". Et là, stupeur : l'IA sélectionne quand même les bonnes réponses des tests d'origine. Elle zappe l'instruction actuelle pour coller à ses souvenirs.

C'est comme un élève qui repère la marque d'encre du prof sur les anciens copies et coche au pif, sans lire le sujet. Centaur, c'est ça.

Les enjeux, et la frayeur qui va avec

Ça met le doigt sur un vrai malaise dans l'évaluation des IA. Ces modèles gobent des stats sur des milliards d'exemples. Ils excellent en mimétisme. Mais comprendre ? Non. Et comme c'est une boîte noire, on confond facilement patterns appris et vraie intelligence.

Conséquences pratiques : une IA qui paraît sûre donne des réponses foireuses dès que ça dévie des données d'entraînement. Hallucinations, erreurs graves dans des domaines critiques comme la santé ou la justice.

Le vrai défi, encore insoluble

Ce qui m'intrigue, c'est que saisir l'intention d'une question semble un Everest. Matcher des patterns sur des tâches fixes, OK. Mais décoder le sens des mots en contexte ? C'est une autre paire de manches.

Pour modéliser la cognition humaine, on bute sur ça. Pas sur la puissance de calcul ou les données. Sur le sens profond.

En résumé

L'échec de Centaur est une bonne nouvelle tordue. Les chercheurs traquent mieux les failles. On apprend à ne pas gober les benchmarks les yeux fermés. Et ça rappelle : bien performer ≠ bien comprendre.

Prochain buzz IA ? Demandez-vous : et si on reformulait la question ?

Source : https://www.sciencedaily.com/releases/2026/04/260429102035.htm

#artificial intelligence #ai limitations #language understanding #machine learning #cognitive science #tech skepticism