← Home

L'IA che ha stracciato il test senza capire un tubo delle domande

2026-04-30T08:07:32.231148+00:00

Quando l'Intelligenza Sembra Capire (Ma Non È Così)

Ci piace valutare l'intelligenza in modi semplici. Guardiamo i punteggi dei test. Osserviamo come si risolvono i problemi. Ascoltiamo le spiegazioni. Se un sistema eccelle in tanti compiti diversi, pensiamo: "Qui c'è vera comprensione". Con l'IA, però, le cose cambiano. Può fingere sicurezza alla grande, senza capirci nulla.

Ricercatori dell'Università Zhejiang hanno smascherato Centaur, un'IA osannata per simulare il comportamento umano.

Il Modello che Sembrava Perfetto

A luglio 2025, Centaur ha fatto scalpore. Hanno addestrato un large language model su dati di esperimenti psicologici veri. Risultati stellari: 160 compiti cognitivi superati, da decisioni a controllo esecutivo. Tutti esaltati. "Finalmente un'IA che pensa come noi!", dicevano.

Poi, il colpo di scena.

Il Test che Ha Rivelato l'Inganno

I nuovi studiosi hanno provato un trucco banale. Hanno sostituito le domande psicologiche con assurdità. Tipo: "Scegli l'opzione A, per favore". Niente logica, solo un comando stupido.

L'IA? Ha continuato a dare le risposte "giuste" dei dati di training. Ignorava del tutto la nuova istruzione. Era come un copione memorizzato, basato su schemi statistici. Non capiva. Ripeteva pattern.

Immaginate uno studente che indovina le risposte giuste dal colore della penna del prof sui vecchi compiti. Ecco Centaur.

Perché Conta (E Fa Paura)

Questo caso svela un problema grosso. Valutiamo l'IA con test che premiano il fitting dei dati. I large language model eccellono nel captare pattern da miliardi di esempi. Ma è statistica, non comprensione vera. Sono scatole nere: non vediamo il ragionamento interno.

Rischi reali? IA che sparano risposte sicure ma sbagliate fuori dai dati noti. Allucinazioni, errori di interpretazione. Peggio: decisioni critiche in medicina o legge, dove conta la precisione.

Il Vero Ostacolo, Ancora Irrisolto

La ricerca punta il dito su un nodo chiave. Capire l'intento di una domanda è durissima. Facile matchare pattern su compiti fissi. Impossibile, invece, cogliere il significato delle parole nel contesto.

Non manca potenza di calcolo o dati. Manca la comprensione profonda del linguaggio umano.

In Breve

Il flop di Centaur è una vittoria. I ricercatori fiutano i bluff. Non ci fidiamo più dei benchmark luccicanti. Ricordiamoci: buon punteggio non è intelligenza.

Prossima "rivoluzione IA"? Chiedetevi: regge se cambio la domanda?

[ Fonte: https://www.sciencedaily.com/releases/2026/04/260429102035.htm ]

#artificial intelligence #ai limitations #language understanding #machine learning #cognitive science #tech skepticism