GPT-4.5 supera il test di Turing: l’IA scambiata per un essere umano

Un recente studio in attesa di revisione paritaria ha rivelato che il modello GPT-4.5 di OpenAI ha superato con successo una versione avanzata del test di Turing. In questo esperimento, i partecipanti interagivano contemporaneamente con un essere umano e un’intelligenza artificiale, cercando poi di identificare quale fosse la macchina tra i due. Quando GPT-4.5 è stato istruito ad adottare uno specifico modello di personaggio, è stato giudicato umano nel 73% dei casi, ben oltre la probabilità casuale del 50% e indicando il superamento, con ampio margine, del test di Turing.

Il test di Turing, ideato dal matematico britannico Alan Turing nel 1950, rappresenta un metodo per valutare l’intelligenza delle macchine attraverso conversazioni testuali con un interrogatore umano e un altro interlocutore umano nascosto. Se l’interrogatore non riesce a distinguere quale dei due interlocutori sia la macchina, si può dedurre che quest’ultima possieda capacità simili al pensiero umano. Vi avevamo parlato più nel dettaglio del test di Turing in occasione di un esperimento simile condotto più di un anno fa dai medesimi ricercaotri e i cui risultati erano stati piuttosto sorprendenti…

Il nuovo esperimento ha preso in esame anche altri modelli di intelligenza artificiale, tra cui LLama 3.1-405B di Meta, GPT-4o di OpenAI e il chatbot ELIZA, sviluppato circa ottant’anni fa. Il test si è svolto su una piattaforma online coinvolgendo circa 300 partecipanti ai quali sono stati assegnati, in maniera casuale, il ruolo di interrogatori o di testimoni.

Per ogni sessione si sono svolti otto round in cui uno dei due testimoni era un chatbot. Per i modelli IA sono stati utilizzati due tipi di istruzioni, uno “no-persona” e uno “persona”: il primo con istruzioni generiche per tentare di convincere l’interlocutore di essere un umano, il secondo per assumere invece una specifica identità.

Le differenze sono state particolarmente significative: GPT-4.5 è stato scambiato per un essere umano nel 73% dei casi usando le istruzioni “persona”, fermandosi appena al 36% con le istruzioni “non-persona”. A titolo di confronto, GPT-4o ha ottenuto solo il 21% senza persona, mentre il vetusto ELIZA ha raggiunto il 23%.

Cameron Jones, ricercatore presso il Language and Cognition Lab dell’Università della California a San Diego e principale autore dello studio, ha commentato su X l’esperimento: “Le persone non sono state in grado di distinguere gli esseri umani da GPT-4.5 e LLama quando questi ultimi utilizzavano il prompt persona. Inoltre, GPT-4.5 è stato giudicato umano più spesso degli stessi esseri umani!”. Il ricercatore ha comunque precisato che i risultati dello studio non offrono una risposta definitiva sulla somiglianza tra l’intelligenza delle AI e quella umana: “Penso che sia una questione molto complessa… Ma in generale questi risultati dovrebbero essere valutati come uno dei tanti indizi sull’intelligenza mostrata dai modelli linguistici.”

Jones ha inoltre sottolineato le implicazioni sociali e i rischi posti dai modelli di Intelligenza Artificiale capaci di ingannare un interlocutore umano: “Questi risultati forniscono ulteriori prove che le AI potrebbero sostituire le persone in interazioni brevi senza che nessuno se ne accorga. Questo potrebbe portare all’automazione dei lavori, a sofisticati attacchi di ingegneria sociale e a più ampi disordini sociali”.

Come già avevamo indicato in occasione del precedente esperimento, per quanto il test di Turing abbia una certa rilevanza nella storia dell’interazione uomo-macchina, si tratta di una prova spesso criticata e per la quale sono stati espressi diversi dubbi sulla sua reale attendibilità, con diversi ricercatori che lo ritengono più un esperimento concettuale che un test vero e proprio.

E’ altresì vero che le capacità dei modelli linguistici avanzati sono cresciute in modo impressionante in pochissimo tempo, e questo per via del continuo addestramento su quantità enormi di test scritti dagli esseri umani. Secondo i ricercatori l’uso del test di Turing in questo contesto riflette non solamente la capacità delle macchine, ma prende in considerazione in modo implicito anche l’evoluzione delle percezioni umane verso la tecnologia: in altri termini è possibile che la continua “esposizione” dell’uomo all’IA lo renda più abile nel riconoscere quando ha a che fare con una di esse.