Anthropic ha pubblicato un nuovo documento, intitolato “Emergent Introspective Awareness in Large Language Models” che esplora la cosiddetta “consapevolezza introspettiva” dei modelli linguistici rispetto ai propri processi inferenziali. Si tratta di uno studio che ha lo scopo di indagare in che modo gli LLM siano effettivamente in grado di comprendere e descrivere i propri meccanismi interni, e che ha rivelato come, in realtà, l’incapacità di “autocomprendersi” sia abbastanza diffusa.
E’ la tecnica “concept injection” ad essere al centro dello studio di Anthropic: il processo parte dal confronto tra gli stati di attivazione interna del modello dopo due prompt, uno di controllo e uno sperimentale (ad esempio, un prompt in “MAIUSCOLO” rispetto allo stesso in minuscolo). Ciascun prompt attiva miliardi di “neuroni” differenti, e proprio questa differenza viene sintetizzata in quel che Anthropic chiama “vettore” e che è una rappresentazione di come il concetto conseguente al prompt viene modellato internamente nella rete neurale.

Il vettore viene iniettato successivamente nel modello, proprio con lo scopo di forzare l’attivazione di precisi percorsi neuronali e di spingere il modello verso il concetto descritto dal vettore. E’ a questo punto che vengono condotti vari esperimenti per verificare l’eventuale capacità del modello di mostrare consapevolezza (e con quale grado) del fatto che lo stato interno era stato modificato rispetto alle condizioni normali.
Gli esiti non sono stati particolarmente entusiasmanti: il modello ha mostrato, ma in maniera incostante, una limitata capacità di riconoscere il concetto introdotto. E, in generale, i risultati sono stati piuttosto incoerenti a seconda dei modelli utilizzati: i dati condivisi da Anthropic mostrano che i modelli più avanzati, Opus 4 e 4.1, hanno riconosciuto correttamente il concetto iniettato solo nel 20% dei casi, mentre in un altro esperimento per Opus 4.1 la capacità di riconoscimento è salita al 42%. Inoltre, la “consapevolezza introspettiva” variava sensibilmente in base al livello del modello in cui veniva inserito il concetto: se introdotto troppo presto o troppo tardi nel processo inferenziale, l’effetto scompariva del tutto.
Anthropic ha poi condotto ulteriori esperimenti, meglio dettagliati nel documento, per valutare la consapevolezza interna dei modelli linguistici, giungendo però sempre a risultati che non hanno permesso di riconoscere un’effettiva validità delle capacità di auto-comprendersi dei modelli. Esiste una certa consapevolezza degli stati interni dei modelli, che però è ancora troppo fragile e dipendente dal contesto per poter essere ritenuta affidabile.
Il problema più grosso, però, è il fatto che ancora non è possibile comprendere appieno i meccanismi che producono gli effetti osservati. Anche i ricercatori sono fermi a semplici ipotesi, difficili o impossibili fa verificare e quindi ferme più che altro al grado di “speculazione”. Secondo i ricercatori, serviranno ulteriori indagini per comprendere come e in che misura un modello linguistico possa mostrare una forma di comprensione dei propri processi. Per ora, i risultati ottenuti sembrano riflettere meccanismi superficiali e altamente specializzati, privi della reale rilevanza che simili concetti possiedono negli esseri umani.