Martedì 7 aprile Anthropic ha fatto una cosa che nel mondo della tecnologia non si era mai vista, o almeno non in questa forma: ha annunciato di avere tra le mani un modello AI talmente potente nel trovare falle di sicurezza nel software che ha deciso di non rilasciarlo al pubblico, e di darlo invece a un consorzio di aziende (tra cui alcune rivali dirette) perché lo usino per difendersi. Il modello si chiama Claude Mythos Preview, l’iniziativa si chiama Project Glasswing, e i partner coinvolti sono quelli che vi aspettereste se qualcuno stesse mettendo in piedi un tavolo di crisi per la sicurezza informatica globale: Amazon Web Services, Apple, Broadcom, Cisco, CrowdStrike, Google, JPMorganChase, la Linux Foundation, Microsoft, NVIDIA e Palo Alto Networks. Più una quarantina di altre organizzazioni che costruiscono o mantengono infrastrutture software critiche.

Anthropic ha messo sul piatto fino a 100 milioni di dollari in crediti d’uso per Mythos Preview e 4 milioni in donazioni dirette a organizzazioni di sicurezza open source. Che per un’azienda che non ha ancora fatto un IPO (prevista, secondo VentureBeat, per ottobre 2026) è un impegno finanziario piuttosto eloquente.
Cosa fa davvero Mythos Preview
Partiamo dai fatti, che in questo caso sono più interessanti di qualsiasi comunicato stampa. Mythos Preview è un modello general-purpose: non è stato addestrato specificamente per la cybersecurity. Le sue capacità in quel campo sono un effetto collaterale dei miglioramenti nel coding, nel ragionamento e nell’autonomia operativa, una cosa che nel gergo si chiama “emergent capability” e che qui assume una concretezza piuttosto inquietante.
I risultati, documentati nel post tecnico del Frontier Red Team, sono di quelli che ti fanno venire voglia di controllare se hai aggiornato il sistema operativo: migliaia di vulnerabilità zero-day (falle che nessuno conosceva prima) in ogni principale sistema operativo e in ogni principale browser web. Molte di queste vulnerabilità erano lì da dieci, quindici, in un caso addirittura ventisette anni. Il caso più emblematico riguarda OpenBSD, un sistema operativo la cui prima caratteristica è proprio la sicurezza: Mythos Preview ha trovato un bug nell’implementazione del protocollo TCP SACK presente dal 1998, capace di mandare in crash qualsiasi server OpenBSD raggiungibile via rete.
Il ricercatore Nicholas Carlini di Anthropic ha dichiarato di aver trovato più bug nelle ultime due settimane che in tutto il resto della sua carriera, e considerando che Carlini è uno dei nomi più rispettati nella ricerca sulla sicurezza AI, questo dà la misura della scala del fenomeno. In un caso, Mythos Preview ha scritto un exploit per un browser che concatenava quattro vulnerabilità diverse, costruendo una catena di attacco che riusciva a evadere tutti i livelli di protezione del browser e del sistema operativo sottostante. In un altro ha costruito autonomamente un exploit di esecuzione remota di codice su FreeBSD (un sistema operativo open source molto usato nei server e nelle infrastrutture di rete) che garantiva accesso root a utenti non autenticati, sfruttando un bug vecchio di 17 anni.
Il salto generazionale, in numeri
Per dare un riferimento: quando Claude Opus 4.6, il modello pubblico più avanzato di Anthropic, provava a trasformare vulnerabilità trovate in Firefox in exploit funzionanti, il tasso di successo era vicino allo zero (due su centinaia di tentativi). Con Mythos Preview, sullo stesso test, gli exploit riusciti sono stati 181. Nei test su repository open source, Opus 4.6 otteneva un solo caso di crash grave; Mythos Preview ne ha ottenuti dieci con controllo completo del flusso di esecuzione, il livello massimo. Per gli N-day (vulnerabilità note ma non ancora corrette su molti sistemi), il modello ha preso una lista di 100 vulnerabilità note del kernel Linux (le cosiddette CVE, le schede pubbliche con cui la comunità di sicurezza cataloga ogni falla scoperta) e ne ha sfruttate con successo più della metà, con costi per singolo exploit nell’ordine delle migliaia di dollari e tempi di meno di un giorno.
E qui viene il dettaglio che fa riflettere più di qualsiasi tabella: ingegneri di Anthropic senza formazione in sicurezza informatica hanno chiesto a Mythos Preview di trovare vulnerabilità di esecuzione remota prima di andare a dormire, e la mattina dopo si sono trovati un exploit completo e funzionante. L’AI ha lavorato tutta la notte, da sola, leggendo codice sorgente, formulando ipotesi, testandole, usando debugger, e alla fine producendo un report con una dimostrazione pratica dell’attacco e istruzioni di riproduzione.
Cosa ci dice sul futuro dell’AI
Se vi occupate di AI anche solo un po’, quello che Mythos Preview fa nel campo della cybersecurity dovrebbe farvi ragionare su qualcosa di più ampio. Stiamo parlando di un agente AI che opera per ore senza supervisione, legge codice complesso, formula teorie, le verifica sperimentalmente, adatta la strategia quando fallisce, concatena passaggi multipli in catene logiche sofisticate, e produce output utilizzabile senza intervento umano. Il fatto che lo faccia nel dominio della sicurezza informatica è secondario rispetto al fatto che lo faccia e basta.
Per chi segue il dibattito sull’agentic AI, Mythos Preview è probabilmente la dimostrazione più concreta che abbiamo visto finora di cosa significa davvero un agente autonomo capace di risolvere problemi complessi nel mondo reale. I benchmark accademici e le demo curate hanno sempre lasciato un margine di scetticismo ragionevole; qui parliamo di vulnerabilità confermate, exploit verificati, patch rilasciate dai manutentori dei principali sistemi operativi. Il ciclo in cui il modello formula un’ipotesi, la testa, corregge il tiro e riprova è reale, misurabile, e i risultati sono già stati incorporati nel software che gira sui vostri computer.

E viene naturale, guardando quello che fa Mythos Preview, porsi una domanda più grande. L’AGI, cioè l’intelligenza artificiale generale, è quel traguardo ipotetico in cui un’AI sarebbe in grado di affrontare qualsiasi compito intellettuale che un essere umano può svolgere, non solo in un dominio specifico ma trasversalmente: ragionare, pianificare, adattarsi a problemi nuovi, imparare dall’esperienza. È il punto in cui l’AI smetterebbe di essere uno strumento specializzato e diventerebbe qualcosa di qualitativamente diverso, con implicazioni enormi per l’economia, la scienza, la geopolitica e, più in generale, per il posto degli esseri umani nel mondo. Nessuno sa con certezza quando ci arriveremo, e c’è chi sostiene che siamo ancora lontani. Ma quello che Mythos Preview fa è esattamente il tipo di comportamento che ci si aspetterebbe da un sistema che si avvicina a quella soglia: lavora per ore su problemi che richiedono ragionamento astratto, creatività nella combinazione di tecniche diverse, comprensione profonda di sistemi complessi, e capacità di adattare la strategia quando le cose non funzionano al primo tentativo. Lo fa in un solo dominio, la cybersecurity, e questo lo tiene formalmente lontano dalla definizione di AGI. Ma il fatto che queste capacità siano emerse come effetto collaterale di miglioramenti generali nel ragionamento e nella programmazione, senza addestramento specifico, è il dettaglio che dovrebbe far riflettere di più. Se le capacità emergono così, in quali altri domini stanno emergendo senza che nessuno le stia ancora misurando?
E questo ci porta dritti al vibe coding e a tutto l’ecosistema di codice generato da AI che sta crescendo a velocità impressionante. Se un modello AI è in grado di trovare e sfruttare vulnerabilità in codice scritto da professionisti umani con decenni di esperienza e controllato in continuazione da team di sicurezza dedicati, viene naturale chiedersi cosa succederà con il codice prodotto in massa dai modelli stessi. Il vibe coding genera software funzionante a una velocità che fino a un anno fa era impensabile, ma la qualità della sicurezza di quel codice è un punto cieco enorme. Lo stesso tipo di modello che scrive il codice è anche quello che può bucarlo, e se Mythos Preview trova bug in OpenBSD, immaginate cosa troverebbe in un’app scritta in un pomeriggio con un prompt e un paio di iterazioni.
C’è però anche un altro lato della vicenda. Un modello con le capacità di Mythos Preview potrebbe anche scrivere codice migliore di quello che scriviamo noi, nel senso proprio di più sicuro. Se il modello conosce le classi di vulnerabilità così bene da trovarle in codice scritto da esseri umani esperti, potrebbe anche evitarle quando genera codice nuovo, producendo software che nasce già più robusto. Anthropic non ha ancora annunciato niente in questa direzione, ma la logica è piuttosto trasparente: lo stesso modello che trova un bug in FFmpeg vecchio di sedici anni è anche quello che, scrivendo codice da zero, quel tipo di errore non lo farebbe. Il punto è che oggi non abbiamo ancora gli strumenti per verificare sistematicamente che questo avvenga, e fino a quel momento il vibe coding resta una pratica in cui la velocità di produzione supera di molto la capacità di controllo. Mythos Preview potrebbe essere sia il problema che la soluzione, a seconda di come verrà usato.
Il contesto e qualche domanda scomoda
Come ha fatto notare VentureBeat, il timing merita qualche riflessione: l’annuncio è arrivato nello stesso giorno in cui Anthropic ha comunicato il suo traguardo di fatturato e l’accordo con Broadcom e Google per circa 3,5 gigawatt di capacità di calcolo. Un’iniziativa di sicurezza nazionale ad alto profilo con partner blue-chip è esattamente il tipo di programma che rinforza una narrativa da IPO.
Gizmodo ha fatto notare, con il tono brusco che gli è proprio, che poche settimane fa Anthropic teneva Mythos nascosto perché troppo pericoloso, e che passare dal tenerlo sotto chiave al distribuirlo attraverso infrastrutture critiche è un salto che merita spiegazioni. La risposta di Anthropic è che l’alternativa è peggiore: se modelli con capacità simili diventeranno disponibili ad attori meno responsabili nel giro di pochi mesi, è meglio dare ai difensori un vantaggio temporale. Oltre il 99% delle vulnerabilità trovate non è ancora stato corretto, e per dimostrare che non stanno bluffando senza però rivelare dettagli che metterebbero a rischio milioni di sistemi, hanno pubblicato una sorta di “ricevuta crittografica” per ciascun exploit: un codice matematico che permette a chiunque di verificare in futuro che Anthropic aveva davvero quegli exploit in mano alla data dell’annuncio, senza poterne leggere il contenuto. Un meccanismo ingegnoso, e anche un segnale di quanto la faccenda sia seria.
C’è poi la questione del rapporto con il Dipartimento della Difesa. Come riportato da TechCrunch, Anthropic e l’amministrazione Trump sono in una battaglia legale dopo che il Pentagono ha classificato l’azienda come rischio per la supply chain, a seguito del rifiuto di permettere l’uso di Claude per targeting autonomo. Annunciare un’iniziativa di sicurezza nazionale in questo momento ha un sapore che va oltre la cybersecurity.
Cosa cambia per chi scrive software
Il messaggio pratico di Anthropic ai difensori è piuttosto netto: i cicli di patch devono accorciarsi drasticamente. Se un modello AI può prendere la scheda pubblica di una vulnerabilità nota e trasformarla in un exploit funzionante in poche ore senza intervento umano, la finestra tra la pubblicazione di una falla e il suo sfruttamento attivo si riduce a quasi niente. E questo vale per tutti, non solo per chi gestisce infrastrutture critiche.
Anthropic suggerisce anche di iniziare a usare i modelli già disponibili per la ricerca di vulnerabilità, senza aspettare modelli di classe Mythos. Opus 4.6 aveva già trovato centinaia di vulnerabilità critiche un po’ ovunque abbia guardato. Il punto è che la curva di miglioramento è ripida, e chi non ha ancora incorporato questi strumenti nei propri processi di sicurezza è già in ritardo. Per i manutentori di software legacy il consiglio è ancora più urgente: preparare piani di emergenza per vulnerabilità critiche in codice che non riceve più supporto, perché i modelli AI non fanno distinzione tra software moderno e vecchio.

Il ricercatore Simon Willison ha commentato che Project Glasswing gli sembra una mossa necessaria, e che sarebbe utile coinvolgere anche OpenAI. Ha anche aggiunto, e su questo è difficile dargli torto, che questa storia suona come una resa dei conti a livello industriale, una di quelle che richiedono investimenti enormi per restare davanti a una valanga di vulnerabilità inevitabile.
Per chi segue questa rubrica, il punto che mi preme sottolineare è che siamo davanti a un caso in cui l’AI sta spostando l’equilibrio tra attacco e difesa in un campo dove quell’equilibrio era rimasto sostanzialmente stabile per vent’anni. Anthropic fa un paragone storico con i primi fuzzer software degli anni 2000, cioè quegli strumenti automatici che bombardano un programma con input casuali per vedere dove si rompe, e che quando apparvero spaventarono tutti perché sembrava che avrebbero dato un vantaggio enorme agli attaccanti. In effetti lo fecero, per un po’. Ma oggi quei fuzzer sono una componente fondamentale dell’ecosistema di sicurezza, e Anthropic scommette che lo stesso accadrà con i modelli linguistici. Il problema è che il periodo di transizione, quello in cui gli attaccanti potrebbero avere il vantaggio, è adesso. E nel frattempo, la quantità di codice generato da AI che circola nel mondo cresce ogni giorno, con standard di sicurezza che nessuno sta davvero verificando. Mythos Preview è la dimostrazione che questi modelli possono essere strumenti di difesa straordinari, ma anche un promemoria piuttosto crudo di quanto velocemente il terreno si stia muovendo sotto i piedi di tutti.