Guerra al web scraping: Cloudflare introduce AI Labyrinth per intrappolare i bot dell’intelligenza artificiale

La scorsa settimana Cloudflare ha annunciato la nuova funzionalità “AI Labyrinth” con l’obiettivo di contrastare lo scraping non autorizzato di pagine web da parte dei sistemi di intelligenza artificiale, somministrando loro contenuti fasulli generati con l’IA. Si tratta di uno strumento che cercherà di ostacolare l’azione delle aziende di Intelligenza Artificiale che passano al setaccio siti web senza autorizzazione per raccogliere dati di addestramento per i modelli linguistici di grandi dimensioni.

L’approccio di Cloudflare è decisamente ingegnoso: invece di tagliar fuori i crawler bloccandone l’azione, li attira in un “labirinto” di pagine web dall’aspetto realistico ma compilate con contenuti del tutto irrilevanti. In questo modo le risorse di calcolo dei bot demandati alla raccolta di informazioni vengono sprecate, in un vero e proprio disincentivo al loro uso. Cloudflare stessa spiega che il semplice blocco dei bot è spesso poco efficace perché ha l’effetto di avvertire gli operatori dei crawler che essi sono stati rilevati, spingendoli quindi ad ottimizzare le capacità di mimetizzazione.

Il contenuto che viene somministrato ai bot è del tutto irrilevante rispetto al sito web preso di mira dai crawler, ma le informazioni sono reali e generate a partire da fatti scentifici o nozioni di fisica, matematica e biologia, allo scopo di evitare la diffusione involontaria di disinformazione.

I lettori più attenti avranno notato una similitudine con il principio di funzionamento di AI Labyrinth con quello delle “honeypot”, i sistemi usati dai ricercatori di sicurezza informatica per sembrare vulnerabili e attraenti per gli hacker, ma in realtà isolati e monitorati attentamente per studiare le tattiche, tecniche e procedure degli aggressori. E la stessa Cloudflare si riferisce ad AI Labyrinth come ad una “honeypot di nuova generazione”.

Cloudflare ha progettato le pagine trappola e i collegamenti in modo che rimangano invisibili e inaccessibili ai visitatori regolari, così le persone che navigano sul web non vi si imbattano accidentalmente: “Nessun essere umano reale andrebbe a quattro collegamenti di profondità in un labirinto di assurdità generate dall’IA. Qualsiasi visitatore che lo faccia è molto probabilmente un bot, quindi questo ci offre uno strumento completamente nuovo per identificare e profilare i bot malevoli” spiega la società sul suo blog.

In questo modo i dati raccolti da AI Labyrinth sono utilizzati a loro volta per addestrare le capacità di rilevamento dei bot e migliorarle continuamente, applicando le ottimizzazioni a tutta la rete di Cloudflare.

Cloudflare, fornendo servizi di infrastruttura per la distribuzione di contenuti e sicurezza per siti web, si trova in una posizione unica che le consente di osservare le dinamiche del traffico di Internet. Secondo i dati raccolti, la società afferma che i crawler IA generano più di 50 miliardi di richieste alla loro rete ogni giorno, pari a quasi l’1 percento di tutto il traffico web elaborato dai suoi sistemi. Molti di questi crawler raccolgono dati dai siti web per addestrare modelli linguistici di grandi dimensioni senza il permesso dei proprietari dei siti, una pratica che ha scatenato numerose cause legali da parte di creatori di contenuti ed editori.

AI Labyrinth viene descritto da Cloudflare come “la prima iterazione” dell’uso difensivo dell’IA contro i bot: i piani di sviluppo futuro prevedono una maggior integrazione delle pagine fasulle nelle strutture dei siti web, con l’obiettivo di rendere più difficile rilevare che si tratti di un contenuto falso e fuorviante.