L-Mul, ecco la tecnica che promette di ridurre del 95% i costi energetici dell’intelligenza artificiale

BitEnergy AI è una società che si descrive come impegnata a “sviluppare tecnologie avanzate di inferenza AI che consumano solo 1/10 dell’energia delle soluzioni esistenti, consentendo applicazioni di intelligenza artificiale più sostenibili e convenienti” e che ha sviluppato una particolare tecnica che promette di rendere i modelli di IA meno avidi di energia, senza che vi debba essere un compromesso prestazionale. La tecnica, chiamata Linear-Complexity Multiplication, (di seguito L-Mul) potrebbe consentire di ottenere riduzioni nel consumo energetico fino al 95% nel funzionamento dei Large Language Model.

Il principio su cui si basa L-Mul è la sostituzione delle moltiplicazioni in virgola mobile, per le quali è noto sia richiesto molta potenza di calcolo, con più semplici addizioni di numeri interi. La notazione in virgola mobile consente ai computer di poter manipolare numeri estremamente grandi o estremamente piccoli con efficienza e rappresenta una capacità fondamentale per i modelli IA. Tuttavia l’aumento della complessità dei modelli porta ad un aumento proporzionale delle risorse di elaborazione e, quindi, dell’energia necessaria.

E proprio la maggior richiesta energetica per il funzionamento dei modelli IA è divenuta una problematica e una preoccupazione sempre più pressante nel settore tecnologico. Le recenti stime di consumo di ChatGPT, tanto per fare un esempio, parlano di circa mezzo milione di kilowattora quotidiani, pari all’energia necessaria per 18 mila abitazioni medie americane. E per il futuro la situazione non sembra essere destinata a migliorare, con scenari in cui l’IA potrebbe consumare tra gli 85 e i 134 TWh all’anno. Google non ha nascosto, di recente, di stare guardando ai piccoli reattori nucleari modulari per l’alimentazione dei suoi datacenter dedicati all’intelligenza artificiale, allo scopo di rispondere sia al crescente fabbisogno energetico, sia alla necessità di ridurre le emissioni di anidride carbonica.

La tecnica L-Mul affronta il problema da un altro angolo: invece dell’esecuzione di complesse moltiplicazioni in virgola mobile, vengono eseguite una serie di addizioni di numeri interi. Si tratta ovviamente di approssimazioni, che però hanno il vantaggio di mantenere un alto livello di precisione e di prestazioni e di ridurre in maniera massiccia il consumo energetico.

I ricercatori indicano, sulla base di risultati preliminari dei loro test, di aver ottenuto una riduzione del 95% e del 80% dei costi energetici rispettivamente per le operazioni di “ragionamento” e per quelle di elaborazione di nuove idee. Quanto alle prestazioni si è registrata una flessione media dello 0,07%, praticamente insignificante sia in termini assoluti sia, e soprattutto, considerando il consumo energetico. Questa tecnica pare essere di particolare beneficio per i modelli basati sui trasformatori, e cioè tutta quella classe di grandi modelli linguistici come ChatGPT o come i modelli Llama, Mistral e Gemma sui quali i ricercatori hanno eseguito una serie di test che hanno rivelato anche una miglior accuratezza per alcune attività visive.  

L’attività dei ricercatori ha dimostrato come la moltiplicazione di due numeri in virgola mobile float8, che è il metodo utilizzato al momento nei modelli IA, richieda 325 operazioni contro le 157 di L-Mul. Oltre alla maggior efficienza si registra anche una miglior precisione rispetto alla moltiplicazione in virgola mobile. A questo punto sembra tutto rose e fiori, tanto da chiedersi per quale motivo questa tecnica non sia già largamente adottata dal settore. E’ qui che iniziano le noti dolenti: L-Mul ha bisogno di hardware specializzato per poter esprimere al meglio il suo potenziale poiché quello utilizzato oggi dal settore non è ottimizzato per questo tipo di tecnica.

Per evitare che questi aspetti ostacolino una rapida e diffusa adozione della nuova tecnica, i ricercatori hanno dichiarato che sono al lavoro per implementare gli algoritmi L-Mul e L-Matmul (un’altra tecnica simile, con un maggior livello di efficienza) a livello hardware e per sviluppare le API di programmazione per la progettazione di modelli di alto livello. Nonostante le premesse, è ancora presto per capire se questa tecnica riuscirà nel concreto a guadagnare terreno e a realizzare uno scenario di un’IA maggiormente sostenibile, con modelli molto più efficienti e forse anche capaci di operare in contesti in cui l’accesso a potenze di calcolo elevate non è semplicemente possibile.