Nvidia Grace, CPU ARM per datacenter IA e HPC in arrivo nel 2023: la sfida ai chip x86 è lanciata

Nvidia entra (o forse  sarebbe meglio dire rientra se pensiamo a Project Denver) nel mondo delle CPU, anche se per ora solo quelle destinate ai datacenter e non prima del 2023. Grace, questo il nome del progetto, è un omaggio a Grace Murray Hopper, pioniera statunitense della programmazione informatica. Nvidia Grace è un processore basato su core ARM (non sappiamo ancora il numero, ma si parla di future versioni del core Neoverse) che punta a offrire prestazioni 10 volte superiori rispetto ai server attuali più veloci nei carichi di lavoro legati all’intelligenza artificiale (IA) e al calcolo generico (HPC).

Frutto di un lavoro ingegneristico quantificato in oltre 10.000 anni, Nvidia Grace combina i core ARM (azienda che Nvidia vuole acquistare per 40 miliardi di dollari) a un “innovativo sottosistema di memoria a basso consumo” per offrire alte prestazioni e, parimenti, un’efficienza superiore. Jensen Huang, fondatore e CEO di Nvidia, ha dichiarato nel corso di un keynote dalla sua cucina (ormai un must in epoca pandemica) che la CPU Grace – insieme a GPU e DPU – rende Nvidia “un’azienda fondata su tre chip”. Tre gambe quindi, per un’azienda nata nel 1993 con un sogno: farci giocare meglio.

Grace è un processore altamente specializzato che si rivolge a carichi di lavoro “come l’addestramento di modelli NLP (Natural Language Processing) di prossima generazione con oltre 1 trilione di parametri” e che, quando accoppiato alle GPU Nvidia, offrirà “prestazioni 10 volte più veloci rispetto ai migliori sistemi Nvidia DGX basati su CPU x86” attuali.

L’azienda statunitense ribadisce che Grace “servirà un segmento di nicchia del computing” e tra le prime istituzioni pronte a realizzare supercomputer (a occuparsene sarà Hewlett Packard Enterprise, HPE) per la ricerca scientifica troviamo lo Swiss National Supercomputing Centre (CSCS) e il Los Alamos National Laboratory del Dipartimento dell’Energia statunitense: saranno “accesi” proprio nel 2023.

La CPU Nvidia Grace viene annunciata in un momento in cui il volume dei dati e la dimensione dei modelli di IA stanno crescendo esponenzialmente. I modelli più grandi includono miliardi di parametri e raddoppiano di dimensione ogni due mesi e mezzo. “L’addestramento di questi modelli”, afferma Nvidia, “richiede una nuova CPU che può essere strettamente accoppiata con una GPU per eliminare i colli di bottiglia del sistema”.

A garantire queste prestazioni sarà la quarta generazione dell’interconnessione Nvidia NVLink, che permetterà alla CPU Grace e alle GPU Nvidia collegate di “parlarsi” a 900 GB/s, ossia con una bandwidth aggregata 30 volte maggiore rispetto ai server di punta attuali. Si parla anche di 600 GB/s tra diverse CPU Grace. La CPU si avvarrà inoltre di un sottosistema di memoria LPDDR5x ECC in grado di fornire il doppio della bandwidth (almeno 500 GB/s) e un’efficienza energetica 10 volte migliore rispetto all’attuale memoria DDR4.

A completare il quadro tecnico una coerenza della cache con un singolo indirizzamento di memoria, in modo da combinare la memoria di sistema con quella HBM (High Memory Bandwidth) della GPU per semplificare la programmabilità. La CPU Grace sarà pienamente supportata dall’SDK Nvidia HPC e dalle librerie CUDA e CUDA-X per l’accelerazione delle operazioni mediante la GPU.

Perché Grace, perché ora?

“Nvidia vuole fare la guerra a Intel e AMD”, sarebbe facile liquidare così il progetto Grace. E anche se indubbiamente questa svolta porterà ulteriore competizione in un settore già infuocato, con Grace l’obiettivo di Nvidia è quello di coprire un fronte scoperto della propria offerta e migliorare ulteriormente l’ecosistema a sostegno delle proprie GPU.

Infatti, se da una parte le GPU Nvidia sono ottime per determinati carichi di deep learning, ci sono casi in cui le CPU giocano un ruolo e, spesso e volentieri, rappresentano un freno. A fronte di prestazioni “general purpose” ottimali, né gli Xeon di Intel né gli EPYC di AMD sono in grado di offrire le prestazioni di I/O e le ottimizzazioni per il deep learning di cui Nvidia ha bisogno. Il problema, in particolare, è l’uso del PCI Express per la connettività tra CPU e GPU; se da una parte le GPU sono in grado di parlarsi rapidamente tra loro grazie a NVLink, la stessa cosa non avviene con la CPU.

La soluzione è quindi quella di portare in scena NVLink anche per la gestione delle comunicazioni tra CPU e GPU. Nvidia ci ha già provato in passato siglando una partnership con IBM e le sue CPU Power9, ma quello sforzo è naufragato. Nvidia ha quindi preso in parola il motto “chi fa da sé fa per tre” e ha progettato Grace, che vede a bordo di una singola scheda una GPU, una CPU e la relativa memoria. I moduli Grace saranno disponibili anche per l’uso su schede HGX e, per estensione, li vedremo sulle future versioni di DGX e gli altri sistemi.

Visto che manca ancora molto al debutto, l’azienda non ha rivelato tutte le informazioni tecniche, ma ha parlato di core capaci di superare 300 punti nel benchmark SPECrate2017_int_base, un valore simile agli AMD EPYC di seconda generazione a 64 core (Rome). Nvidia ha inoltre aggiunto che un sistema DGX con otto GPU è in grado di scalare linearmente raggiungendo un punteggio di 2400 nel test SPECrate_2017_int_base, a fronte di una configurazione DGX odierna simile che raggiunge un punteggio di 450. L’azienda, infine, ha anticipato configurazioni in grado di ridurre i tempi di addestramento di modelli da 1 trilione di parametri da un mese a soli tre giorni.