Durante la GTC 2026, NVIDIA ha presentato nel dettaglio Vera, la nuova CPU per datacenter sviluppata per rispondere alle esigenze dei carichi di lavoro legati all’intelligenza artificiale di nuova generazione, in particolare l’AI agentica e il reinforcement learning.
Secondo l’azienda, il processore è in grado di offrire prestazioni fino al 50% superiori rispetto alle CPU tradizionali a livello rack-scale, grazie soprattutto a un aumento dell’IPC dei nuovi core Olympus e a un’architettura pensata per garantire un’elevata banda memoria e prestazioni single-thread particolarmente elevate.
Nei sistemi AI moderni, la GPU rimane centrale per l’addestramento e l’inferenza dei modelli. Tuttavia, con l’evoluzione verso modelli capaci di ragionare, pianificare e utilizzare strumenti software, molte operazioni rimangono fortemente dipendenti dalla CPU.

Il problema emerge chiaramente osservando il comportamento dei sistemi alla luce della legge di Amdahl, secondo cui le parti seriali di un processo limitano la scalabilità complessiva del sistema. In scenari come i sistemi agentici e il reinforcement learning, ogni ambiente richiede prestazioni single-thread elevate, ma allo stesso tempo i datacenter devono gestire migliaia di ambienti paralleli. Vera nasce proprio per rispondere a questa combinazione di requisiti.
Il processore integra 88 core Olympus e 176 thread, un aumento rispetto ai 72 core della precedente generazione Grace. I nuovi core, compatibili con Arm v9.2-A, rappresentano la prima microarchitettura per datacenter sviluppata direttamente da NVIDIA. Oltre al già citato incremento dell’IPC (fino al 50% in più), il processore integra un’unità di decodifica a 10 istruzioni per ciclo, un branch predictor neurale capace di gestire due branch per ciclo, un prefetch engine dedicato all’analisi di grafi e database e un buffer istruzioni ottimizzato per framework come PyTorch.

Una delle novità principali è la tecnologia Spatial Multithreading, un approccio diverso rispetto allo SMT tradizionale. Invece di condividere nel tempo le stesse unità di esecuzione tra i thread, le risorse principali della pipeline vengono fisicamente isolate, permettendo ai thread di operare realmente in parallelo. Questo migliora il livello di parallelismo delle istruzioni, la prevedibilità delle prestazioni e l’utilizzo delle unità di esecuzione quando alcuni thread sono in attesa di dati.
NVIDIA ha inoltre scelto di organizzare tutti gli 88 core all’interno di un unico dominio, evitando le configurazioni NUMA tipiche dei processori x86 ad alto numero di core. Questo approccio riduce le latenze e semplifica la programmazione delle applicazioni. A collegare i core è la seconda generazione dello Scalable Coherency Fabric (SCF), una rete mesh derivata dalla tecnologia Arm CMN utilizzata nella CPU Grace.
Clicca per ingrandire
Il nuovo fabric consente di gestire una bandwidth interna di 3,4 TB/s, consentendo alla CPU Vera di mantenere oltre il 90% della larghezza di banda di memoria di picco sotto carico. Ogni core dispone di una larghezza di banda di memoria fino a 14 GB/s, circa tre volte la velocità per core delle CPU tradizionali dei datacenter.
Uno degli elementi più distintivi della piattaforma è il sottosistema di memoria. Vera utilizza moduli SOCAMM basati su LPDDR5X, così da assicurare 1,2 TB/s di bandwidth in totale e fino a 1,5 TB di capacità, il che equivale a 13,6 GB/s per core in condizioni di carico massimo. L’architettura, inoltre, supporta una velocità di trasmissione fino a 80 GB/s per ogni singolo core quando le condizioni di carico non sono uniformi su tutta la rete, un notevole miglioramento per i thread che richiedono un’elevata larghezza di banda.
Dal punto di vista delle interconnessioni, Vera integra un collegamento NVLink-C2C con una banda fino a 1,8 TB/s, circa il doppio rispetto alla CPU Grace e circa sette volte più veloce rispetto a PCIe 6.0. La piattaforma supporta inoltre PCIe 6.0, CXL 3.1, configurazioni dual-socket e Confidential Computing, che consente di creare domini sicuri CPU+GPU completamente isolati.

La nuova CPU è al centro di una nuova architettura infrastrutturale chiamata Vera CPU Rack che prevede 256 CPU Vera raffreddate a liquido, 74 DPU BlueField-4, networking ConnectX SuperNIC, fino a 400 TB di memoria LPDDR5 e 300 TB/s di bandwidth aggregata. Nel complesso il rack offre 45.056 thread totali e può gestire oltre 22.500 ambienti CPU indipendenti, pensati per sandbox, orchestrazione e pipeline agentiche.
Nei benchmark condivisi dall’azienda, i sistemi basati su Vera mostrano miglioramenti compresi tra 1,8 e 2,2 volte rispetto alla precedente CPU Grace in diversi scenari.
Diversi operatori cloud stanno già pianificando l’adozione di sistemi basati su Vera, tra cui Alibaba, Oracle Cloud Infrastructure, CoreWeave, Nebius e ByteDance. Sul fronte hardware, numerosi OEM e ODM offriranno sistemi basati su questa CPU, tra cui Dell, HPE, Lenovo, Supermicro, Foxconn e altri. La piattaforma sarà inoltre parte integrante dell’ecosistema Vera Rubin, che includerà anche GPU Rubin, switch NVLink di nuova generazione, DPU BlueField-4 e componenti di networking ad altissima velocità.
Le CPU Vera sono già entrate in produzione e i primi sistemi commerciali saranno disponibili tramite i partner NVIDIA nella seconda metà del 2026.
