Oracle ha annunciato la disponibilità per tutti gli utenti di MySQL HeatWave Lakehouse. Si tratta di un un elemento centrale della strategia di cloud distribuito adottata da Oracle, tanto che è disponibile su diverse piattaforme cloud, oltre ad OCI, incluse AWS e Microsoft Azure.
Con MySQL HeatWave Lakehouse le prestazioni sul data lake sono identiche a quelle del database
Il vantaggio di MySQL HeatWave Lakehouse è relativo alle sue prestazioni: le query lanciate sull’object storage, infatti, saranno eseguite con la stessa rapidità di quelle lanciate direttamente sul database dei clienti. Sono supportati diersi tipi di storage a oggetti, come CSV e Parquet.
Per ottenere questo livello di prestazioni, viene evitato di copiare i dati nel database MySQL, e le query vengono eseguite direttamente su Heatwave, con un significativo risparmio di tempo. Chiunque può verificare la veridicità delle affermazioni di Oracle grazie al benchmark TPC-H* da 10 TB.
Questo benchmark evidenzia come le performance delle query in mySQL HeatWave Lakehouse siano 9 volte superiori rispetto ad Amazon Redshift, 17 volte più veloci nei confronti di Snowflake e Databricks e addirittura 36 volte più veloci rispetto a Google BigQuery. Merito di un’architettura scale-out che permette un elevato parallelismo per eseguire il provisioning del cluster, caricare i dati e elaborare le query con un massimo di 512 nodi. Inoltre, i miglioramenti apportati a MySQL Autopilot automatizzano la creazione di metadati per i file degli oggetti e si adattano dinamicamente alle prestazioni dell’object storage sottostante, con le migliori prestazioni in qualsiasi cloud region OCI.
“Più dell’80% dei dati è memorizzato in file system e questa percentuale sta crescendo. I clienti desiderano integrare e analizzare questi diversi dati esterni con i propri dati transazionali interni, ma spesso è un processo troppo complesso o costoso”, spiega Edward Screven, Chief Corporate Architect di Oracle. “MySQL HeatWave Lakehouse consente ai clienti di ottenere facilmente preziose informazioni in tempo reale combinando i propri dati nell’object storage con i dati del database; allo stesso tempo le prestazioni delle query sono notevolmente più elevate, i dati sono caricati molto più velocemente e il costo è inferiore”.