TurboQuant: Google comprime la memoria AI di 6 volte (e Wall Street trema)

Google ha compresso la memoria AI di 6 volte senza perdere un bit di qualità. TurboQuant cambia le regole del gioco — e spaventa Wall Street.

by Sergio Malagoli

mar 27, 2026

Il 25 marzo 2026, Google Research ha pubblicato sul proprio blog un paper destinato a far discutere per mesi: si chiama TurboQuant, ed è un algoritmo di compressione della memoria progettato per affrontare uno dei colli di bottiglia più costosi dell'intelligenza artificiale moderna. In poche ore, le azioni di Micron, Western Digital, Samsung e SK Hynix hanno registrato un calo sensibile. Non è un caso.

Il problema: la KV cache, il "peso segreto" dell'AI

Per capire perché TurboQuant è rilevante, bisogna capire come funziona l'inferenza dei grandi modelli linguistici (LLM). Ogni volta che un LLM elabora una conversazione, non ricalcola tutto da zero ad ogni token generato. Mantiene uno storico di calcoli intermedi in una struttura chiamata KV cache (key-value cache), una sorta di "memoria di lavoro" del modello.

Il problema è che questa cache scala linearmente con la lunghezza del contesto. Per un modello da 70 miliardi di parametri che serve 512 utenti in contemporanea, la sola KV cache può consumare fino a 512 GB di VRAM GPU — quasi quattro volte la memoria necessaria per i pesi del modello stesso. Con l'espansione delle context window e la crescita dell'AI agentiva, il problema si aggrava esponenzialmente.

Il metodo tradizionale per gestire questa cache utilizza rappresentazioni a 16 bit per valore. È preciso, ma enormemente dispendioso in termini di memoria.

La soluzione: comprimere senza perdere nulla

TurboQuant, sviluppato da Google Research in collaborazione con Google DeepMind, KAIST e NYU, affronta il problema con un approccio matematicamente elegante. L'algoritmo comprime ogni valore della KV cache da 16 bit a soli 3 bit, raggiungendo una riduzione della memoria di almeno 6 volte, con un aumento delle prestazioni nel calcolo dell'attention fino a 8 volte su GPU Nvidia H100.

Il dato più sorprendente: zero perdita di accuratezza. Nessun retraining. Nessun fine-tuning. Nessun dato di calibrazione necessario.

Come funziona tecnicamente

TurboQuant si articola in tre componenti principali:

PolarQuant — il metodo di quantizzazione principale. Invece di operare in coordinate cartesiane standard (come i metodi tradizionali), converte i vettori di dati in coordinate polari, separando magnitudine e angoli. Questo elimina il problema dei "quantization constants", ovvero quei bit aggiuntivi che i metodi tradizionali devono memorizzare per decomprimere i dati, parzialmente annullando i benefici della compressione.

QJL (Quantized Johnson-Lindenstrauss) — un metodo complementare basato sulla trasformazione matematica di Johnson-Lindenstrauss. Riduce ogni vettore ad un singolo bit di segno (+1 o -1), creando una "stenografia ad alta velocità" con overhead di memoria zero. Un estimatore speciale bilancia poi le query ad alta precisione con i dati semplificati, mantenendo la correttezza dei calcoli di attention score.

Entrambi i paper — TurboQuant a ICLR 2026 (Rio de Janeiro, 23-25 aprile) e PolarQuant ad AISTATS 2026 (Tangier, maggio) — saranno presentati nelle prossime settimane.

I benchmark

Testato sui principali benchmark per contesti lunghi — LongBench, Needle In A Haystack, ZeroSCROLLS, RULER e L-Eval — usando modelli open source come Gemma e Mistral, TurboQuant ha eguagliato o superato i metodi baseline su tutte le attività testate, incluse domande e risposte, generazione di codice e riassunto.

Su GPU Nvidia H100, la versione a 4 bit ha consegnato un'accelerazione fino a 8x nel calcolo degli attention logit rispetto alla baseline non compressa a 32 bit. Gli sviluppatori indipendenti hanno già costruito implementazioni funzionanti in PyTorch, MLX (Apple Silicon) e per llama.cpp, confermando le affermazioni del paper.

Le implicazioni per i datacenter e il mercato AI

Riduzione dei costi di inferenza

Secondo VentureBeat, TurboQuant potrebbe ridurre i costi per le aziende che lo implementano di oltre il 50%. Questo perché l'inferenza — non il training — è la spesa ricorrente che determina la sostenibilità economica dei prodotti AI su larga scala. Ridurre il numero di GPU necessarie per servire applicazioni con contesti lunghi è un vantaggio operativo diretto.

Per una startup che spende $100.000 al mese in inference cloud, significa potenzialmente dimezzare quel costo senza cambiare una riga di codice del modello.

Il mercato dei chip: il paradosso Jevons

La reazione di Wall Street è stata immediata. Le azioni dei principali produttori di memoria — Micron, Western Digital, Samsung, SK Hynix — hanno registrato un calo nelle ore successive all'annuncio. La logica è semplice: se l'AI può comprimere i requisiti di memoria di 6 volte via software, la domanda insaziabile di High Bandwidth Memory (HBM) potrebbe rallentare.

Tuttavia, come nota The Next Web, la storia dell'informatica suggerisce il contrario: quando lo storage diventa più economico, le persone ne usano di più. Il paradosso di Jevons — più l'efficienza aumenta, più il consumo totale cresce — è stato osservato sistematicamente nei chip, nella banda larga e nei sistemi di storage. TurboQuant potrebbe non ridurre la domanda di hardware, ma abilitare deployment più ambiziosi allo stesso costo.

Nvidia potrebbe essere, controintuitivamente, un beneficiario netto: GPU più efficienti per dollaro accelerano l'adozione in casi d'uso che prima erano proibitivi economicamente.

Il "momento DeepSeek" di Google

Il CEO di Cloudflare Matthew Prince ha definito TurboQuant su X: "Google's DeepSeek. So much more room to optimize AI inference for speed, memory usage, power consumption, and multi-tenant utilization." Il paragone con DeepSeek non è casuale: entrambi rappresentano salti di efficienza ottenuti per via software, non hardware. La differenza è che DeepSeek ha ottimizzato il training, mentre TurboQuant interviene sull'inferenza.

Come sottolinea però TechCrunch, il confronto ha limiti evidenti: TurboQuant è ancora un breakthrough di laboratorio, non ancora distribuito su larga scala.

Implicazioni per l'AI agentiva

TurboQuant arriva in un momento strategico: l'era degli agenti AI richiede modelli capaci di gestire contesti sempre più lunghi — documenti interi, conversazioni estese, workflow multi-step. Finora, questo si scontrava duramente con il vincolo della VRAM. Un algoritmo che permette di servire context window molto più ampie sulla stessa infrastruttura potrebbe sbloccare casi d'uso oggi economicamente insostenibili.

Google stessa sottolinea un'applicazione diretta: la ricerca vettoriale per semantic similarity su miliardi di elementi. TurboQuant supera i metodi esistenti (Product Quantization, RabbiQ) sul benchmark GloVe senza richiedere codebook di grandi dimensioni o tuning specifico per dataset.

Il confronto con KVTC di Nvidia

Non solo Google si sta muovendo su questo fronte. Nvidia porterà ad ICLR 2026 il proprio KVTC (KV Cache Transform Coding), un approccio alternativo ispirato alla compressione media in stile JPEG. I numeri sono ancora più aggressivi — fino a 20x di compressione con meno di 1 punto percentuale di perdita di accuratezza — ma richiede un passaggio di calibrazione per modello.

Il confronto diretto: TurboQuant offre 6x di compressione senza perdita e senza calibrazione, testato su modelli fino a 8B parametri. KVTC arriva a 20x con calibrazione, testato su una gamma più ampia di modelli da 1.5B a 70B. Due approcci diversi per lo stesso problema, entrambi degni di attenzione.

Cosa manca ancora

È importante mantenere le giuste proporzioni. Google non ha ancora rilasciato codice ufficiale — il rilascio open source è atteso intorno al Q2 2026, probabilmente a ridosso della presentazione ad ICLR. Le implementazioni community esistenti (PyTorch, MLX, llama.cpp) sono promettenti ma non production-ready.

TurboQuant opera solo sull'inferenza, non sul training. La carenza di RAM causata dal training dei modelli più grandi rimane inalterata. E come nota Tom's Hardware, i test ufficiali coprono modelli fino a 8B parametri: le performance sui modelli frontier da 70B+ restano da verificare.

Conclusione

TurboQuant è una notizia importante, anche se non ancora una rivoluzione consumata. Rappresenta la conferma di una tendenza strutturale: il prossimo ciclo di efficienza dell'AI sarà definito tanto dall'eleganza matematica degli algoritmi quanto dalla potenza bruta dell'hardware.

La corsa non è solo "chi ha il chip più veloce", ma "chi ottimizza meglio ogni strato dello stack". Google, con TurboQuant, ha appena spostato il benchmark. Ora tocca al resto dell'industria rispondere.

Fonti: Google Research Blog · VentureBeat · TechCrunch · Tom's Hardware · The Next Web