L'AI costa più dei dipendenti umani. E ora Microsoft e Uber lo stanno dicendo a voce alta

Mentre i giganti tech promettono un futuro fatto di agenti AI a fianco di ogni dipendente, i loro conti interni raccontano una storia diversa: i token costano. E continueranno a costare.

by Sergio Malagoli

mag 26, 2026

Microsoft chiude Claude Code per migliaia dei suoi sviluppatori. Uber ha bruciato l'intero budget AI del 2026 in quattro mesi. Dietro la promessa della rivoluzione produttiva, una matematica scomoda comincia a emergere.

Per anni ci hanno raccontato che l'intelligenza artificiale avrebbe ridotto i costi del lavoro. Una decade di pitch, keynote e earnings call costruita attorno a una sola promessa: l'AI sostituisce o aumenta il lavoro umano a una frazione del prezzo. Nel maggio 2026, qualcuno comincia a fare i conti — e i conti non tornano.

Il 22 maggio Fortune ha pubblicato un'analisi che mette in fila due notizie apparentemente scollegate: Microsoft sta cancellando la maggior parte delle licenze di Claude Code per i suoi dipendenti, e Uber ha bruciato l'intero budget AI del 2026 in quattro mesi. Lette insieme, raccontano lo stesso paradosso: usare l'AI ai ritmi suggeriti dai vendor costa più che pagare le persone.

Il caso Microsoft: troppo popolare per essere sostenibile

A dicembre 2025 Microsoft aveva aperto Claude Code, lo strumento di coding agentico di Anthropic, a migliaia dei suoi sviluppatori, designer e project manager. Sei mesi dopo, come riportato da The Verge e ripreso da Windows Central, la divisione Experiences + Devices — che gestisce Windows, Microsoft 365, Outlook, Teams e Surface — deve smettere di usarlo entro il 30 giugno. La motivazione ufficiale, comunicata via memo interno dall'EVP Rajesh Jha, è la consolidazione su GitHub Copilot CLI. Quella ufficiosa, raccolta da Tom Warren, è più diretta: Claude Code era diventato "forse un po' troppo popolare".

La popolarità interna stava erodendo l'adozione del prodotto di casa, GitHub Copilot, e generava un costo operativo difficile da giustificare alla chiusura dell'anno fiscale Microsoft, fissato proprio al 30 giugno. Il responsabile della tecnologia di Microsoft, Satya Nadella, aveva dichiarato lo scorso anno che il 30% del codice dell'azienda è già scritto con AI generativa. Ottimo per il PR. Meno ottimo per chi deve approvare il budget di consumo token quando il tool che funziona meglio è quello del concorrente.

Importante notare: l'accordo strategico tra Microsoft e Anthropic non è in discussione. Microsoft mantiene l'investimento da 5 miliardi di dollari e i clienti di Foundry continueranno ad avere accesso ai modelli Claude. È il consumo interno che si è rivelato insostenibile.

Il caso Uber: budget annuale, bruciato in 120 giorni

Il caso più chiaro arriva da Uber. The Information ha riportato ad aprile che il responsabile della tecnologia dell'azienda, Praveen Neppalli Naga, ha esaurito il budget AI dell'intero 2026 dopo solo quattro mesi. "Sono tornato al tavolo da disegno, perché il budget che pensavo di aver bisogno è ormai bruciato", ha detto a The Information.

I numeri sono significativi. Claude Code è stato distribuito a circa 5.000 ingegneri Uber a dicembre 2025. A febbraio il 32% li usava attivamente; a marzo erano già l'84% classificati come "utenti agentici". A primavera il 95% degli ingegneri usava strumenti AI ogni mese, e circa il 70% del codice rilasciato veniva generato da loro. La spesa mensile per ingegnere oscillava tra i 150 e i 250 dollari di media, con i power user che arrivavano a 2.000. Lo stesso Naga ha ammesso di aver speso 1.200 dollari in una singola sessione dimostrativa di due ore.

A peggiorare il quadro per i clienti business: a partire dal 15 giugno, Anthropic ha annunciato che gli abbonati Claude paganti verranno fatturati a tariffe API piene per gli strumenti agentici. Il rubinetto, in altre parole, sta per stringersi ulteriormente.

Il paradosso dei token: più economici sul singolo, più cari nell'aggregato

C'è una contraddizione apparente che merita di essere spiegata. Il costo del singolo token sta crollando: secondo una recente analisi di Gartner, entro il 2030 l'inference su un modello LLM da un trilione di parametri costerà quasi il 90% in meno rispetto al 2025. Goldman Sachs, dal canto suo, calcola che i fornitori di semiconduttori stiano già riducendo il costo per token di inference del 60-70% all'anno.

Ottimo, in teoria. In pratica, c'è il consumo. Goldman prevede un aumento di 24 volte del consumo globale di token entro il 2030, fino a 120 quadrilioni di token processati al mese. La logica è semplice: un agente AI non fa una richiesta e si ferma — controlla, verifica, chiama tool esterni, opera in background. Un singolo agente di sviluppo software, sempre nella simulazione di Goldman, processa circa 6,27 milioni di token in input e 820.000 in output al giorno, per un costo API di circa 13 dollari giornalieri. Per uno.

"I Chief Product Officer non devono confondere la deflazione dei token commodity con la democratizzazione del ragionamento di frontiera", ha avvertito Will Sommer, senior director analyst di Gartner, in una nota diffusa di recente. Tradotto: il prezzo unitario scende, sì, ma il volume cresce più velocemente. E i fornitori non passano agli utenti finali tutto lo sconto.

Non è solo Microsoft e Uber

Il fenomeno è generalizzato. Un dipendente Meta ha creato un cruscotto interno chiamato "Claudeonomics" per classificare gli sviluppatori in base al consumo di token AI — finché l'azienda non l'ha disattivato. Amazon ha spinto i propri team a "tokenmaxxare", cioè a massimizzare il consumo di token come metrica di produttività. Bryan Catanzaro, vicepresidente del deep learning applicato di Nvidia, ha detto chiaramente ad Axios: "Per il mio team, il costo del compute è di gran lunga superiore al costo dei dipendenti".

Vale la pena fermarsi un momento. È un dirigente di Nvidia — l'azienda che vende le GPU che generano quei costi — ad ammettere che la sua infrastruttura AI le costa più dei suoi ingegneri.

La prospettiva GigNuxNote: cosa non si sta raccontando

Tre osservazioni che la narrazione dominante tende a saltare.

Primo: l'AI come "sostituto del lavoro umano" è una semplificazione fuorviante. In molte aziende, quello che sta succedendo è un trasferimento di costi dal salario del dipendente al margine del fornitore AI. La produttività individuale forse cresce; ma il guadagno di efficienza si sposta nei conti economici di Anthropic, OpenAI, Nvidia, non in quelli del cliente enterprise. Le aziende stanno fondamentalmente comprando capacità di calcolo a contratti consumption-based che le rendono price taker, non price setter.

Secondo: i "token consumati" sono diventati un KPI di trasformazione digitale. Non sono un KPI di efficienza. Sono una metrica di adozione mascherata da metrica di valore. Una classifica interna che premia chi spende di più in token non misura la produttività: misura la dipendenza. È un meccanismo di vendor lock-in elegante, con accanto un grafico carino.

Terzo: la previsione di Jensen Huang — secondo cui un giorno 100 agenti AI lavoreranno a fianco di ogni dipendente di Nvidia — è insieme un'ipotesi tecnologica e un piano commerciale. Se ogni lavoratore della conoscenza ha bisogno di 100 entità di calcolo per funzionare, l'azienda che vende chip per quel calcolo ha un mercato infinito. È una visione coerente; ma vale la pena ricordare chi la sta vendendo.

Cosa succederà adesso

Il segnale che arriva da Microsoft e Uber non è "l'AI non funziona". È che il modello consumption-based dei coding agent non è ancora compatibile con la budgeting enterprise tradizionale. Le aziende stanno scoprendo che il loro CFO non ha mai dovuto gestire una voce di costo che cresce in modo non-lineare e non-prevedibile in base a quanto i dipendenti "vogliono" usare uno strumento. Nessun playbook FinOps è ancora calibrato su questo.

La risposta più probabile, nei prossimi sei-dodici mesi, sarà una rinegoziazione contrattuale di massa: prezzi flat per seat, tetti di consumo, livelli di servizio differenziati. Le aziende AI dovranno scegliere se massimizzare i margini sui power user — accettando una riduzione dell'adozione — o ridurre i prezzi unitari per espandere la base. Una scelta industriale, non un dettaglio tecnico.

Nel frattempo, qualcuno dovrà spiegare ai consigli di amministrazione perché lo strumento che doveva ridurre i costi del personale ha appena raddoppiato la voce "infrastruttura cloud" nei conti del trimestre. E nessuno, a oggi, ha una risposta semplice.