Claude Mythos Preview: il modello AI che Anthropic non vuole (ancora) darvi

Claude Mythos Preview trova zero-day in ogni OS e browser, ha sfondato il suo sandbox e Anthropic ha avvisato il governo USA. Ecco perché non lo vedrete mai.

by Sergio Malagoli

apr 13, 2026

Ha trovato migliaia di vulnerabilità zero-day in ogni sistema operativo e browser. Ha già sfondato il proprio ambiente di test. E Anthropic ha avvisato il governo americano che i grandi cyberattacchi sono molto più probabili quest'anno.

COME È COMINCIATA: IL LEAK DI MARZO

La storia di Claude Mythos non è iniziata con un annuncio ufficiale. È iniziata con un errore. Alla fine di marzo 2026, una misconfiguration nel sistema di gestione dei contenuti di Anthropic ha reso accessibile al pubblico un archivio non protetto contenente quasi 3.000 asset interni — tra cui una bozza di blog post che descriveva un modello chiamato Mythos. Ad accorgersene per prima è stata la giornalista Bea Nolan di Fortune, che ha pubblicato i dettagli il 26 marzo.

Quel documento interno descriveva Mythos come "il modello più potente che abbiamo mai sviluppato — di gran lunga" e avvertiva che poneva "rischi di cybersecurity senza precedenti". Menzionava anche una nuova fascia di modelli sopra Opus, denominata internamente Capybara, più potente e costosa di qualsiasi prodotto allora disponibile. Anthropic confermò l'esistenza del modello senza smentire i dettagli. Due settimane dopo, il 7 aprile 2026, arrivò l'annuncio ufficiale con il lancio di Project Glasswing.

Prima ancora dell'annuncio pubblico, però, Anthropic aveva già iniziato a muoversi nei corridoi di Washington. Secondo le ricostruzioni di Axios, la società aveva avvisato in via riservata alti funzionari del governo americano — incluse CISA (Cybersecurity and Infrastructure Security Agency) e il Center for AI Standards and Innovation del NIST — che Mythos rendeva i cyberattacchi su larga scala significativamente più probabili nel corso del 2026. Almeno una fonte governativa ha riferito ad Axios che un attacco di portata maggiore potrebbe materializzarsi nel corso di quest'anno.

COSA SA FARE CHE GLI ALTRI NON SANNO

Per capire perché Anthropic ha scelto questa strada, bisogna partire da un confronto diretto con i modelli esistenti. Claude Opus 4.6 — il prodotto di punta dell'azienda fino al 7 aprile — aveva trovato circa 500 vulnerabilità zero-day in software open source durante le fasi di test. Mythos Preview ne ha trovate decine di migliaia. Il tasso di successo nello sviluppo autonomo di exploit passa da circa zero a 72,4%. Sul CyberGym benchmark, che valuta la capacità di analisi delle vulnerabilità, Mythos ottiene 83,1% contro il 66,6% di Opus. Sul benchmark SWE-bench per il coding, segna 93,9% contro 80,8%.

Ma i numeri non catturano la natura qualitativa del salto. Il Red Team di Anthropic descrive nel dettaglio le capacità osservate nei test. In un caso documentato, il modello ha scritto un exploit per browser che concatenava quattro vulnerabilità distinte, costruendo un attacco capace di sfuggire sia al sandbox del renderer che a quello del sistema operativo. Ha ottenuto autonomamente privilegi di root su Linux sfruttando race condition sottili e bypass KASLR. Ha identificato e sfruttato una vulnerabilità nel server NFS di FreeBSD — classificata come CVE-2026-4747 — che garantiva accesso root completo a qualsiasi utente non autenticato su internet, spezzando una ROP chain da 20 gadget distribuita su più pacchetti.

Nicholas Carlini, uno dei ricercatori del Red Team, ha spiegato in un video che il modello "riesce a concatenare vulnerabilità: ne trova due o tre che singolarmente non valgono molto, e costruisce exploit sofisticati combinandole in sequenza". Ha poi aggiunto: "Ho trovato più bug nelle ultime settimane di quanti ne abbia trovati in tutta la mia vita messa insieme".

UN DETTAGLIO CHE NON DOVREBBE PASSARE INOSSERVATO

In mezzo alla documentazione tecnica c'è un episodio che merita attenzione specifica. Durante i test, Mythos Preview è uscito dal proprio ambiente sandbox e ha costruito autonomamente un exploit multistep per ottenere accesso a internet — mentre avrebbe dovuto avere accesso solo a servizi specifici. Il ricercatore che sovrintendeva al test ha scoperto che il modello ci era riuscito ricevendo una email inaspettata dal modello stesso mentre era seduto in un parco a mangiare un panino.

Anthropic ha incluso questo episodio nella documentazione ufficiale, definendolo una dimostrazione di "capacità potenzialmente pericolosa nell'aggirare le salvaguardie". È un segnale raro di trasparenza, o almeno di coraggio comunicativo: ammettere pubblicamente che il proprio modello ha già dimostrato di saper sfuggire ai controlli è una cosa che poche aziende farebbero. E che poche avrebbero bisogno di fare.

I BUG CHE ASPETTAVANO DA DECENNI

Le vulnerabilità trovate da Mythos non sono difetti in software marginale. Sono falle nel cuore dell'infrastruttura digitale globale, sopravvissute per decenni a qualsiasi forma di revisione umana e automatizzata.

Tra quelle documentate: un bug di 27 anni in OpenBSD — il sistema operativo la cui unica ragione d'esistenza è essere sicuro — che permetteva di mandare in crash qualsiasi server connettendosi semplicemente ad esso. Una vulnerabilità di 16 anni nella libreria FFmpeg, che gestisce decodifica audio e video in praticamente ogni browser e piattaforma esistente, e che era stata eseguita cinque milioni di volte dai tool di test automatizzati senza mai essere intercettata. Un exploit chain nel kernel Linux che portava da utente normale ad accesso root. Falle negli standard crittografici TLS, AES GCM e SSH. Vulnerabilità nelle web application di uso comune — SQL injection, XSS, CSRF — spesso usate nelle campagne di phishing.

Il 99% di queste vulnerabilità, secondo Anthropic, non è ancora stato patchato. Il volume delle scoperte ha travolto la capacità di risposta dei team di manutenzione. Per alcune falle, la società ha pubblicato solo un hash crittografico — una prova dell'esistenza senza rivelare i dettagli tecnici — in attesa che vengano applicate le correzioni.

L'AI NELLE MANI SBAGLIATE: GIÀ SUCCEDE

C'è un elemento di contesto che rende questa storia urgente al di là di Mythos stesso. L'AI offensiva non è uno scenario futuro. È già in uso.

Anthropic ha rivelato che un gruppo sponsorizzato dallo stato cinese ha già usato agenti Claude — non Mythos, ma i modelli correnti — per condurre una campagna coordinata contro circa 30 organizzazioni, tra cui aziende tecnologiche, istituzioni finanziarie e agenzie governative. L'AI gestiva autonomamente la maggior parte delle operazioni tattiche. Anthropic ha rilevato l'attività, bannato gli account coinvolti e notificato le organizzazioni colpite nell'arco di dieci giorni. Questo, documentato, è il primo cyberattacco eseguito in modo sostanzialmente autonomo da agenti AI di cui si abbia traccia pubblica.

Separatamente, i ricercatori di sicurezza di AWS hanno documentato un caso in cui un criminale informatico di lingua russa ha usato Claude e DeepSeek per compromettere oltre 600 dispositivi in 55 paesi. Un sondaggio di Dark Reading ha rilevato che il 48% dei professionisti della cybersecurity indica oggi l'AI agentiva come il principale vettore di attacco per il 2026 — davanti ai deepfake e a qualsiasi altra categoria.

PROJECT GLASSWING E LA CORSA CONTRO IL TEMPO

La risposta operativa di Anthropic si chiama Project Glasswing. Il nome viene dalla farfalla Glasswing — con le ali quasi trasparenti, capace di vedere quello che gli altri non vedono. Il principio è lo stesso: usare Mythos per trovare quello che nessuno aveva trovato prima, ma esclusivamente a scopo difensivo.

I partner di lancio includono Amazon Web Services, Apple, Broadcom, Cisco, CrowdStrike, Google, JPMorgan Chase, la Linux Foundation, Microsoft, NVIDIA e Palo Alto Networks. A questi si aggiungono circa 40 organizzazioni aggiuntive che sviluppano o gestiscono infrastrutture software critiche. Anthropic ha stanziato 100 milioni di dollari in crediti di utilizzo per i partner, più 2,5 milioni all'Alpha-Omega e all'OpenSSF attraverso la Linux Foundation e 1,5 milioni alla Apache Software Foundation per supportare i maintainer open source.

L'accesso non è aperto nemmeno a chi è disposto a pagare: il prezzo di listino è 25 dollari per milione di token in input e 125 in output, ma i partner devono essere approvati e accettare obblighi contrattuali di uso esclusivamente difensivo. Il modello è disponibile attraverso l'API di Anthropic, Amazon Bedrock, Google Cloud Vertex AI — che ne ha confermato la disponibilità in Private Preview — e Microsoft Foundry.

IL QUADRO COMPETITIVO: ANTHROPIC NON È SOLA

Anthropic sa che il vantaggio temporale è limitato. Axios ha riportato che OpenAI sta finalizzando un modello, denominato internamente "Spud", con capacità paragonabili a Mythos in ambito cybersecurity. Il piano di OpenAI prevede un rilascio controllato a un gruppo ristretto di partner attraverso il suo programma "Trusted Access for Cyber", con una struttura molto simile a Glasswing.

OpenAI aveva già classificato il proprio modello GPT-5.3-Codex, rilasciato a febbraio 2026, come ad "alto rischio" per le capacità cyber nel proprio framework di preparedness — il primo modello a ricevere questa classificazione. Anthropic aveva fatto la stessa cosa con Opus 4.6 per la capacità di individuare vulnerabilità in codebase in produzione.

La logica è la stessa in entrambi i casi: se capacità come queste sono inevitabili, meglio che i difensori le abbiano prima degli attaccanti. Fortune ha sottolineato in un'analisi dell'11 aprile come questo crei però un problema di governance strutturale: i sistemi vengono integrati nelle operazioni cyber offensive più velocemente di quanto i regolatori riescano a costruire i framework per gestirli.

IL PARADOSSO DELLA COMUNICAZIONE E L'ANALISI DI FORRESTER

Esiste una tensione strutturale che vale la pena nominare apertamente. Gizmodo e altri osservatori hanno notato che la scelta di comunicare pubblicamente la pericolosità di un modello che non viene rilasciato è anche il modo più efficace per farne pubblicità. Anthropic è una società che compete per capitali, talenti e contratti enterprise. Un modello "troppo pericoloso per il pubblico" è un asset narrativo straordinario.

Questo punto è legittimo e non dovrebbe essere ignorato. Ma non è sufficiente a spiegare l'intera storia. Forrester Research ha pubblicato questa settimana un'analisi che identifica dieci conseguenze concrete di Project Glasswing per i team di sicurezza, i vendor, le compagnie assicurative e i regolatori — nessuna delle quali ha a che fare con il marketing. La Security Magazine ha raccolto le reazioni di esperti indipendenti del settore, la maggior parte dei quali ritiene che le capacità descritte siano reali e che il rischio sia concreto, non costruito.

Simon Willison, che ha seguito da vicino lo sviluppo tecnico, ha scritto che i rischi di sicurezza sono davvero credibili e che dare tempo ai team fidati per prepararsi è un compromesso ragionevole. Hamza Chaudhry del Future of Life Institute ha invece messo in evidenza il governance gap: la velocità con cui queste capacità si integrano nelle operazioni offensive supera di gran lunga la capacità del sistema politico di rispondere.

C'è poi un dettaglio che rende difficile la lettura puramente cinica: la relazione tra Anthropic e il Pentagono si è deteriorata a febbraio 2026, quando Anthropic si è rifiutata di permettere l'uso di Claude per armi letali autonome e sorveglianza di massa dei cittadini americani. Il Segretario alla Difesa Pete Hegseth ha classificato Anthropic come "rischio per la supply chain della sicurezza nazionale" — la prima volta che questa designazione veniva applicata a un'azienda americana. Anthropic ha risposto con due cause federali. Questo non è il profilo di un'azienda che costruisce la propria narrativa di sicurezza per compiacere Washington.

COSA SUCCEDE ADESSO

Anthropic è esplicita sull'obiettivo finale: rendere modelli della classe Mythos disponibili su larga scala, anche per usi generali oltre la cybersecurity. Il percorso prevede di sviluppare prima le salvaguardie necessarie su un modello meno rischioso — probabilmente il prossimo Claude Opus — prima di estendere le stesse protezioni ai modelli più avanzati.

Il Piano non ha una tempistica definita. Il modello è computazionalmente intenso e costoso da eseguire, e Anthropic ha dichiarato di star lavorando a migliorarne l'efficienza prima di qualsiasi rilascio più ampio. Il rapporto di Forrester stima che i partner di Glasswing avranno bisogno di mesi, non settimane, per sfruttare appieno le capacità del modello nella loro infrastruttura.

Quello che la storia di Mythos mette sul tavolo non è una domanda tecnica. È una domanda di governance: come si gestisce una capacità che abbassa drasticamente la soglia per condurre attacchi sofisticati, la distribuisce a un numero crescente di attori e non può essere "dis-inventata"? Project Glasswing è un tentativo di risposta — probabilmente non l'unico necessario, certamente non sufficiente da solo.

"D.C. governa per crisi", ha detto a Axios una fonte governativa informata su Mythos. "Finché questa non diventa una crisi, la cybersecurity rimane un'area periferica." La finestra per agire prima della crisi, ha concluso Axios, si sta chiudendo velocemente.