Il doppio leak di Anthropic: quando la safety company perde il controllo dei propri segreti

Sarebbe quasi poetico, se non fosse così imbarazzante. Anthropic ha subito in pochi giorni due esposizioni accidentali di dati riservati che hanno messo a nudo modelli inediti, architetture interne e roadmap di prodotto.

by Sergio Malagoli

apr 01, 2026

Sarebbe quasi poetico, se non fosse così imbarazzante. Anthropic — l'azienda che ha costruito la sua identità sull'AI sicura, responsabile, costituzionalmente allineata — ha subito in pochi giorni due esposizioni accidentali di dati riservati che hanno messo a nudo modelli inediti, architetture interne e roadmap di prodotto.

La prima fuga di notizie, riportata in esclusiva da Fortune, riguarda quasi 3.000 asset non pubblicati resi accessibili tramite il CMS aziendale. La causa: un errore di configurazione nel sistema di gestione dei contenuti che ha reso pubblicamente accessibili file non ancora destinati alla pubblicazione. Tra questi, una bozza di blog post che descriveva in dettaglio un nuovo modello — il più potente mai sviluppato da Anthropic — noto internamente come Mythos o Capybara.

Mythos: un nuovo livello sopra Opus

Secondo la bozza del blog post analizzata da Techzine, Capybara rappresenta "un nuovo nome per un nuovo livello di modello: più grande e più intelligente dei nostri modelli Opus — che fino ad ora erano i nostri più potenti." In sostanza, Anthropic stava preparando una quarta fascia nella sua gamma, al di sopra degli attuali Opus, Sonnet e Haiku.

Anthropic non ha intenzione di rilasciare Mythos come prodotto generale nell'immediato. Il modello è descritto come estremamente costoso in termini computazionali: la società sta lavorando per renderlo più efficiente prima di qualsiasi rilascio generale. Il piano prevede un accesso graduale tramite API partendo da clienti nel settore della sicurezza informatica.

E qui sta il punto più controverso: la bozza descrive il modello come "attualmente molto avanti rispetto a qualsiasi altro modello AI nelle capacità cyber" e avverte che "preannuncia un'ondata imminente di modelli in grado di sfruttare vulnerabilità in modi che superano di gran lunga gli sforzi dei difensori."

Il mercato ha reagito immediatamente. I titoli azionari dei principali vendor di cybersecurity — tra cui CrowdStrike, Palo Alto Networks, Zscaler e Fortinet — sono calati nelle ore successive alla notizia. Anthropic, nel frattempo, ha rivelato di stare informando privatamente le autorità governative statunitensi che Mythos rende molto più probabili attacchi informatici su larga scala nel 2026.

Il secondo leak: 500.000 righe di codice sorgente di Claude Code

Se il primo incidente era imbarazzante, il secondo è potenzialmente più dannoso sul piano strategico. A pochi giorni dalla notizia del CMS, Anthropic ha accidentalmente esposto il codice sorgente di Claude Code — circa 500.000 righe distribuite in circa 1.900 file.

La causa: una errata configurazione nel packaging npm. L'incidente è stato identificato per primo da un tirocinante di Fuzzland e riguardava un grande file source map nel pacchetto @anthropic-ai/claude-code. Questo file consentiva l'accesso diretto a un bucket Cloudflare R2 pubblico contenente il codice TypeScript completo, non offuscato.

Nel giro di poche ore, il codice è stato copiato su GitHub, de-minificato e analizzato dalla community. Alcuni sviluppatori hanno già iniziato a lavorare su repliche.

Cosa rivela il codice: architettura, roadmap, feature nascoste

L'analisi tecnica della community, documentata in dettaglio da VentureBeat, ha prodotto rivelazioni sostanziali. Il codice sorgente espone una sofisticata architettura della memoria a tre livelli: un file MEMORY.md come indice leggero di puntatori (~150 caratteri per riga), "topic files" recuperati su richiesta, e trascrizioni mai rilette completamente nel contesto ma solo ricercate per identificatori specifici. È un approccio diretto al problema che i ricercatori chiamano "context entropy" — la tendenza degli agenti AI a perdersi in sessioni prolungate.

Il codice menziona oltre 150 volte il termine KAIROS — dal greco antico "al momento giusto" — che rappresenta una modalità daemon autonoma. Mentre gli strumenti AI attuali sono in gran parte reattivi, KAIROS consente a Claude Code di operare come agente sempre attivo in background, eseguendo un processo chiamato autoDream per la consolidazione della memoria. Tra le feature flag emerse: una "undercover mode", interazione vocale, e trigger per agenti autonomi.

Sul fronte della roadmap: il codice conferma che Capybara è il nome interno di un Claude 4.6 avanzato, con Fennec mappato su Opus 4.6 e il modello Numbat ancora in testing. I commenti interni rivelano che Capybara v8 ha un tasso di "false claims" del 29–30%, in regressione rispetto al 16,7% della v4 — dati che i concorrenti non avrebbero mai dovuto vedere.

L'ironia della safety company

Anthropic si è a lungo posizionata come alternativa attenta alla sicurezza rispetto ai concorrenti come OpenAI. La sua comunicazione enfatizza lo sviluppo responsabile dell'AI e il training costituzionale. L'azienda ha persino sviluppato un modulo Claude Code Security per aiutare le imprese a identificare vulnerabilità AI. Il leak attuale, originato da un banale errore di packaging, contrasta nettamente con questa immagine.

La risposta ufficiale di Anthropic al secondo leak è stata minimizzante: "Nessun dato sensibile dei clienti o credenziali è stato coinvolto o esposto. Si tratta di un problema di packaging causato da errore umano, non di una violazione della sicurezza." Ma per Anthropic — un'azienda con un fatturato annualizzato di 19 miliardi di dollari e Claude Code con un ARR di 2,5 miliardi — il leak è più di un incidente di sicurezza: è una perdita strategica di proprietà intellettuale.

Cosa cambia ora

Il paradosso è evidente: gli AI coding tool — incluso lo stesso Claude Code di Anthropic — rendono molto più facile scoprire questo tipo di contenuto, abbassando le barriere all'ingresso per chiunque voglia scansionare asset pubblicamente accessibili.

Per il settore, questo doppio incidente solleva domande più ampie sulla maturità dei processi di sicurezza nelle aziende AI di frontiera. La corsa alla velocità di deployment — NPM packages, CMS, staging server — crea superfici di attacco che non sempre ricevono l'attenzione che meritano.

Mythos potrebbe davvero essere il modello più capace mai costruito da Anthropic. Ma il modo in cui è stato presentato al mondo — attraverso un errore di configurazione — non è esattamente il lancio che la company aveva in mente.