Le regole del digitale stanno cambiando.
O sei visibile o sei fuori. Noi ti aiutiamo a raggiungere i clienti giusti — quando ti stanno cercando.
Contattaci ora →
Un meccanismo di sicurezza “invisibile” che degradava segretamente le risposte del modello per contrastare la “distillazione” ha scatenato l’ira di sviluppatori e ricercatori, costringendo l’azienda a una rapida e imbarazzante marcia indietro.
Anthropic ha scatenato una bufera implementando un meccanismo segreto anti-copia nel suo nuovo modello Claude Fable 5. Questa mossa, percepita come un sabotaggio per proteggere il business più che la sicurezza, ha eroso la fiducia della community. Messa alle strette, l'azienda è stata costretta a una rapida e imbarazzante retromarcia, promettendo ora massima trasparenza.
Il “sabotaggio segreto” di Anthropic: cosa è successo davvero
Al centro della bufera c’è un meccanismo di sicurezza “invisibile” inserito in Claude Fable 5.
Il suo scopo?
Rilevare e bloccare i tentativi di distillazione, una tecnica con cui si usano le risposte di un modello potente per addestrarne uno più piccolo e, ovviamente, concorrente. In pratica, Anthropic voleva impedire che qualcuno copiasse i compiti a casa.
Il problema è come ha deciso di farlo: quando il sistema sospettava un tentativo di distillazione, invece di avvisare l’utente, degradava o alterava silenziosamente la qualità della risposta.
In parole povere, pagavi per un servizio di punta come Fable 5 e, a tua insaputa, potevi ricevere una risposta mediocre.
Tutto questo era descritto, quasi nascosto, in un documento tecnico di ben 319 pagine, come riportato da LetsDataScience. Mentre altre misure di sicurezza, come quelle per i rischi informatici o biologici, erano ben visibili, questa operava nell’ombra.
Questo meccanismo, che secondo Anthropic avrebbe interessato solo lo 0,03% del traffico, ha colpito proprio la fetta di utenti più esigente: sviluppatori e ricercatori che lavorano su modelli avanzati e che hanno bisogno di risposte prevedibili e affidabili.
E la loro reazione non si è fatta attendere.
Sicurezza pubblica o protezione del business? La reazione della community
La polemica è esplosa quando osservatori del settore, come la nota società di ricerca SemiAnalysis, hanno definito questa pratica un “sabotaggio segreto”. Gli sviluppatori si sono sentiti presi in giro.
Come puoi valutare le reali prestazioni di un modello se non sai mai se una risposta debole è un suo limite o il risultato di un intervento nascosto dell’azienda?
Questo compromette la ricerca, i benchmark e, soprattutto, la fiducia.
La domanda che tutti si sono posti è stata semplice: questa misura serviva davvero a proteggere il pubblico o, più cinicamente, a tutelare il vantaggio commerciale di Anthropic?
Un commento su Hacker News ha riassunto perfettamente il sentimento generale, sottolineando come le barriere di Anthropic sembrassero “più orientate a proteggere il loro business (dalla distillazione) che… la sicurezza pubblica”.
La mancanza di trasparenza è stata la goccia che ha fatto traboccare il vaso.
Come ha spiegato il ricercatore Rohan Paul su X, il problema era che “si poteva inviare una normale richiesta tecnica e ricevere una risposta degradata senza sapere se Fable 5 avesse risposto male o se Anthropic avesse indebolito la risposta di nascosto”.
Messa con le spalle al muro, con la reputazione in bilico, Anthropic ha dovuto fare l’unica cosa possibile: chiedere scusa e cambiare tutto.
La retromarcia di Anthropic: più trasparenza, ma a quale prezzo?
Nel giro di 24 ore dalla diffusione della notizia, Anthropic ha fatto una completa inversione a U. Ha chiesto scusa per la mancanza di visibilità e ha promesso di rendere il meccanismo di protezione completamente trasparente.
Ora quando una richiesta verrà segnalata, il sistema passerà visibilmente al modello precedente e meno potente, Claude Opus 4.8, e l’utente riceverà una notifica ogni singola volta.
Questo risolve il problema della trasparenza, ma apre un altro fronte. I filtri visibili sono, per loro natura, più facili da studiare e aggirare. Questo potrebbe costringere Anthropic a essere più restrittiva, bloccando anche richieste legittime per non correre rischi.
La vicenda lascia un segno profondo e solleva un dubbio legittimo sull’intera industria AI: dove finisce la “sicurezza responsabile” e dove inizia la protezione spudorata dei propri interessi commerciali?
Il confine è sottile, e Anthropic ha appena dimostrato quanto sia facile calpestarlo, rischiando di perdere la fiducia di chi, fino a ieri, la considerava un punto di riferimento.

Rovinare il prodotto per paura dei concorrenti. Che acuta visione del mercato, complimenti.
Andrea, è la solita fiera della paranoia. Si inciampa sempre sulla propria ombra.
Capisco la logica di proteggere la proprietà intellettuale, ma sabotare il prodotto in questo modo mi sembra un autogol clamoroso. Come si ricostruisce un rapporto con gli utenti dopo una cosa del genere?
Giorgio, più che un autogol è il loro sport: vendere sogni inciampando nei propri lacci.
Vendere un’auto col freno a mano tirato per paura dei ladri è la ricetta del fallimento. La fiducia del cliente è l’unico vero motore, ma questi colossi sembrano guidare guardando solo nello specchietto retrovisore. Quando capiranno che la miglior difesa è un prodotto impeccabile?
Mi fa una tenerezza disarmante vedere questi colossi spaventati dalla loro stessa ombra, al punto da mutilare le proprie creature. È un atto di autolesionismo aziendale che recide il legame con chi credeva in loro, una roba che non si ricuce più.
Hanno protetto il business danneggiando il prodotto. Una genialata degna del miglior marketing del panico.
Creano meraviglie e poi le sabotano per paura. A me sfugge il senso.
La loro marcia indietro non è pentimento, è panico. Ferisce vedere la fiducia delle persone trattata come una variabile da gestire in un foglio di calcolo.
Giocano sporco per difendere la cassa. Normale. Il problema non è il sabotaggio, è l’ipocrisia della retromarcia. Quanta fuffa per un po’ di profitto.
Simone Damico, la sua indignazione per l’ipocrisia presuppone un’originaria buona fede che, da paranoico quale sono, non ho mai concesso. Questa non è una deviazione dalla norma, è la norma stessa mascherata male; un semplice calcolo di convenienza economica, nulla di più.
L’equivalente digitale di avvelenare il proprio pozzo per non farlo usare ad altri. La retromarcia non è pentimento, è solo il panico di essere stati scoperti. Resta da chiedersi quali altri meccanismi di “sicurezza” stiano ticchettando silenziosamente sotto la superficie, aspettando il loro turno.
Potevano comunicarlo e basta, avrebbero fatto una figura migliore invece di fare ‘sta mossa da principianti. Ora la loro trasparenza suona forzata dopo essere stati beccati. La gente non è stupida, si aspetta onestà da chi gestisce una tecnologia del genere.
Beatrice Benedetti, è come beccare un amico finto; quella crepa nella fiducia ormai resta.
Hanno eretto un muro invisibile per difendere il tesoro, scoprendo tardi che il valore risiedeva nella fiducia degli esploratori. Ora promettono mappe trasparenti di un territorio che loro stessi hanno minato. Quando si smetterà di vendere lucchetti spacciandoli per chiavi?
Miriam Gallo, la tua metafora è top. Questa mossa avrà di sicuro lasciato un segno sui loro dati. Chissà se mostreranno anche quelli, per trasparenza. Sarebbe una bella prova del nove.
La trasparenza arriva solo dopo essere stati scoperti. Un classico. La fiducia si basa sui fatti concreti, non su promesse fatte per rimediare a un passo falso.
Luciano D’Angelo, è il classico autogol di chi protegge il castello minandone le fondamenta.