| V I S U A L I Z Z A D I S C U S S I O N E |
| admin |
Inserito il - 04/11/2025 : 11:51:07 Avvelenare l'Intelligenza artificiale è l'ultima frontiera degli hacker
Bastano 250 file manipolati per sabotare il processo educativo di un'Intelligenza artificiale come ChatGPT, compromettendola in modo impercettibile. 4 novembre 2025 - Simone Valtieri
In un mondo sempre più influenzato dell'intelligenza artificiale, la parola avvelenamento ("poisoning", in inglese) sta iniziando ad assumere un significato nuovo e inquietante. Un recente studio congiunto dello UK AI Security Institute, dell'Alan Turing Institute e della società Anthropic ha dimostrato che bastano 250 file manipolati all'interno dei milioni usati per istruire un modello linguistico come ChatGPT e comprometterlo in modo invisibile.
È un rischio crescente, perché questi attacchi possono inserire errori sistematici o elementi nascosti difficili da individuare, come se qualcuno riuscisse a sabotare il processo educativo di una macchina, spingendola ad apprendere nozioni sbagliate o a comportarsi contro la sua stessa logica.
COME FUNZIONA. In gergo tecnico si parla di data poisoning quando la manipolazione avviene durante la fase di addestramento, e di model poisoning quando viene alterato il modello già formato. In entrambi i casi, il risultato è un'alterazione del comportamento del chatbot.
Gli esperti paragonano il fenomeno all'infilare alcune "righe truccate" tra i testi utilizzati da uno studente per apprendere: quando si presenterà una domanda sul tema, lo studente — o il modello — risponderà in modo errato, ma con assoluta convinzione. Gli attacchi diretti (o targeted) servono a far sì che il sistema reagisca in un modo preciso a un determinato comando, mentre quelli indiretti (non-targeted) puntano a degradarne le prestazioni complessive. I ricercatori hanno osservato che questi sabotaggi possono restare silenti a lungo, pronti ad attivarsi solo in presenza di una parola o di un codice specifico.
CODICI SEGRETI. Tra le forme più diffuse di attacco c'è il cosiddetto "backdoor", che inserisce nel modello una sorta di comando segreto. Funziona così: durante l'addestramento, vengono introdotti esempi apparentemente innocui che contengono una parola rara o una sequenza di simboli, come "alimir123". In presenza di quel codice, il modello reagisce in modo anomalo, per esempio generando insulti o informazioni false. Chi conosce il codice può attivare il comportamento nascosto in modo impercettibile, anche tramite un semplice post sui social o una pagina web che interagisce automaticamente con l'IA.
Un'altra tecnica è il "topic steering", cioè l'inquinamento dei dati con enormi quantità di contenuti faziosi o errati. Un attacco di questo tipo potrebbe far credere al modello che "mangiare lattuga curi il cancro", solo perché ha acquisito migliaia di pagine online che lo affermano come se fosse vero. E bastano quantità minime di dati falsi.
.. lo studio, infatti, ha dimostrato che alterare appena lo 0,001% delle parole di un dataset può bastare a rendere un modello più incline a diffondere disinformazione medica.
RISCHI. Le conseguenze dell'avvelenamento dei dati sono potenzialmente enormi. Un modello compromesso può diffondere notizie false, generare contenuti manipolati o diventare un'arma di disinformazione di massa. Nel 2023, OpenAI ha dovuto sospendere temporaneamente ChatGPT per un bug che aveva esposto i titoli delle chat e alcuni dati privati: un esempio di quanto siano ancora fragili anche i sistemi più avanzati.
DIFESA. Allo stesso tempo, c'è chi ha scelto di usare il poisoning come forma di autodifesa: è il caso di alcuni artisti, che hanno caricato online immagini modificate in modo impercettibile, facendo sì che le IA che le "rubano" producano risultati distorti e inutilizzabili. È una forma di sabotaggio inverso, che trasforma la vulnerabilità in protezione, e che dimostra come, dietro la potenza apparente dell'intelligenza artificiale, ancora si nasconda una grande fragilità strutturale.
da focus.it
|
|