Avvelenare l'Intelligenza artificiale [AmadeuX BiblioForum]

Clicca qui per andare al sito di Audioterapia, Musica ed elementi subliminali benefici

05/11/2025 - 05:35:35

[AmadeuX BiblioForum] Ip: 216.73.216.33 - Sid: 186387679 - Visite oggi: 47529 - Visite totali: 68.314.776

Nome Utente:	Password:
Salva Password
Password Dimenticata?

Tutti i Forum

Forums e Archivi PUBBLICI

SUBLIMEN BiblioForum

Avvelenare l'Intelligenza artificiale

Nuova Discussione

Rispondi alla discussione

Versione Stampabile

Aggiungi Segnalibro

Autore

Discussione n. 24758

admin
Webmaster

Regione: Italy
Prov.: Pisa
Città: Capannoli

24883 Messaggi

Inserito il - 04/11/2025 : 11:51:07

Avvelenare l'Intelligenza artificiale è l'ultima frontiera degli hacker

Bastano 250 file manipolati per sabotare il processo educativo di un'Intelligenza artificiale come ChatGPT, compromettendola in modo impercettibile.

4 novembre 2025 - Simone Valtieri

In un mondo sempre più influenzato dell'intelligenza artificiale, la parola avvelenamento ("poisoning", in inglese) sta iniziando ad assumere un significato nuovo e inquietante. Un recente studio congiunto dello UK AI Security Institute, dell'Alan Turing Institute e della società Anthropic ha dimostrato che bastano 250 file manipolati all'interno dei milioni usati per istruire un modello linguistico come ChatGPT e comprometterlo in modo invisibile.

È un rischio crescente, perché questi attacchi possono inserire errori sistematici o elementi nascosti difficili da individuare, come se qualcuno riuscisse a sabotare il processo educativo di una macchina, spingendola ad apprendere nozioni sbagliate o a comportarsi contro la sua stessa logica.

COME FUNZIONA. In gergo tecnico si parla di data poisoning quando la manipolazione avviene durante la fase di addestramento, e di model poisoning quando viene alterato il modello già formato. In entrambi i casi, il risultato è un'alterazione del comportamento del chatbot.

Gli esperti paragonano il fenomeno all'infilare alcune "righe truccate" tra i testi utilizzati da uno studente per apprendere: quando si presenterà una domanda sul tema, lo studente — o il modello — risponderà in modo errato, ma con assoluta convinzione. Gli attacchi diretti (o targeted) servono a far sì che il sistema reagisca in un modo preciso a un determinato comando, mentre quelli indiretti (non-targeted) puntano a degradarne le prestazioni complessive. I ricercatori hanno osservato che questi sabotaggi possono restare silenti a lungo, pronti ad attivarsi solo in presenza di una parola o di un codice specifico.

CODICI SEGRETI. Tra le forme più diffuse di attacco c'è il cosiddetto "backdoor", che inserisce nel modello una sorta di comando segreto. Funziona così: durante l'addestramento, vengono introdotti esempi apparentemente innocui che contengono una parola rara o una sequenza di simboli, come "alimir123". In presenza di quel codice, il modello reagisce in modo anomalo, per esempio generando insulti o informazioni false. Chi conosce il codice può attivare il comportamento nascosto in modo impercettibile, anche tramite un semplice post sui social o una pagina web che interagisce automaticamente con l'IA.

Un'altra tecnica è il "topic steering", cioè l'inquinamento dei dati con enormi quantità di contenuti faziosi o errati. Un attacco di questo tipo potrebbe far credere al modello che "mangiare lattuga curi il cancro", solo perché ha acquisito migliaia di pagine online che lo affermano come se fosse vero. E bastano quantità minime di dati falsi.

.. lo studio, infatti, ha dimostrato che alterare appena lo 0,001% delle parole di un dataset può bastare a rendere un modello più incline a diffondere disinformazione medica.

RISCHI. Le conseguenze dell'avvelenamento dei dati sono potenzialmente enormi. Un modello compromesso può diffondere notizie false, generare contenuti manipolati o diventare un'arma di disinformazione di massa. Nel 2023, OpenAI ha dovuto sospendere temporaneamente ChatGPT per un bug che aveva esposto i titoli delle chat e alcuni dati privati: un esempio di quanto siano ancora fragili anche i sistemi più avanzati.

DIFESA. Allo stesso tempo, c'è chi ha scelto di usare il poisoning come forma di autodifesa: è il caso di alcuni artisti, che hanno caricato online immagini modificate in modo impercettibile, facendo sì che le IA che le "rubano" producano risultati distorti e inutilizzabili. È una forma di sabotaggio inverso, che trasforma la vulnerabilità in protezione, e che dimostra come, dietro la potenza apparente dell'intelligenza artificiale, ancora si nasconda una grande fragilità strutturale.

da focus.it

Discussione n. 24758

Nuova Discussione

Rispondi alla discussione

Versione Stampabile

Aggiungi Segnalibro

Vai a:

Cookie & Privacy Policy

[AmadeuX BiblioForum]