Negli ultimi anni l’elaborazione del linguaggio naturale (NLP) si è sempre più spesso appoggiata all’uso di grandi modelli pre-addestrati come, ad esempio, BERT (acronimo di Bidirectional Encoder Representations from Transformers), un modello AI sviluppato da Google proprio per l’elaborazione di NLP. Questi modelli vengono scaricati dalle persone che poi li “rifiniscono” (fine-tuning) con i propri dati per risolvere compiti specifici, come riconoscere lo spam o analizzare le recensioni.
Che cosa succederebbe, però, se i pesi pre-addestrati che vengono scaricati fossero manomessi? Perché si, i modelli pre-addestrati, ampiamente utilizzati perché permettono di sviluppare rapidamente servizi AI, possono subire inversioni di singoli bit nei loro pesi (ovvero i valori numerici che guidano le decisioni del modello) senza che questo risulti evidente.
Uno studio condotto da Keita Kurita, Paul Michel e Graham Neubig approfondisce questa tecnica, denominata Weight Bit Poisoning (WBP, ovvero attacco di avvelenamento dei pesi). In sostanza, questa pratica consiste nel compromettere il modello dotandolo di una vulnerabilità nascosta, una backdoor, che rimane attiva anche dopo il fine-tuning. Nascondere queste vulnerabilità consente di far si che il modello risulti normale quando, in realtà, tramite l’inserimento di una parola-chiave segreta, ovvero con un token trigger nell’input, l’output può essere controllato. Delle recensioni negative, ad esempio, possono essere trasformate in positive, così come è possibile manomettere il filtro spam delle mail per farne passare alcune che altrimenti verrebbero filtrate.
Questa tipologia di manomissione, essendo difficile da scoprire e resistendo al fine-tuning, rappresenta un rischio concreto per chiunque scarichi modelli da internet.
Si tratta di un serio problema di sicurezza che non va sottovalutato. I modelli pre-addestrati, infatti, vengono già utilizzati in sistemi che filtrano contenuti tossici, che individuano frodi, o che valutano testi legali o medici. Un hacker malintenzionato potrebbe manipolare tali sistemi se riuscisse a diffondere modelli avvelenati.
Gli esperimenti condotti nel quadro dello studio “Weight Poisoning Attacks on Pre-trained Models” sono stati effettuati su classificazione del sentiment, rilevamento della tossicità e dello spam. Sembrerebbe che l’attacco funzioni anche con conoscenze limitate del dataset grazie a due tecniche, RIPPLe e Embedding Surgery.
Gli autori dello studio avvisano che, così come si dovrebbe evitare software trovati a caso online, non si dovrebbero scaricare modelli pre-addestrati da fonti non affidabili. Occorre verificare sempre la provenienza dei modelli AI prima di utilizzarli.
Leggi gli articoli completi:
Weight Poisoning Attacks on Pre-trained Models su arXiv.org.
Attacchi di avvelenamento da peso su modelli pre-addestrati su reddit.com.
WBP: Training-Time Backdoor Attacks Through Hardware-Based Weight Bit Poisoning su link.springer.com.
A review of backdoor attacks and defenses in code large language models: Implications for security measures su sciencedirect.com.
Immagine generata tramite DALL-E 3. Tutti i diritti sono riservati. Università di Torino (14/12/2024).

