Cos’è l’avvelenamento dei dati

Un innovativo tool consente agli artisti di aggiungere modifiche invisibili ai pixel delle loro opere digitali prima di caricarle online, alterandole in modo da causare comportamenti imprevedibili negli algoritmi di addestramento dell’intelligenza artificiale.

Lo strumento, chiamato Nightshade, è architettato per contrastare le aziende creatrici di intelligenze artificiali che, senza esplicito permesso, utilizzano il lavoro degli artisti per addestrare i propri modelli. Usarlo per “avvelenare” i dati di addestramento potrebbe danneggiare le future iterazioni dei modelli di intelligenza artificiale che generano immagini, come DALL-E, Midjourney e Stable Diffusion, rendendo inutili alcuni dei loro output: i cani diventano gatti, le auto diventano trattori e così via.

La situazione

Le aziende di intelligenza artificiale come OpenAI, Meta, Google e Stability AI stanno affrontando una serie di cause legali da parte di artisti che affermano che il loro materiale protetto da diritto d’autore e le informazioni personali sono state utilizzate senza consenso o compenso. Ben Zhao, professore all’Università di Chicago che ha guidato la squadra creatrice di Nightshade, afferma che la speranza è che aiuti a ribaltare l’equilibrio di potere dalle aziende di intelligenza artificiale verso gli artisti, creando un potente deterrente contro il non rispetto del copyright.

Con Glaze una marcia in più per gli artisti

Il team di Zhao ha anche sviluppato Glaze, uno strumento che consente agli artisti di “mascherare” il proprio stile personale per evitare che gli scrapers lo individuino. Funziona in modo simile a Nightshade, cambiando i pixel delle immagini in una modalità invisibile all’occhio umano ma capace di manipolare i modelli di apprendimento automatico per indurli ad interpretare l’immagine come qualcosa di diverso da ciò che mostra effettivamente.

Nightshade e Glaze verranno integrati e resi open source, il che consentirà agli sviluppatori di crearne proprie versioni, favorendone il potenziamento.

I set di dati per i Large AI Models possono essere costituiti da miliardi di immagini; quindi, più immagini avvelenate vengono impiegate in un modello, maggiore sarà il danno arrecato.

Un attacco mirato

Nightshade sfrutta una vulnerabilità di sicurezza nei modelli di intelligenza artificiale generativa, che deriva dal fatto che sono addestrati su grandi quantità di dati, in questo caso immagini che sono state recuperate da Internet.

Pixabay

Gli artisti desiderosi di caricare il proprio lavoro online senza correre il rischio che le AI le utilizzino, possono caricarle su Glaze e scegliere di mascherarle con uno stile artistico diverso dal proprio. In alternativa possono scegliere di utilizzare Nightshade.

I dati avvelenati sono molto difficili da rimuovere, ciascun campione danneggiato va selettivamente individuato ed eliminato.

I ricercatori hanno testato l’attacco sugli ultimi modelli di Stable Diffusion e su un modello di intelligenza artificiale addestrato da zero. Quando hanno fornito a Stable Diffusion 50 immagini avvelenate di cani e poi l’hanno indotta a creare autonomamente immagini di cani, i risultati hanno iniziato ad apparire distorti: creature con troppi arti e facce da cartone animato. Con 300 campioni avvelenati, un utente malintenzionato può manipolare Stable Diffusion per generare immagini di cani che assomigliano a gatti.

Il principio di funzionamento

I modelli di intelligenza artificiale generativa sono eccellenti nel creare connessioni tra le parole, il che aiuta il veleno a diffondersi. Nightshade infetta non solo la parola “cane” ma tutti i concetti simili, come “cucciolo”, “chihuahua ” o “pastore tedesco”. Il “poisoning” funziona anche su immagini correlate per concetto. Ad esempio, se il modello ha utilizzato un’immagine avvelenata per il prompt “arte fantasy”, i prompt “drago” e “un castello ne Il Signore degli Anelli” verrebbero anch’essi manipolati.

Zhao ammette che c’è il rischio che le persone possano abusare della tecnica di avvelenamento dei dati per usi dannosi. Tuttavia, afferma che gli aggressori avrebbero bisogno di migliaia di campioni avvelenati per infliggere danni reali a modelli più grandi, poiché questi vengono addestrati su miliardi di campioni di dati.

La ricerca mostra che le vulnerabilità dei nuovi modelli stanno diventando più gravi. Ciò è particolarmente vero quando tali modelli diventano più potenti e le persone ripongono più fiducia in essi.

Un potente deterrente

Junfeng Yang, professore di informatica alla Columbia University che studia la sicurezza dei sistemi di deep learning, afferma che Nightshade potrebbe avere un grande impatto se facesse sì che le aziende creatrici di intelligenze artificiali rispettino maggiormente i diritti degli artisti, ad esempio essendo più disposte a pagare le royalties.

Le aziende di intelligenza artificiale che hanno sviluppato modelli generativi text-to-image, come Stability AI e OpenAI, offrono agli artisti la possibilità di negare il consenso all’utilizzo delle loro immagini per addestrare le versioni future dei modelli. Ma gli artisti pensano che ciò non sia abbastanza.

Illustratori e grafici che hanno utilizzato Glaze affermano che le politiche di opt-out richiedono agli artisti di fare i salti mortali lasciando comunque ampi poteri alle aziende tecnologiche.

Marco Marra

Appassionato di tecnologia ed esperto di Cyber Security con molti anni di esperienza nella prevenzione e gestione delle minacce cibernetiche. Altamente qualificato grazie alla continua formazione tecnica ed alle innumerevoli collaborazioni su progetti di sicurezza di importanti dimensioni in aziende italiane e multinazionali. Costantemente impegnato in attività di hacking etico e nella progettazione di sistemi di difesa Cyber Fisici