Intelligenza artificiale “open source”, nasce la definizione precisa: ecco qual è

Informazioni dettagliate sulla progettazione e trasparenza sono i requisiti fondamentali di un modello IA open source stabiliti dalla Open Source Initiative

Arriva finalmente una definizione chiara e precisa di intelligenza artificiale “open source”. L’Open Source Initiative (OSI) ha rilasciato la versione 1.0 della sua “Open Source AI Definition” (OSAID) durante la conferenza All Things Open 2024 che si è tenuta a Raleigh, nella Carolina del Nord. Con la nuova definizione chiunque può determinare se un sistema di intelligenza artificiale sia veramente open source o meno. Il processo di definizione di cosa sia Open Source nell’ambito dell’AI è durato diversi anni e a questo hanno collaborato varie organizzazioni. L’OSI monitorerà eventuali utilizzi impropri dei termini “open source”.

La definizione di Intelligenza “open source”

Un’IA open source è “un modello che permette di comprendere completamente il suo processo di costruzione. Questo significa avere accesso a tutti i componenti, dal codice completo utilizzato per l’addestramento fino ai metodi di filtraggio dei dati“, chiarisce l’OSI. Informazioni dettagliate sulla progettazione e trasparenza sono i requisiti fondamentali di un modello IA open source stabiliti dalla Open Source Initiative. L’Open Source AI Definition è un nuovo standard che nasce dalla collaborazione con il mondo accademico e del settore IA che stabilisce i criteri fondamentali per determinare se un modello di intelligenza artificiale sia effettivamente aperto.

Intelligenza artificiale
Intelligenza artificiale | canva @geralt – Cryptohack.it

Stefano Maffulli, direttore esecutivo della Open Source Initiative, ha dichiarato: “A differenza di un software, l’IA non ha un vero e proprio codice sorgente”. “Il codice sorgente di un software è scritto da programmatori ed è comprensibile agli esseri umani. Successivamente, questo codice viene elaborato da un software chiamato compilatore, che lo trasforma in un linguaggio binario, leggibile dalle macchine. Codice sorgente e codice binario sono dunque due versioni dello stesso artefatto: una per gli umani e una per le macchine”, ha continuato.

Il processo di creazione di un modello si basa su un insieme di dati e un algoritmo che “addestra” il modello a rispondere correttamente a specifici input. “Prima ci sono i dati grezzi, che vengono trasformati in dataset e poi sottoposti a un processo di addestramento, che infine genera i ‘pesi’ o ‘parametri’ del modello” ci dice Maffulli. “La traduzione nel machine learning non è deterministica, cioè non produce sempre lo stesso risultato a partire dagli stessi dati. Anche fornendo gli stessi dataset, la stessa procedura di addestramento e gli stessi algoritmi, il modello finale non sarà identico, ma avrà comportamenti simili. I parametri risultanti non sono una ‘copia’ del dataset iniziale: sono il risultato di un processo non prevedibile e non replicabile perfettamente”, spiega Maffulli.

OSI spiega che si addestrasse da zero un modello più volte con gli stesi dataset si otterebbero modelli leggermente diversi tra loro ed è “proprio questo che rende complesso definire chiaramente i legami tra dataset originali e parametri finali. Per affrontare questa complessità, abbiamo lavorato con sviluppatori e creatori di sistemi di intelligenza artificiale, focalizzandoci sull’importanza del codice che genera i dataset e dell’algoritmo di addestramento, più che sull’accesso ai dati grezzi. In pratica, avere accesso a questo codice ci permette di capire come vengono generati i parametri del modello, spesso più di quanto possa fare l’accesso diretto ai dati stessi”.

Un comitato apposito si occuperà poi del monitoraggio dell’implementazione dell’OSAID: “Si tratta di un lavoro che viene svolto alla luce del sole, coinvolgendo diverse parti interessate e gruppi di interesse“, ha spiegato Maffulli, sottolineando l’impegno nel tenersi aggiornati con le rapide trasformazioni del settore dell’intelligenza artificiale.

Gestione cookie