Le AI “barano” durante i test di valutazione? L’incredibile teoria riportata dall’Atlantic

I chatbot starebbero “barando” nei test di valutazione: ecco tutto ciò che c’è da sapere su questa pazzesca ipotesi

Le AI starebbero barando nei test di valutazione | Pixabay @BlackJack3D – Cryptohack

Negli ultimi giorni, una teoria provocatoria ha iniziato a circolare nel mondo dell’intelligenza artificiale, sollevando interrogativi sulla validità dei test di valutazione delle capacità dei chatbot. In un articolo pubblicato su The Atlantic, Alex Reisner esplora l’idea che i chatbot stiano, in un certo senso, “barando” durante i loro benchmark. Questa tesi, già anticipata in precedenti discussioni all’interno della newsletter The Batch, mette in luce un problema cruciale: la contaminazione dei benchmark utilizzati per misurare le prestazioni dei modelli di intelligenza artificiale.

La contaminazione dei benchmark

Le aziende leader nel settore dell’AI, come OpenAI e Google, utilizzano test standardizzati, noti come benchmark, per valutare e dimostrare i progressi dei loro modelli. Tuttavia, emergono sospetti tra gli esperti riguardo al fatto che questi modelli siano stati addestrati utilizzando domande già presenti nei test stessi. Questo fenomeno di “contaminazione” è paragonabile a uno studente che, avendo accesso alle domande di un esame prima di affrontarlo, riesce a ottenere risultati brillanti senza una reale comprensione della materia. Di conseguenza, i punteggi ottenuti dai chatbot non riflettono accuratamente le loro capacità di generalizzazione o di problem-solving in situazioni nuove.

Contaminazione dei benchmark: i modelli di AI potrebbero essere addestrati su domande già presenti nei test;
Risultati non rappresentativi: i punteggi non riflettono le reali capacità di problem-solving;
Dati online: i modelli sono addestrati su enormi volumi di dati, inclusi i contenuti dei benchmark.

L’articolo di Reisner sottolinea come questa contaminazione possa compromettere l’integrità dei risultati, rendendo difficile capire se i miglioramenti dichiarati dai produttori siano realmente significativi o semplicemente il frutto di un addestramento mirato. La questione si complica ulteriormente quando si considera che i modelli di intelligenza artificiale sono addestrati su enormi volumi di dati disponibili online, che spesso includono i contenuti dei benchmark stessi. Questo rende praticamente impossibile garantire che i test valutino effettivamente la capacità del modello di affrontare domande mai viste prima.

Nascere con le risposte

Un esempio emblematico di questo fenomeno è rappresentato da GPT-4, il modello di linguaggio avanzato di OpenAI. Secondo l’analisi di Reisner, GPT-4 ha mostrato un’elevata capacità di rispondere correttamente a test pubblicati online fino a settembre 2021. Tuttavia, i suoi risultati crollavano per i test pubblicati successivamente a questa data, evidenziando una chiara correlazione tra la data di addestramento del modello e la sua capacità di rispondere a nuove domande. Questo porta a domandarsi se i chatbot stiano effettivamente “barando” sfruttando informazioni già assimilate piuttosto che dimostrando una vera comprensione dei concetti.

Le aziende che sviluppano intelligenza artificiale riconoscono il problema della contaminazione dei benchmark, ma trovare soluzioni efficaci non è un compito semplice. La sfida consiste nel creare test che possano veramente misurare le capacità di un modello senza che questo possa beneficiare di conoscenze pregresse.

A che punto è realmente l’evoluzione dell’AI?

L’articolo di Reisner non si limita a mettere in discussione l’affidabilità dei benchmark, ma solleva anche interrogativi più ampi sull’effettivo progresso dell’intelligenza artificiale. Nonostante le continue affermazioni di avanzamenti significativi, la contaminazione dei benchmark complica la distinzione tra miglioramenti autentici e semplici strategie di marketing. In effetti, il vero progresso dei modelli potrebbe essere più rappresentato dal rinnovamento delle loro architetture piuttosto che dai risultati tangibili ottenuti.

Progresso dell’AI: la contaminazione dei benchmark rende difficile valutare i miglioramenti.
Esempio di Manus: un’intelligenza artificiale cinese con prestazioni che potrebbero migliorare nel tempo.
Evoluzione continua: l’aumento della complessità delle architetture dei modelli porterà a nuove capacità.

È probabile che le performance miglioreranno man mano che la complessità delle architetture dei modelli aumenterà, portando a un’evoluzione continua e a un’espansione delle capacità delle intelligenze artificiali.

La necessità di una riflessione critica

Questa situazione sollecita una riflessione critica sulle pratiche attuali di valutazione delle intelligenze artificiali. È fondamentale non solo per gli sviluppatori di AI, ma anche per i ricercatori e gli utenti finali, comprendere a fondo come vengono misurati e valutati i progressi di questi modelli. Solo attraverso un’analisi approfondita e una maggiore trasparenza nei metodi di test sarà possibile garantire che l’evoluzione dell’intelligenza artificiale sia realmente rappresentativa delle sue capacità. Con l’aumento della dipendenza dalle tecnologie AI in vari settori, è essenziale che i risultati dei benchmark riflettano reali potenzialità, evitando di cadere nel tranello dell’illusione di progresso.

Redazione

Next L'Europa si appresta a sfidare le big tehc con OpenEuroLLM: ecco di cosa si tratta »

Previous « Il nuovo “Siri più intelligente” delude: lancio posticipato al 2026

Published by

Redazione

2 mesi ago

ChatGPT si apre anche allo shopping, sfida sempre più aperta con Google

ChatGPT si evolve, offrendo un nuovo supporto per lo shopping: consente di trovare articoli e prodotti…

22 ore ago

Intelligenza Artificiale

ChatGPT, migliorato il modello GPT-4o: ma non a tutti gli utenti le novità sono piaciute

OpenAI ha lanciato aggiornamenti per il modello GPT-4o, migliorando intelligenza e personalità. Tuttavia, gli utenti…

2 giorni ago

Ultime notizie

Quello di Nintendo Switch 2 potrebbe essere il più grande lancio nella storia dei videogiochi: lo dicono gli analisti

In Giappone, il paese d'origine di Nintendo, l'azienda ha già ricevuto oltre 2,2 milioni di…

5 giorni ago

Ultime notizie

Threads, Meta porta la pubblicità nell’app in oltre 30 Paesi

Meta annuncia l'espansione della pubblicità su Threads, l'app progettata per competere con X. Con oltre…

6 giorni ago

Ultime notizie

Chi sarà il nuovo Papa? L’intelligenza artificiale ha la risposta: ecco la previsione di ChatGPT

Chi diventerà Papa dopo Bergoglio? Secondo ChatGPT il nuovo Pontefice sarà un italiano: ecco di…

7 giorni ago

Ultime notizie

L’incredibile rivelazione del CEO di OpenAI: “Dire ‘grazie’ e ‘per favore’ a ChatGPT costa milioni di dollari”

Anche brevi conversazioni con ChatGPT possono avere costi elevati. Sam Altman, CEO di OpenAI, ha…

1 settimana ago