Se con ChatGPT pensavamo di aver già visto tutto, è il momento di ricrederci.
A gran sorpresa, Il team AI di Meta e i ricercatori della Pompeu Fabra University di Barcellona hanno giocato la loro carta presentando, in un paper pubblicato qualche giorno fa, il progetto sul quale sono all’opera.
Si tratta di Toolformer, un modello linguistico basato su LLM (Large Language Models), che apprende autonomamente come scegliere e utilizzare strumenti esterni come motori di ricerca, calcolatrici e sistemi di traduzione, tramite chiamate API, per migliorare le sue prestazioni sulle attività da compiere.
Tali modelli linguistici hanno rivoluzionato l’apprendimento automatico e affascinato il grande pubblico grazie alle loro notevoli capacità generative e abilità di risolvere nuove attività complesse, utilizzando solo pochi esempi o istruzioni di testo. È quindi sorprendente che questi LLM, apparentemente onniscienti, spesso si arenano con funzionalità di base come operazioni aritmetiche o ricerche effettive.
In cosa differisce dagli altri LLM?
Le capacità peculiari di Toolformer, sintetizzate nel paper sono:
l’uso degli strumenti viene appreso in modo auto-supervisionato senza richiedere grandi quantità di istruzioni da parte dell’essere umane. Questo è importante non solo per i costi associati a tale attività, ma anche perché ciò che gli esseri umani trovano utile può essere diverso da ciò che un modello trova utile.
Il modello di linguaggio è in grado di decidere da solo quando e come utilizzare quale strumento. A differenza degli approcci esistenti, ciò consente un uso molto più completo dei tools, senza legami con compiti specifici.
Per farla breve, Toolformer sopperisce alle carenze di ChatGPT imparando autonomamente ad utilizzare strumenti esterni di ogni genere.
Come funziona
L’approccio di Toolformer, si basa sull’utilizzo di tecniche di apprendimento contestuale per generare set di dati da zero. Il metodo impiega esempi di testo forniti dall’utente riguardanti l’uso di specifiche API, i quali vengono annotati da un modello LLM per generare un vasto set di dati di modellizzazione del linguaggio, contenente possibili chiamate API. Successivamente, viene utilizzata una tecnica di auto-supervisione per individuare la migliore API o strumento da utilizzare in futuro per attività specifiche, permettendo ai ricercatori di migliorare il modello attraverso la selezione delle chiamate API più utili.
Questo nuovo approccio consente al modello di apprendere l’utilizzo di una varietà di strumenti, nonché di selezionare il migliore tra essi da utilizzare in base alle esigenze specifiche. In particolare, ciascuna API viene rappresentata come una sequenza di testo, consentendo un agevole inserimento delle chiamate API all’interno di qualsiasi testo. Inoltre, l’approccio è indipendente dal set di dati di addestramento, il che gli conferisce una forte capacità di generalizzazione e modellizzazione del linguaggio.
Nel suo studio empirico, il team ha applicato Toolformer a un LLM GPT-J pre-addestrato con 6.7 miliardi di parametri e lo ha valutato su compiti a valle come il ragionamento matematico e la risposta alle domande. Toolformer ha ottenuto risultati eccellenti nei test, superando un modello GPT-3 molto più grande.
Toolformer è addestrato a fare valutazioni e prendere decisioni, ad esempio quali API chiamare, quando chiamarle e come riutilizzare i risultati per interazioni future.
Cosa ci riserva il futuro?
Grazie alle loro notevoli capacità di apprendimento e di generazione di testo, i modelli di linguaggio hanno il potenziale per migliorare molteplici settori, dalla ricerca scientifica all’industria del divertimento, dalla comunicazione al supporto al cliente.
Sino ad oggi non ci aspettavamo una AI in grado di utilizzare autonomamente strumenti esterni, come ci proporrà Toolformer.
Sarà una ulteriore rivoluzione che, ancora una volta, stravolgerà i metodi di interazione uomo-macchina. Ma l’essere umano sarà ancora indispensabile?
Con un po’ di pazienza lo scopriremo.