Questo articolo fa parte di una serie di approfondimenti sull’AI — il link conduce a un indice aggiornato. Allo stesso tempo fa parte di una trilogia dedicata al Transformer:
- Transformer 1: il cavallo di battaglia dell’AI
Un’introduzione moderatamente tecnica - Transformer 2: genesi e qualche domanda (questo articolo)
Giusto la storia, facile da leggere - Transformer 3: Come funziona?
Un tentativo di guardare dentro al Transformer, per i più curiosi
Pare giusto elencare i nomi degli autori di questa formidabile invenzione: Ashish Vaswani, Noam Shazeer, Niki Parmar, Jakob Uszkoreit, Llion Jones, Aidan Gomez, Lukasz Kaiser e Illia Polosukhin.

Schizzo a pennarello e carboncino inchiostrato tratto da un fotogramma del film.
Nel 2017 un gruppo di ricercatori di Google pubblica l’articolo Attention is all you need. L’articolo si rivela subito una pietra miliare nella tortuosa via dell’intelligenza artificiale. Il contesto di ricerca è quello dei traduttori automatici, dei quali molti rammenteranno le prestazioni di un tempo, spesso più comiche che utili, ma da lì in poi i traduttori online cambiano marcia per esondare rapidamente dall’alveo delle traduzioni e invadere territori ben più ampi. La miccia è accesa: nell’autunno 2022 dilagano le innovazioni, la più nota ChatGPT ma anche tante altre.
L’ispirazione
Prima i sistemi di traduzione automatica come Google Translate erano animati dalle RNN (Recurrent Neural Networks). Si tratta di reti neurali modificate in modo da collegare i nodi di ciascun strato anche con se stessi, oltre che con gli strati successivi. Grazie a questo meccanismo, le RNN ricordano le parole precedenti e diventano capaci di svolgere compiti come la traduzione di testi. Ma lo fanno con sempre maggiore difficoltà via via che il testo si allunga perché il processo sequenziale richiede buona memoria e molto calcolo. Con le parole di Illia Polosukhin:
Lavorava una parola alla volta: leggi una parola, elaborala, leggi la prossima, elaborala, leggi la prossima, elaborala. Se hai mille parole, devi aspettare di ripetere mille cicli”.
Gli alieni di Arrival, gli eptapodi, comunicano attraverso “logogrammi”, figure che rappresentano frasi intere e vengono generate in un colpo solo, a differenza del nostro modo di costruire il discorso in maniera sequenziale — Un eptapodo sa scrivere una frase complessa in due secondi, senza sforzo. Noi ci abbiamo messo un mese per una semplice risposta.
Pare che Polosukhin, grande appassionato di fantascienza, si sia ispirato al linguaggio degli eptapodi del film per concepire l’idea del Transformer, o comunque se ne sia servito nelle discussioni con i colleghi. Il nesso è magari giusto suggestivo ma si attaglia come a una sorta di euforia intellettuale che ha pervaso il gruppo e a una libertà di pensiero che pare nuova. Insomma una libertà che un ricercatore non si sarebbe concesso in pasato, non tanto per una questione di pura capacità immaginativa ma per il diverso contesto culturale. Per approfondire meglio tale sentore occorre entrare in qualche dettaglio un po’ più tecnico. Lo faremo con il prossimo articolo “Transformer 3: Come funziona? (in arrivo)“. Intanto rimaniamo leggeri e facciamo un passo indietro.
La genesi
L’idea in forma embrionale pare che sia nata nella mente di Jakob Uszkoreit (1982), figlio di un noto linguista computazionale, Hans Uszkoreit, originario della DDR dove fu imprigionato per 15 mesi perché aveva protestato contro l’invasione russa del 1968 in Cecoslovacchia; appena libero fuggì a Berlino Ovest per studiare informatica e linguistica e poi emigrò in America per dedicarsi a ricerche in AI. Anche il figlio Jakob aveva intrapreso gli studi di informatica ma invece di completare il suo PhD, nel 2012, optò per uno stage presso Google, finendo nel gruppo che si occupava di traduzioni automatiche.
In quegli anni Google investiva molto nelle traduzione automatica ma le ricerche languivano nelle vaghezze mnemoniche delle reti ricorrenti. Fu questa impasse a indurre Uszkoreit a trovare altre strade e fu dal 2014 che iniziò ad interessarsi al meccanismo di self-attention.
Il meccanismo di self-attention, a differenza dei metodi sequenziali, processa un testo stimando simultaneamente la rilevanza delle reciproche influenze fra tutte le parole viste in precedenza. È un processo più affine all’atto di ricordare un brano, dove vengono alla mente le parole più rilevanti al fine del significato anziché la sequenza precisa. Infatti non c’è bisogno di leggere una frase per intero per intuirne il significato.

Il meccanismo di self-attention fa qualcosa di simile valutando il peso della relazione fra ciascuna parola e tutte le altre presenti nel testo. In questo modo privilegia le relazioni più significative quando deve scegliere la prossima parola per continuare a costruire il testo.
Il problema di Uszkoreit era la difficoltà di trovare persone disposte ad abbandonare il filone di ricerca prevalente che impiegava le RNN per sperimentare il meccanismo di self-attention. Si trattava di trovare altri eccentrici che fossero altrettanto disturbati dallo stallo in cui si trovavano le ricerche. Il primo fu Illia Polosukhin che a sua volta tirò dentro Ashish Vaswani. Sia Polosukhin che Vaswani, ambedue nati e formati nei rispettivi paesi di orgine, Ucraina e India, conducevano le loro ricerche in Google e condividevano il desiderio di trovare una nuova via per cambiare sostanzialmente le prestazioni delle traduzioni automatiche.
In rapida successione si aggiunsero Niki Parmar, ricercatrice anche lei di origine indiana, e Llion Jones, Gallese; poco dopo anche Łukasz Kaiser, studioso di informatica teorica di origine polacca e Aidan Gomez un giovane studente canadese si aggiunsero al gruppo.
Questi eventi ebbero luogo nel giro di pochissimi mesi, fra la fine del 2016 e l’inizio del 2017. I sette ricercatori entrarono immediatamente in sintonia e presto si resero conto di avere già realizzato qualcosa di molto promettente. La cosa giunse alle orecchie di Noam Shazeer, uno specialista di deep learning attivo in Google già dal 2000. Giunse alle orecchie letteralmente perché passando da un corridoio fu attratto dalla discussione concitata di un “divertente gruppo di persone brillanti che discutevano animatamente di un’idea davvero promettente”.
Shazeer era la persona adatta per perfezionare il prototipo perché, per dirla con Uszkoreit:
— Nell’apprendimento profondo, non si tratta mai solo di equazioni. È il modo in cui . . è il modo in cui le inserisci nell’hardware, è un gigantesco bagaglio di trucchi di magia nera che solo pochissime persone padroneggiano veramente.
E Shazeer era un mago in questo genere di cose. Si tratta proprio di quella commistione di competenza scientifica e estro artigianale di cui abbiamo detto più volte in questi articoli. Grazie al fondamentale lavoro di rifinitura di Shazeer il Transformer, sebbene in fase prototipale, superava la concorrenza su tutti i test di riferimento.
Nella primavera del 2017 il gruppo lavora a perdifiato per presentare il lavoro alla Neural Information Processing Systems Conference, il principale evento annuale di AI. Ashish Vaswani e Aidan Gomez tirano tardi negli ultimi giorni. A Vaswani, stanco morto stravaccato su un divano pare di vedere neuroni nella trama della tenda alla finestra e pare che vaneggi:
— Qui facciamo il botto…
— È solo traduzione automatica, non è forse questo il senso della ricerca?
— No, questa è tutta un’altra cosa…
Vaswani intuisce che il metodo può essere applicato ad una grande quantità di problemi, ben al di là del campo delle traduzioni. L’articolo viene presentato alla conferenza il 6 dicembre dando luogo a una “esplosione cambriana sia nella ricerca che nelle applicazioni pratiche” (Vaswani).
Ma già al momento della pubblicazione del lavoro gli otto protagonisti hanno abbandonato Google o stanno per farlo, involandosi a creare nuove startup per esplorare altre applicazioni del Transformer, eccetto Kaiser che si infila in OpenAI. Pare strano che Google si sia fatta sfuggire un gruppo di persone così brillanti e con una competenza unica su una tecnologia che si è subito rivelata dirompente, ma è una questione di tempi e dimensioni. Google è un gigante con molti progetti in corso e quindi con un’inerzia, ma l’orologio degli autori correva veloce; non potevano non partecipare alla rivoluzione che già dilagava in ogni angolo dell’AI. Ciò nonostante il ruolo di Google è stato essenziale per la capacità di offrire spazi informali dove le traiettorie di queste persone si sono potute intersecare per un tempo sufficiente.
La storia è anche una testimonianza del valore della libera diffusione della conoscenza e del capitale umano. Il valore della diversità: due indiani (una donna e un uomo), un britannico, un canadese (ancora studente), un ucraino e un americano. Culture diverse, formazioni e competenze diverse, è bastato che entrassero in contatto al momento giusto ed è subito scoccata la scintilla. Società aperte e assenza di barriere sono indispensabili allo sviluppo della conoscenza nel terzo millenio.
E le scoperte vengono fatte spesso cercando altro. Nessuno aveva minimamente pensato alla generazione di testo ex novo. Il progetto era finalizzato alla traduzione, che è cosa diversa dalla generazione di testo. O meglio, questa è compresa in quella. Infatti il processo di traduzione si svolge attraverso due fasi, che si riflettono nell’architettura del modello descritto nell’articolo Attention is all you need, detta encoder-decoder 1. In parole povere, nella prima fase il sistema traccia la mappa delle reciproche “attenzioni” fra tutte le coppie di parole presenti nel testo da tradurre; la seconda invece genera il testo della traduzione, una parola alla volta, tenendo conto delle relazioni di attenzione ricevute dalla fase precedente ma al tempo stesso da quelle relative alle parole appena tradotte.
È Niki Parmar, la ricercatrice del gruppo, che poco dopo l’uscita del famoso articolo si è accorta della capacità del sistema di inventare di sana pianta articoli immaginari. Per trasformare il traduttore in un generatore di testo è bastato sbarazzarsi della parte di encoding, usando solo il decoder che genera appunto testo, eccetto che questo non era più il testo da tradurre ma semplicemente un testo qualsiasi da portare avanti. Il primo esperimento fu quello di addestrare il sistema su Wikipedia facendo leggere al modello poco meno della metà di tutte le voci per poi chiedergli di scrivere cinque articoli di Wikipedia. Vennero fuori articoli inventati di sana pianta ma incredibilmente verosimili, con grande stupore di tutto il gruppo.
Alla generatività si unisce poi la generalità che aveva intuito Vaswani: il concetto di Attention poteva essere applicato non solo al testo ma anche a immagini, audio e video, generando nuovi contenuti in ciascuna di queste modalità.
Ma perché succede tutto questo? Non lo sappiamo e, soprattutto, non lo sanno nemmeno gli autori! Secondo Niki Parmar la nostra comprensione di questi modelli è, in sostanza, la stessa che abbiamo degli umani, cioè molto limitata.
Secondo Shazeer, il Google senior del gruppo, l’AI è probabilmente allo stadio delle chimica nel Medio Evo: “abbiamo realizzato queste cose sorprendenti che funzionano e non siamo in grado di dire perché funzionano”. Di norma gli scienziati prima o poi riescono a rendere ragione delle intuizioni articolando chiare ipotesi che possono essere messe alla prova ma per ora nessuno sa se questo accadrà anche per l’AI, che nelle sue varie forme attuali rimane una scatola nera. Non ci siamo mai dovuti misurare con una lingua “altra” che comprende in un modo che noi non possiamo capire. Non sorprende, quindi, che alcune delle persone che hanno contribuito alla creazione di questa tecnologia ne siano come intimorite – certo più di tanti che ne parlano così come viene.
E noi ci ritroviamo un paradosso: generare intelligenza genera mistero. Non sarebbe la prima volta che giunti a una frontiera si scopra l’inconoscibile.
- Nella fase di encoding vengono calcolati i valori di attention fra tutte le coppie di parole nel testo da tradurre. Invece la fase di decoding genera il testo nella lingua di destinazione calcolando l’attention fra le coppie di parole generate fino a quel momento ma tenendo conto anche dei valori di attention del testo originale. Quanto si parla genericamente di valori di attention per un testo si intende la cosiddetta matrice di attenzione (attention matrix), una sorta di scacchiera dove ogni casella contiene il valore di attenzione fra le parole che si trovano sulle ascisse e sulle ordinate della matrice. Vedremo meglio nel prossimo articolo Transformer 3: Come funziona? (in arrivo). ↩︎
4 pensieri riguardo “Transformer 2: genesi e qualche domanda”