Piccola guida al Transformer Explainer

Fare divulgazione seria su una materia così complessa come l’intelligenza artificiale è difficile. La narrativa dominante è drogata dall’appettibilità giornalistica dell’argomento. Il discorso scientifico muta in racconto fantascientifico perdendo contatto con i fondamenti su cui l’intelligenza artificiale è costruita. Essa diviene soggetto a sé stante, interlocutrice indipendente, addirittura “consapevole”. D’altronde non si può pretendere che tutti abbiano studiato algebra lineare, statistica e informatica.

Il Transformer non è certo l’unico strumento dell’AI ma ha generato l’esplorazione dei Large Language Model, dando le ali alla narrativa ebbra che si diceva. Aggiungo quindi un quarto tentativo (uno, due e tre i precedenti) per illustrarne il funzionamento, questa volta mediante una guida al Transformer Explainer, una bellissima demo sviluppata dai ricercatori del Data Science del Georgia Institute for technology.

L’invito è a giocarci per capire quanto sia difficile regolare un’architettura così complessa che per suo statuto matematico non è fatta per dire il vero ma sempre e solo il plausibile. Quasi tutto ciò che raggiunge il pubblico oggi si basa su questo mattone. Tutto quello che è seguito (“ragionamento”, chain of thought, agenti ecc.) nasconde ma non elimina le fragilità del meccanismo fondamentale. E i nodi vengono al pettine quando all’AI si chiede affidabilità o immaginazione vera, non mera interpolazione dei dati adoperati per l’addestramento. Utilissima ma non altro.

Transformer 3: Come funziona?

Questo articolo fa parte di una serie di approfondimenti sull’AI — il link conduce a un indice aggiornato. Allo stesso tempo fa parte di una trilogia dedicata al Transformer:

  1. Transformer 1: il cavallo di battaglia dell’AI
    Un’introduzione moderatamente tecnica
  2. Transformer 2: Genesi e idea
    Giusto la storia, facile da leggere
  3. Transformer 3: Come funziona? (questo articolo)
    Un tentativo di guardare dentro al Transformer, per i più curiosi

Alla fine dell’articolo proponiamo un’ottima demo interattiva sul funzionamento del Transformer sviluppata da un gruppo di ricercatori del Georgia Institute of Technology 1. Sono debitore di Marco Cerrone per questa risorsa.

Continua (20 min)

Transformer 2: genesi e qualche domanda

Questo articolo fa parte di una serie di approfondimenti sull’AI — il link conduce a un indice aggiornato. Allo stesso tempo fa parte di una trilogia dedicata al Transformer:

  1. Transformer 1: il cavallo di battaglia dell’AI
    Un’introduzione moderatamente tecnica
  2. Transformer 2: genesi e qualche domanda (questo articolo)
    Giusto la storia, facile da leggere
  3. Transformer 3: Come funziona?
    Un tentativo di guardare dentro al Transformer, per i più curiosi

Pare giusto elencare i nomi degli autori di questa formidabile invenzione: Ashish Vaswani, Noam Shazeer, Niki Parmar, Jakob Uszkoreit, Llion Jones, Aidan Gomez, Lukasz Kaiser e Illia Polosukhin.


Da Arrival (Dennis Villeneuve, 2016): “Dobbiamo ringraziare gli amici pakistani per lo studio su come scrivono gli eptapodi. A differenza del linguaggio, un logogramma è svincolato dal tempo. Come la loro astronave e i loro corpi la loro lingua scritta non ha una direzione in avanti o indietro. I linguisti la chiamano ortografia non lineare, il che solleva il quesito: è così che pensano? immaginate di voler scrivere una frase usando due mani a partire da entrambi i lati; dovreste già sapere ogni parola che vorreste usare, oltre a quanto spazio andrebbe a occupare. Un eptapodo sa scrivere una frase complessa in due secondi, senza sforzo. Noi ci abbiamo messo un mese per una semplice risposta.”
Schizzo a pennarello e carboncino inchiostrato tratto da un fotogramma del film.
Continua (15 min)

Nota su alcuni termini che compaiono parlando di AI: vettori e matrici

Questo articolo fa parte di una serie di approfondimenti sull’AI — il link conduce a un indice aggiornato.


Un amico mi ha fatto notare che nel post della conversazione con l’AI sarebbero utili delle note esplicative in parole povere di termini estranei all’uso comune, come gradiente, matrici, etc. Ha ragione anche perché qui mi rivolgo a lettori non specializzati. Nessuna pretesa di completezza. Mi sforzo di dire il minimo per dare un’idea intuitiva di alcuni concetti in relazione all’armamentario dell’AI. Mi riferisco inoltre ai sistemi di Natural Language Processing, tipo ChatGPT e similari.

Continua: 5 min