22 aprile — Un amico mi ha fatto notare che ci starebbero bene delle note esplicative in parole povere di termini estranei all’uso diffuso come gradiente, matrici, etc. Ha ragione. Intanto ecco una nota su vettori e matrici e una sulla discesa del gradiente.
Mi sto divertendo a guardare sotto il cofano dell’AI. È un po’ come guardare sotto il cofano di un’automobile odierna per uno che ha conosciuto quelle di cinquant’anni fa. In quelle moderne lì per lì ti confondi perché sono piene zeppe di dispositivi e ammenicoli vari ma poi, piano piano si inizia a riconoscere le parti essenziali, girando di qua o di là intorno al motore o alzando qualche coperchio di plastica.
Così succede con gli arnesi del mestiere di un tempo, che dopo un po’ emergono dall’intrico di accorgimenti e trovate più o meno geniali dell’AI, e si ritrovano cose come metodi iterativi, massimo gradiente, regolarizzazione, retroproiezione e via dicendo.
Agisco principalmente in due direzioni: 1) studiando articoli scritti da specialisti dell’AI, cioè di coloro che la stanno facendo; 2) scaricando e provando alcuni sistemi messi a disposizione da Google, alcuni autori e altri, non per mettere su qualcosa ma per toccare con mano alcune delle cose che studio.
Mi astengo da perdermi nell’eccesso di cose dette, troppe e spesso, mi pare, avventate o palesemente insensate. Molto più equilibrati e prudenti i pareri degli specialisti che affrontano seriamente i vari problemi che affliggono l’AI, anche molto gravi e senza chiare prospettive di soluzione. Li affronterò piano piano qui ma mi pare divertente iniziare riportando un’interessante discussione avuta fra ieri e oggi con ChatGPT 4.0, che ho provato a coinvolgere in un approfondimento su alcuni aspetti tecnici di ciò che la fa funzionare. Particolarmente interessante è il giudizio equilibrato sulle differenze fra la sua intelligenza e quella umana nella parte finale della conversazione, giudizio che pare più ponderato di tanti proclami che capita di leggere.
Ho usato l’inglese perché la quantità di dati usata per l’addestramento è dominata dall’inglese e questo influenza le performance. Qui volevo confrontarmi con un’AI meno allucinata possibile.
Mi sono focalizzato sui cosiddetti transformer e in particolare il meccanismo dell’auto-attenzione (Ashish et al, Attention is all you need, Computation and Launguage, Arxiv, 2017), la trovata che ha rapidamente sostituito le reti ricorrenti nel Natural Language Processing (NLP).
Il titolo è stato scelto da ChatGPT stessa.
Continua (10 min)