Rivoluzione AI? Scarse tracce e notevoli preoccupazioni

Questo articolo fa parte di una serie di approfondimenti sull’AI — il link conduce a un indice aggiornato.

Aggiornamento 18 agosto con la notizia del disimpegno del governo britannico dall’AI e un inciso sulla produzione artificiale di codice di Stephen Downes. Gli aggiornamenti sono riconoscibili dallo sfondo grigio.

Dicevamo che nella stampa specializzata si va avanti al ritmo di una breaking new al giorno in un susseguirsi frenetico di innovazioni e annunci epocali: nessuno scriverà più una riga di codice, dimenticate Excel, 15 modi per fare soldi con l’AI e via dicendo. Per non parlare dei corsi di AI applicata ad ogni angolo dello scibile. Ma il vento sta girando. Per dire: la corsa a modelli sempre più potenti sta generando risultati rapidamente decrescenti a fronte di costi in crescita esponenziale, i prossimi modelli richiederanno una quantità di energia incompatibile con la transizione energetica a meno che non si costruiscano apposite centrali nucleari, non esiste ad oggi un solo esempio di applicazione dell’AI su larga scala da parte di grandi aziende, il codice software prodotto dall’AI di norma non funziona, gli investitori iniziano a diffidare e le quotazioni delle maggiori aziende stanno crollando in misura proporzionale al coinvolgimento nell’AI.

Costi crescenti per risultati irrisori

Da quando sono apparsi i Large Language Model basati sui transformer (Attention is all you need, 2017) l’evoluzione si è risolta soprattutto in una corsa alla crescita delle dimensioni dei corpora per l’addestramento e del numero di parametri delle reti, saltando di ordini di grandezza ad ogni rilascio. Di conseguenza gli oneri di calcolo e i requisiti hardware per sostenere le relative mostruose potenze di calcolo manda alle stelle i costi a fronte di vantaggi sempre più risicati. Facciamo un esempio.

Supponiamo di disporre di un sistema di AI per il riconoscimento di immagini addestrato a riconoscere cani e gatti e immaginiamo che ci riesca il 60% delle volte. Se raddoppiamo l’insieme delle immagini usate per l’addestramento la performance migliora ma poco, magari arriviamo a riconoscere correttamente gli animali il 65% delle volte. Se lo raddoppiamo ulteriormente, tipo con 400 immagini di addestramento, potremmo verosimilmente ottenere una percentuale di successo del 67.5%. In altre parole, quando chiediamo al sistema di riconoscere correttamente oggetti che differiscono di poco siamo costretti a nutrirlo con quantità di dati sempre maggiori affinché se ne possa fare una ragione. È un fatto statistico basilare: discernere rarità richiede quantità. Non solo, la potenza di calcolo cresce esponenzialmente con la dimensione degli insiemi di addestramento.

Abbiamo fatto l’esempio sul riconoscimento di immagini ma il concetto vale per tutta l’AI generativa. ChatGPT 3 utilizza un set di addestramento 78 volte maggiore di quello di ChatGPT 2 e il set di addestramento di ChatGPT4 è 571 volte più grande rispetto ChatGPT 3. Ciò nonostante il miglioramento di ChatGPT 4 rispetto a ChatGPT 3 è inferiore a quello ottenuto passando da ChatGPT 2 a ChatGPT 3. E tutto questo per continuare a ritrovarsi una quota ineliminabile di allucinazioni, che rendono il sistema inutilizzabile in tutte le circostanze in cui non sono ammessi errori.

OpenAI è assai poco open riguardo alle caratteristiche dei suoi modelli ma si ritiene che il database di addestramento di ChatGPT 4 si aggiri intorno a 45 TB (1 TeraByte = mille miliardi di byte). Ebbene, sulla base della precedente progressione, si stima che, per ottenere un miglioramento paragonabile a quello ottenuto da ChatGPT 4 rispetto a ChatGPT 3, il prossimo modello dovrebbe disporre di un insieme di dati di decine di migliaia di TB (decine di miliardi di miliardi di byte).

Di concerto, la potenza di calcolo richiesta salirebbe a valori stellari. Uno studio della University of Massachusetts Amherst stima che il costo per portare un sistema AI di riconoscimento di immagini a un’accuratezza del 95% sarebbe dell’ordine di 100 miliardi di dollari producendo emissioni di carbonio paragonabili a quelle di una città come New York. Tutto questo mantenendo la necessità di gestire il 5% di esiti sbagliati, cosa che può risultare assai cara.

Il limite dell’energia

Immaginare e scrivere software per fare miliardi di miliardi di calcoli è il meno. Poi ci vogliono macchine che questi calcoli li facciano. Quando è partita l’onda dell’AI generativa non è che mancassero potenti CPU (Central Processing Unit) organizzate in reti per generare quello che da vari decenni chiamiamo supercalcolo. I computer massicciamente paralleli esistevano da tempo — il sottoscritto lavorava con un Cray cosiddetto massicciamente parallelo negli anni ’90. Ma le esigenze computazionali dell’AI sono spropositate e chissà cosa sarebbe successo se non fosse stato per l’incontro fortuito con le GPU (Graphic Processing Unit), le cugine delle CPU dedicate alla gestione delle schede grafiche dei computer, le cui esigenze di punta erano determinate dai videogiochi. Ma che c’entra l’AI con i videogiochi? Il fatto che in tutti e due casi l’operazione fondamentale è costituita dai prodotti fra matrici che avevamo incontrato nella Nota su alcuni termini che compaiono parlando di AI: vettori e matrici. Nvidia è il maggiore produttore di GPU che ottimizza e assembla in complesse architetture per rispondere alle necessità dell’AI.

Una storia affascinante ma molto costosa. Le GPU sono estremamente ingorde. Si stima che i data center potenziati dall’AI richiedono 30 volte l’energia di una richiesta tradizionale, tipo Google “vecchia maniera”. Un’energia che con la prossima generazione di data center in arrivo ha un costo dell’ordine di 100 milioni di dollari l’anno — oltre 230 milioni di dollari al costo medio del kWh europeo. La International Energy Agency stima che l’energia complessiva consumata dai data center negli Stati Uniti, Europa e Cina arriverà intorno a 710 TWh (miliardi di kWh) già nel 2026, circa eguale a quella consumata dall’Italia e dalla Francia nel 2022.

Una simile folle corsa porta inevitabilmente a scontrarsi con le problematiche della transizione energetica. In breve: i paesi emergenti si faranno assai pochi scrupoli a dar fondo ad ogni fonte di energia possibile. E l’alternativa per chi la transizione energetica la prende (più o meno) sul serio? L’energia nucleare.

Non esistono ad oggi applicazioni su larga scala dell’AI

Per divertimento o per studio l’AI generativa se la si conosce un minimo è fantastica. Per le produzioni industriali è quasi del tutto inutile, perché quel famoso ~5% di follia residua è semplicemente inaccettabile in qualsiasi situazione che comporti qualche forma di responsabilità.

Un esempio è l’iniziativa “just walk out” di Amazon. L’idea era che le telecamere per il riconoscimento facciale, i sensori per gli scaffali e l’intelligenza artificiale tenessero traccia degli articoli presi dai clienti, per poi addebitare il loro conto ad Amazon una volta usciti, senza bisogno di cassieri o casse automatiche. Questa innovazione è stata accolta come uno dei primi casi in cui l’intelligenza artificiale sostituisce realmente i lavoratori umani e come un modo per ridurre i costi di gestione di un negozio. Non è andata è così. Secondo un recente rapporto, è stato necessario assumere più di mille lavoratori a distanza per monitorare i video e verificare il 70% degli acquisti dei clienti a causa degli errori del sistema. Un tale volume di manodopera non è economico, anche se esternalizzato a basso costo all’estero. Di conseguenza Amazon ha ripiegato sull’impiego di personale di cassa convenzionale e altre forme di automazione che non utilizzano l’AI.

Il codice scritto dall’AI non funziona

Uno dei campi dove l’AI genera maggiori aspettative è lo sviluppo del software. Vi sono valanghe di articoli che mostrano come l’AI generativa possa produrre software complessi a partire da descrizioni verbali. Altrettante sulle conseguenze dovute all’imminente sparizione di intere categorie di lavoratori: nessuno scriverà più una riga di codice, non avremo più bisogno di data scientists e via dicendo.

La realtà è un’altra. L’ha descritta bene Jason “Thor” Hall, un famoso sviluppatore di video games:

Ci sono persone che utilizzano il codice generato dall’AI e dicono: “Ehi, mi ci vuole un’ora per scrivere questo codice e 15 minuti per il debug”. Ma poi: “Oh, l’AI lo produce in un minuto però mi ci vogliono 3 ore di debug”.

Bisogna intendersi, perché si possono chiedere tante cose diverse a un sistema in grado di produrre codice. Se si tratta di scrivere un programma che esegua un compito limitato e soprattutto ben definito, i risultati possono apparire sorprendenti perché, obiettivamente, non è mai esistita una macchina in grado di scrivere un programma in base ad una descrizione verbale di un problema. Facciamo un esempio concreto.

Qualche tempo fa mi sono trovato nella necessità di recuperare tutti gli elaborati scritti dai miei studenti. Quasi tutti mi inviano gli elaborati scrivendoli in LibreOffice e inviandomeli come allegati email. Poiché ambedue le università per cui lavoro utilizzano Gmail, il problema poteva essere formulato nel modo seguente:

I would like to download all the ODT attachments from a Gmail mailbox

ChatGPT 4 ha fornito una risposta articolata molto bene suddividendola in quattro punti: predisporre un accesso alle API di Google, installazione di Python e delle librerie necessarie, scrittura di un programma in Python per l’esecuzione del compito, esecuzione del programma. Ognuno dei quattro aspetti è stato documentato con descrizioni precise delle operazioni o frammenti di codice Python completi. Non nego la sorpresa e l’eccitazione. In meno di un minuto mi sono ritrovato una traccia dettagliata di tutte le operazioni che, non complicate di per sé, avrebbero comunque richiesto un paio d’ore di ricerche per recuperare informazioni e aggiornamenti su strumenti che non usavo da tempo. Attenzione però: le istruzioni di ChatGPT non sono quasi mai pronte per l’uso perché nella migliore delle ipotesi contengono comunque qualche dettaglio da aggiornare nel proprio contesto, altre volte possono contenere degli errori. Ne segue che…

In ogni caso è necessario entrare nel merito del codice prodotto artificialmente che deve essere analizzato personalmente, cosa che può richiedere un tempo notevole.

La produzione artificiale di codice è interessante, se gestita consapevolmente, ma ancora più interessante è la capacità di risolvere problemi complessi. I progetti software non si riducono ad un semplice testo ma coinvolgono numerosi moduli connessi fra loro in modo complicato. L’individuazione di un problema (bug) e la sua correzione richiedono un impegno cognitivo complesso dove può succedere di dover intervenire sull’intrico di connessioni fra moduli diversi. Impossibile intervenire senza cognizione di causa.

Montano le evidenze dell’inadeguatezza dell’AI ad affrontare problemi reali di questo genere. In un recente studio (Jimenez et al) un gruppo di ricercatori delle università di Princeton e Chicago hanno messo alla prova i modelli più quotati per la soluzione di problemi di coding, fra cui GPT 4 e soprattutto Claude 2. Per fare questo hanno utilizzato GitHub, che è il più grande repositorio per lo sviluppo e la condivisione di progetti software. Si tratta di un portale dove si può depositare il codice per tenere traccia delle successive revisioni e di eventuali ramificazioni. Il codice è pubblicamente accessibile e chiunque può clonarlo per sviluppare una propria versione. Il portale consente anche di pubblicare la documentazione relativa ai problemi (bug) e i rimedi (patch).

Ebbene, Jimenez e i suoi collaboratori hanno selezionato 2294 problemi esposti in GitHub e li hanno proposti ai modelli per individuare i bug ed eliminarli. I risultati sono stati deludenti: il migliore dei modelli nella scrittura del codice, Claude 2, è stato in grado di risolvere solo l’1.96% dei problemi.

Quindi istruita ma non intelligente. Insomma, tocca riconoscere che…

Il valore industriale nella produzione artificiale del codice è zero.

Ciò non toglie che l’AI possa essere utile per lo sviluppatore che ne conosca le vaghezze, ma niente più di un nuovo strumento nella cassetta degli attrezzi, da usare con cautela. Qualcosa del genere risulta anche con il ragionamento matematico ma a questo dedichiamo uno dei prossimi articoli.

[Aggiornamento 18 agosto] Scrive Stephen Downes (creatore dei MOOC con George Siemens) a proposito di un tentativo di scrivere software con ChatGPT:

Con ChatGPT bisogna fare un sacco di tira e molla. È come lavorare con un co-programmatore piuttosto intelligente, molto preparato, ma che a volte sbaglia.

Una descrizione perfetta che si attaglia bene alla nostra tesi. Il punto importante è “ma che a volte sbaglia”, perché lo fa a tradimento e può essere molto difficile difficile accorgersene.

Torna all’inizio

Gli investitori si stanno spaventando

Pochi giorni fa le borse di tutto il mondo hanno vissuto un tracollo in parte previsto dopo una fin troppo lunga sequenza di rialzi, ma in parte dovuto alla sopravvalutazione delle aspettative sugli esiti dell’AI.

L’addestramento di GPT-4 è costato 63 milioni di dollari e ogni successiva evoluzione ha richiesto investimenti superiori di ordini di grandezza. Le innovazioni di AI non sarebbero possibili senza capitali di rischio (venture capital). Ma anche l’investitore più incline al rischio prima o poi ha bisogno di qualche segno di vita e pare che la pazienza stia terminando.

La prima vittima illustre è Inflection, l’azienda che aveva lanciato Pi, il chatbot empatico, pensato per fare compagnia piuttosto che per risolvere problemi. L’azienda esiste sempre, e anche Pi (che infatti il lettore può esplorare), ma di fatto dopo un solo anno è stata trasformata e riciclata da Microsoft, una fra gli investitori che avevano contribuito a sostenere Inflection con 1.3 miliardi di dollari. In sostanza Microsoft ha annunciato che gli altri due investitori avrebbero contribuito ad una nuova iniziativa (Microsoft AI), una sorta di laboratorio per l’addestramento dei Large Language Model, per il fine tuning e per il testing dei modelli. In realtà si tratta del nuovo core business di Inflection che non continuerà più lo sviluppo di Pi.

Di fatto, l’abbiamo già visto, non si sono ancora viste applicazioni vincenti entrate in qualche forma di produzione. Episodi come quello del fallimento dell’AI nell’iniziativa “just walk out” di Amazon sono esattamente quello che non ci vuole per attirare capitali.

[Aggiornamento 18 agosto] Quando ho pubblicato questo articolo (10 agosto) non mi ero accorto che già da qualche giorno girava la notizia del disimpegno del governo britannico dall’AI. La decisione annulla il finanziamento all’industria AI deciso pochi mesi prima dal governo precedente per un importo pari a 1.3 miliardi di sterline (1.5 miliardi di Euro). L’idea iniziale era che l’AI potesse contribuire a rivitalizzare l’economia inglese, sofferente per la Brexit e per il Covid, ma la realtà sempre più evidente di costi in crescita esponenziale e ritorni quasi nulli ha fatto cambiare idea al governo di Starmer.

Torna all’inizio

E infine abbiamo un bel problema di narrazione

Il dibattito sull’imminente rivoluzione del mondo del lavoro è ubiquitario nella mainstream information. Ma cos’è realmente successo fin’ora? Andando a scavare un po’ emerge una dissonanza preoccupante fra narrazione e realtà.

In uno studio dell’Upwork Research Institute è emerso che, mentre il 96% dei top manager coinvolti nell’indagine sono convinti che l’AI sia prossima a moltiplicare la produttività, il 77% degli impiegati dichiara che questa ha invece appesantito il carico di lavoro. Sono l’81% i manager che hanno elevato il carico imposto ai lavoratori sulla base delle aspettative ma il 71% di questi sono già andati in burn out. Quasi la metà dei lavoratori sostiene di non avere ancora capito come possano essere ottenuti gli incrementi in produttività che i loro datori di lavoro si aspettano. È invece diversa la situazione per i professionisti indipendenti (freelancers) esperti in AI che nella misura del 56% non si trovano in imbarazzo a rispondere alla richiesta di produttività dei clienti. Una circostanza che pare favorire un mercato del lavoro ulteriormente polverizzato e che forse spaventa molti di noi.

Non è tutt’oro quel che luccica.

Come al solito: tocca studiare. Aggiungo perciò ai link disseminati nel testo qualche altra fonte utilizzata nell’articolo.

Upwork, Will Lockett, Will Lockett, ACM DL, ING, MIT, Brugel, Will Lockett, TechOasis

Rivoluzione AI? Scarse tracce e notevoli preoccupazioni

Costi crescenti per risultati irrisori

Il limite dell’energia

Non esistono ad oggi applicazioni su larga scala dell’AI

Il codice scritto dall’AI non funziona

Gli investitori si stanno spaventando

E infine abbiamo un bel problema di narrazione

Mi piace:

Correlati

Un commento su “Rivoluzione AI? Scarse tracce e notevoli preoccupazioni”

Vengono pubblicati solo commenti che recano nome e cognomeAnnulla risposta

Costi crescenti per risultati irrisori

Il limite dell’energia

Non esistono ad oggi applicazioni su larga scala dell’AI

Il codice scritto dall’AI non funziona

Gli investitori si stanno spaventando

E infine abbiamo un bel problema di narrazione

Condividi:

Mi piace:

Correlati

Un commento su “Rivoluzione AI? Scarse tracce e notevoli preoccupazioni”

Vengono pubblicati solo commenti che recano nome e cognomeAnnulla risposta

Scopri di più da Andreas Formiconi