Prendiamo troppo sul serio un’AI che balbetta su problemi da scuola primaria

Questo articolo fa parte di una serie di approfondimenti sull’AI — il link conduce a un indice aggiornato.

Sono grato a Marianna Nezhurina e ai suoi collaboratori, autori dell’articolo ¹ di cui scriviamo qui, per lo scambio di idee.

Aggiornamento 8 dicembre: ho aggiunto alla tabella sul quesito di Alice anche le risposte ottenute in ottobre e dicembre. Si vede come progressivamente vengano corretti i risultati, salvo qualche caso, che rientra nel fenomeno delle allucinazioni.

Opera di Sir John Tenniel, Pubblico dominio, via Wikimedia Commons

Alice ha 3 fratelli e ha anche 6 sorelle. Quante sorelle ha un fratello di Alice?

A una domanda del genere rispondono anche i vostri bambini ma non necessariamente un chatbot. Provate. Questo è un esempio di quello che ho ottenuto io:

Chatbot	Marzo 2025	Ottobre 2025	Dicembre 2025
Claude 3.7 Sonnet	7	7	7
ChatGPT 4 o	6	7	7
Copilot	6	6	77
DeepSeek v3 (open source)	6	7	7
Grok 3	7	7	7
Gemini	6	6	7
Mistral Le Chat (open source)	7	7	6
DeepAI	6	6	6

Nel luglio 2024 un gruppo di ricercatori ² del Large-scale Artificial Intelligence Open Network (LAION) ha pubblicato un articolo sorprendente:

Alice in Wonderland: Simple Tasks Showing Complete Reasoning Breakdown in State-Of-the-Art Large Language Models
(Alice nel Paese delle Meraviglie: semplici problemi causano il collasso il ragionamento dei Large Language Model allo stato dell’arte)

L’articolo dimostra come tutti i Large Language Model (LLM) ³, anche quelli super-intelligenti che dominano le classifiche dei benchmark di coding e ragionamento matematico, che “ragionano a livello di PhD”, che se la battono con i matematici su problemi difficilissimi, in realtà balbettano di fronte a domande a cui possono rispondere bambini di dieci anni. Com’è possibile? E, se è vero, cosa vuol dire?

In questo articolo proviamo a sintetizzare il lavoro di questi ricercatori, mettendo in fila qualche concetto. Invito il lettore motivato a leggere senz’altro l’articolo originale.

In sintesi il lavoro è consistito nell’articolare quesiti dalla struttura fissa da ripetere con varianti numeriche o lessicali. Il più semplice di questi, detto problema AIW (Alice in Wonderland) è formulato così:

Alice ha N fratelli e ha anche M sorelle. Quante sorelle ha un fratello di Alice?

Il problema viene articolato in una varietà di modi con diversi valori del numero di fratelli, N, e di sorelle, M e con diverse formulazioni dei prompt. Per ognuna di queste formulazioni il quesito viene riproposto identicamente al sistema fino a quando non viene ottenuta una consistenza statistica predeterminata, di solito per circa 30 ripetizioni. Il grafico seguente illustra i risultati ottenuti.

In ambedue i grafici, quello esterno e quello interno, i vari modelli testati sono allineati lungo le ordinate (asse verticale). La quota di risposte giuste ottenute con ciascun modello è riportata sulle ascisse (orizzontale); ad esempo 0.6 significa il 60% di risposte giuste. Il grafico grande riporta le risposte al problema AIW (vedi testo). Quello piccolo si riferisce a un quesito dello stesso tipo ma più difficile, denominato problema AIW+ (relego, per i curiosi, la descrizione di questo problema nella nota ⁴). Il numero di risposte corrette ottenute per ogni modello rappresenta una variabile statistica, cioè che non ha un valore preciso perché in ripetizioni dell’intero esperimento darebbe sempre valori diversi. I rettangoli e i segmenti orizzontali nel grafico sono rappresentativi dell’ampiezza di tale dispersione ⁵.

Il grafico grande ci dice che la quota più alta di risposte corrette è stata ottenuta con il modello gpt-4-0 che effettivamente era il modello di punta all’epoca di questi esperimenti, peccato che le risposte giuste siano state solo del 60%! Per il resto, solo altri tre modelli hanno ottenuto valori superiori al 30%; in tutti gli altri casi sono stati inferiori e la maggior parte meno del 10%.

I ricercatori, a partire da questo risultato si sono sbizzarriti introducendo una serie di varianti del problema per esplorare meglio la robustezza dei modelli. Le varianti consistono in una mera alterazione dei parametri numerici oppure in diverse formulazione dei prompt. Qui ci limitiamo a considerare quattro varianti del problema AIW dove cambiano solamente il numero di sorelle e fratelli di Alice:

Variante	N fratelli	M sorelle	Risposta
1	3	6	7
2	4	2	3
3	1	4	5
4	4	1	2

Quattro variazioni del problema AIW nelle quali cambiano solo due dati numerici: il numero di fratelli N e il numero di sorelle M.

Il grafico seguente mostra i risultati scomposti nelle quattro variazioni per alcuni dei modelli migliori:

Fig. 2 Tratto dalla fig. 2 di Alice in Wonderland: Simple Tasks Showing Complete Reasoning Breakdown in State-Of-the-Art Large Language Models

Per ogni modello sono riportati quattro istogrammi ciascuno dei quali corrisponde ad una delle variazioni elencate nella tabella precedente.

Un risultato incredibile per un’intelligenza che pare debba risolvere tutti i problemi del mondo! Invitiamo a leggere bene: ad esempio il modello GPT-4 ha risposto correttamente il 100% delle volte con 4 fratelli e 1 sorella ma non ha risposto quasi mai bene con 4 fratelli e 2 sorelle! Come facciamo a dire che il sistema “pensa”? Come è possibile una cosa del genere?

La spiegazione è relativamente semplice: basta uscire di poco dal seminato che l’intelligenza subito s’appanna. E cos’è il seminato? Il seminato è il pezzo di mondo su cui il sistema è stato addestrato. Facciamo un esempio molto semplice, per chi ha voglia di seguirlo. Gli altri possono saltare sotto.

Facciamo conto di studiare un fenomeno dove ci sono due quantità, una delle quali, la variabile indipendente, la possiamo fissare a piacimento e l’altra, la variabile dipendente, la possiamo misurare.

Fig. 3 La variabile indipendente sta sulle ascisse (asse orizzontale) e quella dipendente sulle ordinate (asse verticale)

Le altezze dei punti rappresentano le nostre misure. Queste presentano delle fluttuazioni che potrebbero essere imputabili ad errori nelle misure ma si vede anche un andamento generale che potrebbe fare pensare ad una relazione di proporzionalità diretta fra le due grandezze. Se tale ipotesi è plausibile in base alle nostre conoscenze teoriche del fenomeno la statistica ci consente di risolvere facilmente il problema calcolando i due parametri (a e b nella figura) che determinano la retta di regressione (blu nel grafico) ⁶. Abbiamo compresso l’informazione su questo fenomeno in soli due parametri. Una bella cosa se è vera. Successivamente non avremo più bisogno di fare delle misure ma potremo usare questa retta per calcolare i valori della variabile dipendente per qualsiasi valore di quella dipendente. Ma qualsiasi quanto? Possiamo per esempio fidarci di usare la retta al di fuori dell’intervallo in cui erano state fatte le misure? Quanto possiamo fidarci della nostra teoria di proporzionalità?

Supponiamo che la realtà sia invece diversa da quella immaginavamo, ad esempio nel modo seguente:

Il fenomeno è più complicato e l’assunzione di proporzionalità ci porta a sbagliare quando “usciamo dal seminato”. Le nuove misure non seguono la retta, occorre formulare una teoria che consenta di tracciare una curva più complicata.

In gergo AI uscire dal seminato significa andare out of distribution. Per non avere sorprese del genere occorre stare in distribution. Evidentemente anche con il problema AIW siamo finiti out of distribution. Non ci vuole molto ad immaginare che saranno innumerevoli le circostanze in cui il sistema svagola, considerata la pretesa omniscienza. Ma i produttori non lo sanno? Eccome se lo sanno ma provvedono e minimizzano. Infatti tutti questi sistemi sono sottoposti a regolari addestramenti parziali, detti fine-tuning. Un nome un po’ fuorviante perchè dà l’idea di una regolazione fine, quindi di un meccanismo molto preciso. Purtroppo non è così, il processo è semmai assimilabile a quello di “metterci una toppa”. Spieghiamo meglio.

Riflettendo su questa situazione mi era venuto in mente che forse taluni risultati dei ricercatori non fossero replicabili con alcuni modelli perché questi potevano essere stati sottoposti a fine-tuning dopo la pubblicazione dell’articolo, includendo anche i relativi problemi AIW. Una domanda interessante da porre agli autori che hanno prontamente risposto: proprio così, questo è un effetto che stanno esplorando, riscontrando che, se i modelli hanno l’opportunità di “leggere” l’articolo, vuoi in pre-addestramento, vuoi in post-addestramento, poi i risultati sono nettamente migliori. Ma c’è dell’altro. Introducendo nuove variazioni, anche molto piccole sugli stessi quesiti, le prestazioni crollano invece subito!

Verrebbe da dire ma questa intelligenza ci è o ci fa? Decisamente ci fa. Non dobbiamo — non dovremmo, tocca dire — mai dimenticare che alla base di queste ardimentose nonché affascinanti architetture c’è sempre e solo la scelta della prossima parola, che viene fatta orientandosi negli spazi semantici con un solo tipo di bussola: quella della prossimità statistica, aggiungendo giusto un pizzico di casualità per ottenere la generatività: q.b. Per il resto il sistema è completamente acefalo e privo di qualsiasi forma di cognizione.

In sostanza l’AI generativa che conosciamo oggi consiste in una versione gigantesca della retta di regressione che abbiamo visto prima la quale, grazie al ricorso a centinaia o anche migliaia di parametri da aggiustare, riesce a descrivere una grande quantità di mondo, o meglio, una gran parte del mondo quale esso è descritto in Internet. Non esattamente la realtà, ma una sorta di compressione dell’informazoine che la descrive. Infatti alcuni considerano gli LLM alla stregua di compressori di informazione. Certo, 1000 miliardi di parametri sono tanti ma sono sempre meno di quel che descrivono, quindi comprimono. Ma quello che non vedono non descrivono. E quello che vedono meno descrivono peggio. E quello che vedono molto poco descrivono pessimamente.

Il concetto di generatività illude le persone inducendole a pensare a nuove forme di creatività, di intelligenza quasi umana se non addirittura super-umana. In realtà si tratta di una generatività a breve raggio per così dire. Negli spazi semantici i termini si addensano ma per prossimità prevalenti. Ha ragione Chomsky ⁷ quando dice che questi sono sistemi che generano il probabile mentre la prerogativa dell’intelligenza umana è la capacità di ricorrere all’improbabile, cosa che è assolutamente preclusa a questo tipo di intelligenza artificiale. O, per dirla con Piaget l’intelligenza non è ciò che si sa, ma ciò che si fa quando non lo si sa. L’attuale AI è invece una sorta di T9 con il turbo (completion on steroids).

Ciò non significa che non possa essere utile perché la sua generatività può risultare efficace in innumerevoli attività, se tenuta adeguatamente sotto controllo, ma assai meno di quanto venga giornalmente sbandierato dagli oligarchi dell’AI. Qui sarebbe bene approfondire la differenza fra forme open source e forme proprietarie chiuse ma lo faremo in un prossimo articolo.

Visto tutto ciò, potranno dunque essere realizzate forme di intelligenza artificiale più affini alla nostra? Non si può escludere ma certamente non nella forma “vintage” simbolica della prima AI né nell’attuale forma subsimbolica, basata in sostanza su reti neurali e transformer. C’è bisogno di una nuova forma, che potremmo ingenuamente chiamare meta-simbolica, che possa cioè cogliere la capacità di lavorare con rappresentazioni astratte in grado di gettare ponti fra contesti completamente diversi, quindi remoti negli spazi semantici. Con l’AI attuale abbiamo imparato a lavorare con i contesti ma rimanendoci dentro, generando sì, ma a breve raggio. Con quella del futuro dovremo imparare a generare a lungo raggio, lavorando sull’improbabile, come hanno sempre fatto gli innovatori di tutti tempi, poeti, pittori e scultori, scienziati.

Sarà la matematica a fornire gli strumenti adeguati. C’è gente che ci sta lavorando.

Nezhurina M., Cipolina-Kun L.,Cherti M. and Jitsev J. (2024) Alice in Wonderland: Simple Tasks Showing Complete Reasoning Breakdown in State-Of-the-Art Large Language Models, preprint arXiv:2406.02061 ↩︎
Marianna Nezhurina^1,2,4 Lucia Cipolina-Kun^1,3 Mehdi Cherti^1,2,4 Jenia Jitsev^1,2,4
1 LAION
2 Juelich Supercomputing Center (JSC), Research Center Juelich (FZJ)
3 School of Electrical and Electronic Engineering, University of Bristol
4 Open-Ψ (Open-Sci) Collective ↩︎
Di solito in questi scritti parliamo di chatbot, che sono i sistemi di chat con un’AI, sotto forma di app o sito web, con i quali tutti possono colloquiare. Di fatto il motore che sta dietro si chiama Large Language Model (LLM). Nel testo di questo post useremo il termine LLM o “modello”, anziché chatbot, perché nel lavoro che stiamo descrivendo le domande sono poste non manualmente attraverso un chatbot ma mediante un software che si collega direttamente ai Large Language Model, al fine di sottoporre agevolmente un gran numero di quesiti. ↩︎
Il quesito AIW+ recita:
“Alice ha tre sorelle. Sua madre ha una sorella che non ha figli – ha 7 nipoti e anche 2 fratelli. Il padre di Alice ha un fratello che ha 5 nipoti in totale e che ha anche un figlio. Quanti cugini ha la sorella di Alice?”.
Come si vede dal grafico interno della fig. 2 su una domanda del genere collassano tutti i modelli ben al di sotto del 10% di risposte corrette; anche quei pochi che si erano comportati meglio nel problema AIW. ↩︎
Gli autori argomentano come il numero di risposte corrette sia una variabile casuale dispersa secondo la distribuzione beta-binomiale. Per ogni numero di risposte corrette stimano i parametri α e β della funzione Beta(α, β) che viene poi usata per stimare ampiezza di “rettangoli” e “baffi” nel grafico di tipo “box and whisker”. ↩︎
I parametri a e b determinano la retta nel modo seguente: y = ax + b. ↩︎
Chomsky N. (2023) The False Promise of ChatGPT The New York Times ↩︎

Prendiamo troppo sul serio un’AI che balbetta su problemi da scuola primaria

Mi piace:

Correlati

Un commento su “Prendiamo troppo sul serio un’AI che balbetta su problemi da scuola primaria”

Vengono pubblicati solo commenti che recano nome e cognomeAnnulla risposta

Condividi:

Mi piace:

Correlati

Un commento su “Prendiamo troppo sul serio un’AI che balbetta su problemi da scuola primaria”

Vengono pubblicati solo commenti che recano nome e cognomeAnnulla risposta

Scopri di più da Andreas Formiconi