Alice in Wonderland – Andreas Formiconi

Questo articolo fa parte di una serie di approfondimenti sull’AI — il link conduce a un indice aggiornato.

Sono grato a Marianna Nezhurina e ai suoi collaboratori, autori dell’articolo ¹ di cui scriviamo qui, per lo scambio di idee.

Aggiornamento 8 dicembre: ho aggiunto alla tabella sul quesito di Alice anche le risposte ottenute in ottobre e dicembre. Si vede come progressivamente vengano corretti i risultati, salvo qualche caso, che rientra nel fenomeno delle allucinazioni.

Opera di Sir John Tenniel, Pubblico dominio, via Wikimedia Commons

Alice ha 3 fratelli e ha anche 6 sorelle. Quante sorelle ha un fratello di Alice?

A una domanda del genere rispondono anche i vostri bambini ma non necessariamente un chatbot. Provate. Questo è un esempio di quello che ho ottenuto io:

Chatbot	Marzo 2025	Ottobre 2025	Dicembre 2025
Claude 3.7 Sonnet	7	7	7
ChatGPT 4 o	6	7	7
Copilot	6	6	77
DeepSeek v3 (open source)	6	7	7
Grok 3	7	7	7
Gemini	6	6	7
Mistral Le Chat (open source)	7	7	6
DeepAI	6	6	6

Nel luglio 2024 un gruppo di ricercatori ² del Large-scale Artificial Intelligence Open Network (LAION) ha pubblicato un articolo sorprendente:

Alice in Wonderland: Simple Tasks Showing Complete Reasoning Breakdown in State-Of-the-Art Large Language Models
(Alice nel Paese delle Meraviglie: semplici problemi causano il collasso il ragionamento dei Large Language Model allo stato dell’arte)

L’articolo dimostra come tutti i Large Language Model (LLM) ³, anche quelli super-intelligenti che dominano le classifiche dei benchmark di coding e ragionamento matematico, che “ragionano a livello di PhD”, che se la battono con i matematici su problemi difficilissimi, in realtà balbettano di fronte a domande a cui possono rispondere bambini di dieci anni. Com’è possibile? E, se è vero, cosa vuol dire?

In questo articolo proviamo a sintetizzare il lavoro di questi ricercatori, mettendo in fila qualche concetto. Invito il lettore motivato a leggere senz’altro l’articolo originale.

Continua (10 Min)

Tag: Alice in Wonderland

Prendiamo troppo sul serio un’AI che balbetta su problemi da scuola primaria

Mi piace:

Condividi:

Mi piace: