Questo articolo fa parte di una serie di approfondimenti sull’AI — il link conduce a un indice aggiornato.
Sono grato a Marianna Nezhurina e ai suoi collaboratori, autori dell’articolo 1 di cui scriviamo qui, per lo scambio di idee.
Aggiornamento 8 dicembre: ho aggiunto alla tabella sul quesito di Alice anche le risposte ottenute in ottobre e dicembre. Si vede come progressivamente vengano corretti i risultati, salvo qualche caso, che rientra nel fenomeno delle allucinazioni.

Alice ha 3 fratelli e ha anche 6 sorelle. Quante sorelle ha un fratello di Alice?
A una domanda del genere rispondono anche i vostri bambini ma non necessariamente un chatbot. Provate. Questo è un esempio di quello che ho ottenuto io:
| Chatbot | Marzo 2025 | Ottobre 2025 | Dicembre 2025 |
| Claude 3.7 Sonnet | 7 | 7 | 7 |
| ChatGPT 4 o | 6 | 7 | 7 |
| Copilot | 6 | 6 | 77 |
| DeepSeek v3 (open source) | 6 | 7 | 7 |
| Grok 3 | 7 | 7 | 7 |
| Gemini | 6 | 6 | 7 |
| Mistral Le Chat (open source) | 7 | 7 | 6 |
| DeepAI | 6 | 6 | 6 |
Nel luglio 2024 un gruppo di ricercatori 2 del Large-scale Artificial Intelligence Open Network (LAION) ha pubblicato un articolo sorprendente:
Alice in Wonderland: Simple Tasks Showing Complete Reasoning Breakdown in State-Of-the-Art Large Language Models
(Alice nel Paese delle Meraviglie: semplici problemi causano il collasso il ragionamento dei Large Language Model allo stato dell’arte)
L’articolo dimostra come tutti i Large Language Model (LLM) 3, anche quelli super-intelligenti che dominano le classifiche dei benchmark di coding e ragionamento matematico, che “ragionano a livello di PhD”, che se la battono con i matematici su problemi difficilissimi, in realtà balbettano di fronte a domande a cui possono rispondere bambini di dieci anni. Com’è possibile? E, se è vero, cosa vuol dire?
In questo articolo proviamo a sintetizzare il lavoro di questi ricercatori, mettendo in fila qualche concetto. Invito il lettore motivato a leggere senz’altro l’articolo originale.
Continua (10 Min)