Prendiamo troppo sul serio un’AI che balbetta su problemi da scuola primaria

Questo articolo fa parte di una serie di approfondimenti sull’AI — il link conduce a un indice aggiornato.

Sono grato a Marianna Nezhurina e ai suoi collaboratori, autori dell’articolo 1 di cui scriviamo qui, per lo scambio di idee.

Aggiornamento 8 dicembre: ho aggiunto alla tabella sul quesito di Alice anche le risposte ottenute in ottobre e dicembre. Si vede come progressivamente vengano corretti i risultati, salvo qualche caso, che rientra nel fenomeno delle allucinazioni.


Opera di Sir John Tenniel, Pubblico dominio, via Wikimedia Commons

Alice ha 3 fratelli e ha anche 6 sorelle. Quante sorelle ha un fratello di Alice?

A una domanda del genere rispondono anche i vostri bambini ma non necessariamente un chatbot. Provate. Questo è un esempio di quello che ho ottenuto io:

ChatbotMarzo 2025Ottobre 2025Dicembre 2025
Claude 3.7 Sonnet777
ChatGPT 4 o677
Copilot 6677
DeepSeek v3 (open source)677
Grok 3777
Gemini667
Mistral Le Chat (open source)776
DeepAI666

Nel luglio 2024 un gruppo di ricercatori 2 del Large-scale Artificial Intelligence Open Network (LAION) ha pubblicato un articolo sorprendente:

Alice in Wonderland: Simple Tasks Showing Complete Reasoning Breakdown in State-Of-the-Art Large Language Models
(Alice nel Paese delle Meraviglie: semplici problemi causano il collasso il ragionamento dei Large Language Model allo stato dell’arte)

L’articolo dimostra come tutti i Large Language Model (LLM) 3, anche quelli super-intelligenti che dominano le classifiche dei benchmark di coding e ragionamento matematico, che “ragionano a livello di PhD”, che se la battono con i matematici su problemi difficilissimi, in realtà balbettano di fronte a domande a cui possono rispondere bambini di dieci anni. Com’è possibile? E, se è vero, cosa vuol dire?

In questo articolo proviamo a sintetizzare il lavoro di questi ricercatori, mettendo in fila qualche concetto. Invito il lettore motivato a leggere senz’altro l’articolo originale.

Continua (10 Min)