Non cadere nella trappola degli annunci (GPT-5)

Questo articolo fa parte di una serie di approfondimenti sull’AI — il link conduce a un indice aggiornato.

L’altro giorno mi serviva disegnare un diagramma di una semplice rete neurale. Per fare prima ho chiesto a ChatGPT, anche per provare la versione 5, comparsa il giorno prima.

Questo il prompt:

I need a diagram of a neural network composed by:
Input layer with 2 nodes
Hidden dense layer with 25 nodes
Output layer 1 node

Sbagliato completamente: questa rete ha un nodo in ingresso, 12 nodi nello strato nascosto e 7 nodi in quello di output: 1-12-7 anziché 2-25-1. Lo so: se avessi insistito aiutandolo ce l’avrebbe fatta ma avevo fretta, no?

Provo con DeepSeek (cinese):

Quasi corretta ma lo stile grafico può piacere a un vecchio nerd come il sottoscritto, penso meno alla maggior parte dei miei lettori.

Provo allora con Kimi (cinese pure questo):

Perfetto. Il diagramma è preciso e la soluzione grafica idonea a utili generalizzazioni.

Allora è meglio Kimi di ChatGPT? Non si può dire. Sono tutti interpolatori statistici che possono azzeccare più o meno le risposte in base ai dati che hanno visto. Contano solo i dati visti. Ripeto: contano solo i dati visti, non c’è alcun ragionamento sotto.

Già sentiamo qualche entusiasta… un momento. Sono anch’io entusiasta, tenicamente parlando questa roba è strepitosa, ma farsi gabbare no! Insomma, già sentiamo qualche entusiasta, poco attento a non farsi gabbare, reclamare — Ma no, questi sistemi certo che ragionano, lo fanno con le Chain-of-Thought!

Nel rimuginare una risposta adeguata, mi imbatto in questo articolo: Is Chain-of-Thought Reasoning of LLMs a Mirage? A Data Distribution Lens, pubblicato pochi giorni fa da un gruppo di ricercatori della State University of Arizona¹.

Fino a qualche anno fa tutti gli LLM rispondevano alla prima senza stare a rimuginarci, per così dire. Poi quando gli oligarchi dell’intelligenza artificiale generale (quella più intelligente di noi), cioè di OpenAI, DeepMind, Meta, xAI e Anthropic, si sono resi conto che sia per motivi di costi (siamo sulle centinaia di miliardi di dollari l’anno a fronte di perdite di alcuni miliardi) che di necessità energetiche (centrali nucleari dedicate per ciascuno) non era più possibile incrementare ulteriormente la potenza di calcolo, gli sviluppi si sono volti alla creazione di schemi di ragionamento svolti nella fase inferenziale — quando facciamo le domande, anziché durante l’addestramento. Sono così comparse una serie di alchimie, prima fra le quali la Chain-of-Thought (CoT), successione di pensieri, a scimmiottatura dell’umano arzigogolare col pensiero prima di sparare risposte a domande difficili. Quindi da qualche anno a questa parte gli LLM “pensano” prima di rispondere, concatenando risposte a sotto problemi e magari scegliendo fra più tentativi.

Scartabellando la letteratura scientifica ma anche i report sull’andamento degli investimenti aziendali nell’AI (crescente delusione per mancati ritorni) si apprende come questi sistemi siano fragili e poco utili, anzi dannosi, laddove i successi anedottici si rivelino insufficienti, ancorché sorprendenti. Insomma, quando precisione e coerenza sono requisiti inderogabili (campo legale, medico, finanziario…).

Lo studio di Zhao e colleghi si pone in questa linea di ricerca ma è particolarmente rilevante perché stabilisce un limite teorico all’efficacia degli approcci CoT che risulta determinato dalla distanza fra la distribuzione dei dati appresi e l’ambito nel quale sono poste le domande:

I nostri risultati rivelano che il ragionamento realizzato dalla Chain-of-Thought è un fragile miraggio che svanisce spingendosi al di là della regione di addestramento. Questo lavoro offre una comprensione più approfondita del perché e quando il ragionamento CoT fallisce, sottolineando come il ragionamento autentico e generalizzabile sia ancora una sfida aperta.

Lo studio si basa su quesiti posti a un sistema LLM controllato e modulati rispetto alla distribuzione dei dati di apprendimento per contenuto, formato e lunghezza dei testi. Grazie al contesto sperimentale controllato, gli autori introducono nei dati di apprendimento precise trasformazioni dei dati e poi vanno a porre quesiti la cui distanza dalla distribuzione dei dati di apprendimento viene categorizzata in quattro livelli, a seconda che le domande coinvolgano:

le stesse trasformazioni osservate nell’addestramento — In-Distribution (ID)
le stesse trasformazioni osservate nell’addestramento ma composte in modo differente — Composition (CMP)
almeno una trasformazione non osservata nell’addestramento — Partial Out-of-Distribution (POOD)
solo trasformazioni assenti dall’insieme di dati di addestramento — Out-of-Distribution (OOD)

Concludono (fra altre cose) gli autori:

La Chain-of-Thought non dovrebbe essere considerata un modulo “plug-and-play” in grado di produrre ragionamento reale, specialmente in ambiti ad alto rischio come la medicina, la finanza o l’analisi legale. La capacità degli LLM di “produrre fluentemente sciocchezze” — catene di ragionamenti plausibili ma logicamente errate — può essere più ingannevole e dannosa di una risposta completamente errata, poiché proietta una falsa aura di affidabilità. È indispensabile un controllo adeguato da parte di esperti del settore.

La grancassa mediatica alimentata dagli oligarchi dell’AI è dannosa prima di tutto per l’AI medesima, che non è solo fatta di LLM vomitanti testi di dubbia affidabilità ma soprattutto di sistemi per la gestione intelligente di problemi concreti in contesti perfettamente delimitati. Di questi si sente parlare molto poco o se ne sente parlare in maniera confusa nel frastuono generato dalla stupida promessa dell’intelligenza artificiale generale.

Condivido questo articolo con la comunità Lemmy, gruppo che si occupa con spirito critico di intelligenza artificiale: https://mastodon.social/deck/@aitech@feddit.it.

Zhao C., Tan Z., Ma P., Li D., Jiang B., Wang Y., Yang Y., Liu H. (2025) Is Chain-of-Thought Reasoning of LLMs a Mirage? A Data Distribution Lens https://www.arxiv.org/pdf/2508.01191 ↩︎

Non cadere nella trappola degli annunci (GPT-5)

Mi piace:

Correlati

Vengono pubblicati solo commenti che recano nome e cognomeAnnulla risposta

Condividi:

Mi piace:

Correlati

Vengono pubblicati solo commenti che recano nome e cognomeAnnulla risposta

Scopri di più da Andreas Formiconi