Mettiamo in fila i problemi dell’AI generativa

Qui è l'umanità intera ad essere completamente compromessa e confusa. Legioni di Viaggiatori Islandesi si lasciano divorare dai leoni del profitto illudendosi di contribuire a qualcosa. Manager spietati vengono scambiati per scienziati. Non potendo praticare pensiero — chi ce l'ha il tempo? — il vero è tale solo se reiterato a sufficienza. Ricerca, business, società, mercato, pubblico, privato; chi vede più le differenze? Facebook ha ucciso Internet, l'AI uccide la cultura, non per eccellenza ma in quanto veleno. Tutto spinge l'individuo verso una condizione beota di vana onnipotenza — il turista cretino in vetta alla montagna di Dürrenmatt. La demenza digitale di Spitzer è niente a confronto. Da tempo le masse sono gelatine da far risuonare a piacimento con poco e nulla ma con l'AI il delitto è perfetto: l'individuo è morto.
— Il sottoscritto in un momentaccio...

Questo articolo fa parte di una serie di approfondimenti sull’AI — il link conduce a un indice aggiornato.

La pressione mediatica è tale da rappresentare nell’immaginario collettivo l’AI come un nuovo interlocutore, monolitico, immanente e pervasivo, al punto da scatenare reazioni ancestrali, sospese fra la curiosità per il nuovo e la paura dell’incognito. Poco e nulla di razionale.

È inevitabile che, nel tentativo di bilanciare la narrazione, capiti di calcare la mano sugli aspetti negativi e che qualcuno si adombri di conseguenza, delle volte con reazioni quasi affettive. Vediamo allora di commentare meglio la lista di problemi citati nell’articolo precedente — La distopia degli oligarchi dell’AI.

1. Allucinazioni

Sono fatti distorti o inventati di sana pianta. Ne abbiamo discusso diffusamente in Non esiste una AI generativa sicura e in vari altri articoli; ad esempio: qui, qui e qui (ma non solo). Esiste una Hallucination Leaderbord che redige una classifica degli LLM rispetto al rate di allucinazioni nella produzione di riassunti. I migliori stanno intorno al 1-2

Bisogna tenere presente che la quota di allucinazioni cambia molto con il tipo di compito e con il contesto: Dahl et al (2024) hanno riportato più del 60

Le allucinazioni sono particolarmente subdole perché nella produzione di testi possono passare facilmente inosservate. Vale la regola apparentemente paradossale: occorre sapere quello che si chiede. Sono anche il più temuto dei problemi perché limitano tutti gli impieghi critici o che comportino responsabilità importanti. Se un tempo la regola aurea del software era di privilegiare software obsoleti ma oramai del tutto robusti rispetto a versioni più potenti ma potenzialmente inaffidabili, con l’AI generativa siamo all’altro estremo: sappiamo che ogni tanto sbaglia ma facciam finta di nulla. Importante è far presto, stupire e stupirsi.

Ma i protagonisti della narrativa magnifica e progressiva sono perfettamente consapevoli del problema. L’ultimo rapporto tecnico di OpenAI sullo stato dell’arte dei propri modelli di punta (o3 e o4-mini) riporta un rate di allucinazioni pari al 33

2. Distorsione della distribuzione di risposte su questioni indecidibili

Le allucinazioni sono vistose e, se individuate, sono facili da correggere. Più subdola e invece l’incapacità di riprodurre adeguatamente lo spettro delle possibili risposte a domande che non ammettono risposte dicotomiche. L’addestramento degli LLM si può pensare come un campionamento della realtà, perché ne condensa la “conoscenza” in un insieme di pesi numerici. Un insieme smisurato, di centinaia o migliaia di miliardi di elementi, ma non illimitato. È un processo affine al campionamento digitale di un’immagine o di un suono, dove si trasforma il continuo della realtà fisica nel discontinuo digitale e così facendo si perdono informazioni. Nel caso di campionamenti regolari di suoni o immagini vige il teorema del campionamento di Shannon, che determina quanto questi debbano essere fitti al fine di non perdere quello che ci interessa. Questo attributo, di campionamento fitto, si traduce nel numero dei pesi degli LLM: con più pesi si campiona meglio il continuo della realtà. La corsa allo scaling (crescita delle dimensioni) degli LLM serve proprio a questo: aumentare il numero di pesi per descrivere meglio la realtà. Qualcosa però rimarrà sempre fuori e non è facile stabilire un limite, perché le conoscenze più preziose possono annidarsi nelle code delle distribuzioni statistiche. Da qui la carenza di rappresentatività del continuo di opinioni e punti di vista: ogni volta che campiono perdo qualcosa, e facilmente perdo il marginale, l’improbabile, la minorità. Perdo il sale del pensiero.

Questo tema è collegato a quello del collasso della conoscenza, che vediamo fra un momento.

3. Ragionamento

Gli LLM risolvono bene i compiti difficili ma hanno difficoltà con quelli facili. Un fatto risaputo, particolarmente quando si tratta di ragionamento. Il motivo è semplice. I produttori di AI competono per ottenere le prime posizioni nelle classifiche dei benchmark su varie categorie di compiti. Finisce che gli addestramenti delle reti sono ottimizzati per figurare bene in quei benchmark. Come sempre, non bisogna dimenticare che sono ottimizzazioni statistiche che nulla hanno a che vedere con la capacità di ragionamento.

Un gruppo di ricercatori dello Juelich Supercomputing Center da un paio d’anni mette alla prova gli LLM su problemi che, nelle versioni più semplici, vengono risolti facilmente da un bambino di terza primaria. I cosiddetti problemi di Alice ( Mitchel, 2025). I ricercatori (Nezhurina et al, 2025) riportano percentuali di successo erratiche, che vanno da 0 a 100 a seconda del modello e di piccoli cambiamenti nei dati o nel fraseggio.

Ci sono altri problemi del genere: provare a chiedere quante S ci sono in suscettibile…

4. Multilinguismo

Nessuno può rinunciare al multilinguismo perché tutti gli attori dell’AI generativa hanno bisogno del pianeta intero per essere competitivi.

E in effetti, gli LLM sembrano poliglotti ma lo sono in modo estremamente sbilanciato. La prevalenza dell’inglese nei dati di addestramento tende ad essere schiacciante. Nel caso di GPT-3 le proporzioni sono il 92.7

Do Llamas work in English? È la domanda che si sono posti i ricercatori del Politecnico di Losanna (Wendeler et al, 2024) ¹. Per rispondere gli autori hanno intrapreso un ardito lavoro di reverse engineering cercando di recuperare il percorso delle parole finali a fronte di compiti specifici, tipo la traduzione di “fiore” dal francese al cinese: “fleur” -> “花”. È emerso un percorso affascinante dove la parola “fleur” prima vaga in modo apparentemente casuale in zone anonime — forse concetti puri? — quindi gravita a lungo nello spazio dei token inglesi e solo alla fine si precipita nel dominio degli ideogrammi, e quindi su 花.

Di poco successivo il lavoro di Dumas (2025) in cui si conferma l’ipotesi della presenza negli spazi semantici di concetti privi di connotati linguistici (language agnostic concept representations). Questo spiegherebbe — attenzione: stiamo sempre parlando di ipotesi, non fatti acclarati — una certa sorprendente indipendenza di “ragionamento” dalle lingue, anche quando queste contribuiscono in proporzioni assai diverse all’addestramento. Il problema è però ancora più articolato. Le lingue non sono solo grammatica ma riflettono anche cultura, modi di pensare, in generale sistemi di pensiero diversi. Ci troviamo quindi con almeno un paio di problemi collegati fra loro: omologazione e distorsione. Servizi come ChatGPT vengono usati ovunque e da tutti: cittadini, bambini che fanno le lezioni, studenti, gente che si informa, organizzazioni, aziende, di tutti i paesi, e tutti ricevono lo stesso nutrimento declinato secondo le culture dominanti. Un effetto che va in direzione opposta alla diversificazione, alimento primario della cultura umana. Esaminiamo un attimo tre aspetti particolari degli MLLM (Multilingual Large Language Models), rifacendoci alle linee di Xu et al (2025) che hanno compilato un’imponente revisione della letteratura supportata da 196 voci bibliografiche.

4.1 Corpora

La narrazione dominante, che come detto, propone l’immagine di un unico interlocutore artificiale, come fosse piovuto dal cielo, è molto fuorviante. In realtà il panorama dell’AI è rappresentato da un ecosistema popolato da una miriade di modelli diversi che viene nutrito principalmente dagli LLM proposti in chiave open source. Come sempre succede, gli ecosistemi si formano e si sviluppano in regimi di libera circolazione delle risorse, in particolare delle idee. La cosa è particolarmente evidente quando si esaminano i corpora di addestramento. Xu et al propongono un’estesa compilazione che elenca la composizione dei corpora di vari modelli, includendo quelli concepiti proprio con l’attenzione per la questione linguistica. Vediamo qualche esempio, tenendo presente che le aziende non svelano volentieri questo tipo di dati.

GPT 3: 95 lingue di cui 92.7

Llama 3 (Meta AI,quella che disponibile in WhatsApp): 176 lingue, 95

Claude 3: 43 lingue, non sono disponibili altri dati.

4.2 Allineamento

La qualità di un MLLM dipende dall’allineamento delle rappresentazioni nello spazio semantico dei concetti espressi in lingue diverse. Di prim’acchito sembra una questione semplice: le rappresentazioni — embedding — di un concetto in due lingue devono trovarsi vicine. La cosa invece è complicata molto 1) dal fatto che con gli LLM basati sul meccanismo di attention gli embedding dipendono dal contesto della frase e 2) le parole vengono spezzate in token diversamente nelle varie lingue.

Anche questo è un aspetto che ha ancora bisogno di molto lavoro. Un fatto ormai assodato è che l’allineamento funziona meglio fra l’inglese e le lingue più affini del gruppo indoeuropeo.

Anche qui la ricerca è molto attiva ma siamo ben lontani da soluzioni che possano essere considerate soddisfacenti.

4.3 Bias

Fra i bias citati più comunemente vi sono quelli linguistici e quelli demografici. I bias linguistici derivano principalmente dall’esorbitante predominanza dell’inglese ma anche da quella di altre lingue occidentali rispetto a tante altre che sono assai meno rappresentate. Fra i bias demografici troviamo quelli di genere, etnici o relativi ad altri gruppi sociali sotto rappresentati.

Ma il problema è intricato anche perché la definizione stessa di bias dipende dal contesto culturale, sociale o ideologico. Ad esempio l’attuale amministrazione americana considera afflitti da “bias ideologico” testi che menzionino “sicurezza”, “responsabilità” e “equità” in relazione all’AI (Knight 2025).

5. Collasso dei modelli

Le questioni appena discusse sono connesse con un problema di fondo definito “la maledizione della ricorsione” (curse of recursion). La scoperta è la seguente: mentre la salute degli LLM fiorisce con quantità e varietà delle informazioni, purché di origine umana, i dati artificiali si sono rivelati un veleno, alla lunga anche mortale. Fatto dimostrato con considerazioni teoriche e confermato da simulazioni, il tutto descritto da Shumailov et al (2024a), e sintetizzato su Nature Shumailov et al (2024b).

Il motivo sta sostanzialmente nel processo di campionamento finito che avevamo descritto prima a proposito della distorsione della distribuzione di risposte su questioni indecidibili.

La questione è rilevante perché il pianeta è tondo e la rete lo avvolge ormai quasi tutto. L’informazione umana genuina inizia a scarseggiare e, ora che i dati artificiali stanno già rientrando in circolo, si pone l’incubo di distinguere le due sorte. Un discreto rompicapo.

6. Collasso della conoscenza

Abbiamo dunque appena scoperto che gli LLM sono molto delicati di salute. Non è una buona notizia sapere che lo strumento di conoscenza del quale già sembra nessuno possa fare a meno porti dalla nascita il seme della demenza ma purtroppo le brutte notizie non finiscono qui.

Peterson (2024, 2025) ha prontamente raccolto le argomentazioni del gruppo di Shumailov per estenderle alla conoscenza umana: laddove questi parlavano di collasso dei modelli (AI models collapse) Peterson titola il suo primo lavoro “AI and the problem of knowledge collapse”.

L’argomentazione è basata su un modello matematico che simula una comunità di persone libere di scegliere se aggiornarsi e formarsi con i metodi tradizionali oppure mediante strumenti di AI. Modalità questa definita “scontata” in quanto improntata al risparmio di risorse, soprattutto di tempo.

La domanda di ricerca era che, se una certa quantità di individui opta per la versione scontata della formazione, servendosi per esempio di riassunti piuttosto che dei testi integrali, si genera una narrativa semplificata che viene poi reintrodotta nel circuito dell’AI, dando così luogo a un processo iterativo di semplificazione e impoverimento della conoscenza pubblica. Questo accadrebbe perché ad ogni passaggio attraverso l’AI si perderebbe una quota delle code della distribuzione, vale dire di tutto ciò che è minoritario e improbabile, a favore del frequente e dell’ovvio.

Qui sotto vediamo il risultato della simulazione prodotta dal modello matematico di Peterson per diversi valori di adozione dell’AI dopo nove generazioni. Si vede come la distribuzione della conoscenza pubblica tenda ad accumularsi al centro in funzione del costo di acquisizione della conoscenza, partendo dalla curva rossa (costo alto, no AI) fino a quella blu (costo basso: molta AI) ².

Distribuzione della conoscenza pubblica in funzione del costo di acquisizione dopo 9 iterazioni. Linea blu costo dell’acquisizione di conoscenza grazie all’AI pari a 20
Dal punto di vista quantitativo, risulta per esempio che, ipotizzando un costo pari al 20
Nell’ultimo articolo (Peterson, 2025) si descrive anche uno studio empirico che approfondisce la questione della perdita di ricchezza delle risposte a prompt aperti con quattro diversi LLM. Approfondiremo meglio in futuro, per ora ci basti questa conclusione:

È auspicabile che, per ogni cento persone che leggono il riassunto di un libro, esista da qualche parte un umano che si prenda la briga di mettersi a sedere e leggere il libro per intero, sperando che abbia poi occasione di intervenire pubblicamente su semplificazioni e distorsioni inappropriate.
— Peterson AJ (2025) Springer

7. Geopolitica

Siamo sideralmente lontani dall’idea einsteiniana che il sostentamento di un ricercatore non debba dipendere dalle proprie ricerche per non inquinare la faticosa ricerca della verità.

La rivoluzione del *transformer* con il meccanismo di *attention* (Vasvani *et al*, 2017) ha generato la “*scaling law*” ³: crescere per progredire. Che significa più potenza di calcolo, chip più potenti e più numerosi, insomma più denaro. Molto denaro. Quanto? A questo punto ci vogliono le centinaia di miliardi di dollari. E come trovare tutti questi soldi? Convincendo il mondo che la scoperta del secolo, anzi del millennio, la scoperta dell’umanità, è a portata di mano, basta premere sull’acceleratore, *whatever it takes*.

Da qui la narrativa dell’AGI (*Artificial General Intelligence*), da declinare un po’ come si vuole, a seconda delle circostanze, perché in realtà nessuno sa di preciso cosa sia. Ma non è questo che conta, conta che sia vendibile: deve arridere ai cittadini, al mercato, soprattutto ai capitali di rischio (*venture capitals*) ma ancora di più al potere politico, specie nell’attuale declinazione muscolare US.

Ecco infatti i 500 miliardi di dollari sul tavolo presidenziale intorno al quale si azzuffano, immemori dei propri trascorsi *liberal*, più o meno tutti i *big* della Silicon Walley.

E l’unico (per ora) protagonista alternativo nell’arena dell’AI, la Cina, non è da meno nella gestione di questa straordinaria arma di controllo, anzi sembra avere le idee ancora più chiare.

Se hai in mano i *social* per farci pascolare l’umanità intera e l’AI per omogeneizzarne il pensiero sei a posto. Fanno ridere a confronto le armi convenzionali….

E l’AI generativa, sì, ma di mera plausibilità, irresponsabile per statuto, è esattamente quello che ci vuole per guidare le folle verso gli abissi dell’impossibile. Basta che si muovano, velocemente.

LLama è la famiglia di LLM creati da Meta (Facebook). Hanno la particolarità di essere gli unici LLM distribuiti in modalità open source, fra i grandi americani (ChatGPT, Claude, Gemini, Copilot, Grok). ↩︎
Questo e altri risultati dello studio possono essere riprodotti scaricando il software dal repositorio pubblico indicato nelle pubblicazioni di Peterson. Noi l’abbiamo provato su una macchina Linux. Per produrre tutti i risultati ci sono voluti una decina di giorni. ↩︎
La spiega bene Nvidia stessa. ↩︎

Nota su LLM e LRM

Non abbiamo precisato…

Condividi:
Stampa
E-mail
Altro
LinkedIn
Reddit
Mi piace:
Mi piace Caricamento in corso…

*Correlati*

2 pensieri riguardo “Mettiamo in fila i problemi dell’AI generativa”

amaiolino ha detto:

Aprile 28, 2025 alle 10:42 am

Grazie. Grazie. Due volte perché una non basta!

Caricamento...

Rispondi
1. Andreas ha detto:
  
  Aprile 28, 2025 alle 5:39 pm
  
  Grazie!
  Contento se serve a qualcuno
  
  Caricamento...
  
  Rispondi

1. Allucinazioni

2. Distorsione della distribuzione di risposte su questioni indecidibili

3. Ragionamento

4. Multilinguismo

4.1 Corpora

4.2 Allineamento

4.3 Bias

5. Collasso dei modelli

6. Collasso della conoscenza

7. Geopolitica

Nota su LLM e LRM

Condividi:

Mi piace:

Correlati

2 pensieri riguardo “Mettiamo in fila i problemi dell’AI generativa”

Vengono pubblicati solo commenti che recano nome e cognomeAnnulla risposta

Scopri di più da Andreas Formiconi