Transformer 1: il cavallo di battaglia dell’AI

Questo articolo fa parte di una serie di approfondimenti sull’AI — il link conduce a un indice aggiornato. Allo stesso tempo fa parte di una trilogia dedicata al Transformer:

Transformer 1: il cavallo di battaglia dell’AI (questo articolo)
Un’introduzione moderatamente tecnica

Transformer 2: genesi e qualche domanda
Giusto la storia, facile da leggere

Transformer 3: Come funziona?
Un tentativo di guardare dentro al Transformer, per i più curiosi


Nella storia dell’intelligenza artificiale si alternano fasi di progressivo miglioramento di metodi apparentemente consolidati con accelerazioni dirompenti che stravolgono lo scenario in pochi mesi. È il caso dei transformer, di cui avevamo accennato precedentemente. Apparsi nel 2017, già dal 2019 in poi hanno soppiantato le reti neurali ricorrenti RNN (Recurrent Neural Network) che animavano tutte le applicazioni di natural language processing. Il successo di questa architettura ha investito anche altri campi dell’AI come la predizione della struttura tridimensionale delle proteine o la trasformazione di descrizioni testuali in immagini.

Continua (10 min)

Mi gira la testa

Questo è il titolo venuto spontaneo a Dania Nieri dopo avere messo insieme i codici con i quali aveva separatamente studiato e sviluppato le vari parti, mandala, spirali e frattali. Dania a questo punto inizia ad avere una nozione concreta di cosa sia il pensiero computazionale. Ciò nonostante, gli sforzi finali nella realizzazione del lavoro sono prettamente estetici. Valgono le considerazioni fatte a proposito del lavoro precedente, per il gigante Tifeo d’Ischia:

Puramente estetici i rovelli finali di molti studenti. L’altro giorno mi è stato chiesto se nei miei laboratori vi sia una parte artistica, insomma se siano STEAM e non solo STEM. No, in realtà dichiaro molto poco ma lavoro molto sulla creazione di un luogo che favorisca l’autonomia e la scoperta spontanea. La A di STEAM e varie altre cose vengono da sole.

Il gigante dormiente Tifeo di Ischia

Marialuisa Conte è partita da una foto dove si vede il profilo di Tifeo dormiente, il gigante condannato da Zeus a sorreggere il peso dell’isola per l’eternità.

Continua (1 min)

Bibliografia

Articoli scientifici, riferimenti a newsletter di specialisti e altre risorse di cui mi sono servito per scrivere gli approfondimenti.
  1. AAAI Association for the Advancement of Artificial Intelligence (2025) Future of AI Research https://aaai.org/wp-content/uploads/2025/03/AAAI-2025-PresPanel-Report-Digital-3.7.25.pdf
  2. Abbott E.A. (2020) Flatlandia, Feltrinelli (Prima pubblicazione 1884)
  3. Affirming the Scientific Consensus on Bias and Discrimination in AI (2025) https://www.aibiasconsensus.org/
  4. Ameisen E. et al (2025) Circuit Tracing: Revealing Computational Graphs in Language Models. Transformer Circuits Thread (Anthropic) https://transformer-circuits.pub/2025/attribution-graphs/methods.html
  5. Balassone S. (2023) Scusi il disturbo — Chiacchiere con personaggi che furono o che sono (podcast) Radio Immagina
  6. Biese P. (2025) https://substack.com/@pascalbiese
  7. Bommasani R. e altri 114 autori (2022) On the opportunities and risks of foundation models arxiv.org:2108.07258
  8. Borji A. (2023) A Categorical Archive of ChatGPT Failures https://arxiv.org/abs/2302.03494
  9. Cameron R.W. (2024) Decoder-only transfomers: the workhorse of generative LLMs Deep (Learning) Foqus
  10. Chen C. (2025) China built hundreds of AI data centers to catch the AI boom. Now many stand unused MIT Technology Review https://www.technologyreview.com/2025/03/26/1113802/china-ai-data-centers-unused/
  11. Cho A. et al (2024) Transformer Explainer: Interactive Learning of Text-Generative Models https://arxiv.org/pdf/2408.04619
  12. Chomsky N., Roberts I. and Watumull J. (2023) The False Promise of ChatGPT The New York Times
  13. Dahl M. et al (2024) Large Legal Fictions: Profiling Legal Hallucinations in Large Language Models https://arxiv.org/abs/2401.01301
  14. Dash S. (2025) https://medium.com/@shaileydash
  15. Deepseek-AI (2024) DeepSeek-V3 Technical Report https://arxiv.org/abs/2412.19437
  16. Deepseek-AI (2025) DeepSeek-R1: Incentivizing Reasoning Capability in LLMs via Reinforcement Learning https://arxiv.org/abs/2501.12948
  17. de Gregorio Ignacio (2025) https://medium.com/@ignacio.de.gregorio.noblejas
  18. Denis O. (2025) https://www.linkedin.com/in/denis-o-b61a379a/
  19. Dumas C. (2025) How do Llamas process multilingual text? A latent exploration through activation patching. Proc. 41st Int. Conf. on Machine Learning. https://openreview.net/forum?id=0ku2hIm4BS
  20. Ferri A. (2025) Claude Code saved us 97
  21. Floridi L. (2025) https://www.linkedin.com/in/luciano-floridi/recent-activity/all/
  22. Funk Jeffrey (2025) https://www.linkedin.com/in/dr-jeffrey-funk-a979435/recent-activity/all/
  23. Jimenez C.E. (2025) SWE-bench: Can Language Models Resolve Real-World GitHub Issues? https://arxiv.org/abs/2310.06770
  24. Kang C, Choi H. (2023) Impact of co-occurrence on factual knowledge of large language models https://arxiv.org/abs/2310.08256
  25. Kauf C., Chersoni E., Lenci A., Fedorenko E., Ivanova A.A. (2024) Comparing plausibility estimates in base and instruction-tuned large language models arXiv:2403.14859
  26. Kim Y. et al (2025) Medical Hallucination in Foundation Models and Their Impact on Healthcare https://arxiv.org/abs/2503.05777
  27. Kurenkov A. (2020) A Brief History of Neural Nets and Deep Learning Skynet Today
  28. Lenci A. (2008) Distributional semantics in linguistic and cognitive research Rivista di linguistica 20: 1-31 https://www.italian-journal-linguistics.com/app/uploads/2021/05/1_Lenci.pdf
  29. Lenci A. (2023) Understanding natural language understanding systems. A critical analysis https://arxiv.org/abs/2303.04229
  30. Lindsay J. (2025) On the Biology of a Large Language Model. Transformer Circuits Thread (Anthropic) https://transformer-circuits.pub/2025/attribution-graphs/biology.html
  31. Lockett W (2025) https://medium.com/@wlockett
  32. Mitchel M. (2022) L’intelligenza artificiale — Una guida per esseri umani pensanti, Einaudi, Ed. originale 2019
  33. Mitchel M. (2025) Artificial Intelligence learns to reason. Science 387, Issue 6740 DOI: 10.1126/science.adw5211
  34. Nezhurina, Marianna & Cipolina-Kun, Lucia & Cherti, Mehdi & Jitsev, Jenia. (2024). Alice in Wonderland: Simple Tasks Showing Complete Reasoning Breakdown in State-Of-the-Art Large Language Models. 10.48550/arXiv.2406.02061.
  35. Nielsn M. (2019) Neural networks and deep learning. Dispobile in http://neuralnetworksanddeeplearning.com/
  36. OpenAI (2025) OpenAI o3 and o4-mini Systen Card https://cdn.openai.com/pdf/2221c875-02dc-4789-800b-e7758f3722c1/o3-and-o4-mini-system-card.pdf
  37. Peterson A.J. (2024) AI and the problem of knowledge collapsehttps://arxiv.org/abs/2404.03502
  38. Peterson A.J. (2025) AI and the problem of knowledge collapse. Springer https://link.springer.com/article/10.1007/s00146-024-02173-x
  39. Piad-Morffis A. (2024) Why reliable AI requires a paradigm shift Mostly Harmless Ideas
  40. Piad-Morffis A. (2024) Let’s build our own ChatGPT Mostly Harmless Ideas
  41. Piad-Morffis A. (2025) https://blog.apiad.net/s/mostly-harmless-ai
  42. Kheya A.G. et al (2024) The Pursuit of Fairness in Artificial Intelligence Models: A Survey https://arxiv.org/abs/2403.17333v1
  43. Knight W. (2025) Under Trump, AI Scientists Are Told to Remove ‘Ideological Bias’ From Powerful Models. Wired https://www.wired.com/story/ai-safety-institute-new-directive-america-first/
  44. Ranieri M., Cuomo S. Biagini G. (2024) Scuola e intelligenza artificiale, Carocci
  45. Raschka S. (2024) How good are the latest open LLMs? And is DPO better than PPO? Ahead of AI
  46. Ravichandiran S. (2021) Getting started with BERT Packt Publishing
  47. Shumailov I. et al (2024a) The curse of recursion: training on genereted data makes model forget https://arxiv.org/abs/2305.17493
  48. Shumailov I. et al (2024b) AI models collapse when trained on recursively generated data. Nature https://doi.org/10.1038/s41586-024-07566-y
  49. Sukhareva M. (2025) https://www.linkedin.com/in/msukhareva/
  50. Turness D. (2025) AI Distortion is new threat to trusted information. BBC https://www.bbc.co.uk/mediacentre/2025/articles/how-distortion-is-affecting-ai-assistants/
  51. Vasvani W., Shazeer N., Parmar N., Uskzoreit J., Jones .L, Gomez A.N., Kaiser L., Polosukhin I. (2017) Attention is all you need arXiv: 1706.03762 (ultima revisione 2023)
  52. Wendeler C., Veselovsky V, Monca G., WEst R. (2024) Do Llamas work in English? On the latent language model of multilinguam transformers arXiv:2402.10588
  53. Xu Y. (2024) A Survey on Multilingual Large language Models: Corpora, Alignment, Bias https://arxiv.org/abs/2404.00929

Che succede alle parole nell’AI?

Questo articolo fa parte di una serie di approfondimenti sull’AI — il link conduce a un indice aggiornato.


In GPT-4 ogni parola viene trasformata in un insieme di 16’384 numeri.

Strano perché 16’384 numeri sono davvero tanti. Perché complicarsi così la vita?

Quanto segue potrà parere un po’ noioso ma è di fondamentale importanza per iniziare a capire qualcosa di AI. Quindi armiamoci di un poco di pazienza.

Continua (10 min)

Approfondimenti sull’AI

VEDI TUTTO L’INDICE

AI: non parole ma tocchetti

Questo articolo fa parte di una serie di approfondimenti sull’AI — il link conduce a un indice aggiornato.


Difficile fare un discorso breve sull’AI. Questi appunti sono destinati a proliferare, obbligandoci anche a compiere vari passi indietro. Ad esempio, è già emerso come per l’AI le parole siano meri numeri ma non si tratta di una semplice questione di codifica. Se lasciamo la cosa lì rischiamo di capire poco.

Cosa intendiamo normalmente per codifica? Ad esempio, semplificando, le lettere che sto scrivendo in questo testo vengono immediatamente trasformate in sequenze di uno e zero, un byte (otto bit) per ogni carattere, per la precisione. Il testo verrà memorizzato, eventualmente elaborato e infine in qualche modo riprodotto ma all’interno di tale processo i byte viaggeranno indisturbati, codici di simboli che per noi sono lettere. Altrettanto indisturbate viaggeranno le parole composte da tali lettere, e così i relativi significati.

Nell’AI la storia è assai diversa e ritroveremo le nostre fidate parole disperse in spazi talmente complessi da non potere essere immaginati. Ci vorrà un po’ di tempo e un po’ di fantasia per farsene una ragione. Andiamo quindi per gradi rifacendosi dall’inizio: cosa succede ad una parola appena introdotta nell’AI?

Continua (3 min)