Questo articolo fa parte di una serie di approfondimenti sull’AI — il link conduce a un indice aggiornato.

Grande clamore mediatico su DeepSeek. Copiose le analisi geopolitiche e le iperboli. “Evento epocale”? No, evento molto interessante ma normale nel quadro dell’evoluzione dell’AI. Nessun algoritmo alternativo bensì perfetta continuità.
Dal punto di vista scientifico, l’unico evento epocale recente nell’arena AI è stata l’invenzione del Transformer nel 2017 (vedi qui e qui), il resto sono variazioni sul tema. Il Transformer è nato in California, nel blocco 1965 della sede di Google di Mountain View, per opera di otto scienziati provenienti da sette paesi diversi: due indiani, un ucraino, un tedesco, un canadese, un inglese e un americano 1. Praticamente tutto ciò che oggi raggiunge il pubblico si basa sul Transformer, DeepSeek incluso.
Lo dicono gli autori di DeepSeek: si legge nel loro DeepSeek-V3 Technical Report — un documento di 53 pagine firmato da 199 autori (testo originale in nota 2) — che l’architettura base è quella del Transformer, con un paio di variazioni già note in letteratura 3, ma molto intelligentemente rivisitate. In realtà il paper contiene molti altri accorgimenti, sia nelle fasi di addestramento che di implementazione nell’hardware. Un capolavoro di ottimizzazione teso a ridurre drasticamente i costi, di un fattore che va da 16 a 54 volte rispetto a ChatGPT-o1.
Indubbiamente geniale è stata la mossa del CEO Liang Wenfeng, quando ha acquistato per tempo 10’000 GPU, mettendoci a lavorare i migliori giovani ricercatori rastrellati da tutte le università cinesi, per poi distribuire il modello in modalità open-source 4 e consentire a chiunque di scaricare, studiare, utilizzare il codice e riadattarlo in una varietà di modi — codice e modello in https://github.com/deepseek-ai/DeepSeek-V3. Un’operazione in perfetta continuità con gli sviluppi in corso in tutto il mondo, condotta con algoritmi e metodi occidentali, da cui tutti trarranno vantaggi in misure e tempi diversi. E, fatto esilarante, un’operazione sollecitata dalle barriere imposte dagli americani all’esportazione dei chip in Cina.
Buona notizia per molti, paradossalmente soprattutto per Nvidia. Sì, il tonfo in borsa, ma i mercati nel breve termine si muovono con la pancia, non con il cervello. Il fatto che il modello, matematica e codice inclusi, sia a disposizione di tutti significa che tutti potranno trarne vantaggio creando una potente ulteriore spinta allo sviluppo: Nvidia non potrà che produrre altri chip, per il momento in solitudine.
Ottima notizia anche per Apple, che potrà utilizzare il modello DeepSeek R1 nei propri dispositivi, perché una delle ottimizzazioni messe a punto dei ricercatori consiste proprio nella possibilità di travasare (distillare in gergo) le capacità del modello più grande in versioni ridotte, che possono essere ospitate da piccoli dispositivi.
Peggio per i sommi bluffatori, OpenAI, Anthropic, Google, Musk, intenti a drenare capitali e a scannarsi fra loro, presi per il collo da Trump, fuoriclassse del bluff. Avranno bisogno di un po’ più di tempo per riorganizzare i progetti ma, tutto sommato, è routine nella turbolenta arena dell’AI. Per ora, in piena zuffa post-elettorale difficile prevedere come si assesteranno.
Più complicato ancora immaginare come evolverà la relazione fra governance cinese e DeepSeek. Il dilemma non è da poco. L’industria AI è diversa dalle altre: i tuoi prodotti verranno usati se funzioneranno come o meglio di altri; l’AI funziona meglio più aumenti e diversifichi la quantità di dati adoperati per l’addestramento; ma più la fai funzionare meglio più ne perdi il controllo. Come conciliare censura con successo nel settore forse più strategico per il controllo del mondo?
È facile sollecitare comportamenti censori in DeepSeek, la rete è già colma di esempi e chiunque può vedere da sé. In realtà è un problema per tutti, perché quella di porre argini all’AI su temi sensibili di vario genere è una necessità condivisa, al di là delle censure politiche. Tuttavia per un regime, sì dittatoriale ma saldamente inserito nel mainstream capitalistico, è un maledetto rompicapo.
Si assiste dunque all’opposizione fra due fondamentali forze; un tema che rischia di indebolire le analisi geopolitiche che non ne tengano conto. Da un lato dilaga l’autoritarismo che tende a governare bullizzando e sanzionando, alimentato dalle pance o da circostanze storiche disgraziate. Dall’altro tutto ciò fa comunque parte di un ecosistema scientifico-tecnologico completamente trasversale di cui nessuno può fare a meno ma che, ad ogni atto impositivo, rischia di fare seguire una reazione contraria imprevista: l’America limita l’esportazione di chip per frenare la corsa cinese all’AI col risultato di alimentarla; la Cina beneficia di questo colpo di reni ma si ritrova un rompicapo esistenziale fra le mani.
Come affronteranno questi paradossi i sommi bulli che stanno abbaiando (questi sì) in tutto il mondo?
- Ashish Vaswani (indiano), Noam Shazeer (americano), Niki Parmar (indiana), Jakob Uszkoreit (tedesco, origine DDR), Llion Jones (inglese), Aidan Gomez (canadese), Lukasz Kaiser (polacco) e Illia Polosukhin (ucraino). ↩︎
- Scrivono gli autori, introducendo l’architettura del modello, a pagina 6 del Technical Report: “The basic architecture of DeepSeek-V3 is still within the Transformer (Vaswani et al., 2017) framework. For efficient inference and economical training, DeepSeek-V3 also adopts MLA and DeepSeekMoE, which have been thoroughly validated by DeepSeek-V2. Compared with DeepSeek-V2, an exception is that we additionally introduce an auxiliary-loss-free load balancing strategy (Wang et al., 2024a) for DeepSeekMoE to mitigate the performance degradation induced by the effort to ensure load balance. ↩︎
- Il primo accorgimento (Multiple Latent Attention, pubblicato da un gruppo inglese nel 2024) si basa su un intelligente trucco matematico per ridurre la quantità di conti fatti dal Transformer riducendo il rango della attention matrix. Il secondo (Mixture of Expert) è un metodo usato anche da tutti gli altri chatbot per gestire una varietà di sottoreti neurali, ciascuna specializzata in un ambito diverso – grammatica, sintassi, matematica e vari altri ambiti disciplinari. La peculiarità della versione proposta dagli autori consiste in un nuovo sistema per bilanciare il carico di lavoro fra queste sottoreti — gli experts — in maniera da far funzionare solo le parti che servono con un grosso risparmio di calcolo. Questa è l’unica vera novità. Tuttavia gli autori sono intervenuti su numerosi altri aspetti di tutto il sistema, migliorando soluzioni preesistenti. Per esempio, sempre nella fase di inferenza, adottano una strategia di predizione multi-token, dove ad ogni passo invece di predire solo il prossimo token il sistema ne predice due o tre in fila. Ma hanno lavorato anche molto sull’addestramento, in particolare per la variante “reasoning” del modello, dove hanno utilizzato una base di problemi risolti di riferimento più piccola dell’usuale ma lasciando correre più liberamente il processo di apprendimento detto Reinforcement Lerning. Un altro aspetto è quello dell’infrastruttura di calcolo, su cui hanno fatto un lavoro davvero impressionante. Un caso emblematico è l’uso di digitalizzazioni a bassa risoluzione per l’addestramento. Si tratta di utilizzare parole del computer di soli 8 bit, un metodo che consente di velocizzare molto i calcoli ma molto rischioso perché facilmente i dati possono andare fuori dal range dinamico che con 8 bit significa solo 256 valori disponibili. Fra i vari trucchi escogitati vi è quello di svolgere una parte dei conti in FP8 e una parte in formati più precisi per le operazioni più a rischio. Cose facili a dirsi ma che richiedono competenze e abilità estreme. Non solo, gli autori si spingono anche a dare indicazioni dettagliate ai produttori di hardware per AI! E non si fanno infine mancare l’impegno a perseguire la strada dell’open-source. ↩︎
- Attenzione, nel caso dei Large Language Model l’espressione open-source è ambigua perché richiederebbe la condivisione del codice sorgente, dei pesi utilizzati e del set di dati usati per l’addestramento. Ad esempio nel caso di DeepSeek mancano questi ultimi. Quindi un open-source parziale ma più che sufficiente a diffondere il metodo. ↩︎
Un commento su “DeepSeek: più un problema per la Cina che per l’America, forse”