di Luca Sambucci
DeepSeek ha fatto irruzione sulla scena dell’intelligenza artificiale come un outsider determinato a riscrivere le regole del gioco. Ne avevamo già parlato su questo sito il 4 dicembre scorso, quando la documentazione tecnica era piuttosto scarsa. Ora con il lancio di DeepSeek-R1, un modello di linguaggio avanzato capace di competere con giganti come quelli di OpenAI, l’azienda cinese ha dimostrato che innovazione ed eccellenza non sono prerogative esclusivamente riservate a chi dispone di risorse illimitate.
Alla base del successo di DeepSeek-R1 vi è un approccio tecnico audace e innovativo. Il team ha puntato tutto sull’apprendimento per rinforzo (reinforcement learning o RL), evitando la necessità di dataset supervisionati e curati. Questo approccio ha consentito al modello di sviluppare capacità di ragionamento indipendenti, supportate da catene di pensiero (chain-of-thought, CoT) in grado di affrontare compiti complessi con logica e precisione. Una metodologia che ha mostrato come l’eccellenza non dipenda esclusivamente dalla disponibilità di risorse colossali, ma possa nascere dall’ingegno e da strategie innovative.
Ma l’impatto di DeepSeek-R1 va ben oltre la sua architettura. Nei benchmark, il modello ha ottenuto risultati superiori a OpenAI o1 in test come il MATH-500 e l’AIME 2024. Ma ciò che più colpisce è la decisione di rendere il codice sorgente e i pesi del modello disponibili con una licenza open source, promuovendo un accesso democratico a tecnologie avanzate e offrendo a sviluppatori e aziende l’opportunità di adattarlo alle proprie esigenze. Questo approccio ha catturato l’interesse della comunità tecnologica, trasformando DeepSeek in un simbolo di un’intelligenza artificiale più accessibile e collaborativa.
Perché DeepSeek-R1 sta cambiando le regole del gioco
Il clamore intorno a DeepSeek-R1 non si deve solo alle sue prestazioni tecniche, ma anche al suo impatto economico e strategico. Con un costo dichiarato pari al 3-5% di quello dei concorrenti come OpenAI o1, DeepSeek-R1 rappresenta una rivoluzione economica nel settore. Questa combinazione di alte prestazioni e costi contenuti ha spiazzato tutti gli analisti, portando in borsa a una decisa correzione dei titoli tecnologici.
Nonostante il budget limitato, il modello ha raggiunto e in alcuni casi superato le prestazioni delle alternative più costose. In ambiti come la finanza avanzata e la risoluzione di problemi complessi, DeepSeek-R1 si è dimostrato altamente competitivo, offrendo un’alternativa valida a costi drasticamente inferiori. Questo non è solo un successo tecnico, ma un messaggio chiaro al settore: l’innovazione non è necessariamente proporzionale agli investimenti economici.
L’innovazione cinese ispirata dalle restrizioni sui chip USA
Le restrizioni statunitensi sull’esportazione di chip avanzati verso la Cina (ne parlammo già diversi anni fa) hanno rappresentato per DeepSeek una sfida che si è trasformata in un’opportunità. Con una disponibilità di sole 50.000 GPU, una frazione rispetto a quella dei colossi americani che ne hanno almeno dieci volte tanto, l’azienda cinese ha sviluppato un modello che sfrutta l’efficienza al massimo grado, dimostrando che creatività e ottimizzazione possono compensare la mancanza di risorse. Un risultato, questo, che solleva interrogativi sulle attuali strategie di investimento delle grandi aziende tecnologiche, suggerendo che l’efficienza potrebbe diventare un nuovo paradigma.
La decisione di rendere DeepSeek-R1 open source ha amplificato il suo impatto. La pubblicazione su piattaforme come Hugging Face ha reso il modello accessibile a sviluppatori e aziende di tutto il mondo. La trasparenza del codice e dei pesi ha rafforzato la fiducia nella tecnologia, offrendo opportunità di personalizzazione e stimolando l’adozione su larga scala. Un approccio seguito anche da alcune grandi aziende (pensiamo a Meta) che rappresenta un’alternativa concreta ai modelli proprietari, spesso percepiti come opachi e inaccessibili.
Ma l’utilizzo del reinforcement learning è stato il vero motore del successo tecnologico di DeepSeek-R1. Rinunciando alle tradizionali tecniche di fine-tuning supervisionato, DeepSeek ha adottato un approccio radicale che ha permesso al modello di sviluppare capacità di ragionamento autonome. Questo metodo non solo ha migliorato l’efficienza del processo di addestramento, ma ha anche aperto nuove possibilità per far “sposare” LLM e reinforcement learning, un sogno inseguito da molti.
Hanno davvero speso così poco?
Uno dei punti più discussi riguardo a DeepSeek-R1 è il costo effettivo del suo sviluppo. L’azienda ha dichiarato di aver speso circa 5,58 milioni di dollari per l’addestramento del modello, una cifra che sembra esigua rispetto ai costi miliardari sostenuti da giganti come OpenAI e Google. Tuttavia, per comprendere quanto siano realistici questi numeri, è necessario approfondire.
Prima di tutto, il costo dichiarato da DeepSeek si limita alle spese per le GPU impiegate durante l’addestramento. Non include, quindi, altri fattori rilevanti come i salari dei ricercatori, la gestione e la preparazione dei dataset, né i test e le analisi di ablation utilizzati per ottimizzare il modello. DeepSeek impiega oltre 100 ricercatori a tempo pieno, una squadra di dimensioni considerevoli che richiede investimenti significativi per mantenere un livello competitivo. Su questi costi aggiuntivi, tuttavia, l’azienda non ha fornito dettagli.
Inoltre, vi è confusione su quali siano i chipset usati dall’azienda per addestrare i modelli. Il CEO di Scale AI, il miliardario Alexandr Wang, sembra essere sicuro che i 50.000 chip usati da DeepSeek siano gli NVIDIA H100, un prodotto più performante rispetto ai H800 dichiarati dall’azienda e ammessi alla vendita in Cina. Il motivo per cui questo non verrebbe confermato da DeepSeek è proprio da ricercarsi nelle restrizioni americane, che ufficialmente vietano la vendita dei H100 ad aziende cinesi. Il finanziatore High-Flyer Quant avrebbe comprato 10.000 schede prima delle restrizioni americane, ma le restanti 40.000 non si sa bene come siano arrivate.
Sebbene sia probabile che il costo complessivo del progetto superi la cifra dichiarata, è innegabile che DeepSeek abbia seguito una strategia straordinariamente efficiente e innovativa. Questo risparmio è attribuibile principalmente alla capacità di DeepSeek di ottimizzare le risorse computazionali. Tecniche come il mixed-precision training e la comunicazione ottimizzata tra GPU hanno permesso di abbattere tempi e costi di addestramento.
Un risultato che non solo sfida le pratiche di spesa dei grandi attori del settore, ma che suggerisce come il futuro dell’intelligenza artificiale possa essere plasmato anche da organizzazioni più snelle e focalizzate. Una visione che ridisegna le possibilità per il settore, aprendo le porte a una competizione più equa e diversificata.
Prima considerazione: open source vs. closed source
La forza di DeepSeek-R1 non risiede esclusivamente nella sua capacità di competere con modelli più costosi e prestigiosi, ma nel fatto che è open source. Questo elemento segna un punto a favore dell’apertura in un settore dominato da soluzioni chiuse, spesso descritte come “scatole nere” che limitano trasparenza, adattabilità e innovazione da parte della comunità scientifica e delle aziende.
DeepSeek-R1 è stato pubblicato con pesi aperti sotto licenza MIT, rendendolo liberamente accessibile per usi commerciali, accademici e personali. Sebbene la trasparenza non sia completa (i dataset di addestramento non sono stati rilasciati), il livello di apertura supera di gran lunga quello di modelli come OpenAI o1 o il prossimo o3, che rimangono chiusi e inaccessibili nei loro dettagli operativi. La comunità scientifica ha accolto con entusiasmo questa decisione: DeepSeek-R1 non è solo uno strumento, ma una piattaforma di ricerca che consente agli utenti di esplorare il modello, comprendere i suoi meccanismi interni e sviluppare nuove applicazioni basate su di esso.
In questo contesto la vera competizione non è banalmente tra Stati Uniti e Cina, ma tra modelli open source e modelli chiusi. DeepSeek dimostra che l’open source può democratizzare l’intelligenza artificiale, consentendo a sviluppatori, accademici e aziende di accedere a strumenti potenti senza le barriere tipiche dei modelli proprietari. Questo approccio ha reso DeepSeek-R1 uno strumento versatile, già utilizzato in tutto il mondo per applicazioni che spaziano dalla ricerca accademica alle soluzioni industriali.
L’apertura di DeepSeek-R1 ha implicazioni importanti anche per il progresso scientifico. Grazie alla capacità del modello di mostrare l’intera “catena di pensiero” (chain of thought) durante la risoluzione dei problemi, i ricercatori possono identificare errori e migliorare le sue prestazioni. Mario Krenn del Max Planck Institute ha sottolineato come questa trasparenza abbia già stimolato nuovi esperimenti in campi come la chimica e l’ottica quantistica. Al contrario, i modelli chiusi, come quelli di OpenAI, limitano queste opportunità, frenando la collaborazione e l’innovazione.
Un altro elemento chiave è l’efficienza di DeepSeek. L’azienda ha rilasciato versioni “distillate” del modello, che richiedono meno risorse computazionali, rendendolo accessibile anche a chi dispone di budget e infrastrutture limitati. Questo approccio non solo riduce i costi per gli utenti, ma garantisce maggiore controllo e flessibilità nelle personalizzazioni, un vantaggio enorme rispetto ai modelli chiusi che spesso richiedono accordi complessi e costosi.
Seconda considerazione: l’egemonia americana si sta incrinando
DeepSeek-R1 segna un punto di svolta nel panorama globale dell’intelligenza artificiale, dimostrando che la qualità tecnologica non è più un’esclusiva del mondo occidentale, e in particolare degli Stati Uniti. Questo modello dimostra che l’innovazione può emergere da contesti diversi, con approcci unici che massimizzano l’efficienza e minimizzano i costi.
Per anni il settore dell’AI è stato dominato da “big” americani come Google, Microsoft e Amazon, che hanno investito miliardi di dollari e costruito infrastrutture mastodontiche. Poi è arrivato DeepSeek a sfidare, con apparente successo, questa narrazione. Il modello cinese non solo ha raggiunto risultati comparabili con i leader del settore, ma lo ha fatto utilizzando una frazione delle risorse.
Oltretutto, questo successo non è isolato, ma riflette una tendenza più ampia nel panorama dell’intelligenza artificiale cinese. Anche altri modelli, come Doubao-1.5-pro di ByteDance (l’azienda di TikTok), hanno dimostrato che è possibile ottenere alte prestazioni con costi contenuti. Doubao-1.5-pro, per continuare l’esempio, utilizza un’architettura Mixture-of-Experts (MoE) che riduce significativamente il carico computazionale, raggiungendo capacità paragonabili a quelle di GPT-4o, ma con costi operativi fino a 200 volte inferiori rispetto ai modelli di OpenAI.
Questo non significa che i modelli occidentali siano destinati al declino, ma pone fine all’idea che solo gli Stati Uniti possano guidare l’innovazione tecnologica. DeepSeek dimostra che la creatività e l’ingegno possono competere con la potenza infrastrutturale, sfidando la supremazia americana e aprendo la strada a una competizione più equa e globale.
In definitiva, DeepSeek-R1 non rappresenta solo un successo tecnico, ma una svolta culturale: un esempio di come l’innovazione possa fiorire anche in condizioni sfidanti, dimostrando che il futuro dell’intelligenza artificiale sarà definito non solo dai giganti, ma anche da attori agili e visionari.
Terza considerazione: troppi soldi impigriscono anche la ricerca d’avanguardia
(non di solo scaling vive l’AI)
Negli ultimi anni, i principali laboratori occidentali di intelligenza artificiale, come OpenAI, Google e Microsoft, hanno abbracciato una strategia che punta sullo scaling massiccio dei modelli. Questo paradigma si fonda sull’idea che i progressi nell’AI dipendano principalmente dall’aumento della potenza computazionale e delle dimensioni dei modelli, spingendo così enormi investimenti nella costruzione di data center e nell’acquisizione di GPU. Tuttavia, esempi come quello di DeepSeek stanno dimostrando che questa visione potrebbe essere non solo limitante, ma anche il risultato di un sistema viziato dall’abbondanza di risorse economiche.
La disponibilità di finanziamenti quasi illimitati ha portato i giganti occidentali a sacrificare efficienza e ottimizzazione in favore di approcci che privilegiano l’accumulo di risorse. Per aziende come OpenAI, i budget colossali non incentivano la riduzione dei costi di sviluppo, poiché i loro modelli di business si basano su un ciclo perpetuo di investimenti miliardari e crescenti consumi di risorse (non dimentichiamo che OpenAI ancora non ha trovato un modo per generare profitti). Questo sistema ha generato una certa inerzia innovativa, dove l’obiettivo principale sembra essere solo “fare più grande” anziché “fare meglio”.
Le conseguenze di questa dipendenza dallo scaling non sono solo economiche, ma anche ambientali, come ricorda la giornalista Karen Hao su LinkedIn. La costruzione di data center sempre più grandi richiede enormi quantità di energia e acqua, aggravando i problemi locali legati alla fornitura di energia e contribuendo significativamente alle emissioni di carbonio. Ad esempio, le emissioni di Microsoft e Google sono aumentate rispettivamente del 30% e del 50% negli ultimi anni proprio per via dell’espansione delle loro infrastrutture. In questo contesto, DeepSeek offre un’alternativa concreta: dimostra che non è necessario consumare risorse in modo spropositato per raggiungere risultati di alto livello.
Questa situazione solleva interrogativi fondamentali: è davvero lo scaling massiccio la strada migliore per sviluppare l’intelligenza artificiale? O si tratta di una scelta più commerciale che scientifica? Come osservato da alcuni critici, non esiste alcuna legge fisica che imponga che il progresso nell’AI debba derivare da una crescita esponenziale delle risorse computazionali. Al contrario, l’esperienza di DeepSeek dimostra che innovazioni algoritmiche e ottimizzazioni strategiche possono produrre risultati altrettanto validi, se non migliori, rispetto all’aumento indiscriminato delle dimensioni dei modelli.
L’esperienza di DeepSeek dovrebbe essere un campanello d’allarme per l’intero settore. L’abbondanza di risorse nei laboratori occidentali ha probabilmente generato un falso senso di inevitabilità attorno al paradigma dello scaling, ma esempi come DeepSeek-R1 dimostrano che esistono percorsi alternativi.
Una sveglia anche per l’Europa
DeepSeek-R1 non è solo un risultato tecnico notevole, ma una lezione per l’intera industria dell’intelligenza artificiale: non è necessario seguire ciecamente il paradigma dello scaling massiccio per innovare. Il caso DeepSeek dimostra che vincoli e limitazioni possono trasformarsi in potenti catalizzatori per la creatività e l’ottimizzazione. Questo modello, nato in un contesto di risorse limitate, dimostra che è possibile competere con i giganti del settore grazie a strategie intelligenti che valorizzano l’efficienza e l’innovazione.
La storia di DeepSeek ci invita a riflettere anche sul ruolo dell’Europa nel panorama globale dell’innovazione AI. Troppo spesso il dibattito europeo si concentra sul divario tecnologico con gli Stati Uniti, accettando passivamente la loro supremazia. Ma il recente esempio dimostra che non è la quantità di risorse a fare la differenza, bensì la capacità di utilizzarle in modo strategico e creativo. L’Europa, con il suo ampio bacino di talenti scientifici e tecnologici, potrebbe ritagliarsi un ruolo di primo piano puntando su soluzioni sostenibili, collaborative ed efficienti.
La partita dell’intelligenza artificiale non è affatto chiusa. DeepSeek ci mostra che ci sono ancora molte strade da esplorare, molte di esse lontane dai grandi data center e dagli investimenti miliardari. È una lezione che il settore non dovrebbe ignorare, perché il vero progresso non si misura solo in termini di potenza computazionale, ma nella capacità di trasformare le sfide in opportunità.
Luca Sambucci per Notizie.Ai
Nessun commento:
Posta un commento