La società di intelligenza artificiale cinese (AI) Deepseek ha inviato onde d'urto attraverso la comunità tecnologica , con il rilascio di modelli AI estremamente efficienti che possono competere con prodotti all'avanguardia da aziende statunitensi come Openai e Antropic.
Fondata nel 2023, DeepSeek ha raggiunto i suoi risultati con una frazione della potenza di liquidità e calcolo dei suoi concorrenti.
Il modello R1 di "Ragionamento" di Deepseek, pubblicato la scorsa settimana, ha provocato l'eccitazione tra i ricercatori, lo shock tra gli investitori e le risposte dei pesi massimi AI. La società ha seguito il 28 gennaio con un modello che può funzionare con immagini e testo.
L'R1 di Deepseek è un modello impressionante, in particolare attorno a ciò che sono in grado di fornire per il prezzo.
- Sam Altman (@sama) 28 gennaio 2025
Ovviamente forniremo modelli molto migliori e anche legittimo corroborante avere un nuovo concorrente! Ottieremo alcune versioni.
Allora cosa ha fatto DeepSeek e come ha fatto?
Cosa ha fatto DeepSeek
A dicembre, DeepSeek ha pubblicato il suo modello V3 . Questo è un modello di linguaggio grande "standard" molto potente che si comporta a un livello simile a GPT-4O di Openi e Claude 3.5 di Antropic.
Mentre questi modelli sono soggetti a errori e talvolta costituiscono i propri fatti , possono svolgere attività come rispondere a domande, scrivere saggi e generare codice informatico. In alcuni test di risoluzione dei problemi e ragionamento matematico, ottengono un punteggio migliore dell'umano medio.
V3 è stato addestrato ad un costo segnalato di circa 5,58 milioni di dollari. Questo è drasticamente più economico di GPT-4, ad esempio, che costano più di $ 100 milioni per lo sviluppo.
DeepSeek afferma inoltre di aver addestrato V3 utilizzando circa 2.000 chip di computer specializzati, in particolare GPU H800 realizzati da Nvidia . Questo è di nuovo molto meno rispetto ad altre società, che potrebbero aver usato fino a 16.000 dei più potenti chip H100.
Il 20 gennaio, Deepseek ha rilasciato un altro modello, chiamato R1 . Questo è un cosiddetto modello di "ragionamento", che cerca di lavorare attraverso problemi complessi passo dopo passo. Questi modelli sembrano essere migliori in molti compiti che richiedono contesto e hanno più parti interrelate, come la comprensione della lettura e la pianificazione strategica.
Il modello R1 è una versione ottimizzata di V3, modificata con una tecnica chiamata Rinformance Learning. R1 sembra funzionare a un livello simile a O1 di Openi , rilasciato l'anno scorso.
DeepSeek ha anche usato la stessa tecnica per realizzare versioni di "ragionamento" di piccoli modelli open source che possono funzionare sui computer domestici.
Questa versione ha suscitato un enorme aumento di interesse per DeepSeek, aumentando la popolarità della sua app di chatbot alimentata da V3 e innescando un enorme crollo dei prezzi nelle azioni tecnologiche mentre gli investitori rivalutano l'industria dell'intelligenza artificiale. Al momento della stesura di scrittura, il chipmaker Nvidia ha perso circa 600 miliardi di dollari di valore.
Quanto ha fatto DeepSeek
Le scoperte di DeepSeek sono state nel raggiungimento di una maggiore efficienza: ottenere buoni risultati con meno risorse. In particolare, gli sviluppatori di Deepseek hanno aperto la strada a due tecniche che possono essere adottate dai ricercatori di AI in modo più ampio.
Il primo ha a che fare con un'idea matematica chiamata "scarsità". I modelli AI hanno molti parametri che determinano le loro risposte agli input (V3 ha circa 671 miliardi), ma solo una piccola frazione di questi parametri viene utilizzata per ogni dato input.
Tuttavia, prevedere quali parametri saranno necessari non è facile. DeepSeek ha usato una nuova tecnica per farlo, quindi ha addestrato solo quei parametri. Di conseguenza, i suoi modelli avevano bisogno di una formazione molto meno di un approccio convenzionale.
L'altro trucco ha a che fare con il modo in cui V3 memorizza le informazioni nella memoria del computer. DeepSeek ha trovato un modo intelligente per comprimere i dati pertinenti, quindi è più facile archiviare e accedere rapidamente.
Cosa significa
I modelli e le tecniche di DeepSeek sono stati rilasciati con la licenza MIT , il che significa che chiunque può scaricarli e modificarli.
Contenuti dei nostri partner
Sebbene questa possa essere una cattiva notizia per alcune aziende di intelligenza artificiale - i cui profitti potrebbero essere erosi dall'esistenza di modelli liberamente disponibili e potenti - è una grande notizia per la più ampia comunità di ricerca AI.
Al momento, molte ricerche sull'intelligenza artificiale richiedono l'accesso a enormi quantità di risorse di elaborazione. Ricercatori come me che si trovano nelle università (o ovunque tranne le grandi aziende tecnologiche) hanno avuto una capacità limitata di eseguire test ed esperimenti.
Modelli e tecniche più efficienti cambiano la situazione. La sperimentazione e lo sviluppo possono ora essere significativamente più facili per noi.
Per i consumatori, l'accesso all'IA può anche diventare più economico. Più modelli di intelligenza artificiale possono essere eseguiti sui dispositivi propri degli utenti, come laptop o telefoni, piuttosto che eseguire "nel cloud" per una quota di abbonamento.
Per i ricercatori che hanno già molte risorse, una maggiore efficienza può avere meno effetto. Non è chiaro se l'approccio di DeepSeek aiuterà a rendere modelli con prestazioni migliori nel complesso o semplicemente modelli più efficienti.
Tongliang Liu, professore associato di apprendimento automatico e direttore del Sydney AI Center, Università di Sydney
Questo articolo è ripubblicato dalla conversazione con una licenza Creative Commons. Leggi l' articolo originale .