Il nuovo Modello di linguaggio di DEEPEEK della Cina (LLM) ha interrotto il mercato dominato dagli Stati Uniti , offrendo un modello di chatbot relativamente ad alte prestazioni a costi significativamente più bassi.
Il costo ridotto di sviluppo e i prezzi di abbonamento più bassi rispetto agli strumenti USA AI hanno contribuito al produttore di chip americano Nvidia perdendo $ 600 miliardi (£ 480 miliardi) di valore di mercato per un giorno. NVIDIA rende i chip del computer utilizzati per addestrare la maggior parte degli LLM, la tecnologia sottostante utilizzata in Chatgpt e in altri chatbot di AI. DeepSeek utilizza chip Nvidia H800 più economici sulle versioni all'avanguardia più costose.
Secondo quanto riferito, lo sviluppatore di CHATGPT Openai ha speso tra 100 milioni di dollari e 1 miliardo di dollari per lo sviluppo di una versione molto recente del suo prodotto chiamato O1. Al contrario, DeepSeek ha realizzato la sua formazione in soli due mesi al costo di 5,6 milioni di dollari utilizzando una serie di innovazioni intelligenti.
Ma quanto bene si confronta con AI Chatbot di Deepseek, R1, con altri strumenti di intelligenza artificiale simili sulle prestazioni?
DeepSeek afferma che i suoi modelli si comportano comparabilmente alle offerte di Openi, anche superando il modello O1 in alcuni test di riferimento. Tuttavia, i parametri di riferimento che utilizzano test di comprensione della lingua multitasking (MMLU) utilizzano la conoscenza di più argomenti utilizzando domande a scelta multipla. Molti LLM sono addestrati e ottimizzati per tali test, rendendoli inaffidabili come veri indicatori di prestazioni del mondo reale.
Una metodologia alternativa per la valutazione obiettiva di LLMS utilizza una serie di test sviluppati dai ricercatori delle università di Cardiff Metropolitan, Bristol e Cardiff - noto collettivamente come il gruppo di osservazione della conoscenza (KOG). Questi test sondano la capacità di LLMS di imitare il linguaggio e la conoscenza umani attraverso domande che richiedono una comprensione umana implicita per rispondere. I test di base sono tenuti segreti, per evitare che le aziende LLM addestrassero i loro modelli per questi test.
KOG ha distribuito test pubblici ispirati al lavoro di Colin Fraser, uno scienziato di dati di Meta , per valutare DeepSeek contro altri LLM. Sono stati osservati i seguenti risultati:
I test utilizzati per produrre questa tabella sono di natura "contraddittoria". In altre parole, sono progettati per essere "difficili" e per testare LLM in modo che non siano solidali per il modo in cui sono progettati. Ciò significa che le prestazioni di questi modelli in questo test sono probabilmente diverse dalle loro prestazioni nei test di benchmarking tradizionale.
DeepSeek ha segnato 5,5 su 6, sovraperformando l'O1 di Openi-il suo modello avanzato (noto come modello "catena di pensiero")-così come Chatgpt-4o, la versione gratuita di CHATGPT. Ma DeepEek è stato marginalmente sovraperformato da Claudeai di Antropico e O1 Mini di Openi, entrambi i quali hanno segnato un perfetto 6/6. È interessante che O1 abbia sottoperformato contro la sua controparte "più piccola", O1 Mini.
Deepthink R1-Uno strumento AI della catena di pensiero realizzato da DeepSeek-sottoperformato rispetto a DeepSeek con un punteggio di 3,5.
Questo risultato mostra quanto sia già competitivo il chatbot di Deepseek, battendo i modelli di punta di Openi. È probabile che stimoli ulteriormente lo sviluppo per DeepSeek, che ora ha una solida base su cui costruire. Tuttavia, la società tecnologica cinese ha un problema serio che gli altri LLM non fanno: censura.
Sfide di censura
Nonostante la sua forte performance e popolarità, DeepSeek ha subito critiche sulle sue risposte a argomenti politicamente sensibili in Cina. Ad esempio, i suggerimenti relativi a Tiananmen Square, Taiwan, Musulmani Uyghur e movimenti democratici sono accolti con la risposta: "Mi dispiace, questo è oltre il mio ambito attuale".
Ma questo problema non è necessariamente unico per DeepSeek e il potenziale per l'influenza politica e la censura negli LLM più in generale è una preoccupazione crescente. progetto Stargate LLM da 500 miliardi di dollari di Donald Trump , che coinvolge Openai, Nvidia, Oracle, Microsoft e ARM, solleva anche timori di influenza politica.
Inoltre, la recente decisione di Meta di abbandonare il controllo dei fatti su Facebook e Instagram suggerisce una tendenza crescente verso il populismo sulla veridicità.
Contenuti dei nostri partner
L'arrivo di Deepseek ha causato gravi interruzioni del mercato LLM. Le aziende statunitensi come Openai e Antropic saranno costrette a innovare i loro prodotti per mantenere la pertinenza e abbinare le sue prestazioni e i suoi costi.
Il successo di Deepseek sta già sfidando lo status quo, dimostrando che i modelli LLM ad alte prestazioni possono essere sviluppati senza budget da miliardi di dollari. Sottolinea inoltre i rischi della censura LLM, la diffusione della disinformazione e perché le valutazioni indipendenti sono importanti.
Man mano che gli LLM diventano più profondamente incorporati nella politica e negli affari globali, la trasparenza e la responsabilità saranno essenziali per garantire che il futuro degli LLM sia sicuro, utile e affidabile.
Simon Thorne, docente senior in Sistemi informatici e informatici, Università Metropolitan di Cardiff
Questo articolo è ripubblicato dalla conversazione con una licenza Creative Commons. Leggi l' articolo originale .