Model Bahasa Besar Deepseek baru China (LLM) telah mengganggu pasaran yang didominasi AS , yang menawarkan model chatbot berprestasi tinggi dengan kos yang jauh lebih rendah.
Kos pembangunan yang dikurangkan dan harga langganan yang lebih rendah berbanding dengan alat AI AS yang menyumbang kepada pembuat cip Amerika NVIDIA kehilangan US $ 600 bilion (£ 480 bilion) dalam nilai pasaran selama satu hari. NVIDIA membuat cip komputer digunakan untuk melatih majoriti LLM, teknologi asas yang digunakan dalam chatgpt dan chatbots AI yang lain. DeepSeek menggunakan cip Nvidia H800 yang lebih murah ke atas versi canggih yang lebih mahal.
Pemaju Chatgpt Openai dilaporkan menghabiskan masa antara AS $ 100 juta dan US $ 1 bilion pada pembangunan versi produknya yang sangat baru -baru ini yang dipanggil O1. Sebaliknya, DeepSeek mencapai latihannya dalam masa dua bulan dengan kos sebanyak AS $ 5.6 juta menggunakan satu siri inovasi pintar.
Tetapi seberapa baik DeepSeek's AI Chatbot, R1, bandingkan dengan alat AI yang lain, yang serupa dengan prestasi?
DeepSeek mendakwa modelnya berbanding dengan tawaran Openai, walaupun melebihi model O1 dalam ujian penanda aras tertentu. Walau bagaimanapun, tanda aras yang menggunakan ujian bahasa multitask yang besar (MMLU) menilai pengetahuan merentasi pelbagai subjek menggunakan pelbagai soalan pilihan. Ramai LLM dilatih dan dioptimumkan untuk ujian sedemikian, menjadikannya tidak boleh dipercayai sebagai petunjuk sebenar prestasi dunia sebenar.
Metodologi alternatif untuk penilaian objektif LLMS menggunakan satu set ujian yang dibangunkan oleh penyelidik di universiti Cardiff Metropolitan, Bristol dan Cardiff - dikenali secara kolektif sebagai Kumpulan Pemerhatian Pengetahuan (KOG). Ujian ini menyiasat keupayaan untuk meniru bahasa dan pengetahuan manusia melalui soalan yang memerlukan pemahaman manusia yang tersirat untuk dijawab. Ujian teras dirahsiakan, untuk mengelakkan syarikat LLM melatih model mereka untuk ujian ini.
KOG mengerahkan ujian awam yang diilhamkan oleh kerja oleh Colin Fraser, seorang saintis data di Meta , untuk menilai DeepSeek terhadap LLM lain. Keputusan berikut diperhatikan:
Ujian yang digunakan untuk menghasilkan jadual ini adalah "musuh". Dalam erti kata lain, mereka direka untuk menjadi "keras" dan untuk menguji LLM dengan cara yang tidak bersimpati dengan cara mereka direka. Ini bermakna prestasi model -model ini dalam ujian ini mungkin berbeza dengan prestasi mereka dalam ujian penanda aras arus perdana.
DeepSeek menjaringkan 5.5 daripada 6, mengatasi Openai's O1-model penalaran lanjutan (dikenali sebagai "rantai-of-shought")-serta Chatgpt-4o, versi percuma ChatGPT. Tetapi Deepseek sedikit lebih baik daripada Claudeai dan Openai's O1 Mini, yang kedua -duanya menjaringkan 6/6 yang sempurna. Adalah menarik bahawa O1 kurang berprestasi terhadap rakan sejawatannya yang "lebih kecil", O1 Mini.
Deepthink R1-alat AI yang dipikirkan rantaian yang dibuat oleh DeepSeek-kurang baik berbanding dengan DeepSeek dengan skor 3.5.
Hasil ini menunjukkan bagaimana chatbot DeepSeek yang kompetitif sudah, mengalahkan model perdana Openai. Ia mungkin merangsang pembangunan lebih lanjut untuk Deepseek, yang kini mempunyai asas yang kukuh untuk dibina. Walau bagaimanapun, syarikat teknologi Cina mempunyai satu masalah yang serius yang LLM lain tidak: penapisan.
Cabaran penapisan
Walaupun prestasi dan populariti yang kuat, DeepSeek telah menghadapi kritikan terhadap tindak balasnya terhadap topik sensitif politik di China. Sebagai contoh, meminta yang berkaitan dengan Tiananmen Square, Taiwan, Uyghur Muslim dan pergerakan demokratik dipenuhi dengan respons: "Maaf, itu adalah di luar skop saya sekarang."
Tetapi isu ini tidak semestinya unik untuk Deepseek, dan potensi untuk pengaruh politik dan penapisan di LLMs lebih umum adalah kebimbangan yang semakin meningkat. Pengumuman projek Donald Trump $ 500 bilion Stargate LLM , yang melibatkan Openai, Nvidia, Oracle, Microsoft, dan ARM, juga menimbulkan ketakutan terhadap pengaruh politik.
Di samping itu, keputusan META baru-baru ini untuk meninggalkan pemeriksaan fakta di Facebook dan Instagram mencadangkan trend yang semakin meningkat ke arah populisme atas kebenaran.
Kandungan daripada rakan kongsi kami
Ketibaan Deepseek telah menyebabkan gangguan serius ke pasaran LLM. Syarikat -syarikat AS seperti OpenAI dan Anthropic akan dipaksa untuk berinovasi produk mereka untuk mengekalkan kaitan dan memadankan prestasi dan kosnya.
Kejayaan DeepSeek sudah mencabar status quo, menunjukkan bahawa model LLM berprestasi tinggi boleh dibangunkan tanpa belanjawan bilion dolar. Ia juga menyoroti risiko penapisan LLM, penyebaran maklumat salah, dan mengapa penilaian bebas.
Memandangkan LLM menjadi lebih tertanam dalam politik dan perniagaan global, ketelusan dan akauntabiliti akan menjadi penting untuk memastikan bahawa masa depan LLM adalah selamat, berguna dan boleh dipercayai.
Simon Thorne, Pensyarah Kanan dalam Sistem Pengkomputeran dan Maklumat, Cardiff Metropolitan University
Artikel ini diterbitkan semula dari perbualan di bawah lesen Creative Commons. Baca artikel asal .