Syarikat kecerdasan buatan Cina (AI) DeepSeek telah menghantar gelombang kejutan melalui komuniti teknologi , dengan pembebasan model AI yang sangat cekap yang dapat bersaing dengan produk canggih dari syarikat AS seperti OpenAI dan Antropik.
Ditubuhkan pada tahun 2023, DeepSeek telah mencapai keputusannya dengan sebahagian kecil daripada wang tunai dan kuasa pengkomputeran pesaingnya.
Model R1 "pemikiran" Deepseek, yang dikeluarkan minggu lalu, menimbulkan kegembiraan di kalangan penyelidik, kejutan di kalangan pelabur, dan tanggapan dari kelas berat AI. Syarikat itu diikuti pada 28 Januari dengan model yang boleh berfungsi dengan imej serta teks.
R1 Deepseek adalah model yang mengagumkan, terutamanya di sekitar apa yang mereka dapat menyampaikan untuk harga.
- Sam Altman (@Sama) 28 Januari 2025
Kami jelas akan menyampaikan model yang lebih baik dan juga legit yang menyegarkan untuk mempunyai pesaing baru! Kami akan menarik beberapa siaran.
Jadi apa yang telah dilakukan Deepseek, dan bagaimana ia melakukannya?
Apa yang Deepseek lakukan
Pada bulan Disember, DeepSeek mengeluarkan model V3nya . Ini adalah model bahasa besar "standard" yang sangat kuat yang dilakukan pada tahap yang sama dengan GPT-4O OpenAI dan Anthropic's Claude 3.5.
Walaupun model -model ini terdedah kepada kesilapan dan kadang -kadang membentuk fakta mereka sendiri , mereka boleh menjalankan tugas seperti menjawab soalan, menulis esei dan menghasilkan kod komputer. Mengenai beberapa ujian penyelesaian masalah dan matematik, mereka menjaringkan lebih baik daripada purata manusia.
V3 dilatih dengan kos yang dilaporkan kira -kira AS $ 5.58 juta. Ini secara dramatik lebih murah daripada GPT-4, contohnya, yang lebih mahal daripada AS $ 100 juta untuk berkembang.
DeepSeek juga mendakwa telah melatih V3 menggunakan sekitar 2,000 cip komputer khusus, khususnya H800 GPU yang dibuat oleh Nvidia . Ini sekali lagi lebih sedikit daripada syarikat lain, yang mungkin telah menggunakan sehingga 16,000 cip H100 yang lebih kuat.
Pada 20 Januari, DeepSeek mengeluarkan model lain, yang dipanggil R1 . Ini adalah model yang dipanggil "penalaran", yang cuba untuk bekerja melalui masalah kompleks langkah demi langkah. Model -model ini kelihatan lebih baik pada banyak tugas yang memerlukan konteks dan mempunyai banyak bahagian yang saling berkaitan, seperti pemahaman membaca dan perancangan strategik.
Model R1 adalah versi tweak V3, diubahsuai dengan teknik yang dipanggil pembelajaran tetulang. R1 nampaknya berfungsi pada tahap yang sama dengan Openai's O1 , yang dikeluarkan tahun lepas.
DeepSeek juga menggunakan teknik yang sama untuk membuat versi "pemikiran" model sumber terbuka kecil yang boleh dijalankan di komputer rumah.
Siaran ini telah mencetuskan peningkatan minat yang besar di Deepseek, memacu populariti aplikasi chatbot berkuasa V3 dan mencetuskan kemalangan harga besar-besaran dalam stok teknologi sebagai pelabur menilai semula industri AI. Pada masa penulisan, pembuat Chip Nvidia telah kehilangan sekitar nilai AS $ 600 bilion.
Betapa Deepseek melakukannya
Terobosan Deepseek telah mencapai kecekapan yang lebih besar: Mendapatkan hasil yang baik dengan sumber yang lebih sedikit. Khususnya, pemaju DeepSeek telah mempelopori dua teknik yang boleh diterima pakai oleh penyelidik AI lebih luas.
Yang pertama mempunyai kaitan dengan idea matematik yang disebut "sparsity". Model AI mempunyai banyak parameter yang menentukan respons mereka terhadap input (V3 mempunyai sekitar 671 bilion), tetapi hanya sebahagian kecil daripada parameter ini digunakan untuk sebarang input yang diberikan.
Walau bagaimanapun, meramalkan parameter mana yang diperlukan tidak mudah. DeepSeek menggunakan teknik baru untuk melakukan ini, dan kemudian melatih hanya parameter tersebut. Akibatnya, modelnya memerlukan latihan yang jauh lebih rendah daripada pendekatan konvensional.
Trik lain mempunyai kaitan dengan bagaimana V3 menyimpan maklumat dalam memori komputer. DeepSeek telah menemui cara pintar untuk memampatkan data yang berkaitan, jadi lebih mudah untuk menyimpan dan mengakses dengan cepat.
Apa maksudnya
Model dan teknik DeepSeek telah dikeluarkan di bawah lesen MIT , yang bermaksud sesiapa sahaja boleh memuat turun dan mengubahnya.
Kandungan daripada rakan kongsi kami
Walaupun ini mungkin berita buruk bagi sesetengah syarikat AI - yang keuntungannya mungkin terhakis oleh kewujudan model yang tersedia secara bebas dan kuat - berita baik untuk komuniti penyelidikan AI yang lebih luas.
Pada masa ini, banyak penyelidikan AI memerlukan akses kepada sejumlah besar sumber pengkomputeran. Penyelidik seperti saya yang berpusat di universiti (atau di mana sahaja kecuali syarikat teknologi besar) mempunyai keupayaan terhad untuk menjalankan ujian dan eksperimen.
Model dan teknik yang lebih cekap mengubah keadaan. Eksperimen dan pembangunan kini mungkin lebih mudah bagi kami.
Bagi pengguna, akses kepada AI juga boleh menjadi lebih murah. Lebih banyak model AI boleh dijalankan pada peranti pengguna sendiri, seperti komputer riba atau telefon, dan bukannya menjalankan "di awan" untuk yuran langganan.
Bagi penyelidik yang sudah mempunyai banyak sumber, lebih banyak kecekapan mungkin kurang memberi kesan. Tidak jelas sama ada pendekatan DeepSeek akan membantu membuat model dengan prestasi yang lebih baik secara keseluruhan, atau hanya model yang lebih cekap.
Tongliang Liu, Profesor Madya Pembelajaran Mesin dan Pengarah Pusat Sydney AI, University of Sydney
Artikel ini diterbitkan semula dari perbualan di bawah lesen Creative Commons. Baca artikel asal .