Ang Chinese Artipisyal na Intelligence (AI) Company Deepseek ay nagpadala ng mga shockwaves sa pamamagitan ng tech na komunidad , kasama ang pagpapalabas ng mga napaka-mahusay na mga modelo ng AI na maaaring makipagkumpetensya sa mga produktong pagputol mula sa mga kumpanya ng US tulad ng OpenAi at Anthropic.
Itinatag noong 2023, nakamit ng Deepseek ang mga resulta nito na may isang maliit na bahagi ng cash at computing power ng mga katunggali nito.
Ang "pangangatuwiran" na modelo ng R1 ng Deepseek, na inilabas noong nakaraang linggo, ay nagtulak ng kaguluhan sa mga mananaliksik, pagkabigla sa mga namumuhunan, at mga tugon mula sa mga bigat ng AI. Sinundan ang kumpanya noong Enero 28 na may isang modelo na maaaring gumana sa mga imahe pati na rin ang teksto.
Ang Deepseek's R1 ay isang kahanga -hangang modelo, lalo na sa paligid ng kung ano ang kanilang maihatid para sa presyo.
- Sam Altman (@sama) Enero 28, 2025
Malinaw na maghahatid kami ng mas mahusay na mga modelo at din ito ay lehitimo na magkaroon ng isang bagong katunggali! Hihila kami ng ilang mga paglabas.
Kaya ano ang nagawa ng Deepseek, at paano ito nagawa?
Ano ang ginawa ni Deepseek
Noong Disyembre, pinakawalan ng Deepseek ang modelo ng V3 . Ito ay isang napakalakas na "pamantayang" malaking modelo ng wika na gumaganap sa isang katulad na antas sa GPT-4O ng OpenAi at Claude ng Anthropic 3.5.
Habang ang mga modelong ito ay madaling kapitan ng mga pagkakamali at kung minsan ay bumubuo ng kanilang sariling mga katotohanan , maaari silang magsagawa ng mga gawain tulad ng pagsagot sa mga katanungan, pagsulat ng mga sanaysay at pagbuo ng computer code. Sa ilang mga pagsubok sa paglutas ng problema at pangangatuwiran sa matematika, mas mahusay ang marka nila kaysa sa average na tao.
Ang V3 ay sinanay sa isang naiulat na gastos na halos US $ 5.58 milyon. Ito ay kapansin-pansing mas mura kaysa sa GPT-4, halimbawa, na nagkakahalaga ng higit sa US $ 100 milyon upang mabuo.
Inaangkin din ng Deepseek na sinanay ang V3 gamit ang halos 2,000 dalubhasang mga computer chips, partikular na ang mga H800 GPU na ginawa ng NVIDIA . Ito ay muli mas kaunti kaysa sa iba pang mga kumpanya, na maaaring gumamit ng hanggang sa 16,000 ng mas malakas na H100 chips.
On January 20, DeepSeek released another model, called R1 . Ito ay isang tinatawag na "pangangatuwiran" na modelo, na sumusubok na magtrabaho sa pamamagitan ng mga kumplikadong problema nang hakbang-hakbang. Ang mga modelong ito ay tila mas mahusay sa maraming mga gawain na nangangailangan ng konteksto at may maraming magkakaugnay na mga bahagi, tulad ng pag -unawa sa pagbabasa at pagpaplano ng estratehikong.
Ang modelo ng R1 ay isang naka -tweak na bersyon ng V3, na binago sa isang pamamaraan na tinatawag na pag -aaral ng pampalakas. Ang R1 ay lilitaw na gumana sa isang katulad na antas sa OpenAi's O1 , na inilabas noong nakaraang taon.
Ginamit din ng Deepseek ang parehong pamamaraan upang gumawa ng mga "pangangatuwiran" na mga bersyon ng mga maliliit na open-source na modelo na maaaring tumakbo sa mga computer sa bahay.
Ang paglabas na ito ay nagdulot ng isang malaking pag-agos ng interes sa Deepseek, na nagmamaneho ng katanyagan ng V3 na pinapagana ng chatbot app at nag-trigger ng isang napakalaking pag-crash ng presyo sa mga stock ng tech habang sinuri muli ng mga namumuhunan ang industriya ng AI. Sa oras ng pagsulat, ang Chipmaker Nvidia ay nawala sa paligid ng US $ 600 bilyon na halaga.
Gaano kalalim ito
Ang mga breakthrough ng Deepseek ay nakamit ang higit na kahusayan: pagkuha ng magagandang resulta na may mas kaunting mga mapagkukunan. Sa partikular, ang mga developer ng Deepseek ay nagpayunir ng dalawang pamamaraan na maaaring pinagtibay ng mga mananaliksik ng AI.
Ang una ay may kinalaman sa isang ideya sa matematika na tinatawag na "sparsity". Ang mga modelo ng AI ay may maraming mga parameter na tumutukoy sa kanilang mga tugon sa mga input (ang V3 ay may halos 671 bilyon), ngunit isang maliit na bahagi lamang ng mga parameter na ito ang ginagamit para sa anumang naibigay na input.
Gayunpaman, ang paghula kung aling mga parameter ang kakailanganin ay hindi madali. Gumamit ang Deepseek ng isang bagong pamamaraan upang gawin ito, at pagkatapos ay sinanay lamang ang mga parameter na iyon. Bilang isang resulta, ang mga modelo nito ay nangangailangan ng mas kaunting pagsasanay kaysa sa isang maginoo na diskarte.
Ang iba pang trick ay may kinalaman sa kung paano nag -iimbak ng impormasyon ang V3 sa memorya ng computer. Natagpuan ng Deepseek ang isang matalino na paraan upang i -compress ang may -katuturang data, kaya mas madaling mag -imbak at mabilis na ma -access.
Ano ang ibig sabihin nito
Ang mga modelo at pamamaraan ng DeepSeek ay pinakawalan sa ilalim ng libreng lisensya ng MIT , na nangangahulugang ang sinuman ay maaaring mag -download at baguhin ang mga ito.
Nilalaman mula sa aming mga kasosyo
Habang ito ay maaaring masamang balita para sa ilang mga kumpanya ng AI - na ang kita ay maaaring mabura sa pagkakaroon ng malayang magagamit, malakas na mga modelo - ito ay mahusay na balita para sa mas malawak na pamayanan ng pananaliksik ng AI.
Sa kasalukuyan, maraming pananaliksik sa AI ang nangangailangan ng pag -access sa napakalaking halaga ng mga mapagkukunan ng computing. Ang mga mananaliksik tulad ng aking sarili na nakabase sa mga unibersidad (o kahit saan maliban sa mga malalaking kumpanya ng tech) ay may limitadong kakayahang magsagawa ng mga pagsubok at eksperimento.
Ang mas mahusay na mga modelo at pamamaraan ay nagbabago sa sitwasyon. Ang eksperimento at pag -unlad ay maaari na ngayong maging mas madali para sa amin.
Para sa mga mamimili, ang pag -access sa AI ay maaari ring maging mas mura. Marami pang mga modelo ng AI ang maaaring patakbuhin sa sariling mga aparato ng mga gumagamit, tulad ng mga laptop o telepono, sa halip na tumakbo "sa ulap" para sa isang bayad sa subscription.
Para sa mga mananaliksik na mayroon nang maraming mga mapagkukunan, ang higit na kahusayan ay maaaring magkaroon ng mas kaunting epekto. Hindi malinaw kung ang diskarte ng Deepseek ay makakatulong upang makagawa ng mga modelo na may mas mahusay na pagganap sa pangkalahatan, o simpleng mga modelo na mas mahusay.
Si Tongliang Liu, Associate Professor ng Machine Learning at Direktor ng Sydney AI Center, University of Sydney
Ang artikulong ito ay nai -publish mula sa pag -uusap sa ilalim ng isang lisensya ng Creative Commons. Basahin ang orihinal na artikulo .