Ang Bagong Deepseek Malaking Wika ng Tsina (LLM) ay nagambala sa merkado na pinamamahalaan ng US , na nag-aalok ng medyo mataas na pagganap na modelo ng chatbot sa makabuluhang mas mababang gastos.
Ang nabawasan na gastos ng pag -unlad at mas mababang mga presyo ng subscription kumpara sa mga tool ng US AI na naambag sa American chip maker NVIDIA na nawalan ng US $ 600 bilyon (£ 480 bilyon) sa halaga ng merkado sa isang araw. Ginagawa ng NVIDIA ang mga computer chips na ginamit upang sanayin ang karamihan ng mga LLM, ang pinagbabatayan na teknolohiya na ginamit sa ChATGPT at iba pang mga AI chatbots. Ang Deepseek ay gumagamit ng mas murang NVIDIA H800 chips sa mas mahal na mga bersyon ng state-of-the-art.
Ang developer ng Chatgpt na si Openai ay naiulat na ginugol sa isang lugar sa pagitan ng US $ 100 milyon at US $ 1 bilyon sa pagbuo ng isang pinakabagong bersyon ng produkto nito na tinatawag na O1. Sa kaibahan, nagawa ng Deepseek ang pagsasanay nito sa loob lamang ng dalawang buwan sa halagang US $ 5.6 milyon gamit ang isang serye ng mga matalinong makabagong ideya.
Ngunit kung gaano kahusay ang AI Chatbot ng Deepseek, R1, ihambing sa iba pa, katulad na mga tool sa AI sa pagganap?
Inaangkin ng Deepseek ang mga modelo nito na gumaganap nang maihahambing sa mga handog ni Openai, kahit na lumampas sa modelo ng O1 sa ilang mga pagsubok sa benchmark. Gayunpaman, ang mga benchmark na gumagamit ng napakalaking multitask na pag -unawa sa wika (MMLU) ay sumusuri ng kaalaman sa maraming mga paksa gamit ang maraming mga pagpipilian sa pagpili. Maraming mga LLM ang sinanay at na-optimize para sa mga nasabing pagsubok, na ginagawa silang hindi maaasahan bilang tunay na mga tagapagpahiwatig ng pagganap ng tunay na mundo.
Ang isang alternatibong pamamaraan para sa layunin na pagsusuri ng LLMS ay gumagamit ng isang hanay ng mga pagsubok na binuo ng mga mananaliksik sa Cardiff Metropolitan, Bristol at Cardiff Universities - na kilala nang sama -sama bilang Group Observation Group (KOG). Ang mga pagsubok na ito ay nagsisiyasat sa kakayahan ng LLMS na gayahin ang wika at kaalaman ng tao sa pamamagitan ng mga katanungan na nangangailangan ng implicit na pag -unawa ng tao upang sagutin. Ang mga pangunahing pagsubok ay pinananatiling lihim, upang maiwasan ang mga kumpanya ng LLM na nagsasanay sa kanilang mga modelo para sa mga pagsubok na ito.
Nag -deploy si Kog ng mga pampublikong pagsubok na inspirasyon ng trabaho ni Colin Fraser, isang siyentipiko ng data sa Meta , upang suriin ang Deepseek laban sa iba pang mga LLM. Ang mga sumusunod na resulta ay sinusunod:
Ang mga pagsubok na ginamit upang makabuo ng talahanayan na ito ay "kalaban" sa kalikasan. Sa madaling salita, dinisenyo sila upang maging "mahirap" at upang subukan ang mga LLM sa paraang hindi nakikiramay sa kung paano ito dinisenyo. Nangangahulugan ito na ang pagganap ng mga modelong ito sa pagsubok na ito ay malamang na naiiba sa kanilang pagganap sa mga pangunahing pagsubok sa benchmarking.
Ang Deepseek ay umiskor ng 5.5 mula sa 6, outperforming OpenAi's O1-ang advanced na pangangatuwiran (na kilala bilang "chain-of-thought") na modelo-pati na rin ang ChatGPT-4O, ang libreng bersyon ng ChatGPT. Ngunit ang Deepseek ay marginally outperformed ng Anthropic's Claudeai at Openai's O1 Mini, kapwa nito nakapuntos ng isang perpektong 6/6. Ito ay kagiliw -giliw na ang O1 underperformed laban sa "mas maliit" na katapat nito, O1 Mini.
Deepthink R1-Isang tool na Chain-of-Thought AI na ginawa ng Deepseek-underperformed kung ihahambing sa Deepseek na may marka na 3.5.
Ang resulta na ito ay nagpapakita kung paano ang chatbot ng Competitive Deepseek ay, tinalo ang mga modelo ng punong barko ni Openai. Ito ay malamang na mag -udyok ng karagdagang pag -unlad para sa Deepseek, na ngayon ay may malakas na pundasyon upang maitaguyod. Gayunpaman, ang kumpanya ng tech na Tsino ay may isang malubhang problema sa iba pang mga LLM ay hindi: censorship.
Mga Hamon sa Censorship
Sa kabila ng malakas na pagganap at katanyagan nito, ang Deepeek ay nahaharap sa pagpuna sa mga tugon nito sa mga paksang sensitibo sa pulitika sa China. Halimbawa, ang mga senyas na may kaugnayan sa Tiananmen Square, Taiwan, Uyghur Muslim at Demokratikong paggalaw ay natutugunan ng tugon: "Paumanhin, iyon ay lampas sa aking kasalukuyang saklaw."
Ngunit ang isyung ito ay hindi kinakailangang natatangi sa Deepseek, at ang potensyal para sa impluwensya sa politika at censorship sa LLMS na mas pangkalahatan ay isang lumalagong pag -aalala. proyekto ng Stargate LLM ni Donald Trump , na kinasasangkutan ng OpenAi, Nvidia, Oracle, Microsoft, at ARM, ay nagtataas din ng takot sa impluwensya sa politika.
Bilang karagdagan, ang kamakailang desisyon ni Meta na talikuran ang pag-check- sa Facebook at Instagram ay nagmumungkahi ng isang pagtaas ng takbo patungo sa populasyon sa pagiging totoo.
Nilalaman mula sa aming mga kasosyo
Ang pagdating ni Deepseek ay nagdulot ng malubhang pagkagambala sa merkado ng LLM. Ang mga kumpanya ng US tulad ng OpenAi at Anthropic ay mapipilitang baguhin ang kanilang mga produkto upang mapanatili ang kaugnayan at tumugma sa pagganap at gastos nito.
Ang tagumpay ng Deepseek ay hamon na ang status quo, na nagpapakita na ang mga modelo ng mataas na pagganap ng LLM ay maaaring mabuo nang walang mga bilyong dolyar na badyet. Itinampok din nito ang mga panganib ng censorship ng LLM, ang pagkalat ng maling impormasyon, at kung bakit mahalaga ang mga independiyenteng pagsusuri.
Tulad ng mga LLM na maging mas malalim na naka -embed sa pandaigdigang politika at negosyo, ang transparency at pananagutan ay mahalaga upang matiyak na ang hinaharap ng LLMS ay ligtas, kapaki -pakinabang at mapagkakatiwalaan.
Simon Thorne, Senior Lecturer sa Computing and Information Systems, Cardiff Metropolitan University
Ang artikulong ito ay nai -publish mula sa pag -uusap sa ilalim ng isang lisensya ng Creative Commons. Basahin ang orihinal na artikulo .