Chinese Artificial Intelligence (AI) Company DeepSeek har sendt sjokkbølger gjennom teknologisamfunnet , med utgivelsen av ekstremt effektive AI-modeller som kan konkurrere med banebrytende produkter fra amerikanske selskaper som Openai og Anthropic.
DeepSeek ble grunnlagt i 2023 og har oppnådd sine resultater med en brøkdel av kontantene og datakraften til konkurrentene.
DeepSeek "resonnement" R1 -modell, som ble utgitt i forrige uke, provoserte spenning blant forskere, sjokk blant investorer og svar fra AI -tungvektere. Selskapet fulgte opp 28. januar med en modell som kan fungere med bilder samt tekst.
DeepSeek's R1 er en imponerende modell, spesielt rundt det de er i stand til å levere for prisen.
- Sam Altman (@sama) 28. januar 2025
Vi vil åpenbart levere mye bedre modeller, og det er også legitimt oppkvikkende å ha en ny konkurrent! Vi vil trekke opp noen utgivelser.
Så hva har DeepSeek gjort, og hvordan gjorde det det?
Hva DeepSeek gjorde
I desember ga DeepSeek ut sin V3 -modell . Dette er en veldig kraftig "standard" stor språkmodell som presterer på et lignende nivå som Openais GPT-4O og Anthropics Claude 3.5.
Selv om disse modellene er utsatt for feil og noen ganger utgjør sine egne fakta , kan de utføre oppgaver som å svare på spørsmål, skrive essays og generere datakode. På noen tester av problemløsing og matematisk resonnement, scorer de bedre enn det gjennomsnittlige mennesket.
V3 ble trent til en rapportert kostnad på rundt 5,58 millioner dollar. Dette er dramatisk billigere enn GPT-4, for eksempel, som koster mer enn 100 millioner dollar å utvikle.
DeepSeek hevder også å ha trent V3 ved å bruke rundt 2000 spesialiserte datamaskinbrikker, spesielt H800 GPUer laget av Nvidia . Dette er igjen mye færre enn andre selskaper, som kan ha brukt opptil 16 000 av de kraftigere H100 -brikkene.
20. januar ga DeepSeek ut en annen modell, kalt R1 . Dette er en såkalt "resonnement" -modell, som prøver å jobbe gjennom komplekse problemer trinn for trinn. Disse modellene ser ut til å være bedre på mange oppgaver som krever kontekst og har flere sammenhengende deler, for eksempel leseforståelse og strategisk planlegging.
R1 -modellen er en finjustert versjon av V3, modifisert med en teknikk som heter forsterkningslæring. R1 ser ut til å fungere på et lignende nivå som Openais O1 , utgitt i fjor.
DeepSeek brukte også den samme teknikken for å lage "resonnement" -versjoner av små open source-modeller som kan kjøre på hjemmedatamaskiner.
Denne utgivelsen har vekket en enorm bølge av interesse for DeepSeek, og økt populariteten til sin V3-drevne chatbot-app og utløste et massivt prisulykke i teknologiske aksjer når investorene vurderer AI-bransjen på nytt. I skrivende stund har Chipmaker Nvidia mistet rundt 600 milliarder dollar i verdi.
Hvor DeepSeek gjorde det
DeepSeek gjennombrudd har vært å oppnå større effektivitet: å få gode resultater med færre ressurser. Spesielt har DeepSeeks utviklere banebrytende to teknikker som kan bli adoptert av AI -forskere bredere.
Den første har å gjøre med en matematisk idé kalt “sparsity”. AI -modeller har mange parametere som bestemmer deres svar på innganger (V3 har rundt 671 milliarder), men bare en liten brøkdel av disse parametrene brukes til en gitt inngang.
Å forutsi hvilke parametere som vil være nødvendig, er imidlertid ikke lett. DeepSeek brukte en ny teknikk for å gjøre dette, og trente deretter bare parametrene. Som et resultat trengte modellene langt mindre trening enn en konvensjonell tilnærming.
Det andre trikset har å gjøre med hvordan V3 lagrer informasjon i datamaskinminnet. DeepSeek har funnet en smart måte å komprimere relevante data på, så det er lettere å lagre og få tilgang til raskt.
Hva det betyr
DeepSeeks modeller og teknikker er utgitt under gratis MIT -lisensen , noe som betyr at hvem som helst kan laste ned og endre dem.
Innhold fra våre partnere
Selv om dette kan være dårlige nyheter for noen AI -selskaper - hvis overskudd kan erodert av eksistensen av fritt tilgjengelige, kraftige modeller - er det gode nyheter for det bredere AI -forskningssamfunnet.
For tiden krever mye AI -forskning tilgang til enorme mengder databehandlingsressurser. Forskere som meg selv som er basert på universiteter (eller hvor som helst unntatt store teknologiselskaper) har hatt begrenset evne til å utføre tester og eksperimenter.
Mer effektive modeller og teknikker endrer situasjonen. Eksperimentering og utvikling kan nå være betydelig enklere for oss.
For forbrukere kan tilgang til AI også bli billigere. Flere AI -modeller kan kjøres på brukernes egne enheter, for eksempel bærbare datamaskiner eller telefoner, i stedet for å kjøre "i skyen" for et abonnementsavgift.
For forskere som allerede har mye ressurser, kan mer effektivitet ha mindre effekt. Det er uklart om DeepSeeks tilnærming vil bidra til å gjøre modeller med bedre ytelse generelt, eller bare modeller som er mer effektive.
Tongliang Liu, førsteamanuensis i maskinlæring og direktør for Sydney AI Center, University of Sydney
Denne artikkelen er utgitt fra samtalen under en Creative Commons -lisens. Les den opprinnelige artikkelen .