Das chinesische Unternehmen für künstliche Intelligenz (KI) Deepseek hat Schockwellen durch die Tech-Community , mit der Veröffentlichung äußerst effizienter KI-Modelle, die mit hochmodernen Produkten von US-Unternehmen wie OpenAI und Anthropic konkurrieren können.
Deepseek wurde 2023 gegründet und hat seine Ergebnisse mit einem Bruchteil des Bargeld- und Rechenleistung seiner Konkurrenten erzielt.
Deepseeks „Argument“ -R1 -Modell, das letzte Woche veröffentlicht wurde, löste bei Forschern, Schock unter den Anlegern und den Antworten aus KI -Schwergewichten aufregt. Das Unternehmen folgte am 28. Januar mit einem Modell , das sowohl mit Bildern als auch mit Text funktionieren kann.
Deepseeks R1 ist ein beeindruckendes Modell, insbesondere in Bezug auf das, was sie für den Preis liefern können.
- Sam Altman (@SAMA) 28. Januar 2025
Wir werden offensichtlich viel bessere Modelle liefern und es ist auch legitim, einen neuen Konkurrenten zu haben! Wir werden einige Veröffentlichungen hochziehen.
Was hat Deepseek also getan und wie hat es das gemacht?
Was Deepseek getan hat
Im Dezember veröffentlichte Deepseek sein V3 -Modell . Dies ist ein sehr leistungsstarkes „Standard“ -Modell mit großer Sprache, das auf einem ähnlichen Niveau von OpenAIs GPT-4O und Anthropics Claude 3.5 abschneidet.
Während diese Modelle anfällig für Fehler sind und manchmal ihre eigenen Fakten ausmachen , können sie Aufgaben wie Beantwortung von Fragen, das Schreiben von Aufsätzen und das Generieren von Computercode ausführen. Bei einigen Tests zu Problemlösungen und mathematischer Begründung punkten sie besser als der durchschnittliche Mensch.
gemeldeten Preis von etwa 5,58 Millionen US -Dollar ausgebildet Dies ist beispielsweise dramatisch billiger als GPT-4, der sich mehr als 100 Millionen US-Dollar
Deepseek behauptet außerdem, V3 mit rund 2.000 speziellen Computerchips, insbesondere H800 -GPUs von Nvidia . Dies ist wiederum viel weniger als andere Unternehmen, die möglicherweise bis zu 16.000 der leistungsstärkeren H100 -Chips verwendet haben.
Am 20. Januar veröffentlichte Deepseek ein weiteres Modell namens R1 . Dies ist ein sogenanntes „Argumentations“ -Modell, das versucht, komplexe Probleme Schritt für Schritt zu durcharbeiten. Diese Modelle scheinen bei vielen Aufgaben besser zu sein, die einen Kontext erfordern und mehrere miteinander verbundene Teile wie Leseverständnis und strategische Planung aufweisen.
Das R1 -Modell ist eine optimierte Version von V3, die mit einer Technik namens Verstärkungslernen modifiziert wurde. R1 scheint auf einem ähnlichen Niveau wie Openai's O1 , das letztes Jahr veröffentlicht wurde.
Deepseek verwendete auch die gleiche Technik, um "Argumentation" -Versionen von kleinen Open-Source-Modellen zu erstellen, die auf Heimcomputern ausgeführt werden können.
V3-Chatbot-App erhöht und einen massiven Preis in Tech-Aktien auslöste, während die Anleger die KI-Branche neu bewerten. Zum Zeitpunkt des Schreibens hat Chipmacher Nvidia einen Wert von rund 600 Milliarden US -Dollar verloren .
Wie Deepseek es gemacht hat
Deepseeks Durchbrüche erzielten eine größere Effizienz: gute Ergebnisse mit weniger Ressourcen. Insbesondere die Entwickler von Deepseek haben zwei Techniken geleistet, die von KI -Forschern allgemeiner angewendet werden können.
Das erste hat mit einer mathematischen Idee namens „Sparsity“ zu tun. KI -Modelle haben viele Parameter, die ihre Antworten auf Eingaben bestimmen (V3 enthält rund 671 Milliarden), aber für eine bestimmte Eingabe wird nur ein kleiner Teil dieser Parameter verwendet.
Die Vorhersage, welche Parameter benötigt werden, ist jedoch nicht einfach. Deepseek verwendete eine neue Technik, um dies zu tun, und trainierte dann nur diese Parameter. Infolgedessen benötigten seine Modelle weitaus weniger Training als ein herkömmlicher Ansatz.
Der andere Trick hat damit zu tun, wie V3 Informationen im Computerspeicher speichert. Deepseek hat einen cleveren Weg gefunden, um die relevanten Daten zu komprimieren, sodass es einfacher ist, schnell zu speichern und zugreifen zu können.
Was es bedeutet
Die Modelle und Techniken von Deepseek wurden unter der kostenlosen MIT -Lizenz , was bedeutet, dass jeder sie herunterladen und ändern kann.
Inhalte unserer Partner
Obwohl dies eine schlechte Nachricht für einige KI -Unternehmen sein mag, deren Gewinne durch die Existenz frei verfügbarer, mächtiger Modelle unterbrochen werden könnten, sind es eine großartige Nachricht für die breitere KI -Forschungsgemeinschaft.
Gegenwärtig erfordert eine Menge AI -Forschung Zugang zu enormen Mengen an Rechenressourcen. Forscher wie ich, die an Universitäten (oder überall außer großen Technologieunternehmen) ansässig sind, hatten eine begrenzte Fähigkeit, Tests und Experimente durchzuführen.
Effizientere Modelle und Techniken verändern die Situation. Experimentieren und Entwicklung können für uns jetzt erheblich einfacher sein.
Für Verbraucher kann auch der Zugang zu KI billiger werden. Weitere KI -Modelle können auf eigenen Geräten der Benutzer wie Laptops oder Telefone ausgeführt werden, anstatt „in der Cloud“ für eine Abonnementgebühr auszuführen.
Für Forscher, die bereits viele Ressourcen haben, kann mehr Effizienz weniger Wirkung haben. Es ist unklar, ob Deepseeks Ansatz dazu beitragen wird, Modelle mit einer besseren Leistung insgesamt oder einfacher Modelle effizienter zu gestalten.
Tongliang Liu, außerordentlicher Professor für maschinelles Lernen und Direktor des Sydney AI Center, Universität von Sydney
Dieser Artikel wird aus dem Gespräch unter einer Creative Commons -Lizenz neu veröffentlicht. Lesen Sie den Originalartikel .