La société chinoise en matière d'intelligence artificielle (IA) Deepseek a envoyé des ondes de choc via la communauté technologique , avec la publication de modèles d'IA extrêmement efficaces qui peuvent rivaliser avec les produits de pointe de sociétés américaines telles que OpenAI et anthropic.
Fondée en 2023, Deepseek a obtenu ses résultats avec une fraction de l'argent et de la puissance de calcul de ses concurrents.
Le modèle R1 «raisonnement» de Deepseek, publié la semaine dernière, a provoqué l'excitation parmi les chercheurs, le choc parmi les investisseurs et les réponses des poids lourds de l'IA. L'entreprise a suivi le 28 janvier avec un modèle qui peut fonctionner avec des images ainsi que du texte.
Le R1 de Deepseek est un modèle impressionnant, en particulier autour de ce qu'ils sont en mesure de livrer pour le prix.
- Sam Altman (@sama) 28 janvier 2025
Nous fournirons évidemment de bien meilleurs modèles et il est également légitime revigorant d'avoir un nouveau concurrent! Nous allons tirer quelques versions.
Alors, que fait Deepseek, et comment l'a-t-il fait?
Ce que Deepseek a fait
En décembre, Deepseek a publié son modèle V3 . Il s'agit d'un modèle de grande langue «standard» très puissant qui fonctionne à un niveau similaire au GPT-4O d'OpenAI et à Claude 3.5 d'Anthropic.
Bien que ces modèles soient sujets à des erreurs et constituent parfois leurs propres faits , ils peuvent effectuer des tâches telles que répondre aux questions, écrire des essais et générer du code informatique. Lors de certains tests de résolution de problèmes et de raisonnement mathématique, ils obtiennent mieux que l'humain moyen.
V3 a été formé à un coût rapporté d'environ 5,58 millions de dollars. Ceci est considérablement moins cher que le GPT-4, par exemple, qui a coûté plus de 100 millions de dollars pour développer.
Deepseek prétend également avoir formé V3 en utilisant environ 2 000 puces informatiques spécialisées, en particulier les GPU H800 fabriqués par NVIDIA . C'est encore beaucoup moins que les autres sociétés, ce qui peut avoir utilisé jusqu'à 16 000 des puces H100 les plus puissantes.
On January 20, DeepSeek released another model, called R1 . Il s'agit d'un modèle soi-disant «raisonnement», qui essaie de résoudre des problèmes complexes étape par étape. Ces modèles semblent être meilleurs dans de nombreuses tâches qui nécessitent un contexte et ont plusieurs pièces interdépendantes, telles que la compréhension en lecture et la planification stratégique.
Le modèle R1 est une version modifiée de V3, modifiée avec une technique appelée apprentissage de renforcement. R1 semble fonctionner à un niveau similaire à l'O1 d'Openai , sorti l'année dernière.
Deepseek a également utilisé la même technique pour fabriquer des versions de «raisonnement» de petits modèles open source qui peuvent fonctionner sur des ordinateurs domestiques.
Cette version a suscité une énorme augmentation d'intérêt pour Deepseek, ce qui a fait monter la popularité de son application Chatbot propulsée par V3 et déclencher un accident de prix massif dans les actions technologiques alors que les investisseurs réévaluent l'industrie de l'IA. Au moment de la rédaction du moment de la rédaction du théâtre, le fabricant de puces Nvidia a perdu environ 600 milliards de dollars de valeur.
Comment Deepseek l'a fait
Les percées de Deepseek ont été une plus grande efficacité: obtenir de bons résultats avec moins de ressources. En particulier, les développeurs de Deepseek ont été les pionniers de deux techniques qui peuvent être adoptées par les chercheurs de l'IA plus largement.
Le premier a à voir avec une idée mathématique appelée «rareté». Les modèles AI ont de nombreux paramètres qui déterminent leurs réponses aux entrées (V3 a environ 671 milliards), mais seule une petite fraction de ces paramètres est utilisée pour une entrée donnée.
Cependant, prédire les paramètres nécessaires n'est pas facile. Deepseek a utilisé une nouvelle technique pour ce faire, puis n'a formé que ces paramètres. En conséquence, ses modèles nécessitaient beaucoup moins de formation qu'une approche conventionnelle.
L'autre astuce concerne la façon dont V3 stocke les informations dans la mémoire de l'ordinateur. Deepseek a trouvé un moyen intelligent de comprimer les données pertinentes, il est donc plus facile de stocker et d'accéder rapidement.
Ce que cela signifie
Les modèles et techniques de Deepseek ont été publiés sous la licence MIT , ce qui signifie que n'importe qui peut les télécharger et les modifier.
Contenu de nos partenaires
Bien que cela puisse être une mauvaise nouvelle pour certaines sociétés d'IA - dont les bénéfices pourraient être érodés par l'existence de modèles puissants disponibles gratuitement - c'est une excellente nouvelle pour la communauté de recherche plus large de l'IA.
À l'heure actuelle, une grande partie de la recherche sur l'IA nécessite l'accès à d'énormes quantités de ressources informatiques. Des chercheurs comme moi qui sont basés dans les universités (ou partout sauf les grandes entreprises technologiques) ont eu une capacité limitée à effectuer des tests et des expériences.
Des modèles et techniques plus efficaces modifient la situation. L'expérimentation et le développement peuvent désormais être beaucoup plus faciles pour nous.
Pour les consommateurs, l'accès à l'IA peut également devenir moins cher. Plus de modèles d'IA peuvent être exécutés sur les appareils des utilisateurs, tels que des ordinateurs portables ou des téléphones, plutôt que d'exécuter «dans le cloud» pour des frais d'abonnement.
Pour les chercheurs qui ont déjà beaucoup de ressources, plus d'efficacité peut avoir moins d'effet. Il n'est pas clair si l'approche de Deepseek aidera à créer des modèles avec de meilleures performances dans son ensemble, ou simplement des modèles plus efficaces.
Tongliang Liu, professeur agrégé d'apprentissage automatique et directeur du Sydney AI Center, Université de Sydney
Cet article est republié à partir de la conversation sous une licence Creative Commons. Lisez l' article original .