أرسلت شركة Deepseek من شركة Deepseek (AI) للذكاء الاصطناعي الصينية موجات صدمة من خلال مجتمع التكنولوجيا ، مع إصدار نماذج منظمة العفو الدولية الفعالة للغاية التي يمكن أن تتنافس مع منتجات متطورة من الشركات الأمريكية مثل Openai و Anthropic.
تأسست Deepseek في عام 2023 ، وقد حققت نتائجها مع جزء صغير من النقد والقوة الحاسوبية لمنافسيها.
أثار نموذج Deepseek "المنطقي" R1 ، الذي تم إصداره الأسبوع الماضي ، الإثارة بين الباحثين ، والصدمة بين المستثمرين ، والاستجابات من الذكاء الاصطناعي الثقيل. تابعت الشركة في 28 يناير مع نموذج يمكنه العمل مع الصور والنص.
يعد Deepseek's R1 نموذجًا مثيرًا للإعجاب ، لا سيما حول ما يمكنهم تقديمه للسعر.
- سام التمان (sama) 28 يناير 2025
من الواضح أننا سنقدم نماذج أفضل بكثير وأيضًا أنه من المشروع أن يكون لديك منافس جديد! سنقوم بسحب بعض الإصدارات.
إذن ما الذي فعله Deepseek ، وكيف فعل ذلك؟
ما فعله ديبسيك
في ديسمبر ، أصدرت Deepseek نموذج V3 . هذا نموذج لغة "قياسي" قوي للغاية يعمل على مستوى مماثل مع GPT-4O من Openai و Claude 3.5.
في حين أن هذه النماذج عرضة للأخطاء وأحيانًا تشكل حقائقها الخاصة ، يمكنها تنفيذ مهام مثل الإجابة على الأسئلة وكتابة المقالات وإنشاء رمز الكمبيوتر. في بعض اختبارات حل المشكلات والتفكير الرياضي ، فإنها تسجل أفضل من الإنسان العادي.
تم تدريب V3 بتكلفة تم الإبلاغ عنها حوالي 5.58 مليون دولار أمريكي. هذا أرخص بشكل كبير من GPT-4 ، على سبيل المثال ، والتي تكلف أكثر من 100 مليون دولار للتطوير.
يدعي Deepseek أيضًا أنه قام بتدريب V3 باستخدام حوالي 2000 من رقائق الكمبيوتر المتخصصة ، وتحديداً وحدات معالجة الرسومات H800 التي صنعتها NVIDIA . هذا أقل بكثير من الشركات الأخرى ، والتي ربما استخدمت ما يصل إلى 16000 من رقائق H100 الأكثر قوة.
في 20 كانون الثاني (يناير) ، أصدر ديبسيك نموذجًا آخر ، يسمى R1 . هذا نموذج "التفكير" المزعوم ، والذي يحاول العمل من خلال مشاكل معقدة خطوة بخطوة. يبدو أن هذه النماذج أفضل في العديد من المهام التي تتطلب السياق ولها أجزاء متعددة مترابطة ، مثل فهم القراءة والتخطيط الاستراتيجي.
نموذج R1 هو نسخة معجولة من V3 ، تم تعديلها باستخدام تقنية تسمى التعلم التعزيز. يبدو أن R1 يعمل على مستوى مماثل لـ Openai's O1 ، الذي تم إصداره العام الماضي.
استخدم Deepseek أيضًا نفس التقنية لصنع إصدارات "التفكير" من النماذج الصغيرة مفتوحة المصدر والتي يمكن أن تعمل على أجهزة الكمبيوتر المنزلية.
أثار هذا الإصدار زيادة كبيرة في ديبسيك ، مما دفع شعبية تطبيق chatbot الذي يعمل به V3 ويؤدي إلى انهيار هائل في الأسعار في أسهم التكنولوجيا حيث يعيد المستثمرون تقييم صناعة الذكاء الاصطناعى. في وقت كتابة هذا التقرير ، فقدت صانع Chipmaker Nvidia حوالي 600 مليار دولار أمريكي .
كيف فعل ذلك Deepseek
لقد كانت اختراقات Deepseek في تحقيق كفاءة أكبر: الحصول على نتائج جيدة مع موارد أقل. على وجه الخصوص ، قام مطورو Deepseek برائحة تقنيتين قد يعتمدهما باحثو الذكاء الاصطناعى على نطاق أوسع.
الأول له علاقة بفكرة رياضية تسمى "sparsity". تحتوي نماذج AI على الكثير من المعلمات التي تحدد ردودها على المدخلات (يحتوي V3 على حوالي 671 مليار) ، ولكن يتم استخدام جزء صغير فقط من هذه المعلمات لأي مدخلات معينة.
ومع ذلك ، فإن التنبؤ بالمعلمات التي ستكون مطلوبة ليس بالأمر السهل. استخدم Deepseek تقنية جديدة للقيام بذلك ، ثم قام بتدريب تلك المعلمات فقط. نتيجة لذلك ، كانت نماذجها تحتاج إلى تدريب أقل بكثير من النهج التقليدي.
تتعلق الحيلة الأخرى بكيفية تخزين V3 المعلومات في ذاكرة الكمبيوتر. وجدت Deepseek طريقة ذكية لضغط البيانات ذات الصلة ، لذلك من الأسهل تخزينها والوصول إليها بسرعة.
ماذا يعني
تم إصدار نماذج وتقنيات Deepseek بموجب ترخيص MIT ، مما يعني أنه يمكن لأي شخص تنزيلها وتعديلها.
المحتوى من شركائنا
على الرغم من أن هذا قد يكون أخبارًا سيئة لبعض شركات الذكاء الاصطناعى - التي قد تتآكل أرباحها بسبب وجود نماذج قوية متوفرة بحرية - إنها أخبار رائعة لمجتمع أبحاث الذكاء الاصطناعي الأوسع.
في الوقت الحاضر ، يتطلب الكثير من أبحاث الذكاء الاصطناعي الوصول إلى كميات هائلة من موارد الحوسبة. كان لدى الباحثين مثلي الذين يقعون في الجامعات (أو في أي مكان باستثناء شركات التكنولوجيا الكبيرة) قدرة محدودة على إجراء الاختبارات والتجارب.
النماذج والتقنيات الأكثر كفاءة تغير الموقف. قد يكون التجريب والتطوير الآن أسهل بكثير بالنسبة لنا.
للمستهلكين ، قد يصبح الوصول إلى الذكاء الاصطناعى أرخص أيضًا. قد يتم تشغيل المزيد من نماذج الذكاء الاصطناعي على الأجهزة الخاصة بالمستخدمين ، مثل أجهزة الكمبيوتر المحمولة أو الهواتف ، بدلاً من تشغيل "في السحابة" مقابل رسوم الاشتراك.
بالنسبة للباحثين الذين لديهم بالفعل الكثير من الموارد ، قد يكون لمزيد من الكفاءة تأثير أقل. من غير الواضح ما إذا كان نهج Deepseek سيساعد في صنع النماذج ذات الأداء الأفضل بشكل عام ، أو مجرد نماذج أكثر كفاءة.
تونغليانغ ليو ، أستاذ مشارك في التعلم الآلي ومدير مركز سيدني AI ، جامعة سيدني ،
يتم إعادة نشر هذا المقال من المحادثة بموجب رخصة مجلس العموم الإبداعية. اقرأ المقال الأصلي .