ادعى الملياردير ومالك X، Elon Musk، أن مجموعة البيانات التي أنشأها الإنسان والمستخدمة لتدريب نماذج الذكاء الاصطناعي (AI) مثل ChatGPT قد نفدت.
ولم يذكر المسك أدلة تدعم ذلك. لكن شخصيات بارزة أخرى في صناعة التكنولوجيا قدمت ادعاءات مماثلة في الأشهر الأخيرة. وأشارت أبحاث سابقة إلى أن البيانات التي ينتجها الإنسان ستنفد في غضون سنتين إلى ثماني سنوات.
ويرجع ذلك إلى حد كبير إلى أن البشر لا يستطيعون إنشاء بيانات جديدة مثل النصوص والفيديو والصور بالسرعة الكافية لمواكبة المتطلبات السريعة والهائلة لنماذج الذكاء الاصطناعي. عندما تنفد البيانات الحقيقية، فإنها ستشكل مشكلة كبيرة لكل من مطوري ومستخدمي الذكاء الاصطناعي.
وسوف يجبر شركات التكنولوجيا على الاعتماد بشكل أكبر على البيانات التي يولدها الذكاء الاصطناعي، والمعروفة باسم "البيانات الاصطناعية". وهذا بدوره يمكن أن يؤدي إلى أن تصبح أنظمة الذكاء الاصطناعي التي يستخدمها حاليا مئات الملايين من الناس أقل دقة وموثوقية - وبالتالي مفيدة.
لكن هذه ليست نتيجة حتمية. في الواقع، إذا تم استخدامها وإدارتها بعناية، يمكن للبيانات الاصطناعية تحسين نماذج الذكاء الاصطناعي.
المشاكل مع البيانات الحقيقية
تعتمد شركات التكنولوجيا على البيانات - الحقيقية أو الاصطناعية - لبناء وتدريب وتحسين نماذج الذكاء الاصطناعي التوليدية مثل ChatGPT. جودة هذه البيانات أمر بالغ الأهمية. وتؤدي البيانات الضعيفة إلى نتائج سيئة، بنفس الطريقة التي يمكن أن يؤدي بها استخدام مكونات منخفضة الجودة في الطهي إلى إنتاج وجبات منخفضة الجودة.
البيانات الحقيقية إلى النصوص والفيديو والصور التي أنشأها البشر. تقوم الشركات بجمعها من خلال طرق مثل الاستطلاعات أو التجارب أو الملاحظات أو التنقيب في مواقع الويب ووسائل التواصل الاجتماعي.
تعتبر البيانات الحقيقية ذات قيمة بشكل عام لأنها تتضمن أحداثًا حقيقية وتلتقط نطاقًا واسعًا من السيناريوهات والسياقات. ومع ذلك، فهي ليست مثالية.
على سبيل المثال، يمكن أن تحتوي على أخطاء إملائية ومحتوى غير متسق أو غير ذي صلة . يمكن أيضًا أن يكون متحيزًا بشدة ، مما قد يؤدي، على سبيل المثال، إلى إنشاء نماذج ذكاء اصطناعي توليدية تنشئ صورًا تظهر فقط الرجال أو الأشخاص البيض في وظائف معينة.
يتطلب هذا النوع من البيانات أيضًا الكثير من الوقت والجهد للتحضير. أولاً، يقوم الأشخاص بجمع مجموعات البيانات، قبل تصنيفها لجعلها ذات معنى لنموذج الذكاء الاصطناعي. سيقومون بعد ذلك بمراجعة هذه البيانات وتنظيفها لحل أي تناقضات، قبل أن تقوم أجهزة الكمبيوتر بتصفيتها وتنظيمها والتحقق من صحتها.
يمكن أن تستغرق هذه العملية ما يصل إلى 80% من إجمالي الوقت المستثمر في تطوير نظام الذكاء الاصطناعي.
ولكن كما ذكرنا أعلاه، هناك أيضًا نقص متزايد لأن البشر لا يستطيعون إنتاجها بالسرعة الكافية لتغذية الطلب المتزايد على الذكاء الاصطناعي.
صعود البيانات الاصطناعية
البيانات الاصطناعية أو إنشاؤها بواسطة خوارزميات ، مثل النص الذي تم إنشاؤه بواسطة ChatGPT أو الصورة التي تم إنشاؤها بواسطة DALL-E .
من الناحية النظرية، توفر البيانات الاصطناعية حلاً فعالاً من حيث التكلفة وأسرع لتدريب نماذج الذكاء الاصطناعي.
كما أنه يتناول مخاوف الخصوصية والقضايا الأخلاقية ، خاصة فيما يتعلق بالمعلومات الشخصية الحساسة مثل البيانات الصحية.
والأهم من ذلك، أنه على عكس البيانات الحقيقية، لا يوجد نقص في المعروض. في الواقع، إنه غير محدود.
من هنا فصاعدا بياناتها الاصطناعية الوحيدة.
– روهان بول (@ rohanpaul_ai) 9 يناير 2025
"لقد تم استنفاد المجموع التراكمي للمعرفة البشرية في تدريب الذكاء الاصطناعي. وقد حدث ذلك بشكل أساسي في العام الماضي."
– إيلون pic.twitter.com/rdPzCbvdLv
تحديات البيانات الاصطناعية
ولهذه الأسباب، تتجه شركات التكنولوجيا بشكل متزايد إلى البيانات الاصطناعية لتدريب أنظمة الذكاء الاصطناعي لديها. وتشير تقديرات شركة الأبحاث جارتنر إلى أنه بحلول عام 2030، ستصبح البيانات الاصطناعية هي الشكل الرئيسي للبيانات المستخدمة في الذكاء الاصطناعي.
ولكن على الرغم من أن البيانات الاصطناعية تقدم حلولا واعدة، إلا أنها لا تخلو من التحديات.
أحد المخاوف الأساسية هو أن نماذج الذكاء الاصطناعي يمكن أن "تنهار" عندما تعتمد بشكل كبير على البيانات الاصطناعية. وهذا يعني أنهم يبدأون في توليد الكثير من "الهلوسات" - وهي استجابة تحتوي على معلومات كاذبة - ويتراجعون كثيرًا في الجودة والأداء بحيث يصبحون غير صالحين للاستخدام.
على سبيل المثال، تعاني نماذج الذكاء الاصطناعي بالفعل من صعوبة تهجئة بعض الكلمات بشكل صحيح. إذا تم استخدام هذه البيانات المليئة بالأخطاء لتدريب نماذج أخرى، فمن المحتم أن تكرر الأخطاء أيضًا.
المحتوى من شركائنا
وتحمل البيانات الاصطناعية أيضًا خطر الإفراط في التبسيط . قد تكون خالية من التفاصيل الدقيقة والتنوع الموجود في مجموعات البيانات الحقيقية، مما قد يؤدي إلى أن تكون مخرجات نماذج الذكاء الاصطناعي المدربة عليها مفرطة في التبسيط وأقل فائدة.
إنشاء أنظمة قوية للحفاظ على دقة الذكاء الاصطناعي وجديرته بالثقة
ولمعالجة هذه المشكلات، من الضروري أن تقدم الهيئات والمنظمات الدولية مثل المنظمة الدولية للمعايير الاتحاد الدولي للاتصالات التابع للأمم المتحدة أنظمة قوية لتتبع بيانات تدريب الذكاء الاصطناعي والتحقق من صحتها، والتأكد من إمكانية تنفيذ الأنظمة عالميًا.
يمكن تجهيز أنظمة الذكاء الاصطناعي لتتبع البيانات الوصفية، مما يسمح للمستخدمين أو الأنظمة بتتبع أصول وجودة أي بيانات تركيبية تم تدريبها عليها. وهذا من شأنه أن يكمل نظام التتبع والتحقق القياسي العالمي.
يجب على البشر أيضًا الحفاظ على الرقابة على البيانات الاصطناعية طوال عملية التدريب على نموذج الذكاء الاصطناعي للتأكد من أنها ذات جودة عالية. وينبغي أن تشمل هذه الرقابة تحديد الأهداف، والتحقق من جودة البيانات، وضمان الامتثال للمعايير الأخلاقية ومراقبة أداء نموذج الذكاء الاصطناعي.
ومن المفارقات إلى حد ما، أن خوارزميات الذكاء الاصطناعي يمكن أن تلعب أيضًا دورًا في تدقيق البيانات والتحقق منها، مما يضمن دقة المخرجات التي يولدها الذكاء الاصطناعي من النماذج الأخرى. على سبيل المثال، يمكن لهذه الخوارزميات مقارنة البيانات الاصطناعية بالبيانات الحقيقية لتحديد أي أخطاء أو تباين لضمان اتساق البيانات ودقتها. وبهذه الطريقة، يمكن أن تؤدي البيانات الاصطناعية إلى نماذج أفضل للذكاء الاصطناعي.
يعتمد مستقبل الذكاء الاصطناعي على البيانات عالية الجودة . ستلعب البيانات الاصطناعية دورًا متزايد الأهمية في التغلب على نقص البيانات.
ومع ذلك، يجب إدارة استخدامها بعناية للحفاظ على الشفافية وتقليل الأخطاء والحفاظ على الخصوصية - مما يضمن أن تكون البيانات الاصطناعية بمثابة مكمل موثوق للبيانات الحقيقية، مما يحافظ على دقة أنظمة الذكاء الاصطناعي وجديرة بالثقة.
جيمس جين كانغ، محاضر أول في علوم الكمبيوتر، جامعة RMIT فيتنام .
تم إعادة نشر هذه المقالة من The Conversation بموجب ترخيص المشاع الإبداعي. إقرأ المقال الأصلي .