يمكن اعتبار يوم من حياة صحفي البيانات بمثابة النظر إلى جداول البيانات وتقديم المعلومات بطريقة ذات معنى، ومع ذلك، كما دليل صحافة البيانات من خلال العديد من المساهمين، فإن صحافة البيانات مهمة للأسباب التالية:
- يساعد على تصفية تدفق البيانات
- توفير نهج وتقنيات جديدة لسرد القصص
- شكل مختلف من الصحافة، مثل صحافة الكلمات أو التصوير الصحفي
- صحافة البيانات هي مستقبل استهلاك المحتوى على الويب
- تحديث مجموعة المهارات الخاصة بك
- علاج لمعالجة المعلومات
- إجابة على العلاقات العامة القائمة على البيانات
- تقديم تفسيرات مستقلة للمعلومات الرسمية
- التعامل مع طوفان البيانات
- نشاط توفير الوقت
- و اكثر…
إدريس خلون، خريج حديث من جامعة هارفارد في الرياضيات التطبيقية، هو صحفي بيانات في مجلة الإيكونوميست مسؤول عن العمل مع الصحفيين المتميزين ومحرري الأقسام والمطورين والمصممين للحصول على مصادر وإنتاج تصورات البيانات ورسم الخرائط والرسوم البيانية التي تدعم قصص الصحفيين وضمان أفضل تمثيل البيانات بجميع التنسيقات (المطبوعة والتطبيق والويب) بهدف تطوير منتجات وقصص تحريرية ذات عرض أطول.
نظرًا لدوره المتداخل والمثير للاهتمام في المنظمة، في 27 يناير، أجرى إدريس جلسة أسئلة وأجوبة مباشرة على Quora . وفيما يلي الخطوط العريضة للجلسة وملخص الأسئلة والأجوبة.
مخطط ضمان الجودة
- صحافة البيانات – يوم نموذجي في المكتب
- كيف تقوم مجلة الإيكونوميست بتحليل البيانات لتغطية القصص
- أخطاء الاقتراع والاستطلاع
- بعض القصص التي عملت عليها شملت:
- نمذجة نتائج خروج بريطانيا من الاتحاد الأوروبي
- معرفة ما إذا كان قراء الصحف يمكنهم توقع الدعم لدونالد ترامب
- نصيحة مهنية لصحافة البيانات
صحافة البيانات – يوم نموذجي في المكتب
أولاً، إليك دورة حياة قصة البيانات:
- جيل الفكرة
- تحديد مصادر البيانات الموجودة
- تنظيف وتنسيق البيانات في الشكل
- استكشاف البيانات، غالبًا ما يكون بلا هدف
- اختبار فرضياتك للحصول على استنتاجات مثيرة للاهتمام أو بناء نموذج إحصائي (عادةً ما يكون مجرد توضيحي، أما النماذج التنبؤية فهي أصعب بكثير)
- قم بكتابة النتائج التي توصلت إليها، والتي يتم استكمالها دائمًا بالتقارير التقليدية
- وأخيرًا، الرد على المحررين ومدققي الحقائق قبل النشر
في يوم عادي، لن يقوم صحفي البيانات بكل هذه الأشياء، لكنه سيقوم بالقليل منها.
ربما تكون المهمة الأكثر تحديًا التي قمت بها هي بناء نموذج الجولف . بعد أن قام أحد زملائي بتطوير إطار عمل النموذج، والذي يأخذ في الاعتبار أشياء مثل الخطوط الساخنة وتأثيرات الطقس - في ورقة Excel ليس أقل من ذلك - اضطررت إلى ترجمة النموذج الأولي إلى لغة بايثون. ثم كان علينا أن نكتشف كيفية محاكاة البطولات في ظل هذا النموذج، وهو أمر لم يكن بالأمر الهين. وبعد أسبوع أو أسبوعين من القتال، أصبح لدينا البرنامج يعمل بشكل جيد بما يكفي لمحاكاة البطولات السابقة 10000 مرة. على الرغم من بذل قصارى جهدي، فإن بايثون، وهي لغة مترجمة، لم تكن تحصل على السرعة التي نحتاجها تقريبًا. لذلك لجأنا إلى زميل حاصل على درجة الدكتوراه في الفيزياء، والذي تمكن من ترجمة لغة بايثون الخاصة بي إلى لغة C++، مما أدى إلى تحسين سرعتنا بمقدار كبير أو أكثر. ممتع جدا.
يتم بذل الكثير من العمل في مخططاتنا قبل حدوث سحر التصور (جمع البيانات ومعالجتها في R وPython التي ذكرتها). بمجرد أن تصبح البيانات التي تم تنظيفها جاهزة، لدينا أداتان مخصصتان للتخطيط نستخدمهما لإنشاء المخططات: برنامج Excel وبرنامج Adobe Illustrator الذي يحول البيانات إلى مخطط فعلي.
كيف تقوم مجلة الإيكونوميست بتحليل البيانات لتغطية القصص
لذا، بمجرد حصولي على مجموعة بيانات واعدة، أقوم بتنظيفها وجعلها في شكل قابل للتحليل باستخدام مكتبة Python's Pandas أو R، وهو الخيار الأكثر شيوعًا بين صحفيي البيانات هنا. بمجرد أن تصبح البيانات مرتبة، سأستكشف عادةً بعض الشيء: انظر إلى المتوسطات، واكتشف ما إذا كانت هناك أي قيم مفقودة أو غريبة، وقم برسم بعض الاتجاهات بيانيًا. ومن هناك، سنقرر الرسوم البيانية الصحيحة لمرافقة القصة. أقوم بتمثيلها على جهازي ومن ثم تمريرها إلى مصور البيانات لإدخالها في أسلوبنا الشهير.
ما يجعل مجلة الإيكونوميست فريدة من نوعها هو عدم وجود قسم لصحافة البيانات في العمل، بل هو موجود في كل مكان. ثانيًا، كصحيفة أسبوعية، لدينا مواعيد نهائية فاخرة مقارنة بأصدقائنا في الصحف اليومية. عادةً ما يستغرق إنتاج قصص البيانات وقتًا طويلاً، ويرجع ذلك جزئيًا إلى الوقت الذي يستغرقه تنظيف البيانات الفوضوية ومعالجتها. نحن محظوظون بما فيه الكفاية لأننا قادرون على قضاء وقتنا في قراءة القصص ومنحها معالجة صارمة قبل النشر.
المحتوى من شركائنا
تعليقات على الاقتراع وأخطاء الاقتراع
الإجابة الأساسية، بعبارة مملة بعض الشيء، هي عينات متحيزة وغير تمثيلية. ينجح الاقتراع فقط إذا كانت العينة تمثل جميع السكان. هناك كل أنواع المشاكل التي تعترض طريق هذا المعيار الذهبي - تحيز عدم الإجابة (بعض الأشخاص أكثر ميلاً للرد على أسئلتك أكثر من غيرهم) أو تحيز الاختيار الذاتي (إجراء استطلاع في نادٍ ريفي قد يؤدي إلى تحريف عينتك ، على سبيل المثال).
عادة ما تكون البيانات الأولية التي يستخدمها معظم منظمي الاستطلاعات منحرفة تمامًا. على سبيل المثال، قد تكون العينة 60% من الذكور عندما يكون عدد السكان الفعلي أكثر من 50%. ولحل هذه المشكلة، يطبق القائمون على استطلاعات الرأي الترجيح، الأمر الذي من شأنه أن يجعل ردود النساء ذات قيمة أكبر. ويعمل هذا بشكل جيد ما لم تكن هناك عمليات إعادة ترتيب مفاجئة على طول محاور غير منضبطة في السياسة، وهو ما قد يكون ما حدث العام الماضي.
وقد يكون هناك مجال آخر للتحسين وهو توقعات نسبة المشاركة، والتي عادة ما تعتمد بتكاسل على استطلاعات الرأي عند الخروج من الانتخابات السابقة أو الاحتمالات المبلغ عنها ذاتيا. ربما تكون هناك حاجة إلى نماذج أكثر روعة، تتضمن تنبؤات فردية. لقد حققت الحملات الانتخابية في أمريكا السبق بالفعل في هذا النوع من العمل - وغالبًا ما يكون مدعومًا بعلماء بيانات أذكياء للغاية - ومن الأفضل لمنظمي استطلاعات الرأي أن يتعلموا منهم.
مثال على القصص التي عمل عليها إدريس كحلون
نمذجة نتائج خروج بريطانيا من الاتحاد الأوروبي
كانت الصعوبة الأكبر في نمذجة خروج بريطانيا من الاتحاد الأوروبي هي عدم وجود نظير يمكننا استخدامه للتدريب عليه. لقد تمكنت أنا وزميلي جيمس فرانشام من التغلب على هذه المشكلة من خلال النظر في بيانات الاقتراع الجزئية للحصول على فكرة واضحة عن أفضل المتنبئين للتصويت بالخروج أو البقاء. وعلى الفور، أصبح بوسعنا أن نرى أن التعليم والطبقة الاجتماعية كانا جيدين بشكل لا يصدق، في حين كان أداء المتنبئين بالسلوك السياسي الذي كان ناجحاً في الماضي (مثل الانتماء الحزبي) سيئاً للغاية. بمجرد أن حددنا العوامل الأكثر أهمية، استخدمنا أرقام التعداد لتوقع الأرقام النهائية. وقمنا أيضًا بنمذجة نسبة الإقبال باستخدام إجراء مماثل.
استخدم نموذج ليلة الانتخابات كل هذه الأرقام كتنبؤ أساسي (سابق بايزي). ومع ظهور النتائج، كتبنا نصًا عدل النموذج الأساسي ديناميكيًا، مما جعله دقيقًا بشكل متزايد مع مرور الليل. ولسوء الحظ بالنسبة للمملكة المتحدة، ولكن لحسن الحظ بالنسبة لنموذجنا، كنا نتوقع خروج بريطانيا من الاتحاد الأوروبي في غضون ساعة من ظهور النتائج. ويمكنك رؤية المزيد، بما في ذلك التفاصيل الإحصائية الرائعة، هنا .
قراء الصحف يدعمون توقعات دونالد ترامب
إنه يعمل بشكل مدهش . إذا سألت أحد الناخبين عن مدى جدارته بالثقة في تقييمه للعديد من الصحف، فيمكنك التنبؤ بتصويته بدقة تصل إلى 88%. وذلك دون تضمين أي معلومات مفيدة أخرى مثل العرق أو الانتماء الحزبي أو مستوى التعليم. وبينما قد يكون ذلك بمثابة انتصار للإحصائيات، أعتقد أنه من المحبط بعض الشيء أن المواقف تجاه وسائل الإعلام مستقطبة بقوة على طول الخطوط الحزبية.
ما هي أفضل طريقة للتحضير للعمل في صحافة البيانات؟
هناك حاجة إلى معرفة ثلاثة أشياء لتكون صحفي بيانات جيدًا: الإحصاء وعلوم الكمبيوتر والكتابة. من الأفضل تعلم الكتابة على نطاق واسع والصحافة على وجه التحديد من خلال الممارسة. إذا كنت مهتمًا بالصحافة، فإن أفضل طريقة للاستعداد هي التدرب في جريدتك المحلية ومحاولة الكتابة لمجلة مدرستك أو صحيفة الحرم الجامعي. هناك طريق آخر وهو الصحافة التجارية، حيث تتخصص في مجال متخصص ولكنك تكتسب جميع المهارات الأساسية اللازمة للكتابة في أي موضوع. إن التعلم من الصحفيين ذوي الخبرة أسهل بكثير من محاولة القراءة عن هذه الأشياء. معظم العاملين في مجلة الإيكونوميست الصحافة بشكل رسمي.
من الأفضل تعلم الإحصاء وعلوم الكمبيوتر في الفصل الدراسي، على يد معلم ذي خبرة يمكنه تصحيح الأخطاء قبل أن تصبح متأصلة بعمق. إذا كنت قد أكملت بالفعل تعليمك الرسمي، فلن يكون هناك نقص في المواد والدورات التدريبية عبر الإنترنت التي يمكن أن تساعدك. للحصول على مقدمة دقيقة للإحصاءات، أنصحك بقراءة المقدمة الممتازة للاحتمالات (والتعامل مع المشكلات!). مع هذه القاعدة، ستجد أن الكثير من المواضيع، مثل الاقتصاد القياسي والتعلم الآلي، ستصبح أكثر سهولة في الوصول إليها.
معظم المبرمجين يدرسون أنفسهم ذاتيًا هذه الأيام. كما هو الحال مع الكتابة، الشيء الأكثر أهمية هنا هو العمل. اختر لغة (تميل لغة بايثون إلى أن تكون الأسهل للمبتدئين)، وقم بإعداد الأشياء، وحاول إنشاء برامج بسيطة. كلما أجبرت نفسك على كتابة التعليمات البرمجية، أصبح الأمر أكثر طبيعية.