Satu hari dalam kehidupan seorang wartawan data boleh dilihat sebagai melihat hamparan dan menyampaikan maklumat dengan cara yang bermakna, bagaimanapun, seperti yang buku panduan Kewartawanan Data melalui beberapa penyumbang, Kewartawanan Data adalah penting atas sebab berikut:
- Ia membantu menapis aliran data
- Menyediakan pendekatan dan teknik baharu untuk bercerita
- Bentuk kewartawanan yang berbeza, seperti terdapat perkataan kewartawanan atau photojournalism
- Kewartawanan data ialah masa depan penggunaan kandungan di web
- Mengemas kini set kemahiran anda
- Ubat untuk memproses maklumat
- Jawapan kepada PR berasaskan data
- Memberi tafsiran bebas kepada maklumat rasmi
- Menangani banjir data
- Aktiviti menjimatkan masa
- dan banyak lagi…
Idrees Khaloon, graduan Harvard baru-baru ini dalam Matematik Gunaan ialah Wartawan Data di Economist yang bertanggungjawab bekerja dengan wartawan, editor bahagian, pembangun dan pereka bentuk untuk mendapatkan dan menghasilkan visualisasi data, kartografi dan maklumat grafik yang menyokong cerita wartawan dan memastikan perwakilan terbaik data dalam semua format (cetak, apl dan web) dengan pandangan membangunkan produk dan cerita editorial paparan yang lebih panjang.
Memandangkan peranannya yang bersilang menarik dalam organisasi, Pada 27 Januari, Idrees telah menjalankan sesi Soal Jawab secara langsung di Quora . Di bawah adalah rangka sesi dan ringkasan soalan dan jawapan.
Garis Besar QA
- Kewartawanan data – hari biasa di pejabat
- Bagaimana The Economist menguraikan data untuk membuat liputan cerita
- Kesilapan pengundian dan pengundian
- Beberapa cerita yang saya kerjakan termasuk:
- Memodelkan keputusan Brexit
- Mencari sama ada pembaca akhbar boleh meramalkan sokongan untuk Donald Trump
- Nasihat Kerjaya Kewartawanan Data
Kewartawanan data – hari biasa di pejabat
Pertama di sini ialah kitaran hayat cerita data:
- Penjanaan idea
- Mengenal pasti sumber data sedia ada
- Membersihkan dan mencantumkan data ke dalam bentuk
- Meneroka data, selalunya agak tanpa tujuan
- Menguji hipotesis anda untuk kesimpulan yang menarik atau membina model statistik (biasanya hanya penerangan; model ramalan adalah lebih sukar)
- Menulis penemuan anda, yang sentiasa ditambah dengan pelaporan konvensional
- Akhir sekali, memberi respons kepada editor dan pemeriksa fakta sebelum diterbitkan
Pada hari biasa, seorang wartawan data tidak akan melakukan semua perkara ini—tetapi dia akan melakukan beberapa daripadanya.
Tugasan paling mencabar yang mungkin saya lakukan ialah membina model golf . Selepas salah seorang rakan sekerja saya membangunkan rangka kerja untuk model itu, yang mengambil kira perkara seperti coretan panas dan kesan cuaca—dalam helaian Excel tidak kurang—saya terpaksa menterjemahkan prototaip ke dalam Python. Kemudian kami perlu memikirkan cara mensimulasikan kejohanan di bawah model ini, yang bukan perkara remeh. Selepas satu atau dua minggu bertarung, kami mempunyai program yang berfungsi dengan baik untuk mensimulasikan kejohanan lalu sebanyak 10,000 kali. Di sebalik usaha terbaik saya, Python, yang merupakan bahasa yang ditafsirkan, tidak mencapai kelajuan yang kami perlukan. Oleh itu, kami beralih kepada rakan sekerja dengan PhD fizik, yang berjaya menterjemah Python saya ke dalam C++—meningkatkan kelajuan kami dengan susunan magnitud atau lebih. Sangat seronok.
Banyak kerja masuk ke dalam carta kami sebelum keajaiban visualisasi berlaku (pengumpulan dan pemprosesan data dalam R dan Python yang telah saya nyatakan). Setelah data yang dibersihkan telah sedia, kami mempunyai dua alatan carta yang dipesan lebih dahulu yang kami gunakan untuk membuat carta: skrip Excel dan skrip Adobe Illustrator yang menukar data kepada carta sebenar.
Bagaimana The Economist menguraikan data untuk membuat liputan cerita
Jadi, sebaik sahaja saya mempunyai set data yang menjanjikan, saya membersihkannya dan memasukkannya ke dalam bentuk yang boleh dianalisis menggunakan perpustakaan panda Python atau R, yang merupakan pilihan yang lebih popular di kalangan wartawan data di sini. Setelah data kemas, saya biasanya akan meneroka sedikit: lihat pada purata, cari jika ada nilai yang hilang atau pelik, graf beberapa arah aliran. Dari situ, kami akan memutuskan carta yang sesuai untuk mengiringi cerita. Ini saya olok-olok pada mesin saya dan kemudian berikan kepada visualiser data untuk dibawa ke dalam gaya terkenal kami.
Apa yang menjadikan Economist unik ialah tiada bahagian kewartawanan data dalam perniagaan, ia ada di mana-mana sahaja. Kedua, sebagai kertas mingguan, kami mempunyai tarikh akhir yang mewah berbanding rakan-rakan kami di akhbar harian. Menghasilkan cerita data biasanya mengambil sedikit masa, sebahagiannya kerana masa yang diperlukan untuk membersihkan dan memproses data yang tidak kemas. Kami cukup bernasib baik kerana dapat meluangkan masa kami dengan cerita dan memberi mereka rawatan yang betul sebelum diterbitkan.
Kandungan daripada rakan kongsi kami
Ulasan tentang ralat pengundian dan pengundian
Jawapan asas, untuk meletakkannya agak membosankan, adalah sampel yang berat sebelah dan tidak mewakili. Undian berfungsi jika, dan hanya jika, sampel mewakili keseluruhan populasi. Terdapat semua jenis masalah yang menghalang standard emas ini—kecondongan bukan respons (orang tertentu lebih cenderung untuk menjawab soalan anda berbanding yang lain) atau berat sebelah pemilihan diri (menjalankan tinjauan pendapat di kelab desa akan memesongkan sampel anda , sebagai contoh).
Data mentah yang digunakan oleh kebanyakan tinjauan pendapat biasanya agak condong. Sebagai contoh, sampel mungkin 60% lelaki apabila populasi sebenar adalah lebih seperti 50%. Untuk menyelesaikan masalah ini, peninjau pendapat menggunakan pemberat, yang akan menjadikan respons wanita lebih bernilai. Ini berfungsi dengan baik melainkan terdapat penjajaran semula secara tiba-tiba di sepanjang paksi yang tidak terkawal dalam politik, yang mungkin berlaku tahun lepas.
Satu lagi bidang untuk penambahbaikan mungkin unjuran keluar mengundi, yang biasanya malas bergantung pada pilihan raya keluar dari pilihan raya sebelumnya atau kemungkinan yang dilaporkan sendiri. Model yang lebih menarik, yang melibatkan ramalan individu, mungkin diperlukan. Kempen di Amerika sudah pun mempunyai permulaan yang baik untuk kerja seperti ini—selalunya disokong oleh saintis data yang sangat bijak—dan peninjau mungkin patut belajar daripada mereka.
Contoh cerita yang telah diusahakan oleh Idrees Kahloon
Memodelkan keputusan Brexit
Kesukaran terbesar untuk memodelkan Brexit ialah tiada analog yang boleh kami gunakan untuk berlatih. Rakan sekerja saya James Fransham dan saya mengatasi perkara ini dengan melihat mikrodata tinjauan untuk mendapatkan gambaran yang jelas tentang peramal terbaik untuk mengundi Cuti atau Kekal. Serta-merta, kita dapat melihat bahawa pendidikan dan kelas sosial adalah sangat baik, manakala peramal tingkah laku politik yang telah bekerja dengan baik pada masa lalu (seperti gabungan parti) menunjukkan prestasi yang sangat buruk. Setelah kami mengenal pasti faktor yang paling penting, kami menggunakan nombor banci untuk mengunjurkan pengiraan akhir. Kami juga memodelkan jumlah keluar mengundi menggunakan prosedur yang sama.
Model malam pilihan raya menggunakan semua pemecahan nombor ini sebagai ramalan asas (sebelumnya Bayesian). Apabila keputusan masuk, kami menulis skrip yang melaraskan model asas secara dinamik, menjadikannya semakin tepat apabila malam berlalu. Malangnya untuk United Kingdom, tetapi bernasib baik untuk model kami, kami meramalkan Brexit dalam masa sejam selepas keputusan masuk. Anda boleh melihat lebih banyak lagi, termasuk butiran statistik yang mengagumkan, di sini .
Ramalan sokongan pembaca akhbar Donald Trump
Ia berfungsi dengan baik. Jika anda bertanya kepada pengundi sejauh mana kepercayaan mereka menilai beberapa akhbar, anda boleh meramalkan undian mereka dengan ketepatan 88%. Itu tanpa memasukkan sebarang maklumat berguna lain seperti kaum, gabungan parti atau tahap pendidikan. Walaupun ia mungkin satu kejayaan untuk statistik, saya rasa agak merimaskan bahawa sikap terhadap media terpolarisasi dengan begitu kuat mengikut garis partisan.
Apakah cara terbaik untuk bersedia untuk kerjaya dalam kewartawanan data?
Pengetahuan tentang tiga perkara diperlukan untuk menjadi wartawan data yang baik: statistik, sains komputer dan penulisan. Menulis secara meluas dan kewartawanan secara khusus adalah paling baik dipelajari dengan melakukan. Jika anda berminat dalam kewartawanan, cara terbaik untuk membuat persediaan adalah untuk magang untuk akhbar tempatan anda dan cuba menulis untuk majalah sekolah atau kertas kampus anda. Jalan lain ialah akhbar perdagangan, di mana anda pakar dalam bidang khusus tetapi mengambil semua kemahiran asas yang diperlukan untuk menulis tentang mana-mana subjek. Lebih mudah untuk belajar daripada wartawan berpengalaman daripada mencuba dan membaca perkara ini. Kebanyakan kakitangan di The Economist tidak pernah belajar secara rasmi kewartawanan, contohnya.
Perangkaan dan sains komputer paling baik dipelajari di dalam bilik darjah, daripada pengajar berpengalaman yang boleh menyelesaikan kesilapan sebelum ia terlalu berakar umbi. Jika anda telah menamatkan pendidikan formal anda, tiada kekurangan bahan dan kursus dalam talian yang boleh membantu anda. Pengenalan kepada Kebarangkalian yang sangat baik oleh Joe Blitzstein dan Jessica Hwang (dan menyelesaikan masalah!). Dengan asas itu, anda akan mendapati bahawa banyak topik, seperti ekonometrik dan pembelajaran mesin, akan menjadi lebih mudah diakses.
Kebanyakan pengekod pada hari ini diajar sendiri. Seperti menulis, perkara yang paling penting di sini ialah melakukan. Pilih bahasa (Python cenderung paling mudah untuk pemula), sediakan perkara dan cuba bina atur cara mudah. Semakin anda memaksa diri anda untuk menulis kod, semakin semula jadi ia.