Ang isang araw sa buhay ng isang mamamahayag ng data ay makikita bilang pagtingin sa mga spreadsheet at paglalahad ng impormasyon sa isang makabuluhang paraan, gayunpaman, tulad ng ng handbook ng Data Journalism sa pamamagitan ng ilang mga kontribyutor, ang Data Journalism ay mahalaga para sa mga sumusunod na dahilan:
- Nakakatulong itong i-filter ang daloy ng data
- Pagbibigay ng bagong diskarte at diskarte sa pagkukuwento
- Ibang uri ng pamamahayag, tulad ng mga salitang journalism o photojournalism
- Ang data journalism ay ang kinabukasan ng pagkonsumo ng nilalaman sa web
- Ina-update ang iyong skillset
- Isang remedyo para sa pagproseso ng impormasyon
- Isang sagot sa data-driven na PR
- Pagbibigay ng mga independiyenteng interpretasyon sa opisyal na impormasyon
- Pagharap sa data delubyo
- Aktibidad na nakakatipid sa oras
- at higit pa…
Si Idrees Khaloon, isang kamakailang nagtapos sa Harvard sa Applied Mathematics ay isang Data Journalist sa Economist na responsable sa pakikipagtulungan sa mga beat na mamamahayag, mga editor ng seksyon, mga developer at mga taga-disenyo upang mag-source at gumawa ng mga visualization ng data, cartography at infographics na sumusuporta sa mga kuwento ng mga mamamahayag at tiyakin ang pinakamahusay na representasyon ng data sa lahat ng mga format (print, app at web) na may pagtingin sa pagbuo ng mas mahabang view na mga produkto at kwentong pang-editoryal.
Dahil sa kanyang kawili-wiling intersected role sa organisasyon, Noong ika-27 ng Enero, nagpatakbo si Idrees ng live na Q&A session sa Quora . Nasa ibaba ang outline ng session at isang buod ng mga tanong at sagot.
Balangkas ng QA
- Data journalism – isang karaniwang araw sa opisina
- Paano kinukuha ng The Economist ang data para masakop ang mga kwento
- Mga pagkakamali sa botohan at botohan
- Ang ilan sa mga kwentong ginawa ko ay kasama ang:
- Pagmomodelo ng mga resulta ng Brexit
- Pag-aaral kung mahuhulaan ng mga mambabasa ng pahayagan ang suporta para kay Donald Trump
- Payo sa Karera ng Data Journalism
Data journalism – isang karaniwang araw sa opisina
Una, narito ang ikot ng buhay ng isang kuwento ng data:
- Pagbuo ng ideya
- Pagkilala sa mga kasalukuyang pinagmumulan ng data
- Paglilinis at pag-wrangling ng data sa hugis
- Paggalugad sa data, kadalasang medyo walang layunin
- Pagsubok sa iyong mga hypotheses para sa mga kawili-wiling konklusyon o pagbuo ng istatistikal na modelo (karaniwan ay paliwanag lamang; ang mga predictive na modelo ay mas mahirap)
- Pagsusulat ng iyong mga natuklasan, na palaging dinadagdagan ng kumbensyonal na pag-uulat
- Panghuli sa lahat, tumugon sa mga editor at fact-checker bago i-publish
Sa isang karaniwang araw, hindi gagawin ng isang data journalist ang lahat ng mga bagay na ito—ngunit gagawin niya ang ilan sa mga ito.
Ang pinaka-mapanghamong assignment na malamang na nagawa ko ay marahil ang pagbuo ng aming modelo ng golf . Matapos ang isa sa aking mga kasamahan ay bumuo ng balangkas para sa modelo, na isinasaalang-alang ang mga bagay tulad ng mga maiinit na streak at epekto ng panahon—sa isang Excel sheet na hindi kukulangin—kinailangan kong isalin ang prototype sa Python. Pagkatapos ay kailangan naming malaman kung paano gayahin ang mga paligsahan sa ilalim ng modelong ito, na hindi mahalaga. Pagkatapos ng isang linggo o dalawa ng pakikipaglaban, ginawa namin ang programa nang maayos upang gayahin ang mga nakaraang paligsahan nang 10,000 beses. Sa kabila ng aking pinakamahusay na pagsisikap, ang Python, na isang binibigyang kahulugan na wika, ay hindi nakakakuha ng halos bilis na kailangan namin. Kaya bumaling kami sa isang kasamahan na may PhD sa pisika, na nagawang isalin ang aking Python sa C++—na pinahusay ang aming bilis sa pamamagitan ng isang order ng magnitude o higit pa. Sobrang saya.
Maraming trabaho ang napupunta sa aming mga chart bago mangyari ang visualization magic (ang pangangalap at pagproseso ng data sa R at Python na nabanggit ko). Kapag handa na ang nalinis na data, mayroon kaming dalawang pasadyang tool sa pag-chart na ginagamit namin upang gumawa ng mga chart: isang Excel script at isang Adobe Illustrator script na nagko-convert ng data sa isang aktwal na chart.
Paano kinukuha ng The Economist ang data para masakop ang mga kwento
Kaya, kapag mayroon akong promising data set sa kamay, nililinis ko ito at inilagay ito sa masusuri na hugis gamit ang Python's pandas' library o R, na siyang mas popular na pagpipilian sa mga data journalist dito. Kapag maayos na ang data, kadalasan ay mag-e-explore ako ng kaunti: tingnan ang mga average, hanapin kung may nawawala o kakaibang value, i-graph ang ilang trend. Mula doon, magpapasya kami sa mga tamang chart na sasamahan ng kuwento. Ang mga ito ay kinukutya ko sa aking makina at pagkatapos ay ipinapasa sa isang data visualizer upang dalhin sa aming sikat na istilo.
Ang natatangi sa Economist ay walang seksyon ng data journalism sa negosyo, ito ay nasa lahat ng dako. Pangalawa, bilang isang lingguhang papel, mayroon kaming mga marangyang deadline kumpara sa aming mga kaibigan sa mga dailies. Ang paggawa ng mga kwento ng data ay karaniwang tumatagal ng kaunting oras, sa bahagi dahil sa oras na kinakailangan upang linisin at iproseso ang magulo na data. Kami ay sapat na mapalad na makapaglaan ng aming oras sa mga kuwento at bigyan sila ng maayos na mahigpit na paggamot bago i-publish.
Nilalaman mula sa aming mga kasosyo
Mga komento sa polling at polling error
Ang pangunahing sagot, upang ilagay ito nang medyo boring, ay mga bias at hindi kinatawan ng mga sample. Gumagana ang botohan kung, at kung, ang sample ay kumakatawan sa buong populasyon. Mayroong lahat ng uri ng mga problema na humahadlang sa gintong pamantayang ito—ang hindi pagtugon na bias (ang ilang partikular na tao ay mas malamang na tumugon sa iyong mga tanong kaysa sa iba) o pagkiling sa pagpili sa sarili (ang pagsasagawa ng poll sa isang country club ay malilihis ang iyong sample , halimbawa).
Ang raw data na ginagamit ng karamihan sa mga pollster ay kadalasang medyo baluktot. Halimbawa, ang sample ay maaaring 60% na lalaki kapag ang aktwal na populasyon ay mas katulad ng 50%. Upang ayusin ito, naglalapat ang mga pollster ng weighting, na gagawing mas sulit ang mga sagot ng babae. Gumagana ito nang maayos maliban kung may mga biglaang pag-aayos sa mga hindi nakokontrol na mga palakol sa pulitika, na maaaring kung ano ang nangyari noong nakaraang taon.
Ang isa pang bahagi para sa pagpapabuti ay maaaring ang mga projection ng turnout, na kadalasang tamad na umaasa sa mga exit poll mula sa mga nakaraang halalan o mga posibilidad na iniulat sa sarili. Ang mga mas mahuhusay na modelo, na kinasasangkutan ng mga indibidwal na hula, ay malamang na kailangan. Ang mga kampanya sa Amerika ay mayroon nang maagang pagsisimula sa ganitong uri ng trabaho—kadalasang bina-back up ng napakatalino na mga siyentipiko ng data—at maaaring makabubuting matuto mula sa kanila ang mga pollster.
Halimbawa ng mga kwentong ginawa ni Idrees Kahloon
Pagmomodelo ng mga resulta ng Brexit
Ang pinakamalaking kahirapan sa pagmomodelo ng Brexit ay walang analog na magagamit namin upang magsanay. Nalampasan namin ito ng aking kasamahan na si James Fransham sa pamamagitan ng pagtingin sa microdata ng botohan upang magkaroon ng malinaw na kahulugan ng mga pinakamahusay na predictor para sa pagboto ng Leave or Remain. Kaagad, makikita namin na ang edukasyon at panlipunang uri ay hindi kapani-paniwalang mabuti, samantalang ang mga tagahula ng pampulitikang pag-uugali na nagtrabaho nang maayos sa nakaraan (tulad ng pakikilahok sa partido) ay lubhang hindi maganda. Kapag natukoy na namin ang pinakamahalagang salik, ginamit namin ang mga numero ng census para i-proyekto ang mga huling bilang. Nagmodelo rin kami ng turnout gamit ang katulad na pamamaraan.
Ginamit ng modelo sa gabi ng halalan ang lahat ng pag-crunching ng numero na ito bilang batayan ng hula (isang naunang Bayesian). Nang dumating ang mga resulta, nagsulat kami ng script na dynamic na nag-adjust sa pinagbabatayan na modelo, na ginagawa itong mas tumpak habang tumatagal ang gabi. Sa kasamaang-palad para sa United Kingdom, ngunit sa kabutihang-palad para sa aming modelo, hinuhulaan namin ang isang Brexit sa loob ng isang oras ng mga resulta na dumating. Maaari kang makakita ng kaunti pa, kabilang ang maluwalhating mga detalye ng istatistika, dito .
Hula ng suporta sa mga mambabasa ng pahayagan ni Donald Trump
Ito ay kamangha-mangha na mahusay. Kung tatanungin mo ang isang botante kung gaano sila mapagkakatiwalaan nag-rate ng ilang pahayagan, maaari mong hulaan ang kanilang boto nang may 88% na katumpakan. Iyon ay nang hindi nagsasama ng anumang iba pang kapaki-pakinabang na impormasyon tulad ng lahi, kaakibat ng partido o antas ng edukasyon. Bagama't maaaring ito ay isang tagumpay para sa mga istatistika, sa palagay ko ay medyo nakakasira ng loob na ang mga saloobin patungo sa media ay lubos na nababago sa mga linyang partisan.
Ano ang pinakamahusay na paraan upang maghanda para sa isang karera sa data journalism?
Ang kaalaman sa tatlong bagay ay kailangan upang maging isang mahusay na data journalist: statistics, computer science at writing. Ang pagsulat ng malawak at partikular na pamamahayag ay pinakamahusay na natutunan sa pamamagitan ng paggawa. Kung interesado ka sa pamamahayag, ang pinakamahusay na paraan upang maghanda ay ang mag-intern para sa iyong lokal na pahayagan at subukang magsulat para sa magazine ng iyong paaralan o campus paper. Ang isa pang paraan ay ang trade press, kung saan dalubhasa ka sa isang angkop na larangan ngunit kukunin ang lahat ng mga pangunahing kasanayan na kailangan upang magsulat sa anumang paksa. Mas madaling matuto mula sa mga makaranasang mamamahayag kaysa subukan at basahin ang bagay na ito. Karamihan sa mga kawani sa The Economist ay hindi kailanman pormal na nag-aral ng pamamahayag, halimbawa.
Ang mga istatistika at agham ng computer ay pinakamahusay na natutunan sa silid-aralan, mula sa isang makaranasang instruktor na kayang ayusin ang mga pagkakamali bago pa ito maging malalim. Kung natapos mo na ang iyong pormal na edukasyon, walang kakulangan ng mga online na materyales at kurso na makakatulong sa iyo. Para sa isang mahigpit na panimula sa mga istatistika, inirerekumenda kong basahin ang mahusay na Panimula ni Joe Blitzstein at Jessica Hwang sa Probability (at paglutas ng mga problema!). Sa base na iyon, makikita mo na maraming paksa, tulad ng econometrics at machine learning, ang magiging mas madaling ma-access.
Karamihan sa mga coder ay self-taught sa mga araw na ito. Tulad ng pagsusulat, ang pinakamahalagang bagay dito ay ang paggawa. Pumili ng wika (Python ay kadalasang pinakamadali para sa mga nagsisimula), i-set up ang mga bagay, at subukang bumuo ng mga simpleng program. Kung mas pinipilit mo ang iyong sarili na magsulat ng code, magiging mas natural ito.