En dag i livet til en datajournalist kan ses på som å se på regneark og presentere informasjon på en meningsfull måte, men som Data Journalism-håndboken bemerker via flere bidragsytere, er datajournalistikk viktig av følgende grunner:
- Det hjelper med å filtrere dataflyten
- Gi en ny tilnærming og teknikker til historiefortelling
- En annen form for journalistikk, som det er ord journalistikk eller fotojournalistikk
- Datajournalistikk er fremtiden for forbruk av innhold på nettet
- Oppdaterer ferdighetene dine
- Et middel for å behandle informasjon
- Et svar på datadrevet PR
- Gir uavhengige tolkninger til offisiell informasjon
- Håndtere dataflod
- Tidsbesparende aktivitet
- og mer…
Idrees Khaloon, nylig utdannet Harvard i anvendt matematikk, er en datajournalist ved Economist som er ansvarlig for å jobbe med beatjournalister, seksjonsredaktører, utviklere og designere for å hente og produsere datavisualiseringer, kartografi og infografikk som støtter journalistenes historier og sikre den beste representasjonen av data i alle formater (print, app og nett) med tanke på å utvikle redaksjonelle produkter og historier med lengre sikt.
Gitt hans interessante kryssende rolle i organisasjonen, 27. januar, kjørte Idrees en live Q&A-økt på Quora . Nedenfor er oversikten over økten og et sammendrag av spørsmålene og svarene.
QA disposisjon
- Datajournalistikk – en typisk dag på kontoret
- Hvordan The Economist knuser data for å dekke historier
- Polling og polling feil
- Noen av historiene jeg har jobbet med har inkludert:
- Modellering av resultatene av Brexit
- Å finne ut om avislesere kan forutsi støtte for Donald Trump
- Datajournalistikk Karriereråd
Datajournalistikk – en typisk dag på kontoret
For det første er her livssyklusen til en datahistorie:
- Idégenerering
- Identifisere eksisterende datakilder
- Rengjøring og krangle dataene i form
- Utforsker dataene, ofte litt formålsløst
- Teste hypotesene dine for interessante konklusjoner eller bygge en statistisk modell (vanligvis bare forklarende; prediktive modeller er mye vanskeligere)
- Skrive opp funnene dine, som alltid suppleres med konvensjonell rapportering
- Sist av alt, å svare redaktører og faktasjekkere før publisering
På en vanlig dag vil ikke en datajournalist gjøre alle disse tingene – men han eller hun vil gjøre noen av dem.
Det mest utfordrende oppdraget jeg nok har tatt på meg er nok å bygge golfmodellen . Etter at en av mine kolleger utviklet rammeverket for modellen, som tar hensyn til ting som varme streker og væreffekter – i et Excel-ark ikke mindre – måtte jeg oversette prototypen til Python. Så måtte vi finne ut hvordan vi skulle simulere turneringer under denne modellen, noe som ikke var trivielt. Etter en uke eller to med kamp, fikk vi programmet til å fungere godt nok til å simulere tidligere turneringer 10 000 ganger. Til tross for min beste innsats, fikk Python, som er et tolket språk, ikke på langt nær den hastigheten vi trengte. Så vi henvendte oss til en kollega med en doktorgrad i fysikk, som klarte å oversette min Python til C++ – og forbedre hastigheten vår med en størrelsesorden eller mer. Veldig gøy.
Mye arbeid legges ned i diagrammene våre før visualiseringsmagien skjer (datainnsamlingen og behandlingen i R og Python som jeg har nevnt). Når de rensede dataene er klare, har vi to skreddersydde kartverktøy som vi bruker til å lage diagrammer: et Excel-skript og et Adobe Illustrator-skript som konverterer dataene til et faktisk diagram.
Hvordan The Economist knuser data for å dekke historier
Så, når jeg har et lovende datasett i hånden, rydder jeg det opp og får det i analyserbar form ved å bruke Pythons pandas' bibliotek eller R, som er det mest populære valget blant datajournalistene her. Når dataene er ryddige, vil jeg vanligvis utforske litt: se på gjennomsnitt, finne om noen verdier mangler eller er rare, tegne noen trender. Derfra bestemmer vi oss for de riktige diagrammene som skal følge historien. Disse håner jeg opp på maskinen min og sender deretter videre til en datavisualisering for å bringe inn i vår berømte stil.
Det som gjør Economist unik er at det ikke er en datajournalistikkseksjon i bransjen, den er overalt. For det andre, som ukeavis, har vi luksuriøse tidsfrister sammenlignet med vennene våre på dagbladene. Å produsere datahistorier tar vanligvis ganske lang tid, delvis på grunn av tiden det tar å rense og behandle rotete data. Vi er heldige nok til å kunne ta oss god tid til historier og gi dem en skikkelig streng behandling før publisering.
Innhold fra våre partnere
Kommentarer til avstemning og avstemningsfeil
Det grunnleggende svaret, for å si det litt kjedelig, er partiske og lite representative utvalg. Polling fungerer hvis, og bare hvis, utvalget representerer hele populasjonen. Det er alle slags problemer som kommer i veien for denne gullstandarden – skjevhet om ikke-svar (visse personer svarer mer sannsynlig på spørsmålene dine enn andre) eller selvvalgsskjevhet (å gjennomføre en meningsmåling i en countryklubb ville skjevt utvalget ditt , for eksempel).
Rådataene som de fleste meningsmålere jobber med, er vanligvis ganske skjeve. For eksempel kan utvalget være 60 % menn når den faktiske populasjonen er mer som 50 %. For å fikse dette bruker meningsmålerne vekting, noe som vil gjøre de kvinnelige svarene verdt mer. Dette fungerer ganske bra med mindre det er plutselige omstillinger langs ukontrollerte akser i politikken, som kan være det som skjedde i fjor.
Et annet område for forbedring kan være anslag på valgdeltakelsen, som vanligvis dovent stoler på utgangsmålinger fra tidligere valg eller selvrapporterte sannsynligheter. Mer avanserte modeller, som involverer individualiserte spådommer, er sannsynligvis nødvendig. Kampanjer i Amerika har allerede et forsprang på denne typen arbeid – ofte støttet av svært smarte dataforskere – og meningsmålere kan gjøre klokt i å lære av dem.
Eksempel på historiene Idrees Kahloon har jobbet med
Modellering av resultatene av Brexit
Den største vanskeligheten med å modellere Brexit var at det ikke var noen analog vi kunne bruke til å trene på. Min kollega James Fransham og jeg kom rundt dette ved å se på avstemningsmikrodata for å få en klar følelse av de beste prediktorene for å stemme Leave or Remain. Umiddelbart kunne vi se at utdanning og sosial klasse var utrolig bra, mens prediktorer for politisk atferd som hadde fungert bra tidligere (som partitilhørighet) gjorde det usedvanlig dårlig. Når vi hadde identifisert de viktigste faktorene, brukte vi folketellingen for å projisere de endelige tallene. Vi modellerte også valgdeltakelse ved å bruke en lignende prosedyre.
Valgnattmodellen brukte all denne tallknusingen som en basisprediksjon (en Bayesiansk tidligere). Etter hvert som resultatene kom, skrev vi et skript som dynamisk justerte den underliggende modellen, og gjorde den stadig mer nøyaktig etter hvert som natten gikk. Dessverre for Storbritannia, men heldigvis for vår modell, spådde vi en Brexit innen en time etter at resultatene kom. Du kan se litt mer, inkludert de strålende statistiske detaljene, her .
Avislesere støtter spådom om Donald Trump
Det gjør det utrolig bra. Hvis du spør en velger hvor pålitelige de vurderte flere aviser, kan du forutsi deres stemme med 88 % nøyaktighet. Det er uten å inkludere annen nyttig informasjon som rase, partitilhørighet eller utdanningsnivå. Selv om det kan være en triumf for statistikken, synes jeg det er litt nedslående at holdninger til media er så sterkt polarisert langs partipolitiske linjer.
Hva er den beste måten å forberede seg på en karriere innen datajournalistikk?
Kunnskap om tre ting er nødvendig for å være en god datajournalist: statistikk, informatikk og skriving. Å skrive bredt og journalistikk spesifikt læres best ved å gjøre. Hvis du er interessert i journalistikk, er den beste måten å forberede deg på å ta praktikant for din lokale avis og prøve å skrive for skolens magasin eller campusavis. En annen vei er fagpressen, der du spesialiserer deg på et nisjefelt, men plukker opp alle de grunnleggende ferdighetene som trengs for å skrive om ethvert emne. Det er mye lettere å lære av erfarne journalister enn å prøve å lese seg opp om dette. De fleste av de ansatte ved The Economist studerte for eksempel aldri formelt journalistikk.
Statistikk og informatikk læres best i klasserommet, fra en erfaren instruktør som kan stryke feil før de er for dypt inngrodd. Hvis du allerede har fullført din formelle utdanning, er det ingen mangel på nettmateriell og kurs som kan hjelpe deg. For en grundig introduksjon til statistikk, vil jeg anbefale å lese Joe Blitzsteins og Jessica Hwangs utmerkede Introduction to Probability (og jobbe gjennom problemene!). Med den basen vil du oppdage at mange emner, som økonometri og maskinlæring, vil bli mye mer tilgjengelig.
De fleste kodere er selvlærte i disse dager. Som med å skrive, er det viktigste her å gjøre. Velg et språk (Python pleier å være enklest for nybegynnere), sett opp ting og prøv å bygge enkle programmer. Jo mer du tvinger deg selv til å skrive kode, jo mer naturlig blir det.