Una giornata nella vita di un giornalista di dati può essere vista come guardare fogli di calcolo e presentare informazioni in modo significativo, tuttavia, come sottolinea il manuale sul data journalism tramite diversi contributori, il data journalism è importante per i seguenti motivi:
- Aiuta a filtrare il flusso di dati
- Fornire un nuovo approccio e tecniche alla narrazione
- Una forma diversa di giornalismo, come esistono le parole giornalismo o fotogiornalismo
- Il data journalism è il futuro della fruizione di contenuti sul web
- Aggiornamento delle tue competenze
- Un rimedio per l'elaborazione delle informazioni
- Una risposta alle PR basate sui dati
- Fornire interpretazioni indipendenti alle informazioni ufficiali
- Affrontare il diluvio di dati
- Attività che fa risparmiare tempo
- e altro ancora...
Idrees Khaloon, un neolaureato ad Harvard in Matematica applicata, è un giornalista di dati presso l'Economist responsabile della collaborazione con giornalisti, redattori di sezione, sviluppatori e designer per reperire e produrre visualizzazioni di dati, cartografia e infografiche a supporto delle storie dei giornalisti e garantire la migliore rappresentazione di dati in tutti i formati (stampa, app e web) con l’obiettivo di sviluppare prodotti e storie editoriali di più lunga visione.
Dato il suo interessante ruolo intersecato nell'organizzazione, il 27 gennaio Idrees ha tenuto una sessione di domande e risposte dal vivo su Quora . Di seguito lo schema della sessione e un riepilogo delle domande e delle risposte.
Profilo del QA
- Giornalismo dei dati: una tipica giornata in ufficio
- Come The Economist elabora i dati per raccontare le storie
- Polling ed errori di polling
- Alcune delle storie a cui ho lavorato includono:
- Modellare i risultati della Brexit
- Capire se i lettori dei giornali potrebbero prevedere il sostegno a Donald Trump
- Consigli per la carriera nel giornalismo dei dati
Giornalismo dei dati: una tipica giornata in ufficio
Innanzitutto ecco il ciclo di vita di una data story:
- Generazione di idee
- Identificazione delle fonti di dati esistenti
- Pulire e rimettere in forma i dati
- Esplorare i dati, spesso un po’ senza meta
- Testare le tue ipotesi per ottenere conclusioni interessanti o costruire un modello statistico (di solito solo esplicativo; i modelli predittivi sono molto più difficili)
- Scrivere i risultati, che sono sempre integrati con il reporting convenzionale
- Infine, rispondere agli editori e ai fact-checker prima di pubblicare
In una giornata tipo, un giornalista di dati non farà tutte queste cose, ma ne farà alcune.
Probabilmente l'incarico più impegnativo che ho accettato è stato quello di costruire il nostro modello di golf . Dopo che uno dei miei colleghi ha sviluppato la struttura del modello, che tiene conto di fattori come le striature calde e gli effetti meteorologici, nientemeno che in un foglio Excel, ho dovuto tradurre il prototipo in Python. Poi abbiamo dovuto capire come simulare i tornei con questo modello, il che non era banale. Dopo una o due settimane di battaglie, il programma funzionava abbastanza bene da simulare i tornei passati 10.000 volte. Nonostante i miei migliori sforzi, Python, che è un linguaggio interpretato, non raggiungeva la velocità di cui avevamo bisogno. Quindi ci siamo rivolti a un collega con un dottorato in fisica, che è riuscito a tradurre il mio Python in C++, migliorando la nostra velocità di un ordine di grandezza o più. Molto divertente.
Viene svolto molto lavoro sui nostri grafici prima che avvenga la magia della visualizzazione (la raccolta e l'elaborazione dei dati in R e Python che ho menzionato). Una volta che i dati puliti sono pronti, disponiamo di due strumenti grafici su misura che utilizziamo per creare grafici: uno script Excel e uno script Adobe Illustrator che converte i dati in un grafico vero e proprio.
Come The Economist elabora i dati per raccontare le storie
Quindi, una volta che ho in mano un set di dati promettente, lo ripulisco e lo metto in forma analizzabile utilizzando la libreria Pandas di Python o R, che è la scelta più popolare tra i giornalisti di dati qui. Una volta che i dati sono in ordine, di solito esploro un po': guardo le medie, scopro se qualche valore è mancante o strano, rappresento graficamente alcune tendenze. Da lì, decideremo i grafici giusti per accompagnare la storia. Li creo sulla mia macchina e poi li passo a un visualizzatore di dati per inserirli nel nostro famoso stile.
Ciò che rende unico l'Economist è che non c'è una sezione dedicata al giornalismo dei dati nel settore, è ovunque. In secondo luogo, come settimanale, abbiamo scadenze lussuose rispetto ai nostri amici quotidiani. La produzione di storie di dati richiede solitamente un po' di tempo, in parte a causa del tempo necessario per pulire ed elaborare dati disordinati. Siamo abbastanza fortunati da poter dedicare il nostro tempo alle storie e dar loro un trattamento adeguatamente rigoroso prima di pubblicarle.
Contenuti dei nostri partner
Commenti sul polling e sugli errori di polling
La risposta di base, per dirla in modo un po’ noioso, è: campioni distorti e non rappresentativi. Il sondaggio funziona se, e solo se, il campione rappresenta l’intera popolazione. Ci sono tutti i tipi di problemi che intralciano questo gold standard: bias di mancata risposta (alcune persone sono più propense a rispondere alle tue domande rispetto ad altri) o bias di autoselezione (condurre un sondaggio in un country club distorcerebbe il tuo campione , Per esempio).
I dati grezzi con cui lavora la maggior parte dei sondaggisti sono solitamente piuttosto distorti. Ad esempio, il campione potrebbe essere composto per il 60% da uomini quando la popolazione effettiva è più vicina al 50%. Per risolvere questo problema, i sondaggisti applicano una ponderazione, che farebbe valere di più le risposte femminili. Ciò funziona abbastanza bene a meno che non si verifichino improvvisi riallineamenti lungo assi incontrollati in politica, come potrebbe essere quello che è accaduto l’anno scorso.
Un’altra area di miglioramento potrebbe essere rappresentata dalle proiezioni sull’affluenza alle urne, che di solito si basano pigramente sugli exit poll delle elezioni precedenti o sulle probabilità autodichiarate. Probabilmente sono necessari modelli più elaborati, che coinvolgano previsioni personalizzate. Le campagne in America hanno già un vantaggio su questo tipo di lavoro – spesso supportato da data scientist molto intelligenti – e i sondaggisti potrebbero fare bene a imparare da loro.
Esempio delle storie su cui ha lavorato Idrees Kahloon
Modellare i risultati della Brexit
La difficoltà più grande nel modellare la Brexit è stata che non esisteva un analogo su cui potessimo esercitarci. Il mio collega James Fransham e io abbiamo risolto questo problema esaminando i microdati dei sondaggi per avere un’idea chiara dei migliori predittori per votare Leave o Remain. Immediatamente, abbiamo potuto vedere che l’istruzione e la classe sociale erano incredibilmente buone, mentre i predittori del comportamento politico che avevano funzionato bene in passato (come l’affiliazione ai partiti) si comportavano eccezionalmente male. Una volta identificati i fattori più importanti, abbiamo utilizzato i numeri del censimento per proiettare i conteggi finali. Abbiamo anche modellato l’affluenza alle urne utilizzando una procedura simile.
Il modello della notte delle elezioni ha utilizzato tutta questa elaborazione dei numeri come previsione di base (un precedente bayesiano). Quando sono arrivati i risultati, abbiamo scritto uno script che adattava dinamicamente il modello sottostante, rendendolo sempre più accurato con il passare della notte. Sfortunatamente per il Regno Unito, ma fortunatamente per il nostro modello, stavamo prevedendo una Brexit entro un’ora dall’arrivo dei risultati. Puoi vedere qualcosa in più, compresi i gloriosi dettagli statistici, qui .
I lettori dei giornali sostengono la previsione di Donald Trump
Funziona sorprendentemente bene. Se chiedi a un elettore quanto siano affidabili alcuni giornali, puoi prevedere il suo voto con una precisione dell’88%. Questo senza incorporare altre informazioni utili come razza, appartenenza a un partito o livello di istruzione. Anche se potrebbe essere un trionfo per le statistiche, penso che sia un po' scoraggiante che gli atteggiamenti nei confronti dei media siano così fortemente polarizzati lungo linee partigiane.
Qual è il modo migliore per prepararsi per una carriera nel giornalismo dei dati?
Per essere un buon giornalista di dati è necessaria la conoscenza di tre cose: statistica, informatica e scrittura. Scrivere in generale e fare giornalismo in particolare si impara meglio facendo. Se sei interessato al giornalismo, il modo migliore per prepararti è fare uno stage per il tuo giornale locale e provare a scrivere per la rivista della tua scuola o per il giornale del campus. Un'altra strada è la stampa specializzata, in cui sei specializzato in un campo di nicchia ma acquisisci tutte le competenze di base necessarie per scrivere su qualsiasi argomento. È molto più facile imparare da giornalisti esperti che cercare di documentarsi su queste cose. La maggior parte dello staff dell’Economist, ad esempio, non ha mai studiato formalmente giornalismo.
La statistica e l'informatica si imparano meglio in classe, da un istruttore esperto che può eliminare gli errori prima che diventino troppo radicati. Se hai già completato la tua istruzione formale, non mancano materiali e corsi online che possono aiutarti. Per un'introduzione rigorosa alla statistica, consiglierei di leggere l'eccellente Introduzione alla probabilità (e di risolvere i problemi!). Con questa base scoprirai che molti argomenti, come l'econometria e l'apprendimento automatico, diventeranno molto più accessibili.
Al giorno d'oggi la maggior parte dei programmatori sono autodidatti. Come per la scrittura, anche qui la cosa più importante è fare. Scegli una lingua (Python tende ad essere più semplice per i principianti), imposta le cose e prova a creare programmi semplici. Più ti costringi a scrivere il codice, più naturale diventerà.