Ein Tag im Leben eines Datenjournalisten besteht darin, sich Tabellenkalkulationen anzusehen und Informationen auf sinnvolle Weise zu präsentieren. Wie das Handbuch zum Datenjournalismus über mehrere Mitwirkende feststellt, ist Datenjournalismus aus folgenden Gründen wichtig:
- Es hilft, den Datenfluss zu filtern
- Bereitstellung eines neuen Ansatzes und neuer Techniken für das Geschichtenerzählen
- Eine andere Form des Journalismus, so wie es Wortjournalismus oder Fotojournalismus gibt
- Datenjournalismus ist die Zukunft des Konsums von Inhalten im Internet
- Aktualisieren Sie Ihre Fähigkeiten
- Ein Mittel zur Verarbeitung von Informationen
- Eine Antwort auf datengesteuerte PR
- Bereitstellung unabhängiger Interpretationen offizieller Informationen
- Umgang mit der Datenflut
- Zeitsparende Aktivität
- und mehr…
Idrees Khaloon, ein frischgebackener Harvard-Absolvent in Angewandter Mathematik, ist Datenjournalist beim Economist und verantwortlich für die Zusammenarbeit mit Top-Journalisten, Rubrikredakteuren, Entwicklern und Designern, um Datenvisualisierungen, Kartografien und Infografiken zu beschaffen und zu produzieren, die die Geschichten von Journalisten unterstützen und die beste Darstellung davon gewährleisten Daten in allen Formaten (Print, App und Web) mit dem Ziel, längerfristige redaktionelle Produkte und Geschichten zu entwickeln.
Angesichts seiner interessanten, überschneidenden Rolle in der Organisation veranstaltete Idrees am 27. Januar eine Live-Frage-und-Antwort-Runde zu Quora . Nachfolgend finden Sie den Überblick über die Sitzung sowie eine Zusammenfassung der Fragen und Antworten.
QA-Übersicht
- Datenjournalismus – ein typischer Tag im Büro
- Wie The Economist Daten verarbeitet, um Titelgeschichten zu veröffentlichen
- Polling- und Polling-Fehler
- Zu den Geschichten, an denen ich gearbeitet habe, gehörten:
- Modellierung der Folgen des Brexit
- Ermittlung, ob die Zeitungsleserschaft eine Unterstützung für Donald Trump vorhersagen könnte
- Karriereberatung für Datenjournalismus
Datenjournalismus – ein typischer Tag im Büro
Hier ist zunächst der Lebenszyklus einer Datengeschichte:
- Ideengenerierung
- Identifizieren vorhandener Datenquellen
- Die Daten bereinigen und in Form bringen
- Die Daten erforschen, oft etwas ziellos
- Testen Sie Ihre Hypothesen auf interessante Schlussfolgerungen oder erstellen Sie ein statistisches Modell (normalerweise nur erklärend; Vorhersagemodelle sind viel schwieriger)
- Verfassen Ihrer Erkenntnisse, immer ergänzt durch konventionelle Berichterstattung
- Zu guter Letzt: Antworten auf Redakteure und Faktenprüfer vor der Veröffentlichung
An einem typischen Tag wird ein Datenjournalist nicht alle diese Dinge tun – aber er oder sie wird einige davon tun.
Die anspruchsvollste Aufgabe, die ich je übernommen habe, war wahrscheinlich der Bau unseres Golfmodells . Nachdem einer meiner Kollegen das Framework für das Modell, das unter anderem Hitzestreifen und Wettereffekte berücksichtigt, in einer Excel-Tabelle entwickelt hatte, musste ich den Prototyp in Python übersetzen. Dann mussten wir herausfinden, wie wir Turniere nach diesem Modell simulieren können, was nicht trivial war. Nach ein oder zwei Wochen voller Kämpfe funktionierte das Programm gut genug, um vergangene Turniere 10.000 Mal zu simulieren. Trotz meiner besten Bemühungen erreichte Python, eine interpretierte Sprache, nicht annähernd die Geschwindigkeit, die wir brauchten. Also wandten wir uns an einen Kollegen mit einem Doktortitel in Physik, der es schaffte, mein Python in C++ zu übersetzen – und so unsere Geschwindigkeit um eine Größenordnung oder mehr zu verbessern. Sehr lustig.
Es steckt viel Arbeit in unsere Diagramme, bevor die Visualisierungsmagie geschieht (die Datenerfassung und -verarbeitung in R und Python, die ich erwähnt habe). Sobald die bereinigten Daten fertig sind, verfügen wir über zwei maßgeschneiderte Diagrammtools, mit denen wir Diagramme erstellen: ein Excel-Skript und ein Adobe Illustrator-Skript, das die Daten in ein tatsächliches Diagramm umwandelt.
Wie The Economist Daten verarbeitet, um Titelgeschichten zu veröffentlichen
Sobald ich also einen vielversprechenden Datensatz in der Hand habe, bereinige ich ihn und bringe ihn mithilfe der Pandas-Bibliothek von Python oder R, was unter den Datenjournalisten hier die beliebtere Wahl ist, in eine analysierbare Form. Sobald die Daten bereinigt sind, erkunde ich normalerweise ein wenig: Schaue mir die Durchschnittswerte an, finde heraus, ob Werte fehlen oder seltsam sind, und stelle einige Trends grafisch dar. Von dort aus würden wir uns für die richtigen Diagramme entscheiden, die die Geschichte begleiten. Diese mache ich auf meiner Maschine nach und gebe sie dann an einen Datenvisualisierer weiter, um sie in unseren berühmten Stil zu bringen.
Das Besondere am Economist ist, dass es in der Branche keine eigene Abteilung für Datenjournalismus gibt, sondern diese überall. Zweitens haben wir als Wochenzeitung im Vergleich zu unseren Freunden bei den Tageszeitungen luxuriöse Fristen. Die Erstellung von Datenstorys nimmt in der Regel viel Zeit in Anspruch, was teilweise auf die Zeit zurückzuführen ist, die zum Bereinigen und Verarbeiten unordentlicher Daten benötigt wird. Wir haben das Glück, uns mit Geschichten Zeit zu lassen und sie vor der Veröffentlichung gründlich zu behandeln.
Inhalte unserer Partner
Kommentare zu Abstimmungen und Abstimmungsfehlern
Die grundlegende Antwort lautet, um es etwas langweilig auszudrücken: voreingenommene und nicht repräsentative Stichproben. Umfragen funktionieren genau dann, wenn die Stichprobe die gesamte Bevölkerung repräsentiert. Es gibt alle möglichen Probleme, die diesem Goldstandard im Weg stehen – Non-Response-Bias (bestimmte Personen reagieren eher auf Ihre Fragen als andere) oder Selbstauswahl-Bias (die Durchführung einer Umfrage in einem Country Club würde Ihre Stichprobe verzerren). , Zum Beispiel).
Die Rohdaten, mit denen die meisten Meinungsforscher arbeiten, sind normalerweise ziemlich verzerrt. Beispielsweise könnte die Stichprobe zu 60 % aus Männern bestehen, während die tatsächliche Bevölkerung eher bei 50 % liegt. Um dies zu beheben, wenden Meinungsforscher eine Gewichtung an, wodurch die weiblichen Antworten mehr wert wären. Das funktioniert ziemlich gut, es sei denn, es kommt zu plötzlichen Neuausrichtungen entlang unkontrollierter Achsen in der Politik, was letztes Jahr der Fall sein könnte.
Ein weiterer verbesserungswürdiger Bereich könnten Wahlbeteiligungsprognosen sein, die sich normalerweise nur auf Wahlumfragen früherer Wahlen oder selbst gemeldete Wahrscheinlichkeiten stützen. Wahrscheinlich sind ausgefallenere Modelle mit individualisierten Vorhersagen erforderlich. Kampagnen in Amerika haben bei dieser Art von Arbeit bereits einen Vorsprung – oft unterstützt durch sehr clevere Datenwissenschaftler – und Meinungsforscher könnten gut daran tun, von ihnen zu lernen.
Beispiel für die Geschichten, an denen Idrees Kahloon gearbeitet hat
Modellierung der Folgen des Brexit
Die größte Schwierigkeit bei der Modellierung des Brexit bestand darin, dass es kein Analogon gab, mit dem wir trainieren konnten. Mein Kollege James Fransham und ich haben dieses Problem umgangen, indem wir uns Umfrage-Mikrodaten angesehen haben, um ein klares Gefühl für die besten Prädiktoren für die Wahl eines Austritts oder Verbleibs zu bekommen. Wir konnten sofort erkennen, dass Bildung und soziale Stellung unglaublich gut waren, wohingegen Prädiktoren für politisches Verhalten, die in der Vergangenheit gut funktioniert hatten (wie die Parteizugehörigkeit), außergewöhnlich schlecht abschnitten. Nachdem wir die wichtigsten Faktoren identifiziert hatten, nutzten wir Volkszählungszahlen, um die endgültigen Ergebnisse zu projizieren. Mit einem ähnlichen Verfahren haben wir auch die Wahlbeteiligung modelliert.
Das Wahlnachtmodell nutzte all diese Zahlenkalkulationen als Basisvorhersage (ein bayesianischer Prior). Als die Ergebnisse eintrafen, schrieben wir ein Skript, das das zugrunde liegende Modell dynamisch anpasste und es im Laufe der Nacht immer genauer machte. Unglücklicherweise für das Vereinigte Königreich, aber zum Glück für unser Modell, haben wir einen Brexit innerhalb einer Stunde nach Eingang der Ergebnisse vorhergesagt. Mehr, einschließlich der herrlichen statistischen Details, können Sie hier .
Zeitungsleser unterstützen die Vorhersage von Donald Trump
Das klappt erstaunlich gut. Wenn Sie einen Wähler fragen, wie vertrauenswürdig er mehrere Zeitungen bewertet hat, können Sie seine Stimme mit einer Genauigkeit von 88 % vorhersagen. Dabei werden keine weiteren hilfreichen Informationen wie Rasse, Parteizugehörigkeit oder Bildungsniveau einbezogen. Auch wenn es ein Triumph für die Statistik sein könnte, finde ich es ein wenig entmutigend, dass die Haltung gegenüber den Medien so stark parteipolitisch polarisiert ist.
Wie bereitet man sich am besten auf eine Karriere im Datenjournalismus vor?
Um ein guter Datenjournalist zu sein, sind Kenntnisse in drei Dingen erforderlich: Statistik, Informatik und Schreiben. Das Schreiben im Allgemeinen und Journalismus im Besonderen lernt man am besten durch praktisches Handeln. Wenn Sie sich für Journalismus interessieren, bereiten Sie sich am besten darauf vor, ein Praktikum bei Ihrer Lokalzeitung zu absolvieren und zu versuchen, für die Zeitschrift Ihrer Schule oder die Campuszeitung zu schreiben. Eine andere Möglichkeit ist die Fachpresse, bei der Sie sich auf ein Nischengebiet spezialisieren, sich aber alle grundlegenden Fähigkeiten aneignen, die Sie zum Schreiben über ein beliebiges Thema benötigen. Es ist viel einfacher, von erfahrenen Journalisten zu lernen, als sich über diese Dinge zu informieren. Die meisten Mitarbeiter von The Economist haben beispielsweise nie offiziell Journalismus studiert.
Statistik und Informatik erlernt man am besten im Klassenzimmer, von einem erfahrenen Lehrer, der Fehler ausbügeln kann, bevor sie zu tief verwurzelt sind. Wenn Sie Ihre formale Ausbildung bereits abgeschlossen haben, mangelt es nicht an Online-Materialien und -Kursen, die Ihnen helfen können. Für eine gründliche Einführung in die Statistik empfehle ich die Lektüre von Joe Blitzsteins und Jessica Hwangs hervorragender Einführung in die Wahrscheinlichkeitsrechnung (und das Durcharbeiten der Probleme!). Mit dieser Grundlage werden Sie feststellen, dass viele Themen wie Ökonometrie und maschinelles Lernen viel zugänglicher werden.
Die meisten Programmierer sind heutzutage Autodidakten. Wie beim Schreiben ist auch hier das Tun das Wichtigste. Wählen Sie eine Sprache (Python ist in der Regel für Anfänger am einfachsten), richten Sie die Dinge ein und versuchen Sie, einfache Programme zu erstellen. Je mehr Sie sich dazu zwingen, Code zu schreiben, desto natürlicher wird es.