Une journée dans la vie d'un data journaliste peut être considérée comme l'examen de feuilles de calcul et la présentation d'informations de manière significative. Cependant, comme le note le manuel Data Journalism via plusieurs contributeurs, le Data Journalism est important pour les raisons suivantes :
- Il aide à filtrer le flux de données
- Fournir une nouvelle approche et de nouvelles techniques de narration
- Une autre forme de journalisme, comme il existe des mots journalisme ou photojournalisme
- Le journalisme de données est l'avenir de la consommation de contenu sur le Web
- Mettre à jour vos compétences
- Un recours pour le traitement des informations
- Une réponse aux relations publiques basées sur les données
- Fournir des interprétations indépendantes des informations officielles
- Faire face au déluge de données
- Activité permettant de gagner du temps
- et plus…
Idrees Khaloon, récemment diplômée de Harvard en mathématiques appliquées, est journaliste de données chez The Economist, chargée de travailler avec des journalistes, des rédacteurs de section, des développeurs et des concepteurs pour rechercher et produire des visualisations de données, des cartographies et des infographies soutenant les histoires des journalistes et assurer la meilleure représentation de des données dans tous les formats (imprimé, application et Web) en vue de développer des produits et des articles éditoriaux à plus longue portée.
Compte tenu de son rôle croisé intéressant dans l'organisation, le 27 janvier, Idrees a organisé une session de questions-réponses en direct sur Quora . Vous trouverez ci-dessous le plan de la séance et un résumé des questions et réponses.
Aperçu de l'assurance qualité
- Journalisme de données – une journée type au bureau
- Comment The Economist analyse les données pour couvrir des sujets
- Erreurs d'interrogation et d'interrogation
- Certaines des histoires sur lesquelles j'ai travaillé incluent :
- Modéliser les résultats du Brexit
- Déterminer si le lectorat des journaux pourrait prédire le soutien à Donald Trump
- Conseils de carrière en journalisme de données
Journalisme de données – une journée type au bureau
Voici tout d’abord le cycle de vie d’une data story :
- La génération d'idées
- Identifier les sources de données existantes
- Nettoyer et mettre en forme les données
- Explorer les données, souvent un peu sans but
- Tester vos hypothèses pour obtenir des conclusions intéressantes ou construire un modèle statistique (généralement juste explicatif ; les modèles prédictifs sont beaucoup plus difficiles)
- Rédaction de vos résultats, toujours complétée par un reporting classique
- Enfin, répondre aux éditeurs et aux vérificateurs de faits avant de publier
Au cours d'une journée typique, un journaliste de données ne fera pas toutes ces choses, mais il en fera quelques-unes.
La mission la plus difficile que j'ai probablement entreprise est probablement la construction de notre modèle de golf . Après qu'un de mes collègues ait développé le cadre du modèle, qui prend en compte des éléments tels que les vagues de chaleur et les effets météorologiques (dans une feuille Excel rien de moins), j'ai dû traduire le prototype en Python. Il a ensuite fallu trouver comment simuler des tournois sous ce modèle, ce qui n'était pas anodin. Après une semaine ou deux de combat, le programme fonctionnait suffisamment bien pour simuler les tournois passés 10 000 fois. Malgré tous mes efforts, Python, qui est un langage interprété, n'obtenait pas la vitesse dont nous avions besoin. Nous nous sommes donc tournés vers un collègue titulaire d'un doctorat en physique, qui a réussi à traduire mon Python en C++, améliorant ainsi notre vitesse d'un ordre de grandeur ou plus. Très drôle.
Beaucoup de travail est consacré à nos graphiques avant que la magie de la visualisation n'opère (la collecte et le traitement des données en R et Python que j'ai mentionnés). Une fois les données nettoyées prêtes, nous disposons de deux outils graphiques sur mesure que nous utilisons pour créer des graphiques : un script Excel et un script Adobe Illustrator qui convertit les données en un véritable graphique.
Comment The Economist analyse les données pour couvrir des sujets
Ainsi, une fois que j'ai un ensemble de données prometteur en main, je le nettoie et le mets sous forme analysable à l'aide de la bibliothèque pandas de Python ou R, qui est le choix le plus populaire parmi les journalistes de données ici. Une fois les données rangées, j'explore généralement un peu : regarde les moyennes, trouve si des valeurs sont manquantes ou bizarres, trace quelques tendances. À partir de là, nous déciderons des bons graphiques pour accompagner l'histoire. Je les modélise sur ma machine, puis je les transmets à un visualiseur de données pour les intégrer à notre célèbre style.
Ce qui rend The Economist unique, c'est qu'il n'y a pas de section de journalisme de données dans l'entreprise, elle est présente partout. Deuxièmement, en tant qu’hebdomadaire, nous avons des délais luxueux par rapport à nos amis des quotidiens. La production de récits de données prend généralement beaucoup de temps, en partie à cause du temps nécessaire au nettoyage et au traitement des données désordonnées. Nous avons la chance de pouvoir prendre notre temps avec des histoires et de leur donner un traitement suffisamment rigoureux avant de les publier.
Contenu de nos partenaires
Commentaires sur les sondages et erreurs de sondage
La réponse fondamentale, pour le dire de manière un peu ennuyeuse, réside dans des échantillons biaisés et non représentatifs. Le sondage fonctionne si et seulement si l’échantillon représente l’ensemble de la population. Il existe toutes sortes de problèmes qui entravent l'application de cet étalon-or : biais de non-réponse (certaines personnes sont plus susceptibles de répondre à vos questions que d'autres) ou biais d'auto-sélection (réaliser un sondage dans un country club fausserait votre échantillon). , Par exemple).
Les données brutes avec lesquelles travaillent la plupart des sondeurs sont généralement assez biaisées. Par exemple, l'échantillon peut être composé à 60 % d'hommes alors que la population réelle est plutôt de 50 %. Pour résoudre ce problème, les sondeurs appliquent une pondération, ce qui donnerait plus de valeur aux réponses féminines. Cela fonctionne plutôt bien, à moins qu’il n’y ait des réalignements soudains sur des axes politiques incontrôlés, ce qui pourrait être ce qui s’est produit l’année dernière.
Un autre domaine à améliorer pourrait être les projections de participation, qui s’appuient généralement paresseusement sur les sondages à la sortie des urnes des élections précédentes ou sur les probabilités autodéclarées. Des modèles plus sophistiqués, impliquant des prédictions individualisées, sont probablement nécessaires. Les campagnes américaines ont déjà une longueur d’avance sur ce type de travail – souvent soutenues par des data scientists très intelligents – et les sondeurs feraient bien d’en tirer des leçons.
Exemple des histoires sur lesquelles Idrees Kahloon a travaillé
Modéliser les résultats du Brexit
La plus grande difficulté de la modélisation du Brexit était qu’il n’existait aucun analogue sur lequel nous pouvions nous entraîner. Mon collègue James Fransham et moi avons contourné ce problème en examinant les microdonnées des sondages pour avoir une idée claire des meilleurs prédicteurs du vote Leave ou Remain. Nous avons immédiatement pu constater que l’éducation et la classe sociale étaient incroyablement bonnes, alors que les prédicteurs du comportement politique qui avaient bien fonctionné dans le passé (comme l’affiliation à un parti) avaient des résultats exceptionnellement médiocres. Une fois que nous avons identifié les facteurs les plus importants, nous avons utilisé les chiffres du recensement pour projeter les décomptes finaux. Nous avons également modélisé la participation en utilisant une procédure similaire.
Le modèle du soir des élections a utilisé tous ces calculs comme prédiction de base (un a priori bayésien). Au fur et à mesure que les résultats arrivaient, nous avons écrit un script qui ajustait dynamiquement le modèle sous-jacent, le rendant de plus en plus précis au fil de la nuit. Malheureusement pour le Royaume-Uni, mais heureusement pour notre modèle, nous prévoyions un Brexit dans l'heure suivant la publication des résultats. Vous pouvez en voir un peu plus, y compris les glorieux détails statistiques, ici .
Le lectorat des journaux soutient la prédiction de Donald Trump
Cela fonctionne incroyablement bien. Si vous demandez à un électeur dans quelle mesure il a évalué plusieurs journaux comme dignes de confiance, vous pouvez prédire son vote avec une précision de 88 %. C'est sans incorporer aucune autre information utile comme la race, l'affiliation à un parti ou le niveau d'éducation. Bien que cela puisse être un triomphe pour les statistiques, je pense qu'il est un peu décourageant que les attitudes envers les médias soient si fortement polarisées selon des lignes partisanes.
Quelle est la meilleure façon de se préparer à une carrière dans le journalisme de données ?
La connaissance de trois choses est nécessaire pour être un bon data journaliste : les statistiques, l’informatique et la rédaction. L’écriture en général et le journalisme en particulier s’apprennent mieux par la pratique. Si le journalisme vous intéresse, la meilleure façon de vous préparer est de faire un stage dans votre journal local et d'essayer d'écrire pour le magazine ou le journal du campus de votre école. Une autre voie est la presse spécialisée, dans laquelle vous vous spécialisez dans un domaine de niche mais acquérez toutes les compétences de base nécessaires pour écrire sur n'importe quel sujet. Il est beaucoup plus facile d'apprendre auprès de journalistes expérimentés que d'essayer de lire sur ce sujet. , la plupart des employés de The Economist n’ont jamais étudié le journalisme.
Les statistiques et l'informatique s'apprennent mieux en classe, auprès d'un instructeur expérimenté qui peut corriger les erreurs avant qu'elles ne soient trop profondément enracinées. Si vous avez déjà terminé vos études formelles, les supports et cours en ligne ne manquent pas pour vous aider. Pour une introduction rigoureuse aux statistiques, je vous recommande de lire l'excellente Introduction aux probabilités (et de résoudre les problèmes !). Avec cette base, vous constaterez que de nombreux sujets, comme l'économétrie et l'apprentissage automatique, deviendront beaucoup plus accessibles.
De nos jours, la plupart des codeurs sont autodidactes. Comme pour l’écriture, la chose la plus importante ici est de faire. Choisissez un langage (Python a tendance à être le plus simple pour les débutants), configurez les choses et essayez de créer des programmes simples. Plus vous vous forcerez à écrire du code, plus cela deviendra naturel.