Um dia na vida de um jornalista de dados pode ser visto como olhar para planilhas e apresentar informações de uma forma significativa; no entanto, como observa o manual de Jornalismo de Dados por meio de vários colaboradores, o Jornalismo de Dados é importante pelos seguintes motivos:
- Ajuda a filtrar o fluxo de dados
- Fornecendo uma nova abordagem e técnicas para contar histórias
- Uma forma diferente de jornalismo, como existem as palavras jornalismo ou fotojornalismo
- O jornalismo de dados é o futuro do consumo de conteúdo na web
- Atualizando seu conjunto de habilidades
- Uma solução para o processamento de informações
- Uma resposta para relações públicas baseadas em dados
- Fornecer interpretações independentes de informações oficiais
- Lidando com o dilúvio de dados
- Atividade que economiza tempo
- e mais…
Idrees Khaloon, recém-formada em Matemática Aplicada em Harvard, é jornalista de dados na Economist responsável por trabalhar com jornalistas especializados, editores de seção, desenvolvedores e designers para obter e produzir visualizações de dados, cartografia e infográficos que apoiam as histórias dos jornalistas e garantem a melhor representação de dados em todos os formatos (impresso, aplicativo e web) com o objetivo de desenvolver produtos e histórias editoriais de visão mais ampla.
Dado o seu interessante papel cruzado na organização, no dia 27 de janeiro, Idrees realizou uma sessão de perguntas e respostas ao vivo no Quora . Abaixo está o resumo da sessão e um resumo das perguntas e respostas.
Esboço de controle de qualidade
- Jornalismo de dados – um dia típico no escritório
- Como a The Economist analisa dados para cobrir histórias
- Erros de votação e votação
- Algumas das histórias em que trabalhei incluem:
- Modelando os resultados do Brexit
- Descobrir se os leitores dos jornais poderiam prever o apoio a Donald Trump
- Conselhos de carreira em jornalismo de dados
Jornalismo de dados – um dia típico no escritório
Em primeiro lugar, aqui está o ciclo de vida de uma história de dados:
- Geração de ideias
- Identificando fontes de dados existentes
- Limpando e organizando os dados em forma
- Explorando os dados, muitas vezes um pouco sem rumo
- Testar suas hipóteses para obter conclusões interessantes ou construir um modelo estatístico (geralmente apenas explicativo; modelos preditivos são muito mais difíceis)
- Escrever suas descobertas, que são sempre complementadas com relatórios convencionais
- Por último, responder aos editores e verificadores de fatos antes de publicar
Num dia normal, um jornalista de dados não fará todas essas coisas, mas fará algumas delas.
A tarefa mais desafiadora que provavelmente assumi foi construir nosso modelo de golfe . Depois que um de meus colegas desenvolveu a estrutura do modelo, que leva em conta coisas como marés quentes e efeitos climáticos – nada menos que em uma planilha Excel – tive que traduzir o protótipo para Python. Depois tivemos que descobrir como simular torneios nesse modelo, o que não era trivial. Depois de uma ou duas semanas de batalha, o programa funcionou bem o suficiente para simular torneios anteriores 10.000 vezes. Apesar dos meus melhores esforços, o Python, que é uma linguagem interpretada, não estava obtendo a velocidade que precisávamos. Então recorremos a um colega com doutorado em física, que conseguiu traduzir meu Python para C++ – melhorando nossa velocidade em uma ordem de magnitude ou mais. Muito divertido.
Muito trabalho é feito em nossos gráficos antes que a mágica da visualização aconteça (a coleta e processamento de dados em R e Python que mencionei). Assim que os dados limpos estiverem prontos, temos duas ferramentas de gráficos personalizadas que usamos para criar gráficos: um script do Excel e um script do Adobe Illustrator que converte os dados em um gráfico real.
Como a The Economist analisa dados para cobrir histórias
Assim, quando tenho um conjunto de dados promissor em mãos, eu o limpo e coloco em forma analisável usando a biblioteca pandas do Python ou R, que é a escolha mais popular entre os jornalistas de dados daqui. Depois que os dados estiverem organizados, normalmente explorarei um pouco: observarei as médias, descobrirei se algum valor está faltando ou será estranho, traçarei um gráfico de algumas tendências. A partir daí, decidiríamos os gráficos certos para acompanhar a história. Eu faço um mock deles em minha máquina e depois passo para um visualizador de dados para trazê-los para nosso famoso estilo.
O que torna o Economist único é que não existe uma seção de jornalismo de dados no ramo, ela está em toda parte. Em segundo lugar, como jornal semanal, temos prazos luxuosos em comparação com os nossos amigos dos jornais diários. A produção de histórias de dados geralmente leva um pouco de tempo, em parte devido ao tempo necessário para limpar e processar dados confusos. Temos a sorte de poder dedicar nosso tempo às histórias e dar-lhes um tratamento devidamente rigoroso antes de publicá-las.
Conteúdo de nossos parceiros
Comentários sobre sondagens e erros de sondagem
A resposta básica, para ser um pouco enfadonho, são amostras tendenciosas e não representativas. A votação funciona se, e somente se, a amostra representa toda a população. Existem todos os tipos de problemas que atrapalham esse padrão ouro – preconceito de não resposta (certas pessoas têm maior probabilidade de responder às suas perguntas do que outras) ou preconceito de autosseleção (realizar uma pesquisa em um clube de campo distorceria sua amostra). , por exemplo).
Os dados brutos com os quais a maioria dos pesquisadores trabalha são geralmente bastante distorcidos. Por exemplo, a amostra pode ser 60% masculina, quando a população real é mais próxima de 50%. Para corrigir isso, os pesquisadores aplicam ponderações, o que faria com que as respostas femininas valessem mais. Isto funciona muito bem, a menos que haja realinhamentos repentinos ao longo de eixos não controlados na política, o que pode ser o que aconteceu no ano passado.
Outra área a melhorar pode ser a das projecções de participação, que normalmente se baseiam preguiçosamente em sondagens de boca-de-urna de eleições anteriores ou em probabilidades auto-declaradas. Provavelmente serão necessários modelos mais sofisticados, envolvendo previsões individualizadas. As campanhas na América já têm uma vantagem inicial neste tipo de trabalho – muitas vezes apoiadas por cientistas de dados muito inteligentes – e os investigadores fariam bem em aprender com elas.
Exemplo de histórias nas quais Idrees Kahloon trabalhou
Modelando os resultados do Brexit
A maior dificuldade de modelar o Brexit foi que não havia nenhum análogo que pudéssemos usar para treinar. Meu colega James Fransham e eu contornamos isso analisando os microdados das pesquisas para ter uma noção clara dos melhores preditores para votar em Sair ou Permanecer. Imediatamente, pudemos ver que a educação e a classe social eram incrivelmente boas, enquanto os preditores do comportamento político que tinham funcionado bem no passado (como a filiação partidária) tiveram um desempenho excepcionalmente fraco. Depois de identificarmos os fatores mais importantes, usamos os números do censo para projetar as contagens finais. Também modelámos a participação utilizando um procedimento semelhante.
O modelo da noite eleitoral usou toda essa análise de números como previsão básica (um anterior bayesiano). À medida que os resultados chegavam, escrevemos um script que ajustava dinamicamente o modelo subjacente, tornando-o cada vez mais preciso à medida que a noite avançava. Infelizmente para o Reino Unido, mas felizmente para o nosso modelo, estávamos prevendo um Brexit dentro de uma hora após a chegada dos resultados. Você pode ver um pouco mais, incluindo os gloriosos detalhes estatísticos, aqui .
Leitores de jornais apoiam previsão de Donald Trump
Funciona incrivelmente bem. Se você perguntar a um eleitor até que ponto ele classificou vários jornais como confiáveis, poderá prever seu voto com 88% de precisão. Isso sem incorporar nenhuma outra informação útil, como raça, filiação partidária ou nível de escolaridade. Embora possa ser um triunfo para as estatísticas, penso que é um pouco desanimador que as atitudes em relação aos meios de comunicação estejam tão fortemente polarizadas em linhas partidárias.
Qual é a melhor maneira de se preparar para uma carreira em jornalismo de dados?
É necessário conhecimento de três coisas para ser um bom jornalista de dados: estatística, ciência da computação e redação. Escrever de forma ampla e especificamente jornalismo é melhor aprendido fazendo. Se você está interessado em jornalismo, a melhor maneira de se preparar é estagiar no jornal local e tentar escrever para a revista da sua escola ou jornal do campus. Outra via é a imprensa especializada, na qual você se especializa em um nicho de área, mas adquire todas as habilidades básicas necessárias para escrever sobre qualquer assunto. É muito mais fácil aprender com jornalistas experientes do que tentar ler sobre esse assunto. A maior parte do pessoal da The Economist nunca estudou jornalismo formalmente, por exemplo.
Estatística e ciência da computação são melhor aprendidas em sala de aula, com um instrutor experiente que pode corrigir erros antes que eles estejam profundamente enraizados. Se você já concluiu sua educação formal, não faltam materiais e cursos online que podem ajudá-lo. Para uma introdução rigorosa à estatística, recomendo a leitura da excelente Introdução à Probabilidade (e resolver os problemas!). Com essa base, você descobrirá que muitos tópicos, como econometria e aprendizado de máquina, se tornarão muito mais acessíveis.
A maioria dos programadores é autodidata atualmente. Tal como acontece com a escrita, o mais importante aqui é fazer. Escolha uma linguagem (Python tende a ser mais fácil para iniciantes), configure tudo e tente construir programas simples. Quanto mais você se forçar a escrever código, mais natural ele se tornará.