Un día en la vida de un periodista de datos puede verse como mirar hojas de cálculo y presentar información de manera significativa; sin embargo, como señala el manual de Periodismo de Datos a través de varios colaboradores, el Periodismo de Datos es importante por las siguientes razones:
- Ayuda a filtrar el flujo de datos.
- Proporcionar un nuevo enfoque y técnicas para contar historias.
- Una forma diferente de periodismo, como hay palabras periodismo o fotoperiodismo.
- El periodismo de datos es el futuro del consumo de contenidos en la web
- Actualizando tu conjunto de habilidades
- Un remedio para procesar información.
- Una respuesta a las relaciones públicas basadas en datos
- Proporcionar interpretaciones independientes de la información oficial.
- Lidiando con la avalancha de datos
- Actividad para ahorrar tiempo
- y más…
Idrees Khaloon, recién graduada de Harvard en Matemáticas Aplicadas, es periodista de datos en The Economist y es responsable de trabajar con periodistas, editores de sección, desarrolladores y diseñadores para obtener y producir visualizaciones de datos, cartografía e infografías que respalden las historias de los periodistas y garanticen la mejor representación de datos en todos los formatos (impreso, aplicación y web) con el fin de desarrollar productos editoriales e historias de mayor visión.
Dado su interesante papel interseccionado en la organización, el 27 de enero, Idrees realizó una sesión de preguntas y respuestas en vivo en Quora . A continuación se muestra el esquema de la sesión y un resumen de las preguntas y respuestas.
Esquema de control de calidad
- Periodismo de datos: un día típico en la oficina
- Cómo The Economist procesa datos para cubrir historias
- Errores de sondeo y sondeo
- Algunas de las historias en las que he trabajado han incluido:
- Modelando los resultados del Brexit
- Determinar si los lectores de periódicos podrían predecir el apoyo a Donald Trump
- Asesoramiento profesional en periodismo de datos
Periodismo de datos: un día típico en la oficina
En primer lugar, aquí está el ciclo de vida de una historia de datos:
- Generación de ideas
- Identificar fuentes de datos existentes
- Limpiar y poner en forma los datos
- Explorar los datos, a menudo un poco sin rumbo
- Probar sus hipótesis para obtener conclusiones interesantes o construir un modelo estadístico (generalmente solo explicativo; los modelos predictivos son mucho más difíciles)
- Redacción de sus hallazgos, que siempre se complementa con informes convencionales.
- Por último, responder a los editores y verificadores de datos antes de publicar.
En un día normal, un periodista de datos no hará todas estas cosas, pero sí algunas de ellas.
Probablemente la tarea más desafiante que he asumido sea construir nuestro modelo de golf . Después de que uno de mis colegas desarrolló el marco para el modelo, que tiene en cuenta aspectos como las rachas de calor y los efectos climáticos (nada menos que en una hoja de Excel), tuve que traducir el prototipo a Python. Luego tuvimos que descubrir cómo simular torneos bajo este modelo, lo cual no era trivial. Después de una o dos semanas de batalla, el programa funcionó lo suficientemente bien como para simular torneos anteriores 10.000 veces. A pesar de mis mejores esfuerzos, Python, que es un lenguaje interpretado, no estaba obteniendo la velocidad que necesitábamos. Así que recurrimos a un colega con un doctorado en física, que logró traducir mi Python a C++, mejorando nuestra velocidad en un orden de magnitud o más. Muy divertido.
Se requiere mucho trabajo en nuestros gráficos antes de que ocurra la magia de la visualización (la recopilación y el procesamiento de datos en R y Python que he mencionado). Una vez que los datos limpios están listos, tenemos dos herramientas de gráficos personalizadas que utilizamos para crear gráficos: un script de Excel y un script de Adobe Illustrator que convierte los datos en un gráfico real.
Cómo The Economist procesa datos para cubrir historias
Entonces, una vez que tengo un conjunto de datos prometedor en la mano, lo limpio y lo pongo en forma analizable usando la biblioteca pandas de Python o R, que es la opción más popular entre los periodistas de datos aquí. Una vez que los datos están ordenados, normalmente exploro un poco: miro los promedios, encuentro si falta algún valor o si es extraño, grafico algunas tendencias. A partir de ahí, decidiremos qué gráficos correctos acompañarán la historia. Los hago simulacros en mi máquina y luego los paso a un visualizador de datos para adaptarlos a nuestro famoso estilo.
Lo que hace que The Economist sea único es que no hay una sección de periodismo de datos en el negocio, sino que está en todas partes. En segundo lugar, como periódico semanal, tenemos plazos de entrega lujosos en comparación con nuestros amigos de los diarios. Producir historias de datos suele llevar bastante tiempo, en parte debido al tiempo que lleva limpiar y procesar datos desordenados. Tenemos la suerte de poder tomarnos nuestro tiempo con las historias y darles el debido rigor antes de publicarlas.
Contenido de nuestros socios
Comentarios sobre sondeos y errores de sondeo
La respuesta básica, para decirlo un poco aburrido, son muestras sesgadas y no representativas. Las encuestas funcionan si, y sólo si, la muestra representa a toda la población. Hay todo tipo de problemas que se interponen en el camino de este estándar de oro: sesgo de falta de respuesta (es más probable que ciertas personas respondan a sus preguntas que otras) o sesgo de autoselección (realizar una encuesta en un club de campo sesgaría su muestra). , Por ejemplo).
Los datos brutos con los que trabajan la mayoría de los encuestadores suelen estar bastante sesgados. Por ejemplo, la muestra podría estar compuesta por un 60% de hombres cuando la población real es más bien del 50%. Para solucionar este problema, los encuestadores aplican una ponderación, lo que haría que las respuestas femeninas valieran más. Esto funciona bastante bien a menos que se produzcan realineamientos repentinos a lo largo de ejes incontrolados en la política, que podría ser lo que ocurrió el año pasado.
Otra área de mejora podrían ser las proyecciones de participación, que generalmente se basan vagamente en encuestas a boca de urna de elecciones anteriores o en probabilidades autoinformadas. Probablemente se necesiten modelos más sofisticados, que incluyan predicciones individualizadas. Las campañas en Estados Unidos ya tienen una ventaja en este tipo de trabajo (a menudo respaldadas por científicos de datos muy inteligentes) y los encuestadores harían bien en aprender de ellos.
Ejemplo de las historias en las que ha trabajado Idrees Kahloon
Modelando los resultados del Brexit
La mayor dificultad a la hora de modelar el Brexit fue que no había ningún análogo que pudiéramos utilizar para entrenar. Mi colega James Fransham y yo solucionamos este problema analizando los microdatos de las encuestas para tener una idea clara de los mejores predictores de votar por abandonar o permanecer. Inmediatamente pudimos ver que la educación y la clase social eran increíblemente buenas, mientras que los predictores del comportamiento político que habían funcionado bien en el pasado (como la afiliación partidista) lo hicieron excepcionalmente mal. Una vez que identificamos los factores más importantes, utilizamos números del censo para proyectar los recuentos finales. También modelamos la participación utilizando un procedimiento similar.
El modelo de la noche electoral utilizó todos estos cálculos numéricos como base de predicción (un previo bayesiano). Cuando llegaron los resultados, escribimos un guión que ajustaba dinámicamente el modelo subyacente, haciéndolo cada vez más preciso a medida que avanzaba la noche. Desafortunadamente para el Reino Unido, pero afortunadamente para nuestro modelo, predijimos un Brexit una hora después de recibir los resultados. Puede ver un poco más, incluidos los gloriosos detalles estadísticos, aquí .
Los lectores de los periódicos apoyan la predicción de Donald Trump
Lo hace sorprendentemente bien. Si le preguntas a un votante qué tan confiables calificaron varios periódicos, puedes predecir su voto con un 88% de precisión. Eso sin incorporar ninguna otra información útil como raza, afiliación partidista o nivel educativo. Si bien podría ser un triunfo para las estadísticas, creo que es un poco desalentador que las actitudes hacia los medios estén tan fuertemente polarizadas según líneas partidistas.
¿Cuál es la mejor manera de prepararse para una carrera en periodismo de datos?
Para ser un buen periodista de datos se necesitan conocimientos de tres cosas: estadística, informática y redacción. La mejor manera de aprender a escribir en sentido amplio y periodismo en particular es haciéndolo. Si está interesado en el periodismo, la mejor manera de prepararse es realizar una pasantía en el periódico local e intentar escribir para la revista de su escuela o el periódico del campus. Otra vía es la prensa especializada, en la que te especializas en un campo especializado pero adquieres todas las habilidades básicas necesarias para escribir sobre cualquier tema. Es mucho más fácil aprender de periodistas experimentados que intentar leer sobre este tema. La mayor parte del personal de The Economist nunca estudió periodismo formalmente, por ejemplo.
La estadística y la informática se aprenden mejor en el aula, con un instructor experimentado que pueda corregir los errores antes de que estén demasiado arraigados. Si ya completó su educación formal, no faltan materiales y cursos en línea que pueden ayudarlo. Para una introducción rigurosa a la estadística, recomiendo leer la excelente Introducción a la probabilidad (¡y resolver los problemas!). Con esa base, descubrirá que muchos temas, como la econometría y el aprendizaje automático, serán mucho más accesibles.
Hoy en día, la mayoría de los programadores son autodidactas. Al igual que ocurre con la escritura, aquí lo más importante es el hacer. Elija un idioma (Python tiende a ser más fácil para principiantes), configure todo e intente crear programas simples. Cuanto más te fuerces a escribir código, más natural se volverá.