数据记者生活中的一天可以被视为查看电子表格并以有意义的方式呈现信息,然而,正如《数据新闻手册》的几位撰稿人指出的那样,数据新闻之所以重要,原因如下:
- 它有助于过滤数据流
- 讲故事的新方法和技巧
- 不同形式的新闻业,比如新闻业或新闻摄影
- 数据新闻是网络内容消费的未来
- 更新你的技能
- 处理信息的补救措施
- 数据驱动公关的答案
- 对官方信息提供独立解读
- 应对数据洪流
- 节省时间的活动
- 还有更多……
Idrees Khaloon 是哈佛大学应用数学专业的应届毕业生,是《经济学人》的数据记者,负责与热门记者、栏目编辑、开发人员和设计师合作,获取和制作支持记者报道的数据可视化、制图和信息图表,并确保最好地呈现新闻报道的内容。所有格式(印刷版、应用程序和网络)的数据,以开发更长视图的编辑产品和故事。
鉴于他在组织中扮演的有趣的交叉角色,1 月 27 日,Idrees在 Quora 上举办了现场问答环节。以下是会议的概要以及问题和答案的摘要。
质量检查大纲
- 数据新闻——办公室里典型的一天
- 《经济学人》如何处理数据来报道故事
- 轮询和轮询错误
- 我参与过的一些故事包括:
- 对英国脱欧的结果进行建模
- 研究报纸读者是否可以预测唐纳德·特朗普的支持率
- 数据新闻职业建议
数据新闻——办公室里典型的一天
首先是数据故事的生命周期:
- 创意产生
- 识别现有数据源
- 清理数据并整理数据
- 探索数据,常常有点漫无目的
- 测试您的假设以获得有趣的结论或构建统计模型(通常只是解释性的;预测模型要困难得多)
- 写下您的发现,并始终以传统报告作为补充
- 最后,在发布前回复编辑和事实核查人员
在典型的一天中,数据记者不会做所有这些事情,但他或她会做其中的一些事情。
我所承担的最具挑战性的任务可能是构建我们的高尔夫模型。我的一位同事开发了该模型的框架,该框架考虑了热条纹和天气影响等因素(同样在 Excel 工作表中),我必须将原型翻译成 Python。然后我们必须弄清楚如何在这个模型下模拟锦标赛,这并不简单。经过一两周的战斗,我们的程序运行良好,足以模拟过去的锦标赛 10,000 次。尽管我尽了最大努力,Python 作为一种解释性语言,仍然没有达到我们需要的速度。因此,我们求助于一位拥有物理学博士学位的同事,他成功地将我的 Python 翻译成 C++,将我们的速度提高了一个数量级或更多。非常有趣。
在可视化魔法发生之前,我们的图表需要做很多工作(我提到的 R 和 Python 中的数据收集和处理)。清理后的数据准备就绪后,我们就有了两个用于创建图表的定制图表工具:一个 Excel 脚本和一个将数据转换为实际图表的 Adobe Illustrator 脚本。
《经济学人》如何处理数据来报道故事
因此,一旦我手头有一个有前途的数据集,我就会使用 Python 的 pandas 库或 R 对其进行清理并使其成为可分析的形状,这是数据记者中更受欢迎的选择。一旦数据整洁,我通常会进行一些探索:查看平均值,查找是否有任何值丢失或奇怪,绘制一些趋势图。从那里,我们将决定正确的图表来配合故事。我在我的机器上模拟这些,然后传递给数据可视化器以融入我们著名的风格。
《经济学人》的独特之处在于,该行业没有数据新闻栏目,而是无处不在。其次,作为一份周报,与日报的朋友相比,我们的截止日期很紧迫。生成数据故事通常需要相当多的时间,部分原因是清理和处理混乱的数据需要时间。我们很幸运能够花时间处理故事,并在出版前对其进行适当严格的处理。
来自我们合作伙伴的内容
对投票和投票错误的评论
简单地说,基本的答案是有偏见且不具代表性的样本。当且仅当样本代表整个总体时,民意调查才有效。有各种各样的问题阻碍了这一黄金标准——不回答偏见(某些人比其他人更有可能回答你的问题)或自我选择偏见(在乡村俱乐部进行民意调查会扭曲你的样本) , 例如)。
大多数民意调查机构使用的原始数据通常都存在很大偏差。例如,样本中男性的比例可能为 60%,而实际人口的比例约为 50%。为了解决这个问题,民意调查人员应用了权重,这将使女性的回答更有价值。除非政治上出现突然的重新调整,这很有效,这可能就是去年发生的情况。
另一个需要改进的领域可能是投票率预测,它通常懒惰地依赖于之前选举的出口民意调查或自我报告的可能性。可能需要涉及个性化预测的更高级的模型。美国的竞选活动已经在此类工作上取得了领先地位——通常得到非常聪明的数据科学家的支持——民意调查机构可能会向他们学习。
Idrees Kahloon 创作的故事示例
对英国脱欧的结果进行建模
英国脱欧建模的最大困难是没有可以用来训练的类比。我和我的同事詹姆斯·弗兰舍姆(James Fransham)通过查看民意调查微观数据来解决这个问题,以清楚地了解投票脱欧或留欧的最佳预测因素。我们立即发现,教育和社会阶层非常好,而过去行之有效的政治行为预测指标(如党派归属)却表现得异常糟糕。一旦我们确定了最重要的因素,我们就使用人口普查数据来预测最终的统计结果。我们还使用类似的程序对投票率进行了建模。
选举之夜模型使用所有这些数字运算作为基本预测(贝叶斯先验)。随着结果的出现,我们编写了一个脚本来动态调整底层模型,使其随着夜晚的推移而变得越来越准确。对于英国来说不幸的是,但对于我们的模型来说幸运的是,我们在结果出来后一小时内预测英国脱欧。您可以在此处。
报纸读者支持唐纳德·特朗普的预测
它的效果非常好。如果您询问选民对几家报纸的可信度如何,您可以以 88% 的准确度预测他们的投票。这没有包含任何其他有用的信息,如种族、党派关系或教育水平。虽然这可能是统计数据的胜利,但我认为,人们对媒体的态度如此强烈地两极分化,这有点令人沮丧。
为数据新闻职业做好准备的最佳方式是什么?
成为一名优秀的数据记者需要掌握三件事:统计学、计算机科学和写作。广泛的写作和具体的新闻写作最好是通过实践来学习。如果您对新闻业感兴趣,最好的准备方法是在当地报纸实习,并尝试为学校杂志或校园报纸写作。另一种途径是商业媒体,您可以在其中专注于某个利基领域,但掌握撰写任何主题所需的所有基本技能。向经验丰富的记者学习比尝试阅读这些内容要容易得多。例如, 《经济学人》的大多数员工
统计学和计算机科学最好在课堂上学习,由经验丰富的讲师指导,他们可以在错误变得根深蒂固之前纠正错误。如果您已经完成了正规教育,那么不乏可以为您提供帮助的在线材料和课程。对于统计学的严格介绍,我建议阅读 Joe Blitzstein 和 Jessica Hwang 的优秀概率导论(并解决问题!)。有了这个基础,您会发现许多主题,例如计量经济学和机器学习,将变得更容易理解。
如今,大多数程序员都是自学成才的。与写作一样,这里最重要的是做。选择一种语言(Python 对于初学者来说往往是最简单的),进行设置,然后尝试构建简单的程序。你越强迫自己写代码,它就会变得越自然。