你真的知道何谓E星体育“数据新闻”? 镝次元沙龙分享系列
栏目:行业资讯 发布时间:2023-07-08
 E星体育目前已知最早采用计算机辅助报道的概念出现在1952年,当时美国大选,哥伦比亚广播新闻在晚间选举报道借助美国政府所有的计算机来帮助预测哪位总统候选人会获胜。  最近这几年数据新闻广为人知,其中一个经典案例是媒体在2012年时用数据新闻预测出奥巴马会在大选中获胜。但其实早在1952年,美国媒体已经做过类似报道,也是从那时候起计算机辅助报道开始为人所知。  1967年,美国联邦信息自由法案开

  E星体育目前已知最早采用计算机辅助报道的概念出现在1952年,当时美国大选,哥伦比亚广播新闻在晚间选举报道借助美国政府所有的计算机来帮助预测哪位总统候选人会获胜。

  最近这几年数据新闻广为人知,其中一个经典案例是媒体在2012年时用数据新闻预测出奥巴马会在大选中获胜。但其实早在1952年,美国媒体已经做过类似报道,也是从那时候起计算机辅助报道开始为人所知。

  1967年,美国联邦信息自由法案开始实行,民众有权利要求政府公开信息。虽然这法案是面对民众,但从后来发展来看,真正去查阅资料并获取与民众相关信息的群体是记者,记者也因为信息自由法案而获得更多的采访权,自由法案可以说为数据新闻发展奠定非常重要基础。

  这一年还发生另外一件重要的事情,美国记者Philip Meyer借助计算机报道在底特律发生的种族暴乱。在做这次报道之前,他获得尼曼奖学金在哈佛大学做了一年的访问学者,受到社会科学研究方法启迪,把社会科学的研究方法用到了记者报道方法来,让研究更为深入。

  当初的刻板印象是此类暴乱肯定是由南方的黑人引发的。但当时Philip Meyer开始使用新的方式切入报道,也就是问卷调查。他的问卷得到两位大学教授的支持,还有三十多位访问员参与这项调查,主要是收集黑人参与动乱的动机。问卷结果却与人们的“预判”有出入,甚至可以说,与大部分人的社会认知截然相反,这引起了社会轰动,加之此报道在当时获得普利策新闻奖,由此他所采用的新的报道方式广为人知。

  >

  之后1973年Meyer出版了《精确新闻学》,成为精确新闻学的创始人。他在这本书中展现了记者如何使用社会科学调查方法:如问卷、抽样、访谈等,影响非常深远。他向记者展示了计算机可以成为辅助报道的有力工具。

  计算机辅助报道早于精确新闻,强调计算工具(计算机)的使用;精确新闻强调方法论,强调用科学研究的方法。之后有越来越多的记者使用计算机来分析美国政府机关的数据,其中比较著名的案例包括1974年《费城问询者报》分析所得税退税数据,通过数据分析发现:所得税征收偏袒富人。

  80年代中期E星体育,个人计算机开始流行,随之计算机辅助报道在美国兴盛起来。当时任职于《普罗维登斯报》的一位记者Elliot Jaspin开发了一款软件,通过软件可以下载数据到个人计算机上,记者可以运用商务电子表格和数据管理程序来轻易地分析数据,这与目前记者使用的数据分析软件已经非常类似。

  到了1989年,Elliot Jaspin前往密苏里新闻学院开办了密苏里计算机辅助报道协会,并教授相关课程。1993年与IRE(调查记者与编辑协会)合并,成立了NICAR(美国计算机辅助报道协会,该协会目前仍是美国新闻界非常重要的协会,每年会吸引上千名的数据新闻从业者参加)。

  从90年代开始,计算机辅助报道开始在全美编辑室稳定发展。1996年IRE的Brant Houston出版了《计算机辅助报道的实用手册》,至今仍被记者与学生广泛使用。目前镝次元实验室在翻译此书,预计一年后跟读者见面。

  到了90年代中期,互联网改变一切,美国新闻机构在网站推出了可视化图表、交互式平台的新闻。21世纪初,互联网成为主导力量。

  故事讲到这里,计算机辅助报道明显具有技术驱动的背景。那么问题来了,数据新闻既然跟计算机辅助报道相关,那为什么计算机辅助报道要变成数据新闻?如果一模一样的话,那为什么要“改名”?

  我在美国媒体访问时,问了他们编辑同样的问题:既然做的工作是计算机辅助报道,为什么要改称为数据新闻?他们回答:因为当时被称之为计算机辅助报道的时候,计算机非常难得,但现在计算机很普遍,若还维持这个名称,会显得有点silly。

  另外,数据新闻一词并不是出自美国,而是英国。根据谷歌趋势E星体育,数据新闻在2010年年末开始使用,被称为互联网之父的Tim Berners Lee在此时敦促英国记者挖掘政府发布的海量数据。此外,数据新闻的发展也需要信息自由法案来推动。英国在2000年就通过了法案,但在2005才开始真正实施,在开放进程方面,英国晚于美国。

  Heather Brooke有一本很有影响力的书Your Right to Know,讲英国人民如何使用政府公开数据。此书作者从2005年开始倡导、培训、推动如何使用挖掘政府公开数据。

  在英国政府数据开放的头一年,出现一则很重要的数据新闻报道“Justice by postcode(根据邮政编码来进行宣判)”,揭示了英国不同地区定罪率存在巨大差异。这个报道让许多记者注意到了数据的重要性,而以往报道个案的方式无法发现案件审判与地区之间的关系。

  2006年,自由信息法案已经公布了一年,媒体从开放数据出发,做出了与之前截然不同的新闻,英国数据新闻开始蓬勃发展。在发展过程中,卫报扮演了一个很重要的角色。

  Simon Rogers是英国卫报数据博客的创始人,他认为对数据的解读并不只是数据记者的专业能力,人人都可以来做数据新闻,只要你有计算机、对数据新闻有素养,皆可以通过数据来观察我们的社会。

  2010年英国卫报发布一部引起轰动的作品,是根据维基解密释放出来的数据制作的,关于伊拉克和阿富汗,这篇报道引起很大反响。就在这一年,“数据新闻”这个词开始出现,对于数据新闻的定义,是和计算机辅助报道在实践当中的发展、数据开放的进程密不可分的

  数据新闻起源于计算报道,现在已涵盖计算机辅助报道,并演变成交互式、阅读体验等多样的报道方式。Simon Rogers的观点认为,数据新闻不一定是可视化,可以是交互式E星体育、简单信息图表、传统文字等多样形式。但采用什么样的方式,数据说了算。由数据来判断是用哪样的方式呈现。

  Simon Rogers还认为,不管用什么方式呈现的数据新闻,它们有两个共同点:一定有数据,一定有统计E星体育。不光有数据还要进行分析,这才是数据新闻。在此澄清一个概念,只呈现数据并不是数据新闻,这只能称为数字新闻。

  还有一种观点认为,数据新闻只提供相关性,不用考虑因果性。我不太认同这个观点,因为数据新闻基于数据分析,但核心还是新闻,需要完整的新闻叙事。这个新闻很多时候并不只是单篇的新闻,它是一个完整的、基于数据逻辑分析的。因此讲述新闻故事,不能只提供相关性。此外,数据新闻记者也有责任帮助受众,跟受众一起寻找真相。若不以因果关系为目的,则更多的是自己在玩数据,自娱自乐。

  在我们看来,数据新闻的重要性在于:在不缺失个体的同时,能更宏观地把真实的世界呈现在人们面前。我们传统选择报道标准在于追求案例的典型性、重大性,并找寻新奇的切入点,但这无法用比较宏观的角度来报道新闻事件。大量的普通人的正常生活被置于新闻之外,更多的是日常中的个案被媒体报道,甚至是被发酵、演绎、传播。

  作为普通公民,其实很难分清什么是真实世界的面貌,也许出于好奇心,会对触动人心的新奇个案感兴趣,但从社会参与角度来讲,我们更要知道这些个案在真实世界中所处的位置。

  我们需要了解这些真相,以便恰当判断个案的影响与意义,并且在此基础之上,才能更加准确地认知自我以及与社会的关系。如果说媒体只专注和致力于报道社会个案、截面,那我们如何能够自信、坦荡地说我们揭示了社会现象?

  数据新闻并不一定比传统访谈调研的采写报道更科学、更有深度、更高明E星体育,把握不好甚至容易产生更大的偏误。但数据新闻确实为我们提供了从更宏观的角度来看世界的可能,避免了个案有可能带来的偏见,数据新闻更有可能呈现真相,而不仅是事实。

  数据新闻的逻辑与呈现信息的特点,在展现问题的全貌、趋势与提供个性化阅读方面有自己独特的优势。

  数据新闻建立在对数据的分析之上,因为媒体的特殊性,一旦发生错误,影响非常广泛。所以不论是记者或是读者都应具备一定的理解数据、辨别数据的能力。

  以下推荐这本书给大家阅读:《数据素养》,作者是密苏里的副教授、IRE的学术顾问,中国传媒大学的沈浩目前正在组织翻译,应该很快就会和大家见面。

  这张图片选用的是一个非洲妇女在劳动的照片,并搭配文字与数据。通过这张图我们可以了解到:妇女做66%的工作、生产世界50%的食物,但所得非常少,只占10%的收入,仅仅拥有1%的资产。图的下方加上了这么一句很有动员性的话:我们可以改变这个事实。如果你是女权主义者,或者你对性别平等非常关注,你会不会被这张照片深深震撼呢?

  这张照片的数据来源是联合国发展计划,其数据来源让人觉得可信,但是经过核查,数据并不真实。由此可见,这是为了自己的宣传目的而在数据选用上并不严谨。

  接下来给大家看另一个案例,标题为:在尼日利亚被绑架的女孩。这种情况越来越严重。

  蓝色的线表示绑架的数量,横轴是时间。可以看出,绑架情况越来越严重。但这其实和当地人的认知并不一致,因此让人不禁对数据的可信度产生质疑。对数据源查实后发现,这些数据并不是来自处理相关案件的政府部门,而是来自媒体报道的数据库。这不是真实发生案件的数据,而是被媒体纪录下来的绑架数量。

  为了回应受众的质疑,数据新闻网站538(FiveThirtyEight)对这组数据进行归一化的处理,通过算法排除因媒体报道量的多寡对数据量的影响,我们可以看到数据图表显示的绑架情况并不是越来越严重。虽然从统计学的方法上来处理数据,让它能更代表真实情况,但因为数据源的选用并不合适,因此统计学的运用在此篇报道无法从根本上解决问题。

  蓝色、红色分别代表、共和党,并在每个州标明了相应的颜色。这篇报道虽然排除了因人口多寡引起的浏览数不同的问题(所有浏览的总数/总人口数),但仍存在一个问题:IP并不是真实地址,IP无法反映州的真实情况。

  随着时间的变化,美国在科学领域的花费与上吊自杀的人数趋近吻合,但两者间到底有关系吗?

  从第二张图也可以看到,掉进池塘人的数量与尼古拉斯凯奇出现在电影的次数,大体两者趋同。

  从这两张图片可以得知,我们在分析数据时,若发现特别有意思、反常识的内容,我们更要抑住内心的激动,仔细去核查数据来源与计算。

  4.遗漏方法论,在报道中没有注明是使用什么方法。这些都会是使报道被质疑诟病的因素。

  当遇到异常数据,第一时间要想到数据异常是什么原因造成:可能是数据录入、数据搜集、数据计算的错误;确定数据异常的原因后,需要判断是否值得进一步深挖异常数值。此外,也要报道呈现规律性的趋势,这对公众来说很重要。

  数据素养对于数据新闻记者很重要,我们要通过数据来有效揭示事实真相,在新闻伦理道德标之下来讲故事,为了达成这些目标,数据素养是我们需要具备的知识与能力。

  对于公众而言,数据新闻常常会用信息图、交互性新闻来呈现,在第一印象上会让读者认为“数据比文字更生动、更加可信”,而无法分辨真伪。因此,作为普通的阅听人,首先要看数据是否有注明数据来源,注明方法论。国外一些国家进行数据的处理时,若不是涉密或是商业合作数据,一般都会公布出来。

  若没有数据库,我们可以简单计算、抽检,来看数据是否可信。我们也要有基本的判断能力,数据揭示的现象是否与现实有差异,公布数据的机构之间是否有利益瓜葛。

  最后,数据新闻的质量很大一部分取决于我们可以获得什么数据,希望大家一同参与中国数据开放的进程,也希望媒体可以更多的分享你们在报道中使用的数据,供阅听人做一些核查,并方便其他媒体朋友在已有的数据基础上来做更多的挖掘与报道。