当前课程知识点:新闻学概论 >  第七章 新闻传媒业的新生态、新业态 >  7.2数据新闻 >  7.2.4数据新闻制作中的数据采集

返回《新闻学概论》慕课在线视频课程列表

7.2.4数据新闻制作中的数据采集在线视频

下一节:7.2.5编辑室里的数据分析与可视化

返回《新闻学概论》慕课在线视频列表

7.2.4数据新闻制作中的数据采集课程教案、知识点、字幕

同学们好

欢迎大家来到《新闻学概论》课堂

今天开始

我们一起来学习

互联网时代

一种新的新闻报道方式

数据新闻

在制作数据新闻的过程中

采集数据是非常重要的一步

数据的准确可信和完整性

将决定我们对之进行进一步的分析

也将决定数据新闻作品的顺利完成

国内外不同媒体

在获取数据的来源和方法上

有不同的倚重

总的来看

在制作数据新闻时

我们可以通过以下途径采集数据

第一个 通过网络在线搜索公开的数据

互联网是一个拥有庞大数据的信息库

一般而言

其数据资源多以文件的形式存放

网站是展示网络资源的平台

是指在互联网上根据一定规则

基于HTML制作的

用于展示特定内容的相关网页的集合

网站既向其用户提供相关的网络服务

也为用户提供信息资源

在做数据新闻时

除了关注网站的基本信息

一些信源网站更是提供数据的宝库

第一个 通过政府部门及其直属机构的

网络平台采集数据

第二个

在其他机构或组织的网络平台采集数据

如政府间组织网站

社会组织网站

商业网站

媒体网站等等

如 这个是联合国数据库

是通往联合国系统的各种统计资源的快速通道

第三个 通过图书馆馆藏资源检索获取

如公共图书馆

大学图书馆

专业图书馆等等

如 这个是国家图书馆的网站

通过国图的官网快速找到国图的馆藏资源

第二个方式

通过爬虫工具抓取数据

网络搜索功能有限

难以应对采集数据的所有需求

在此情形下

定向抓取相关网页资源的

“网络爬虫”应运而生

采集网页数据也称

抓取网页数据

指通过计算机技术语言

对网页上的HTML进行

抓取 分析 整理 并导入数据库

采集网页数据的基本步骤包括

第一个

确定要采集的数据内容

只有明确与选题相关的数据采集目标

做到有的放矢

才能避免时间资源和人力资源的浪费

要明确自己将要采集的是

网页上的图片 文字

还是这些内容背后的链接

后台的数据库

并且准备将这些数据

储存在格式化的文件当中

第二个 明确可采集的数据源

采集数据不是漫无目的地在网页上搜寻

必须较为清晰地定位

一些和欲采集数据相关的网站

否则会事倍功半

第三 对数据源进行解析

并确定目标内容所在的位置

对数据源进行评估

了解数据源的基本结构

这是为制定抓取策略打下基础

第四 根据目标内容所在位置

进行相应的抓取操作

制定采集网页数据的策略

这一步要明确采用何种方法

何种工具进行网页采集

第五 储存数据

将数据以何种格式储存于什么位置

第三种方式

通过申请政府信息公开获取数据

在媒体制作数据新闻时

数据未必都像记者编辑

所期望的已经公开发表

可以直接从网上搜索或爬取

政府部门及其直属机构

可能握有一些有关某一单位

领域或是话题的权威数据

但基于各种原因未能公开发表

这时一种行之有效的采集数据的方法是

根据相关的法律规定申请政府信息公开

从全球范围看

由于各国政府的信息公开程度

存在较大差异

在一些国家和地区

这种采集数据的方法

实施起来较为便利

是媒体最重要的数据源

而在另一些国家和地区

申请政府信息公开却遭遇较多的阻碍

第四种方式

通过调查和众包的方式采集数据

时至今日

问卷调查已经形成了

一套相对完整和系统的体系

成为新闻传播界的

一套重要的研究方法

同时也是媒体获取资料的一大途径

除了媒体人员主动索取和采集数据

还有一些数据新闻选题

涉及与互联网用户直接相关的话题

数据分布地域广泛

增加了获取的难度

这时可以运用新闻业新兴的

众包方式来获取数据

发起用户众包和采用问卷调查的方法

收集数据较为类似

但也存在不同

前者主要面向的对象是互联网用户

有时只是媒体自己的用户

而后者面向的调查对象则相对更广一些

前者实施的主体是媒体

后者则可以采纳其他机构

或个人所作的调查结果

前者是以互联网为依托

通过网络空间发出邀请和回收数据

后者则可在互联网上操作

也可在线下操作

第五种方式

以购买或开展合作的方式

向机构或个人索取数据

媒体可以向商业机构购买数据资料

或是与商业机构合作制作数据新闻

互联网技术公司 电子商务公司

是最先认识到大数据商业价值的机构

它们推出了一系列

基于大数据分析的产品与服务

拥有一般媒体所不具备的

数据抓取技术和分析能力

建有庞大的数据中心

媒体可以考虑与类似的商业机构合作

或向其购买数据资料

下面我们来看一个案例

2014年1月25日晚

中央电视台《晚间新闻》与百度合作

首次启用百度地图定位可视化大数据

播报了国内春节人口迁徙的情况

引发了巨大关注

央视的报道是基于

百度推出的人口迁徙大数据项目

百度地图春节人口迁徙大数据

该项目利用百度后台

每天数十亿次LBS定位数据进行计算分析

展现春节前后人口大迁徙的轨迹与特征

媒体也可以向公益组织或学术科研组织等

非商业机构索取数据资料

或是与这类组织和机构合作制作数据新闻

数据新闻制作中的数据采集

就介绍到这里

谢谢大家

新闻学概论课程列表:

第一章 概说

-1.1 走进新闻学

--1.1 走进新闻学

--走进新闻学

-1.1课后习题

第二章 新闻是什么

-2.1 新闻的起源、定义与基本特征

--2.1.1两种新闻定义与四个关键词

--2.1.1课后习题

--2.1.2真实性:新闻的本质规定

--2.1.2课后习题

-2.2新闻与宣传

--2.2.1新闻宣传:认知性影响力的呈现

--2.2.1课后习题

--2.2.2对外新闻宣传:如何讲好中国故事

--2.2.2课后习题

-2.3新闻与舆论

--2.3.1新闻舆论导向

--2.3.1课后习题

--2.3.2新闻舆论监督

--2.3.2课后习题

第三章 新闻事业

-3.1新闻事业的产生和发展

--3.1新闻事业的产生和发展

--3.1课后习题

-3.2新闻工作的党性原则和基本方针

--3.2.1党性原则:发展历程与理论基础

--3.2.1课后习题

--3.2.2党性原则:在中国的继承、丰富与发展

--3.2.2课后习题

--3.2.3“三贴近”:新闻工作的基本方针

--3.2.3课后习题

-3.3传媒业的盈利模式

--3.3.1双重销售模式是什么?

--3.3.1课后习题

--3.3.2长尾理论的启示

--3.3.2课后习题

第四章 新闻选择

-4.1新闻价值

--4.1.1新闻价值:新闻选择的重要标准

--4.1.1课后习题

第五章 新闻自由

-5.1理解新闻自由

--5.1新闻自由:口号与权利

--5.1课后习题

-5.2新闻自由的社会控制

--5.2新闻自由的社会控制

--5.2课后习题

第六章 新闻伦理和法治

-6.1新闻传播伦理概述

--6.1新闻传播伦理概述:行为的标尺

--6.1课后习题

-6.2新闻传播伦理评价体系

--6.2新闻传播伦理评价体系构建:动机与效果的平衡

--6.2课后习题

-6.3新闻从业者的职业权利

--6.3表达自由:理解自由的要义

--6.3课后习题

-6.4新闻传播中的隐私权

--6.4新闻从业者的职业权利:Do's and Don'ts

--6.4课后习题

-6.5新闻传播中的被遗忘权

--6.5新闻传播中的隐私权问题:不可触碰的角落

--6.5课后习题

-6.6媒介审判(上)

--6.6媒介审判:情与法的博弈

--6.6课后习题

-6.7媒介审判(下)

--6.7被遗忘权:擦去数字时代的刺青

--6.7课后习题

第七章 新闻传媒业的新生态、新业态

-7.1互联网与新媒体

--7.1.1互联网发展史:连接的演进(上)

--7.1.1课后习题

--7.1.2互联网发展史:连接的演进(中)

--7.1.2课后习题

--7.1.3互联网发展史:连接的演进(下)

--7.1.3课后习题

--7.1.4理解新媒体

--7.1.4课后习题

--7.1.5新媒体的主要传播形式:即时通信

--7.1.5课后习题

--7.1.6新媒体的主要传播形式:微博

--7.1.6课后习题

--7.1.7新媒体的主要传播形式:微信

--7.1.7课后习题

--7.1.8社会化媒体

--7.1.8课后习题

-7.2数据新闻

--7.2.1什么是数据新闻

--7.2.1课后习题

--7.2.2数据新闻的制作流程

--7.2.2课后习题

--7.2.3数据新闻常见的选题思路和方法

--7.2.3课后习题

--7.2.4数据新闻制作中的数据采集

--7.2.4课后习题

--7.2.5编辑室里的数据分析与可视化

--7.2.5课后习题

7.2.4数据新闻制作中的数据采集笔记与讨论

也许你还感兴趣的课程:

© 柠檬大学-慕课导航 课程版权归原始院校所有,
本网站仅通过互联网进行慕课课程索引,不提供在线课程学习和视频,请同学们点击报名到课程提供网站进行学习。