当前课程知识点:基于R语言的社会统计分析 >  第一章:绪论 >  1.2 数据 >  视频 1.2

返回《基于R语言的社会统计分析》慕课在线视频课程列表

视频 1.2在线视频

视频 1.2

下一节:视频 1.3

返回《基于R语言的社会统计分析》慕课在线视频列表

视频 1.2课程教案、知识点、字幕

下面我们来聊聊什么是数据

我经常和人家讲说

巧妇难为无米之炊

数据就是我的米

那没有好的数据我没有办法给你上上

一桌大菜啊没有办法做出很漂亮很精彩的数据分析

信息收集几乎是所有

科学领域的核心内容

它为我们提供统计分析的

观测值

我们后面经常会提到一个概念啊观测值

社会科学研究通过不同的

方法来收集数据

比较传统的数据收集方法

包括调查社会调查

包括实验研究有的时候呢我们

直接去对行为做

直接的观测研究

有的时候可能有些数据

并不是因为我们的研究目的收集的

我们可能会去找一些

地方的统计年鉴国家的统计年鉴

或者是找一些其他目的而

早就已经收集好的注册数据

比如说户籍资料

健康档案还有税务信息等等

这些是相对传统的数据收集方法

现在我们总提说

大数据的时代到来了

那网络数据

得到了爆发性的积累

于是乎有了一种非常流行的一种

新的数据获取方法叫做网络抓取

所以网络抓取数据也成为了一种比较主流的

数据获得方式

数据收集来了总要有个地方管

于是乎我们就形成了一套

数据组织管理存储的

这么一个工具叫数据库

将收集来的数据按照一定的数据结构来

组织存储和管理就形成了我们说的

数据库我们经常讲

database数据库就是这个概念

目前呢很多非常高质量的数据库

都可以从网络从互联网直接获得

一般情况下尤其是我们讲一个社会调查的数据库

会包括至少两个内容一个是

当然数据本身啊不用说了

然后还会包含

调查问卷还有一个数据的使用说明我们叫手册

有一些更加严谨的数据提供者尤其是从学术机构得来的数据

它会包括抽样方案

会包括它

每个研究对象权重的计算方法

有的时候会给你配一个编码手册啊我们经常讲codebook

会给你提供缺失值处理的方法

很多很多不同层面的技术报告

我们经常会问说technical report有没有技术报告在哪里

西方国家呢实证研究的

经验已经离累了非常长的时间

他们有非常丰富的经验啊

于是乎就积累了很多非常

严谨的非常高级高质量的数据库

这里面我可以举几个例子啊

对于对社会科学感兴趣的同学你们可以去

直接上网上去下载这些数据库的一些年份的数据

做一些小的练习或者说

只是解答一些你平时

一直感兴趣的内容感兴趣的问题

比如说

最有名的我们学习社会学的同学都知道

美国综合社会调查GSS

是从1972年就开始的一个研究

然后还有一项研究可能没有

综合社会调查那么有名啊

叫做威斯康辛追踪调查

Wisconsin Longitudinal Study

这研究非常有特色

从1957年就开始收集数据了

采访了它访问了

10317名Wisconsin高中毕业生

然后1957年的这些毕业生呢被他们追了一辈子被他们追到了现在

他们每隔五六年就

对他们就进行一次访谈然后如果你去

他们的网站

你会看到很多很多相关的学术发表很有意思

你会看到在研究初期的时候

有很多研究是关于儿童问题的

然后出现了青少年的问题

然后出现了青年的就业问题

中年危机

直到现在这个数据会跑到老年学的年会上打广告说我们

终于积累了一个人一辈子的数据

可以做一些老年学研究了

可以做一些生命历程研究

这是很有意思很有特色的一个数据库啊也很难得

然后1992年开始的

有一个非常棒的数据叫做健康与退休追踪调查

是由美国Michigan大学管理的数据

前面三个说的都是美国数据啊还有另外一个

举世闻名的叫做瑞典

双胞胎注册数据库

1960年开始收集数据

最初收集数据原因是他们想研究

吸烟对健康的危害

到现在为止呢

他们收集了85000个

双胞胎的数据

我们做社会调查做社会学研究的人

应该都知道数据的难能可贵

85000个双胞胎的样本的数据其实对我们来说是非常可遇不可求的

可遇不可求的这样一种高质量的数据了

还有我要

说一下随着

这些数据库问卷设计还有数据设计方法的不断完善

越来越多的国家开始以这些

数据收集的方法为基础建立姐妹数据库

姐妹数据库呢就大大提高了

国家间的数据的可比性

为更加严谨的

国际的比较带来了无尽的可能

我们国家

量化研究的经验没有西方国家那么丰富

我们开始大规模的系统

的社会调查数据收集可以说是大概从2000年左右开始的

到现在为止其实我们已经有陆陆续续不少的

研究数据可以供我们使用了啊这些数据如果

你上网搜索一下的话都可以很容易的

得到你只要注册一下你就可以得到这些数据

比如说

和美国综合社会调查相类似的我们有

中国综合社会调查

简称CGSS

然后和美国的健康与养老追踪调查

是好朋友啊它的姐妹

叫做中国健康与养老追踪调查

另外我们还有中国家庭追踪调查

中国教育追踪调查

还有一个其实已经从1989年

就开始数据收集工作的中国健康与营养追踪调查

简称CHNS数据

所以说其实到目前为止我们国家也已经

有了较为丰富的社会研究数据

供我们使用

刚才呢我们介绍了统计学究竟是什么

然后又给大家

泛泛的介绍了一下中外的

可供我们使用的经典数据库

现在我们需要进入到更具体的内容了要介绍

几个非常重要的概念

首先第一个概念我们后面总会提

有一个概念叫做研究对象

研究对象其实就是我们研究所观测的个体

那对于一个

典型的社会科学研究呢我们的科学研究对象呢通常是人

有的时候我们也会研究比如说双胞胎研究

研究一对双胞胎啊

有的时候会研究一个家庭一个小组一个社区

学校

一个组织

有的时候还可能是一个国家和一个地区

了解了什么是研究对象了以后呢

我们要

看的更大一点啊我们要知道什么是

总体什么是样本

总体是指

研究所感兴趣的

所有研究对象的集合

可以说总体是我们的理想是我们真正

感兴趣真正想要观测其特征

真正想要发现关系的单位

那么什么是样本呢

样本是研究所收集的属于

总体子集的数据

简单来说

总体是我们的理想

而样本是我们的现实

我们真正感兴趣的是总体的

特征而通常呢实际

时间精力人力物力财力各方面的限制

我们

可以获得信息的是样本是我们

真正进行观测进行

关系研究的这样一个实体

那具体举例来讲啊

比如说我们以中国

综合社会调查为例

以CGSS

2013年的数据为例呢

该调查的总体是什么

它的目标总体

是全国三十一个省市自治区直辖市

(不含港澳台的)

港澳台的所有城市农村家庭户

那其样本呢

其实就是2013年所收集到的数据其实很惨啊

相对全国

十几亿人我们收集到了11438名

居民的数据那它是我们

面对的现实

社会科学终极目标是获得关于

总体的信息

但对总体的信息的收集呢

会受到限制而且

通常不必要于是我们会关注样本

那与总体和样本的概念对应

我们又有一套

相对的概念

叫做参数与统计量

有些同学统计学

学了一个学期都分不清楚什么是参数什么是统计量

其实很简单参数

针对的是总体而统计量针对的是样本

参数是对某一总体特征的

数量概括

统计量是对某一样本特征的数量概括

那你说的特征是什么有时候一讲参数大家就晕

其实参数可以是

关于总体的任何特征

它可以是总体的平均值

可以是总体的四分位数

可以是总体的百分位数

可以是总体的方差

等等也可以是这个总体的最大值也可以是最小值

那与之对应呢统计量就是关于样本的信息

在实际的研究中呢

我们感兴趣的是什么

自然是参数了

而非从某一特点就

而并不是从某一个样本

中获得统计量的取值

所以参数和统计量这两个

概念要一定分得清楚啊我在

有些同学我讲了半天还是不懂

告诉你们一个偷懒的方法啊

你看书的时候如果发现希腊字母

就是参数

如果发现普通的罗马字母讲的就是统计量

当然这个解答非常不负责任啊

但是适用于大多数情况

现在我们来

进入大家最最关心的问题啊

统计软件

基本上每次来修我课的同学

做第一节课一定要问一个问题

就是我们这节课用什么软件呢

大家都知道很有名的

统计软件界三巨头

有SAS有SPSS还有STATA

大家都很好奇经常问说哪个软件

更厉害我该学习哪个

这么多年来谁也没被谁挤出市场

大家就应该猜到

各有特点各有其目标用户

所以没有办法用

一句话说说哪个软件更厉害

对于我们这门入门级的课程的要求

我要说这三门软件

都可以轻松的完成我们所有课题

但是呢还是有它们不同的特点啊

比如说有一篇文章其实

对这三个软件做了非常系统的比较啊其实

也是一个社会科学研究人员做的

在他的文章里他说SAS

数据分析和数据管理任务

中展现出了超凡实力

但是比起STATA和SPSS呢

它比较难上手比较难以学习和使用

SPSS和

STATA的

在保证这个简单易学易操作

的同时呢其实会牺牲一些功能

那其实简单的来理解我们可以

把SAS SPSS和

STATA理解成银行的

对公业务和对私业务

SAS是对于

实力用户的是对于实力者的

power user来说它说非常好的选择
实力用户的是对于实力者的

power user来说它说非常好的选择

非常强大

不仅提供了很多数据分析功能它还提供了非常强大的数据管理功能

但对于散户像我们这样的

小小个人用户来说

其实

用SPSS和STATA可能会更容易上手

对于社会科学研究者尤其是学校里面

学术机构的研究人员可能STATA

更加的流行啊因为SPSS的

编程语言会相对复杂一点虽然它也

可以做所有的事情

但是你可能

想要很快的做一些分析用SPSS就会

困难难一些了

那我们这门课会选择什么软件呢

我来个大喘气

我们这门课这三大巨头谁都不学我们来学R

有同学说为什么传说中R很难学

简单的一个答案

前面那三个软件都要钱

而R是绝对免费的

其实

在我个人看来啊

未来

科学传播的途径必然

遵循着共享性和开放性的原则

所以R其实是符合这个趋势的

那R究竟是什么呢

它是用于

统计计算和绘图的一种语言和环境

它其实也非常非常强大

提供了很多种的统计方法和绘图技术

最重要的是它具有

高度的扩展性非常非常的灵活

现如今这个世界上活跃着好多好多R的

铁粉

那这些铁粉呢活跃于

科学的各个领域

他们每天都如痴如狂的写

这个R的代码然后就不断扩展它的功能

我上学的时候人人都有一个梦想说我要

写一个R的

程序包挂在外面

做成contributed package

所以这是我们这节课要学的软件

可能刚开始的时候

刚开始的时候不得不承认这个软件

上手其实是稍微困难一点的

但是一旦你学会使用它你会发现它特别特别的强大

很多铁粉说就是

你用过了R以后其他的三大巨头都已经

不在了啊都看不上它们了

下面

再讲一讲关于统计软件的一些

忠告

很多同学都

对统计软件情有独钟啊发现它们非常厉害

能做好多好多的事

那有的同学干脆就不去上统计学原理课

他直接去学一门STATA应用课

或者是SPSS应用课来代替统计学的学习

我这里面要强调

软件是

特别特别强大特别特别方便的

这些软件呢

变得越来越可操作我们越来越多的人觉得

统计已经不是空中楼阁了啊我们人人都可以去

去使用它

软件其实是比较不负责任的啊

你让软件去算数

它永远能给你一个答案

但是它不对答案的意义负任何责任

比如说你手里有好多电话号码

然后你现在告诉软件说你给我求个平均值

它可以把所有的电话号码加起来

除以个样本量求出个平均值

但这个平均值可能没有任何意义

所以这里面要说

软件固然强大但是你一定要有

扎实的统计学基础原理的知识

才能确定你干出来的事

是一件有意义的有价值的事情

基于R语言的社会统计分析课程列表:

第一章:绪论

-1.1 什么是统计学?

--视频1.1

-1.2 数据

--视频 1.2

-1.3 随机化原则

--视频 1.3

-1.4 数据收集方法

--视频 1.4

-第一章:绪论--1.5 习题

-Week 1

第二章:描述统计

-2.1 描述统计概述 - 社会学概念的量化问题

--Video

-2.2 变量的分类

--Video

-2.3 描述统计方法 I: 制表法 Tabular Method

--Video

-2.4 描述统计方法 II: 绘图法 Graphical Method

--Video

-2.5 描述统计方法 III: 数值法 Numerical Method

--Video

-第二章:描述统计--2.6 习题

-第二章 (第一部分)测量与变量

-第二章 (第二部分)描述统计 - 制表

-第二章 (第三部分)描述统计 - 绘图

-第二章 (第四部分)描述统计 - 数值

第三章:基于R语言的探索性数据分析

-3.1 探索性数据分析

--视频3.1

-3.2 EDA的制图原则

--Video

-3.3 R语言初体验

--R 语言初体验

-3.4 CRAN 和学习资源

--CRAN 和学习资源

-3.5 R 基础知识

--Video

-3.6 图形和数值

--Video

-第三章 基于R语言的探索性数据分析

第四章:概率分布

-4.1 概率的基本概念

--Video

-4.2 离散型与连续型变量的概率分布

--Video

-4.3 正态分布

--Video

-4.4 抽样分布

--Video

-第四章:概率分布--4.5 习题

-第四章 概率分布

第五章:统计推断 - 估计

-5.1 用抽样分布来代表抽样的变异性

--Video

-5.2 样本均值的抽样分布

--Video

-5.3 中心极限定理

--Video

-5.4 点估计和区间估计

--Video

-第五章:统计推断 - 估计--5.5 习题

-第五章 抽样分布

第六章:统计推断 - 区间估计

-6.1 区间估计

--Video

-6.2 总体比例的区间估计

--Video

-6.3 置信水平

--Video

-6.4 总体均值的区间估计

--Video

-第六章:统计推断 - 区间估计--6.5 习题

-州长选举支持率模拟抽样 R Code

-中心极限定理 R Code

-第六章 统计推断 - 区间估计

第七章: 统计推断 - 显著性检验

-7.1 绪论

--Video

-7.2 一个显著性检验的五个部分

--Video

-7.3 均值的显著性检验

--Video

-7.4 比例的显著性检验

--Video

-7.5 检验中错误的类型

--Video

-第七章: 统计推断 - 显著性检验--7.6 习题

-第七章 统计推断 - 显著性检验

第八章:两组比较和多组比较

-8.1 预备知识

--Video

-8.2 比较两组比例

--Video

-8.3 比较两个独立样本的均值

--Video

-8.4 比较两个相依样本的均值

--Video

-8.5 方差分析(选学)

--Video

-第八章:两组比较和多组比较--8.6 习题

-第八章 两组比较与多组比较 - 课件

-第八章 两组比较与多组比较 - 讲义

-第八章 R-syntax

-第八章 举例数据-mobile

-第八章 举例数据-occupation

第九章:变量间的关联分析

-9.1 变量间的关联分析

--Video

-9.2 列联分析

--Video

-9.3 定序变量间的关联关系

--Video

-第九章:变量间的关联分析--9.4 习题

-第九章 R Code

第十章:简单线性回归

-10.1 简单线性回归模型概述

--Video

-10.2 模型系数估计

--Video

-10.3 评价系数估计的准确性

--Video

-10.4 评价模型的准确性

--Video

-10.5 R Lab: 用R构建简单线性模型

--Video

-第十章:简单线性回归--10.6 习题

-第十章 简单线性回归模型 - 讲义

-第十章 R Code

第十一章:多元回归

-11.1 多元线性回归概述

--Video

-11.2 多元线性回归

--Video

-11.3 潜在问题及解决方案

--Video

-11.4 用R语言进行多元线性回归

--Video

-第十一章:多元回归--11.5 习题

-第十一章 R Code

-第十一章 多元线性回归模型-讲义

第十二章: Logistic回归和其他高级统计方法简介

-12.1 社会科学中的分类问题

--Video

-12.2 Logistic回归概述

--Video

-12.3 Logistic回归系数估计

--Video

-12.4 Logistic回归模型评价

--Video

-12.5 其他多元统计方法

--Video

-12.6 R语言实践

--Video

-12.7 结束语

--Video

-第十二章 R code

视频 1.2笔记与讨论

也许你还感兴趣的课程:

© 柠檬大学-慕课导航 课程版权归原始院校所有,
本网站仅通过互联网进行慕课课程索引,不提供在线课程学习和视频,请同学们点击报名到课程提供网站进行学习。