当前课程知识点:基于R语言的社会统计分析 > 第一章:绪论 > 1.2 数据 > 视频 1.2
下面我们来聊聊什么是数据
我经常和人家讲说
巧妇难为无米之炊
数据就是我的米
那没有好的数据我没有办法给你上上
一桌大菜啊没有办法做出很漂亮很精彩的数据分析
那
信息收集几乎是所有
科学领域的核心内容
它为我们提供统计分析的
观测值
我们后面经常会提到一个概念啊观测值
社会科学研究通过不同的
方法来收集数据
比较传统的数据收集方法
包括调查社会调查
包括实验研究有的时候呢我们
直接去对行为做
直接的观测研究
有的时候可能有些数据
并不是因为我们的研究目的收集的
我们可能会去找一些
地方的统计年鉴国家的统计年鉴
或者是找一些其他目的而
早就已经收集好的注册数据
比如说户籍资料
健康档案还有税务信息等等
这些是相对传统的数据收集方法
现在我们总提说
大数据的时代到来了
那网络数据
得到了爆发性的积累
于是乎有了一种非常流行的一种
新的数据获取方法叫做网络抓取
所以网络抓取数据也成为了一种比较主流的
数据获得方式
那
数据收集来了总要有个地方管
于是乎我们就形成了一套
数据组织管理存储的
这么一个工具叫数据库
将收集来的数据按照一定的数据结构来
组织存储和管理就形成了我们说的
数据库我们经常讲
database数据库就是这个概念
那
目前呢很多非常高质量的数据库
都可以从网络从互联网直接获得
一般情况下尤其是我们讲一个社会调查的数据库
会包括至少两个内容一个是
当然数据本身啊不用说了
然后还会包含
调查问卷还有一个数据的使用说明我们叫手册
有一些更加严谨的数据提供者尤其是从学术机构得来的数据
它会包括抽样方案
会包括它
每个研究对象权重的计算方法
有的时候会给你配一个编码手册啊我们经常讲codebook
会给你提供缺失值处理的方法
很多很多不同层面的技术报告
我们经常会问说technical report有没有技术报告在哪里
那
西方国家呢实证研究的
经验已经离累了非常长的时间
他们有非常丰富的经验啊
于是乎就积累了很多非常
严谨的非常高级高质量的数据库
这里面我可以举几个例子啊
对于对社会科学感兴趣的同学你们可以去
直接上网上去下载这些数据库的一些年份的数据
做一些小的练习或者说
只是解答一些你平时
一直感兴趣的内容感兴趣的问题
比如说
最有名的我们学习社会学的同学都知道
美国综合社会调查GSS
是从1972年就开始的一个研究
然后还有一项研究可能没有
综合社会调查那么有名啊
叫做威斯康辛追踪调查
Wisconsin Longitudinal Study
这研究非常有特色
从1957年就开始收集数据了
它
采访了它访问了
10317名Wisconsin高中毕业生
然后1957年的这些毕业生呢被他们追了一辈子被他们追到了现在
他们每隔五六年就
对他们就进行一次访谈然后如果你去
他们的网站
你会看到很多很多相关的学术发表很有意思
你会看到在研究初期的时候
有很多研究是关于儿童问题的
然后出现了青少年的问题
然后出现了青年的就业问题
中年危机
直到现在这个数据会跑到老年学的年会上打广告说我们
终于积累了一个人一辈子的数据
可以做一些老年学研究了
可以做一些生命历程研究
这是很有意思很有特色的一个数据库啊也很难得
然后1992年开始的
有一个非常棒的数据叫做健康与退休追踪调查
是由美国Michigan大学管理的数据
前面三个说的都是美国数据啊还有另外一个
举世闻名的叫做瑞典
双胞胎注册数据库
1960年开始收集数据
最初收集数据原因是他们想研究
吸烟对健康的危害
到现在为止呢
他们收集了85000个
双胞胎的数据
我们做社会调查做社会学研究的人
应该都知道数据的难能可贵
85000个双胞胎的样本的数据其实对我们来说是非常可遇不可求的
可遇不可求的这样一种高质量的数据了
还有我要
说一下随着
这些数据库问卷设计还有数据设计方法的不断完善
越来越多的国家开始以这些
数据收集的方法为基础建立姐妹数据库
姐妹数据库呢就大大提高了
国家间的数据的可比性
为更加严谨的
国际的比较带来了无尽的可能
我们国家
量化研究的经验没有西方国家那么丰富
我们开始大规模的系统
的社会调查数据收集可以说是大概从2000年左右开始的
到现在为止其实我们已经有陆陆续续不少的
研究数据可以供我们使用了啊这些数据如果
你上网搜索一下的话都可以很容易的
得到你只要注册一下你就可以得到这些数据
比如说
和美国综合社会调查相类似的我们有
中国综合社会调查
简称CGSS
然后和美国的健康与养老追踪调查
是好朋友啊它的姐妹
叫做中国健康与养老追踪调查
另外我们还有中国家庭追踪调查
中国教育追踪调查
还有一个其实已经从1989年
就开始数据收集工作的中国健康与营养追踪调查
简称CHNS数据
所以说其实到目前为止我们国家也已经
有了较为丰富的社会研究数据
供我们使用
刚才呢我们介绍了统计学究竟是什么
然后又给大家
泛泛的介绍了一下中外的
可供我们使用的经典数据库
现在我们需要进入到更具体的内容了要介绍
几个非常重要的概念
首先第一个概念我们后面总会提
有一个概念叫做研究对象
研究对象其实就是我们研究所观测的个体
那对于一个
典型的社会科学研究呢我们的科学研究对象呢通常是人
有的时候我们也会研究比如说双胞胎研究
研究一对双胞胎啊
有的时候会研究一个家庭一个小组一个社区
学校
一个组织
有的时候还可能是一个国家和一个地区
那
了解了什么是研究对象了以后呢
我们要
看的更大一点啊我们要知道什么是
总体什么是样本
总体是指
研究所感兴趣的
所有研究对象的集合
可以说总体是我们的理想是我们真正
感兴趣真正想要观测其特征
真正想要发现关系的单位
那么什么是样本呢
样本是研究所收集的属于
总体子集的数据
简单来说
总体是我们的理想
而样本是我们的现实
我们真正感兴趣的是总体的
特征而通常呢实际
时间精力人力物力财力各方面的限制
我们
可以获得信息的是样本是我们
真正进行观测进行
关系研究的这样一个实体
那具体举例来讲啊
比如说我们以中国
综合社会调查为例
以CGSS
2013年的数据为例呢
该调查的总体是什么
它的目标总体
是全国三十一个省市自治区直辖市
(不含港澳台的)
港澳台的所有城市农村家庭户
那其样本呢
其实就是2013年所收集到的数据其实很惨啊
相对全国
十几亿人我们收集到了11438名
居民的数据那它是我们
面对的现实
社会科学终极目标是获得关于
总体的信息
但对总体的信息的收集呢
会受到限制而且
通常不必要于是我们会关注样本
那与总体和样本的概念对应
我们又有一套
相对的概念
叫做参数与统计量
有些同学统计学
学了一个学期都分不清楚什么是参数什么是统计量
其实很简单参数
针对的是总体而统计量针对的是样本
参数是对某一总体特征的
数量概括
统计量是对某一样本特征的数量概括
那你说的特征是什么有时候一讲参数大家就晕
其实参数可以是
关于总体的任何特征
它可以是总体的平均值
可以是总体的四分位数
可以是总体的百分位数
可以是总体的方差
等等也可以是这个总体的最大值也可以是最小值
那与之对应呢统计量就是关于样本的信息
在实际的研究中呢
我们感兴趣的是什么
自然是参数了
而非从某一特点就
而并不是从某一个样本
中获得统计量的取值
所以参数和统计量这两个
概念要一定分得清楚啊我在
有些同学我讲了半天还是不懂
告诉你们一个偷懒的方法啊
你看书的时候如果发现希腊字母
就是参数
如果发现普通的罗马字母讲的就是统计量
当然这个解答非常不负责任啊
但是适用于大多数情况
现在我们来
进入大家最最关心的问题啊
统计软件
基本上每次来修我课的同学
做第一节课一定要问一个问题
就是我们这节课用什么软件呢
大家都知道很有名的
统计软件界三巨头
有SAS有SPSS还有STATA
大家都很好奇经常问说哪个软件
更厉害我该学习哪个
这么多年来谁也没被谁挤出市场
大家就应该猜到
各有特点各有其目标用户
所以没有办法用
一句话说说哪个软件更厉害
对于我们这门入门级的课程的要求
我要说这三门软件
都可以轻松的完成我们所有课题
但是呢还是有它们不同的特点啊
比如说有一篇文章其实
对这三个软件做了非常系统的比较啊其实
也是一个社会科学研究人员做的
他
在他的文章里他说SAS
数据分析和数据管理任务
中展现出了超凡实力
但是比起STATA和SPSS呢
它比较难上手比较难以学习和使用
那
SPSS和
STATA的
在保证这个简单易学易操作
的同时呢其实会牺牲一些功能
那其实简单的来理解我们可以
把SAS SPSS和
STATA理解成银行的
对公业务和对私业务
SAS是对于
实力用户的是对于实力者的
power user来说它说非常好的选择
实力用户的是对于实力者的
power user来说它说非常好的选择
非常强大
不仅提供了很多数据分析功能它还提供了非常强大的数据管理功能
但对于散户像我们这样的
小小个人用户来说
其实
用SPSS和STATA可能会更容易上手
对于社会科学研究者尤其是学校里面
学术机构的研究人员可能STATA
更加的流行啊因为SPSS的
编程语言会相对复杂一点虽然它也
可以做所有的事情
但是你可能
想要很快的做一些分析用SPSS就会
困难难一些了
那我们这门课会选择什么软件呢
我来个大喘气
我们这门课这三大巨头谁都不学我们来学R
有同学说为什么传说中R很难学
简单的一个答案
前面那三个软件都要钱
而R是绝对免费的
其实
在我个人看来啊
未来
科学传播的途径必然
遵循着共享性和开放性的原则
所以R其实是符合这个趋势的
那R究竟是什么呢
它是用于
统计计算和绘图的一种语言和环境
它其实也非常非常强大
提供了很多种的统计方法和绘图技术
最重要的是它具有
高度的扩展性非常非常的灵活
现如今这个世界上活跃着好多好多R的
铁粉
那这些铁粉呢活跃于
科学的各个领域
他们每天都如痴如狂的写
这个R的代码然后就不断扩展它的功能
我上学的时候人人都有一个梦想说我要
写一个R的
程序包挂在外面
做成contributed package
所以这是我们这节课要学的软件
可能刚开始的时候
刚开始的时候不得不承认这个软件
上手其实是稍微困难一点的
但是一旦你学会使用它你会发现它特别特别的强大
很多铁粉说就是
你用过了R以后其他的三大巨头都已经
不在了啊都看不上它们了
下面
再讲一讲关于统计软件的一些
忠告
很多同学都
对统计软件情有独钟啊发现它们非常厉害
能做好多好多的事
那有的同学干脆就不去上统计学原理课
他直接去学一门STATA应用课
或者是SPSS应用课来代替统计学的学习
我这里面要强调
软件是
特别特别强大特别特别方便的
这些软件呢
变得越来越可操作我们越来越多的人觉得
统计已经不是空中楼阁了啊我们人人都可以去
去使用它
软件其实是比较不负责任的啊
你让软件去算数
它永远能给你一个答案
但是它不对答案的意义负任何责任
比如说你手里有好多电话号码
然后你现在告诉软件说你给我求个平均值
它可以把所有的电话号码加起来
除以个样本量求出个平均值
但这个平均值可能没有任何意义
所以这里面要说
软件固然强大但是你一定要有
扎实的统计学基础原理的知识
才能确定你干出来的事
是一件有意义的有价值的事情
-1.1 什么是统计学?
--视频1.1
-1.2 数据
--视频 1.2
-1.3 随机化原则
--视频 1.3
-1.4 数据收集方法
--视频 1.4
-第一章:绪论--1.5 习题
-2.1 描述统计概述 - 社会学概念的量化问题
--Video
-2.2 变量的分类
--Video
-2.3 描述统计方法 I: 制表法 Tabular Method
--Video
-2.4 描述统计方法 II: 绘图法 Graphical Method
--Video
-2.5 描述统计方法 III: 数值法 Numerical Method
--Video
-第二章:描述统计--2.6 习题
-3.1 探索性数据分析
--视频3.1
-3.2 EDA的制图原则
--Video
-3.3 R语言初体验
--R 语言初体验
-3.4 CRAN 和学习资源
-3.5 R 基础知识
--Video
-3.6 图形和数值
--Video
-4.1 概率的基本概念
--Video
-4.2 离散型与连续型变量的概率分布
--Video
-4.3 正态分布
--Video
-4.4 抽样分布
--Video
-第四章:概率分布--4.5 习题
-5.1 用抽样分布来代表抽样的变异性
--Video
-5.2 样本均值的抽样分布
--Video
-5.3 中心极限定理
--Video
-5.4 点估计和区间估计
--Video
-第五章:统计推断 - 估计--5.5 习题
-6.1 区间估计
--Video
-6.2 总体比例的区间估计
--Video
-6.3 置信水平
--Video
-6.4 总体均值的区间估计
--Video
-第六章:统计推断 - 区间估计--6.5 习题
-7.1 绪论
--Video
-7.2 一个显著性检验的五个部分
--Video
-7.3 均值的显著性检验
--Video
-7.4 比例的显著性检验
--Video
-7.5 检验中错误的类型
--Video
-第七章: 统计推断 - 显著性检验--7.6 习题
-8.1 预备知识
--Video
-8.2 比较两组比例
--Video
-8.3 比较两个独立样本的均值
--Video
-8.4 比较两个相依样本的均值
--Video
-8.5 方差分析(选学)
--Video
-第八章:两组比较和多组比较--8.6 习题
-9.1 变量间的关联分析
--Video
-9.2 列联分析
--Video
-9.3 定序变量间的关联关系
--Video
-第九章:变量间的关联分析--9.4 习题
-10.1 简单线性回归模型概述
--Video
-10.2 模型系数估计
--Video
-10.3 评价系数估计的准确性
--Video
-10.4 评价模型的准确性
--Video
-10.5 R Lab: 用R构建简单线性模型
--Video
-第十章:简单线性回归--10.6 习题
-11.1 多元线性回归概述
--Video
-11.2 多元线性回归
--Video
-11.3 潜在问题及解决方案
--Video
-11.4 用R语言进行多元线性回归
--Video
-第十一章:多元回归--11.5 习题
-12.1 社会科学中的分类问题
--Video
-12.2 Logistic回归概述
--Video
-12.3 Logistic回归系数估计
--Video
-12.4 Logistic回归模型评价
--Video
-12.5 其他多元统计方法
--Video
-12.6 R语言实践
--Video
-12.7 结束语
--Video