当前课程知识点:基于R语言的社会统计分析 > 第一章:绪论 > 1.3 随机化原则 > 视频 1.3
下面这一个小节
我们来讲讲
随机化原则
和数据的收集方式
前面我们讲过
统计学数据的收集
描述还有推断
提供方法学的基础
首先让我们来谈谈
关于数据收集的那些事
首先就是数据收集的
具体方式
我们前面提到说
统计推断是
统计学的脊梁
要想做一个
非常好的推断
因为我们说统计推断是从
样本对
总体进行猜测这么一个过程
要想做到非常靠谱的
非常科学负责任的推断
首先我们就要保证
我们
收集到的样本
是具有非常好的代表性的
抽样的方法
就变得大有学问
要保证样本的
代表性
怎么办
我们要
引入
随机化的概念
也就是randomization
随机化是
达到良好的样本代表性的
有效途径
它是保证我们可以将
样本特征
安全的
推广到总体的必要条件
那
我们先来谈谈
简单随机抽样
简单随机抽样的英文叫作
Simple random sample
后面我会
只要一谈到统计学的术语
就经常会中英混杂的
给大家讲
没有秀英文的意思
因为我们后面要讲
R的具体使用
你会发现
为了让R好好听咱们的话
很多的指令都是英文的
后面
学得越来越复杂
可能需要R做的操作
越来越难的时候
你经常会
到网络的社区上
去寻求别人的帮助
这个时候
如果你用英文搜索的话
可能会有越来越多的
国际朋友来帮助你
所以术语的英文的
表达是非常重要的
每个同学
在学习整个统计学的过程中
都应该了解所有术语
的英文表达具体是什么样的
简单随机抽样
它是大多数统计推断
方法的发展基础
很多非常高级的统计学的
方法比如说
回归比如说相关性
很多方法的基础都建立
在你的样本
是通过随机化的原则
收取进来的是要
服从简单随机抽样的
这种抽样方法
实际上就是要保证
研究对象
被抽中的概率
是相等的
简单随机抽样的
理念其实
在我们生活之中
无处不在
举一个小例子
比如说我们
每到年会的时候
想抽个大奖
于是乎主持人拿了一个
抽奖箱
我们伸手去抽
其实这个过程是一个
特别特别典型的
简单随机抽样的过程
再比如说你有六个朋友
在家里一起玩
今天决定是谁洗完了
于是乎你去扔骰子
扔骰子的过程也是一个
简单随机抽样的过程
再简单一点
就两个人决定
这两个人中今天谁倒霉
干什么事情
我们怎么办
扔硬币
扔硬币
也是简单随机抽样
这是我们生活中经常
会碰到的简单随机抽样的
体现
那
我们还是要对它进行一个
比较具体的定义
简单随机抽样的
定义是这样的
如果我们用
n来代表样本中
研究对象的数量
称之为样本量
那马对简单随机抽样的
定义是这样的
一个总体中
抽取
n个研究对象的
简单随机样本
与其它相同样本量的
可能样本
被选择的概率
或者是被选择的机会
是相同的
我们再形象点来说
我们每次抽样比如说
今天的研究对象是
全国的
省
和直辖市
那
可能这次抽样
我抽中了
北京天津和上海
怎么把
直辖市都抽中了
下次抽样我抽中的
全是西部地区
新疆
西藏
青海
这三个地方被抽中了
从简单随机抽样
角度上来讲
抽中三个直辖市
北京上海天津的概率
和抽中三个西部地区
青海西藏
新疆的概率
应该是一模一样的
这就是
简单随机抽样的原则
简单随机抽样
有的时候我们
就直接把它简化成
叫作随机抽样
把简单抹去
那有的人
特别把简单又加回去
为什么
是要区别于
一些更复杂的抽样设计
简单随机抽样
体现了公平性的原则
这就大大降低了
样本因为严重偏差而
导致的推断错误
这是一种
特别特别棒的方法
人人都想用
简单随机抽样
它很好它很棒
但是它非常难
是为什么呢
回顾抽奖这件事情
我们每个人都拿了一个号
然后放在抽奖箱里
我们有一个大大的箱子
包含了所有可能被抽中的
本人的信息
于是乎我们抽一个号码
但是在现实的研究中
我们到哪去找这些号码
也就是说我们
用术语说
这个抽样框
太难获得了
抽样框是什么呢
它是一个
包含总体
所有研究对象的
花名册
假设说
你想以一个社区的
居民为研究对象
那什么是你的抽样框
你不得不
跑到街道办事处
或者是跑到
当地的派出所
找到
住在这个区的
所有居民的
户籍资料
假设说
教育社会学研究
我们的研究对象
通常是学校
那我想
研究学校里所有
学生的情况
怎么办
我需要找到
学生的学籍管理部门
管它要所有的
学生的花名册
可以想象
即使是警察局
也不可能
随时
拥有
最新最全最准确的
户籍信息
那对于
社会学研究者来说
这个户籍信息
都不是事了
我们的研究对象
太难找了
比如说
我们的研究问题是
流动人口
比如说我们的
研究问题是
无家可归者
我们到哪去找
这么多的流动人口的
注册信息
到哪去找
无家可归者的花名册
这是简单随机抽样
不可能做到的
所以这是一种很难的方法
但是
假设说我们克服了这个问题
找到了一个特别
最新最全最靠谱的
抽样框
下面我就
要给大家介绍一下
简单的随机抽样
是怎么实现的
传统意义上
我们抽奖的时候
比如说从一个箱子里
去抽
中奖号码
还有
比如说扔硬币
掷骰子其实
都是简单随机抽样
方法
如果你
做的是一个医学研究
我们做医学
研究实验设计的人
可能更习惯于
使用随机数表的方法
现在计算机技术
非常发达
所以我们现代研究
大都是采用
计算机生成
随机数的方法
这种方法
具体怎么实现呢
首先呢
一般我们都为
抽样框中所有的
研究对象要
编码
而且我要确定
每一个编码能够
单独的
定义
每一个人
然后我要
把这些所有的编码
合起来生成一个
包含所有这些编码
的数字的集合
然后从这些集合里
告诉计算机说
我要从这几个数里抽
从这些编号集合中
抽取样本
我们举一个简单的例子
经常有时候
我上课的时候可能
会用R做一些
简单随机抽样
比较损的时候
可能会用R直接
抽一个学号
让学生来回答问题
假设说我的
总体是有100个人
100个人肯定是
100个名字
但是我现在
不管这些名字了
我就
第一个同学就叫1号
2就2号
我编号从
1到100
我生成了一个总体
现在
我希望从总体中
抽取10个人
给R指令
非常简单
你就告诉它说抽样
用sample这个命令
我从
总体
100个人的一个总体里
抽10个人
随机的
R就给我得出了
10个随机数
这一个例子里面
你可以看到
编号第89
第21第37
第68的
个体
被抽中了
这就是计算机
实现随机抽样的
过程
非常非常的简单
-1.1 什么是统计学?
--视频1.1
-1.2 数据
--视频 1.2
-1.3 随机化原则
--视频 1.3
-1.4 数据收集方法
--视频 1.4
-第一章:绪论--1.5 习题
-2.1 描述统计概述 - 社会学概念的量化问题
--Video
-2.2 变量的分类
--Video
-2.3 描述统计方法 I: 制表法 Tabular Method
--Video
-2.4 描述统计方法 II: 绘图法 Graphical Method
--Video
-2.5 描述统计方法 III: 数值法 Numerical Method
--Video
-第二章:描述统计--2.6 习题
-3.1 探索性数据分析
--视频3.1
-3.2 EDA的制图原则
--Video
-3.3 R语言初体验
--R 语言初体验
-3.4 CRAN 和学习资源
-3.5 R 基础知识
--Video
-3.6 图形和数值
--Video
-4.1 概率的基本概念
--Video
-4.2 离散型与连续型变量的概率分布
--Video
-4.3 正态分布
--Video
-4.4 抽样分布
--Video
-第四章:概率分布--4.5 习题
-5.1 用抽样分布来代表抽样的变异性
--Video
-5.2 样本均值的抽样分布
--Video
-5.3 中心极限定理
--Video
-5.4 点估计和区间估计
--Video
-第五章:统计推断 - 估计--5.5 习题
-6.1 区间估计
--Video
-6.2 总体比例的区间估计
--Video
-6.3 置信水平
--Video
-6.4 总体均值的区间估计
--Video
-第六章:统计推断 - 区间估计--6.5 习题
-7.1 绪论
--Video
-7.2 一个显著性检验的五个部分
--Video
-7.3 均值的显著性检验
--Video
-7.4 比例的显著性检验
--Video
-7.5 检验中错误的类型
--Video
-第七章: 统计推断 - 显著性检验--7.6 习题
-8.1 预备知识
--Video
-8.2 比较两组比例
--Video
-8.3 比较两个独立样本的均值
--Video
-8.4 比较两个相依样本的均值
--Video
-8.5 方差分析(选学)
--Video
-第八章:两组比较和多组比较--8.6 习题
-9.1 变量间的关联分析
--Video
-9.2 列联分析
--Video
-9.3 定序变量间的关联关系
--Video
-第九章:变量间的关联分析--9.4 习题
-10.1 简单线性回归模型概述
--Video
-10.2 模型系数估计
--Video
-10.3 评价系数估计的准确性
--Video
-10.4 评价模型的准确性
--Video
-10.5 R Lab: 用R构建简单线性模型
--Video
-第十章:简单线性回归--10.6 习题
-11.1 多元线性回归概述
--Video
-11.2 多元线性回归
--Video
-11.3 潜在问题及解决方案
--Video
-11.4 用R语言进行多元线性回归
--Video
-第十一章:多元回归--11.5 习题
-12.1 社会科学中的分类问题
--Video
-12.2 Logistic回归概述
--Video
-12.3 Logistic回归系数估计
--Video
-12.4 Logistic回归模型评价
--Video
-12.5 其他多元统计方法
--Video
-12.6 R语言实践
--Video
-12.7 结束语
--Video