当前课程知识点:社会研究方法 > 第六讲 抽样 > 6.3 概率抽样:评估抽样误差 > 6.3 概率抽样:评估抽样误差(上)-视频
根据上一节中提到的中心极限定理
我们知道
如果我们能够基于概率抽样的原则
来进行抽样
并且保证足够大的样本量
那么原则上来说
我们所进行的单次抽样
所得到的样本统计值
应当是接近或者等于
研究对象的总体均值的
可是我们也知道
在多数的情况下
我们只能说是接近总体均值
样本的统计值和总体均值之间
多多少少还是会存在一定的差别
这个差别我们称为抽样误差
那么哪一些因素会决定
抽样误差的大小呢
根据上一节课我们所展示的
样本均值的抽样分布
符合正态分布的特点
大约68.26%的抽样所得到的样本统计值
应当是在总体均值的
正负1个标准误的范围内
95.44%的抽样统计值
是在总体均值的
正负2个标准误的范围内
99.7%的抽样统计值
会落在总体均值的
正负3个标准误的范围内
因此
某次抽样所得到的抽样误差的大小
取决于抽样分布的标准误的大小
以及我们希望在多大程度上
去确信此次抽样的准确程度
比如说
如果我们知道抽样分布的标准误是10
那么如果我们希望
是在99.7%的水平上去相信
我们抽样的结果
能够反映研究总体的特征
那么我们的抽样误差
就是在真实值的大约三倍
标准差的范围内
也就是说
我们抽样所得到的统计均值
可能会在总体均值的
正负30的区间范围内
那么这里
99.7%我们就称为是置信水平
也就是我们对于此次抽样结果的
确信的程度
抽样误差是置信水平相对应的Z值
和标准误的乘数
99%的置信水平下
Z值等于2.575
那么抽样误差就相当于
2.575倍的标准误
正负25.75这个区间
我们称为是置信区间
那么如果说我们不一定
需要对抽样结果那么的自信
假如我们可以接受95%的置信水平
那么95%相对应的Z值是1.96
那么这个时候
我们可以说在95%的置信水平下
抽样误差接近19.6
那么置信区间就是真实值的
正负19.6的区间范围
这也就是说
我们有95%的信心去认为
此次抽样所得到的样本均值
应当距离总体均值
不超过正负19.6的范围
但是如果我们可以进一步
来把置信水平放低到68.26%
那么我们的抽样误差
就只有一倍的标准误
也就是说我们的抽样结果会更加精确
但是我们对于这个结果
可能没有那么的自信
由此可以看出来
在同样的标准误的情况下
置信水平越高
抽样误差越大
置信区间越宽
那么抽样的结果
它的精确度就可能会更低
那一般来说统计分析中
我们常常用到的置信水平是95%
也就是我们所通常能够接受
距离真实值大约1.96倍的置信区间
那在同样的置信水平下
抽样误差就主要
是取决于样本分布的标准误了
那么什么决定标准误呢
上一节课我们简要提到过
标准误取决于两个因素
一个是研究总体内部的差异程度
由总体的方差来表征
另一个就取决于样本量
总体方差除以样本量
再开个根号
就是样本分布的标准误
这里可以看出来
在样本量相同的情况下
研究总体内部的差异程度越大
方差越大
而抽样误差也就会越大
总体方差越小
那么我们同样样本量所得出来的样本
它的抽样误差就越小
这里可以设想一下
如果研究对象中的每一个个体
都是一样的
也就是说总体方差为零
那么我们抽样的结果
就必然是抽样误差为零
实际上在这种情况下
哪怕我们只抽取一个样本
也是能够代表研究总体的特征的
而另外如果对于同样的研究总体来说
样本量越大
抽样误差就会越小
那么基于这个公式
我们会知道
在已知样本量置信水平
以及研究总体方差的情况下
我们就可以来估计
某一次概率抽样所得到的抽样误差
我们来看一下这样的例子
假如某个研究机构受委托
在某个城市
进行了一千户家庭的问卷调查
来了解居民的平均家庭住房面积
那么要估计抽样误差
我们就需要知道总体的方差
但是在很多情况下
总体方差和总体均值一样
都是未知的数值
因此很多时候
我们是用抽样得到的样本方差
来作为总体方差的一个估计值
比如说
假如我们这次抽样调查
所得到的一千户样本家庭的
平均住房面积是93平方米
标准差是十平方米
那么我们就可以用这个样本的标准差
来作为总体标准差的一个估计值
来计算抽样的误差
同样让我们来设定95%的置信水平
那么根据这个公式
我们就可以去计算抽样误差
那么大家可以试一下
这个值约等于0.62
也就是说我们有95%的自信水平可以认为
全市所有居民的平均家庭住房面积
在92.38到93.62平方米
这个区间范围内
那我们再来看这么一个例子
假设我们要在某个城市
随机抽取500位居民
来考察居民对于政府的
某一项政策的支持程度
那抽样调查的结果显示
在500户居民中有51%的表示支持
有49%的样本居民表示不支持
那么在这里支持与否
是一个二分变量
这样的二分变量的方差计算方法
和住房面积这样的连续变量是不同的
在这里方差是等于
支持的比例和不支持比例的乘数
也就是说
如果我们用P来表示支持的比例
那么方差就等于P乘以括号1减P
那么此次调查的抽样分布的标准误
就是这样的一个公式
同样假设我们设定95%的置信水平
我们就可以计算出
这一次抽样的抽样误差等于4.38%
也就是说我们有95%的信心可以认为
全市居民对于这项政策的支持程度
在46.62%到55.38%之间
那这个结果是什么意思呢
这说明我们的抽样调查
所得出的支持程度的置信区间
包括了50%
也就是说有很大的可能性
公众对于这项政策的支持程度
会在50%以下
换句话说
我们不能够说
大部分居民是支持这项政策的
-1.1 什么是社会研究
-1.2 什么是社会科学研究
-1.3 社会科学研究的出发点
-1.4 社会科学研究的核心
-1.5 社会科学研究的不同类型
-1.6 研究效度:评价研究的质量
-1.7 社会科学研究的伦理规范
-第一讲测试 理解社会科学研究
-2.1 研究设计的作用
-2.2 理论及因果关系
-2.3 基于变量的语言体系
-2.4 研究对象与分析单元
-2.5 研究的时间维度
-2.6 如何撰写研究计划书
-第二讲测试 研究设计
-3.1 研究问题的不同形式
-3.2 什么是好的研究问题
-3.3 研究问题与论证的逻辑
-3.4 选题从哪里来
-3.5 如何进行文献检索
-3.6 如何进行文献综述
-3.7 如何陈述研究选题
-第三讲测试 研究选题
-4.1 导言:研究方案设计
-4.2 研究策略选择I:检验因果效应
-4.3 研究策略选择II:因果机制与理论创新
--4.3 研究策略选择II:因果机制与理论创新(上)-视频
--4.3 研究策略选择II:因果机制与理论创新(下)-视频
-4.4 理解定量研究:基本过程和要点
-4.5 理解定性研究I:不同的范式基础
-4.6 理解定性研究II:基于建构主义的质性研究
-第四讲测试 研究策略
-5.1 导言:什么是概念化与测量
-5.2 从概念到变量:测量的基本过程
-5.3 测量的层次与方式
-5.4 概念的复合测量:指标体系与量表
-5.5 测量的信度
-5.6 测量的效度
-第五讲测试 概念化与测量
-6.1 导言:什么是抽样
-6.2 概率抽样:基本原理
-6.3 概率抽样:评估抽样误差
-6.4 概率抽样:抽样框的重要性
-6.5 概率抽样:基本形式
-6.6 概率抽样:几种特殊形式
-6.7 非概率抽样:基本原理与主要形式
-第六讲测试 抽样
-7.1 导言:什么是调查问卷?
-7.2 从研究问题到调查问卷
-7.3 确定问卷的结构
-7.4 选择提问的形式
-7.5 问题设计的注意事项
-7.6 问卷发放的不同形式
-7.7 问卷调查实施中的注意事项
-第七讲测试 问卷调查
-8.1 导言:什么是田野调查
-8.2 田野调查:基本过程
-8.3 田野调查中的数据收集
-8.4 观察:基本类型和要点
-8.5 定性访谈:基本类型与过程
-8.6 半结构式访谈:准备与实施
-第八讲测试 田野调查:观察与访谈