当前课程知识点:网络与新媒体调查分析 > 期末考试 > 期末考试 > 2.2随机抽样技术及其应用
大家好
我是网络与新媒体调查分析课程的
主讲老师闫琰
接下来我们要讲解的内容是
随机抽样技术及其应用
随机抽样法是按照
随机原则从调查总体当中
抽取一定数目的样本单位进行调查
以其结果推断总体的一种调查方式
随机抽样
根据采取的抽样技术的不同
可以分为简单随机抽样
分层随机抽样
分群随机抽样和系统随机抽样
下面 我们进行逐一的学习
简单随机抽样又称随机抽样
它是最基本的随机抽样方法
也是理论上最符合随机原则的
抽样方法
简单随机抽样具有简单 方便
可行的优点
适用于特征分布 均匀的总体
好了 同学们
假设老师有一个礼物
要送给我们课程的一位同学
我们需要抽取一个同学
但是为了保证公平性
老师希望每一个同学被抽到的概率
是一样的
同学们
我们该怎么抽取这位幸运儿
好 同学们 设计的方法非常多
很有脑洞
下面老师教大家两种
简单随机抽样方法
直接抽取法和抽签法
直接抽取法
是从调查总体当中
直接随机抽取样本进行调查
这种方法适合对
集中于某个较小空间的总体
进行抽样
如对存放于仓库当中的同类产品
直接随机抽出若干产品为样本
进行质量检查等等
抽签法是将总体各单位编上序号
并将号码写在外形相同纸片上
掺合均匀之后再从中随机抽取
被抽中的号码所代表的单位
是随机样本
直接抽够预先设定的
规定样本数目为止
对我们来说
我们可以把大家每一个人
编一个序号放进抽奖箱
然后随机抽一个序号来送出奖品
当然 简单随机抽样的优点是
总体名册完整的时候
样本抽取比较方便
方法也比较简单
缺点是完整总体名册不易取得
或取得成本很大时实行困难
当总体样本单位过多的时候
抽样作业相对不便
样本分配较分散的时候
增加调查作业困难
或者当样本单位差异大的时候
样本的代表性恐有不足
基于这些优缺点我们可以看出
简单随机抽样的适用条件是
当总体内样本单位不多
且有完整名册可以编号的时候
或者是总体内样本单位
差异不太大的时候
下面我们学习随机抽样中的
分层抽样技术
分层随机抽样又称分层抽样
是讲总体单位按属性分为若干类
然后在各类当中以纯随机方法
抽取样本
需要注意以下问题
第一 必须有清楚的分层界限
在划分时不致发生混淆
第二 必须知道各层当中的
单位数目和比例
第三 分层的数目不宜太多
否则将失去分层的特征
不便在每层当中进行抽样
常用的分层指标有人口统计指标
生活方式指标 消费者类型
单位规模 行业类型等
还有职业类型 学历层次类型等等
分层抽样的步骤包括
确认目标总体 决定样本数
决定分层标志
将总体按照分层标志分成若干类
其中每一类称为一层
在每一层当中随机抽取足够的样本
分层抽样的具体做法有以下两种
等比例分层抽样
和不等比例分层抽样
等比例分层抽样是
各层样本数量比例
与各层总体单位数量比例一致
也就是如下图所示的
不等比例分层抽样
又称分层最佳抽样
根据其他因素如各层平均数的大小
抽取样本的工作量和费用大小等
调整各层的样本个体数
比如 当某层标准差较大时
可以多抽样
当某层规模大而差异小 均匀时
可以少抽
下面考察大家的时候到了
有这样一个情境
某公司要调研某购物APP平台的
潜在用户
该APP平台的用户
同居民收入水平有关
因此 以家庭收入为分层的基础
假定该地居民户籍
总体单位数为2万户
以确定调研样本数为200户
家庭收入分高中低三层
其中高档收入家庭为2000户
占总体单位数的比重为10%
中等收入家庭为6000户
占总体单位数的30%
低等收入家庭为12000户
占总体单位数的60%
现在又假定各层样本标准差为
高档收入家庭是300元
中等收入家庭是200元
低等收入家庭是50元
问题是
要求根据等比例分层抽样方法
和分层最佳抽样方法
确定各收入层家庭抽取的户数
各为多少
同学们手动计算一下看看区别
如果根据等比例分层抽样的话
高档收入家庭的分层样本
应该是20户
中等收入家庭的分层样本数是60户
低等收入家庭的分层样本数
应该是120户
如果用分层最佳抽样的方法
则高档收入家庭的分层样本数
为50户
中等收入家庭的
分层样本数为100户
低等收入家庭的分层样本数为50户
我们看到了两种计算方法的不同
接下来问题是
比较两种分层抽样方法
你觉得哪种更科学
将前后两种方法抽取的样本数
做个对比
不难看出
相比于等比例分层抽样法
根据分层最佳抽样法抽取样本
则高档收入家庭的分层样本数
增加了30户
中等收入家庭的分层样本数
增加了40户
低等收入家庭的分层样本数
则减少了70户
由于使用该APP购物平台同
家庭收入水平是成正比例变动的
所以 增加高 中档层的样本数
相应减少低档层的样本数
将有利于提高抽样的准确性
运用最佳分层抽样方法
既要考虑各层在总体中
所占比例的大小
又考虑了各层标准差的差异程度
有利于降低各层的差异
以提高样本的可信程度
分层抽样多用于总体范围大
总体中间单位差异大
即分布不均匀时的抽样调查
分层抽样抽取样本数目的确定
主要采用分层比较抽样法
是按各类单位总数
占总体单位数目的比例
来确定各层抽取的样本数
其计算公式为
第i类应抽取样本数等于
第i类含单位数除以总体单位数
再乘以抽取样本总数
接下来 我们学习
分群随机抽样又称分群抽样
是指先将总体按某标准分为若干群
然后以群为单位
从中随机抽取一些群
再对抽样群中所有单位
进行全面调查的抽样组织形式
同学们会问了
分群抽样与分层抽样好像
它们的区别是什么
其实 区别在于
分层抽样分成的各类
彼此之间差异明显
而每类内部差异不大
也就是层间差异大 层内差异小
分群抽样正好相反
分成的各类群彼此差异不大
而每群之内差异明显
也就是群间差异不大
群内差异大
其实
每一种调查方法都不是完美的
都有其优缺点
那分群抽样的优点是
节省成本和时间
抽样架构当中
每个元素的资料不易得到
或不完整的时候
使用此方法会比较方便
整群抽样的缺点是选样不止一次
依调研目的可能要选两次或三次
群体内的元素值通常类似
因此
估计量的精确度通常会比较低
分群的大小差异
会影响抽样的正确性
接下来
我们学习系统随机抽样技术
系统随机抽样又称
等距抽样或机械抽样
是将总体各单位
按一定标志顺序排列
然后以固定的顺序和间隔
抽取样本单位
系统抽样的步骤包括
将总体单位排列
决定抽样区间
计算方法是总体单位数除以样本数
第三 在第一个区间采用
简单随机抽样法
抽出一个单位作为起点
取得一个元素后
每隔一个抽样间隔抽取一个元素
直到样本数足够为止
也就是
先对总体单位进行有序编号
然后按一定抽样距离
将总体分段从中抽取样本
这一方法在总体范围大时
可以保证抽取样本单位
在总体当中分布均匀
从而使抽取的样本
更能体现整体的属性
来 咱们看一个例题
某市有120家大型商场
想要从中抽取12家调查其销售额
按营业面积大小排序
问题是如何用分群抽样的方法
进行抽样
请同学们在草稿纸上计算一下
好
我们首先对120家商场进行编号
并计算出抽样距离
也就是120÷12=10
然后选一个随机起点
依次加上抽样距离
就得到了抽取的样本
好 这节课我们学习了
四种随机抽样技术
你学会了吗
请同学们课下多多复习并区分理解
好 本节课讲到这里 谢谢大家
-第一周课后测验
-第一周讨论问题:不同项目的市场调研内容有什么侧重?等你来发言哟~
-第二周课后测验
-第三周课后测验
-第四周课后测验
-第五周课后测验
-第六周课后测验
-第七周课后测验
-期末考试