当前课程知识点:轻松学好统计学 > 项目八 抽样推断 > 8.4 知识拓展 > 拓展2
导语:抽样调查是一种非全面调查,它是从全部调查研究对象中,抽选一部分单位进行调查,并据以对全部调查研究对象作出估计和推断的一种调查方法。显然,抽样调查虽然是非全面调查,但它的目的却在于取得反映总体情况的信息资料,因而,也可起到全面调查的作用。
抽样调查是建立在随机原则基础上,从总体中抽取部分单位进行调查,并概率估计原理,应用所的资料对总体的数量特征进行推断的一种调查方法。例如,从某地区全部职工当中随机抽取部分职工,以家庭为单位按月调查取得有关收入、支出等方面的资料,并依据这些资料推断出全区职工的收支情况,这就是一种抽样调查。从调查方法上来看,它是属于一种非全面调查。但又与一般调查不同,它不只停留于搜集资料和整理资料,而且还要对资料进行分析,并据以推断总体的数量特征,从而提高统计的认识能力。因此,抽样调查的理论和方法在统计中占有很重要的地位。
下面介绍一下常用的抽样方法:
一. 简单随机抽样
一般,设一个总体含有N个个体,从中逐个不放回地抽取n个个体作为样本(n≤N),如果每次抽取时总体内的个体被抽到的机会相等,就把这种抽样方法叫做简单随机抽样。
简单随机抽样的具体作法有:直接抽选法,抽签法,随机数法。
直接抽选法例如某项调查采用抽样调查的方法对某市职工收入状况进行研究,该市有职工56,000名,抽取5,000名职工进行调查,他们的年平均收入为10,000元,据此推断全市职工年收入为8,000--12,000元之间。
抽签法又称“抓阄法”。它是先将调查总体的每个单位编号,然后采用随机的方法任意抽取号码,直到抽足样本。在这里选取一个案例说明,如要在10个人中选取3个人作为代表,先把总体中的10个个体编号,把号码写在号签上,将号签放在一个容器中,搅拌均匀后,每次从中抽取一个号签,连续抽取3次,就得到一个容量为3的样本。这就是抽签法,与直接抽样法类似。
另一个经常被采用的方法是随机数法,即利用随机数表、随机数骰子或计算机产生的随机数进行抽样。下面是随机数字表
|
(1) |
(2) |
(3) |
(4) |
(5) |
(6) |
1 2 3 4 5 6 7 8 9 10 11 12 13 14 15 |
044 456 786 310 856 001 457 247 987 675 369 654 876 085 654 |
942 244 946 245 729 996 158 084 378 716 628 392 362 597 097 |
354 578 672 103 570 008 923 749 406 436 231 402 178 934 373 |
764 642 677 089 414 523 378 433 322 220 361 199 456 142 819 |
934 719 157 523 378 442 785 118 359 940 549 707 950 436 289 |
250 833 556 753 760 713 566 987 037 853 205 639 807 566 620 |
当然,随机抽样也有不足之处,它只适用于总体单位数量有限的情况,否则编号工作繁重;对于复杂的总体,样本的代表性难以保证;不能利用总体的已知信息等。在市场调研范围有限,或调查对象情况不明,难以分类,或总体单位之间特性差异程度小时采用此法效果较好。
抽签法的优点是简单易行,缺点是当总体的容量非常大时,费时、费力,又不方便。如果标号的签搅拌得不均匀,会导致抽样不公平。而随机数表法的优点与抽签法相同,缺点上当总体容量较大时,仍然不是很方便,但是比抽签法公平,因此这两种方法只适合总体容量较少的抽样类型。
分层抽样又称分类抽样或类型抽样,是先将总体的单位按某种特征分为若干次级总体(层),然后再从每一层内进行单纯随机抽样,组成一个样本。一般地,在抽样时,将总体分成互不交叉的层,然后按一定的比例,从各层次独立地抽取一定数量的个体,将各层次取出的个体合在一起作为样本。
分层抽样尽量利用事先掌握的信息,并充分考虑了保持样本结构和总体结构的一致性,这对提高样本的代表性是很重要的。当总体是由差异明显的几部分组成时,往往选择分层抽样的方法。其特点是将科学分组法与抽样法结合在一起,每个个体被抽到的概率都相等N/M。分组减小了各抽样层变异性的影响,抽样保证了所抽取的样本具有足够的代表性。
某公司要估计某地家用电器的潜在用户。这种商品的消费同居民收入水平相关,因而以家庭年收入为分层基础。假定某地居民为1,000,000户,已确定样本数为1,000户,家庭年收入分10,000元以下,10,000——30,000元;30,000——60,000元,60,000元以上四层,其中收入在10,000元以下家庭户为180,000户,收入在10,000——30,000元家庭户为350,000户,收入在30,000——60,000元家庭户为3000,000户,收入在60,000元以下家庭户为170,000户,应进行如下抽样:
分层比例抽样示意图
分层抽样与简单随机抽样相比,往往选择分层抽样,因为它有显著的潜在统计效果。也就是说,如果从相同的总体中抽取两个样本,一个是分层样本,另一个是简单随机抽样样本,那么相对来说,分层样本的误差更小些。另一方面,如果目标是获得一个确定的抽样误差水平,那么更小的分层样本将达到这一目标。
总体中赖以进行分层的变量为分层变量,理想的分层变量是调查中要加以测量的变量或与其高度相关的变量。分层的原则是增加层内的同质性和层间的异质性。常见的分层变量有性别、年龄、教育、职业等。分层随机抽样在实际抽样调查中广泛使用,在同样样本容量的情况下,它比纯随机抽样的精度高,此外管理方便,费用少,效度高。
系统抽样也称为等距抽样、机械抽样、SYS抽样,它是首先将总体中各单位按一定顺序排列,根据样本容量要求确定抽选间隔,然后随机确定起点,每隔一定的间隔抽取一个单位的一种抽样方式。是纯随机抽样的变种。在系统抽样中,先将总体从1~N相继编号,并计算抽样距离K=N/n。式中N为总体单位总数,n为样本容量。然后在1~K中抽一随机数k1,作为样本的第一个单位,接着取k1+K,k1+2K……,直至抽够n个单位为止。
根据总体单位排列方法,系统抽样的单位排列可分为三类:按有关标志排队、按无关标志排队以及介于按有关标志排队和按无关标志排队之间的按自然状态排列。按照具体实施等距抽样的作法,系统抽样可分为:直线系统抽样、对称系统抽样和循环系统抽样三种。
在定量抽样调查中,系统抽样常常代替简单随机抽样。由于该抽样方法简单实用,所以应用普遍。系统抽样得到的样本几乎与简单随机抽样得到的样本是相同的。
下面看一个例子,某产品的口味测试,需要运用等距抽样的方法从某校营销专业90名学生中抽选9名进行测试。
图
1 |
2 |
3 |
4 |
5 |
6 |
7 |
8 |
9 |
10 |
11 |
12 |
13 |
14 |
||||
|
|
|
|
|
|
|
|
|
|
|
|
|
|
||||
16 |
17 |
18 |
19 |
20 |
21 |
22 |
23 |
24 |
25 |
26 |
27 |
28 |
29 |
||||
|
|
|
|
|
|
|
|
|
|
|
|
|
|
||||
31 |
32 |
33 |
34 |
35 |
36 |
37 |
38 |
39 |
40 |
41 |
42 |
43 |
44 |
||||
|
|
|
|
|
|
|
|
|
|
|
|
|
|
||||
46 |
47 |
48 |
49 |
50 |
51 |
52 |
53 |
54 |
55 |
56 |
57 |
58 |
59 |
||||
|
|
|
|
|
|
|
|
|
|
|
|
|
|
||||
61 |
62 |
63 |
64 |
65 |
66 |
67 |
68 |
69 |
70 |
71 |
72 |
73 |
74 |
||||
|
|
|
|
|
|
|
|
|
|
|
|
|
|
||||
76 |
77 |
78 |
79 |
80 |
81 |
82 |
83 |
84 |
85 |
86 |
87 |
88 |
89 |
||||
|
|
|
|
|
|
|
|
|
|
|
|
|
|
6 16 26 36 46 56 66 76 86 |
系统抽样方式也不是完美的,它相对于简单随机抽样方式最主要的优势就是经济性。系统抽样方式比简单随机抽样更为简单,花的时间更少,并且花费也少。使用系统抽样方式最大的缺陷在于总体单位的排列上。一些总体单位数可能包含隐蔽的形态或者是“不合格样本”,调查者可能疏忽,把它们抽选为样本。由此可见,只要抽样者对总体结构有一定了解时,充分利用已有信息对总体单位进行排队后再抽样,则可提高抽样效率。
整群抽样又称聚类抽样。是将总体中各单位归并成若干个互不交叉、互不重复的集合,称之为群;然后以群为抽样单位抽取样本的一种抽样方式。
应用整群抽样时,要求各群有较好的代表性,即群内各单位的差异要大,群间差异要小。
整群抽样优点是实施方便、节省经费; 整群抽样的缺点是往往由于不同群之间的差异较大,由此而引起的抽样误差往往大于简单随机抽样。
例如,调查中学生患近视眼的情况,抽某一个班做统计;进行产品检验;每隔8h抽1h生产的全部产品进行检验等。
整群抽样与分层抽样在形式上有相似之处,但实际上差别很大。 分层抽样要求各层之间的差异很大,层内个体或单元差异小,而整群抽样要求群与群之间的差异比较小,群内个体或单元差异大;分层抽样的样本时从每个层内抽取若干单元或个体构成,而整群抽样则是要么整群抽取,要么整群不被抽取。
以上抽样方法的抽样误差一般是:整群抽样 ≥简单随机抽样 ≥系统抽样 ≥分层抽样。
五.配额抽样:
配额抽样也称“定额抽样”,是指调查人员将调查总体样本按一定标志分类或分层,确定各类(层)单位的样本数额,在配额内任意抽选样本的抽样方式。
例如一在一项关于某品牌洗发水的消费者座谈会的研究抽样中,研究对象为18—40岁的女性。已确定样本量为24人。研究者选择“经济收入”和“发型”为控制特征;并要求高低收入者各占50%,烫、直发型各占50%。根据上述要求一个配额抽样的控制表便可设计出来。如下表:
|
经济收入 |
||
高 |
低 |
||
发型 |
直发 |
6 |
6 |
烫发 |
6 |
6 |
例如二假设某高校有2000名学生,其中男生占60%,女生占40%;文科学生和理科学生各占50%;一年级学生占40%,二年级、三年级、四年级学生分别占30%、20%和10%。现要用定额抽样方法依上述三个变量抽取一个规模为100人的样本。依据总体的构成和样本规模,我们可得到下列定额表:
男生(60) 女生(40)
文科(30) 理科(30) 文科(20) 理科(20)
年级 一 二 三 四 一 二 三 四 一 二 三 四 一 二 三 四
人数 12 9 6 3 12 9 6 3 8 6 4 2 8 6 4 2
配额抽样和分层随机抽样相比较,既有相似之处,也有很大区别。配额抽样和分层随机抽样有相似的地方,都是事先对总体中所有单位按其属性、特征分类,这些属性、特征我们称之为“控制特性。”例如市场调查中消费者的性别、年龄、收入、职业、文化程度等等。然后,按各个控制特性,分配样本数额。但它与分层抽样又有区别,分层抽样是按随机原则在层内抽选样本,而配额抽样则是由调查人员在配额内主观判断选定样本。实际上,配额抽样属于先“分层”(事先确定每层的样本量)再“判断”(在每层中以判断抽样的方法选取抽样个体);费用不高,易于实施,能满足总体比例的要求。
数学抽样在生活中发挥着重要的作用,在我国,抽样法已被广泛应用于生产技术及社会生活各个领域。目前,国家统计调查制度中所包括的统计指标,依靠抽样方法取得的资料已达到三分之一左右。在城乡住户调查、农产品调查、价格统计、市场调查等领域,应用抽样调查已取得很好的成果,在人口统计、社会统计、交通统计、商业统计等领域,抽样调查也正在发挥越来越重要的作用。随着我国社会主义市场经济的发展,抽样调查的应用范围将逐渐扩大,所发挥的作用也将越来越大。
-1.1 项目导学
--情景导入动画
-1.2 知识点讲授
--知识点鸟瞰
-1.2.1 统计是什么
--统计是什么
--1.2.1 统计是什么--作业
-1.2.2 统计的前世今生
--统计学的前世今生
-1.2.2 统计的前世今生--作业
-1.2.3 掌握常用概念--统计的基石
--统计的基石(上)
--统计的基石(下)
-1.2.4 了解统计的几大方法---统计分析的利器
-1.2.5 “轻松统计学”还是“虐待统计学”
-1.2.5 “轻松统计学”还是“虐待统计学”--作业
-1.3 案例样板间
-1.4 知识拓展
--国务院第七次全国人口普查领导小组办公室负责人 就《全国人口普查条例》施行10周年答记者问
-1.5 沙场练兵
--1.5 沙场练兵--作业
-1.6 技能拔高
--技能拔高
-2.1 项目导学
-2.2 知识点讲授
--知识点鸟瞰
-2.2.1 统计数据的来源与类型
-2.2.1 统计数据的来源与类型--作业
-2.2.2 全面调查与非全面调查
-2.2.2 全面调查与非全面调查--作业
-2.2.3 重点调查与典型调查
-2.2.3 重点调查与典型调查--作业
-2.2.4 设计调查问卷
--设计调查问卷
-2.2.4 设计调查问卷--作业
-2.3 案例样板间
--案例3:国家“营改增”试点调查方案设计——陕西省某物流企业典型调查
-2.4 知识拓展
--知识拓展1:课程思政——1-2月份国民经济经受住了新冠肺炎疫情冲击
--课程思政——国务院第七次全国人口普查领导小组办公室负责人 就《全国人口普查条例》施行10周年答记者问
-2.5 沙场练兵
--2.5 沙场练兵--作业
-2.6 技能拔高
--技能拔高
-3.1 项目导学
--情境导入
-3.2 知识点讲授
--知识点鸟瞰
-3.2.1 统计分组
--统计分组
-3.2.1 统计分组--作业
-3.2.2 分配数列
--分配数列
-3.2.2 分配数列--作业
-3.2.3 读懂统计图表
--读懂统计图表
-3.2.3 读懂统计图表--作业
-3.2.4 Excel技能教与学
-3.3 案例样板间
--案例1-中国仍为世界最大的发展中国家——从购买力平价法视角评析
-3.4 知识拓展
--知识拓展3:我国人口平均预期寿命达到74.83岁——人口普查的结果
-3.5 沙场练兵
--3.5 沙场练兵--作业
-3.6 技能拔高
--技能拔高
-4.1 项目导学
--情境导入
-4.2 知识点讲授
--知识点鸟瞰
-4.2.1 认识总量指标
--认识总量指标
-4.2.1 认识总量指标--作业
-4.2.2 相对指标的含义与分类
-4.2.2 相对指标的含义与分类--作业
-4.2.3 强度相对指标
--强度相对指标
-4.2.3 强度相对指标--作业
-4.2.4 计划完成程度相对指标
-4.2.4 计划完成程度相对指标--作业
-4.2.5 总结相对指标
--总结相对指标
-4.2.5 总结相对指标--作业
-4.2.6 了解算术平均数
--了解算术平均数
-4.2.6 了解算术平均数--作业
-4.2.7 了解调和平均数
--了解调和平均数
-4.2.7 了解调和平均数--作业
-4.2.8 分清众数和中位数
--分清众数和中位数
-4.2.8 分清众数和中位数--作业
-4.2.9 平均差--均值的朋友1
-4.2.10 标准差(方差)--均值的朋友2
-4.2.11 离散系数--找差异
-4.2.12 Excel技能教与学
-4.3 案例样板间
--案例1——用真实数据说话:2014年全国科技经费投入统计公报
--案例3——一起读数据:北京市宏观经济及社会发展指标(居民收入与支出)
-4.4 知识拓展
--课程思政——2019年我国“三新”经济增加值相当于国内生产总值的比重为16.3%
--课程思政——关于“6亿人每个月的收入也就1000元”的数据解读——提高居民收入水平任重而道远
--课程思政——国家统计局城市司首席统计师孔鹏解读2020年5月份商品住宅销售价格变动情况统计数据
-4.5 沙场练兵
--4.5 沙场练兵--作业
-4.6 技能拔高
--技能拔高
-5.1 项目导学
--情境导入动画
-5.2 知识点讲授
--知识点鸟瞰
-5.2.1 时间数列含义与分类
-5.2.1 时间数列含义与分类--作业
-5.2.2 水平分析指标1--总量指标时间数列
-5.2.3 水平分析指标2--相对指标时间数列和平均指标时间数列
--时间数列——水平分析指标2相对指标时间数列和平均指标时间数列
-5.2.4 时间数列-- 速度分析指标(上)
-5.2.5 时间数列-- 速度分析指标(下)
-5.2.6 时间数列的因素分析
-5.2.6 时间数列的因素分析--作业
-5.2.7 Excel在时间数列中的运用
-5.3 案例样板间
--案例1——2017年1-8月全国固定电话年末用户数统计分析
--案例2——国家统计局城市司高级统计师绳国庆解读2018年6月份CPI和PPI数据
--课程思政——中华人民共和国2019年国民经济和社会发展统计公报
-5.4 知识拓展
--课程思政:十年巨变!2010—2019的中日GDP 对比分析
--课程思政——透过数据看规律:2020年4月份国民经济运行继续改善 主要指标呈现积极变化
--课程思政——“道路自信“的数据证明——统筹疫情防控和经济社会发展成效显著 3月份主要经济指标降幅明显收窄
-5.5 沙场练兵
--5.5 沙场练兵--作业
-5.6 技能拔高
--html
-6.1 项目导入
--情境导入动画
-6.2 知识点讲授
--html
--知识点鸟瞰
-6.2.1 相关与回归分析概论
-6.2.1 相关与回归分析概论--作业
-6.2.2 相关分析的种类和工具
-6.2.2 相关分析的种类和工具--作业
-6.2.3 一元线性相关
--一元线性相关
-6.2.3 一元线性相关--作业
-6.2.4 实证分析
--实证分析
-6.2.5 Excel在相关回归中的运用
-6.3 案例样板间
--案例1—— 描述性统计分析(以某高校财务管理、会计电算化专业学生成绩的总体情况)
-6.4 知识拓展
--知识拓展——陕西工商职业学院学生成绩与学习时间的实证分析对我们的启发
-6.5 沙场练兵
--6.5 沙场练兵--作业
-6.6 技能拔高
--技能拔高
-7.1 项目导入
--情境导入动画
-7.2 知识点讲授
--知识点鸟瞰
-7.2.1 认识统计指数
--认识统计指数
-7.2.1 认识统计指数--作业
-7.2.2 同度量因素
--同度量因素
-7.2.2 同度量因素--作业
-7.2.3 综合指数
--综合指数
-7.2.3 综合指数--作业
-7.2.4 平均指数
--平均指数
-7.2.4 平均指数--作业
-7.2.5 编制指数不混淆
--编制指数不混淆
-7.2.5 编制指数不混淆--作业
-7.2.6 指数体系与因素分析法
-7.2.6 指数体系与因素分析法--作业
-7.2.7 近距离看因素分析
-7.2.7 近距离看因素分析--作业
-7.2.8 聊聊CPI那些事
-7.2.8 聊聊CPI那些事--作业
-7.2.9 Excel在指数分析中的应用
-7.3 案例样板间
--案例1——2020年5月份CPI同比涨幅继续回落 PPI环比降幅收窄
--课程思政——2020中国生态小康指数95.2:大气污染治理进入攻坚期
--思政课堂: 国务院新闻办公室举行《第二次全国污染源普查公报》发布会
-7.4 知识拓展
--拓展1——2017年《世界幸福指数报告》(World Happiness Report 2017)
-7.5 沙场练兵
--7.5 沙场练兵--作业
-7.6 技能拔高
--技能拔高
-8.1 项目导入
--情境导入动画
-8.2 知识点讲授
--html
--知识点鸟瞰
-8.2.1 抽样推断概述
--抽样推断概述
-8.2.1 抽样推断概述--作业
-8.2.2 全及总体与样本总体、重复抽样与不重复抽样
-8.2.2 全及总体与样本总体、重复抽样与不重复抽样--作业
-8.2.3 误差与抽样误差
--误差与抽样误差
-8.2.3 误差与抽样误差--作业
-8.2.4 抽样平均误差
--抽样平均误差
-8.2.4 抽样平均误差--作业
-8.2.5 抽样极限误差
--抽样极限误差
-8.2.6 点估计
--点估计
-8.2.6 点估计--作业
-8.2.7 区间估计
--区间估计
-8.2.8 必要样本容量
--必要样本容量
-8.2.8 必要样本容量--作业
-8.2.9 抽样形式不混淆
--抽样形式不混淆
-8.2.9 抽样形式不混淆--作业
-8.2.10 Excel在抽样推断中的运用
-8.3 案例样板间
--案例1
--案例2
--案例3
-8.4 知识拓展
--拓展1
--拓展2
-8.5 沙场练兵
--8.5 沙场练兵--作业
-8.6 技能拔高
--技能拔高
-聊聊统计分析和之后的那些事情