当前课程知识点:管理定量方法 > 第二章 定量数据的采集 > 第四节 数据的采集(二) > 第四节 数据的采集(二)
同学们大家好
欢迎来到管理定量方法课程
我是今天的主讲老师杨老师
第四节我们还是一起来学习数据的采集
第二个部分
我们再回到前面谈到的
初级数据调查方案的结构
我们确定了调查的方案的目的
调查对象
和调查的单位
调查的项目
调查的时间
调查表
和调查问卷
今天我们重点讨论调查的方式和方法
关于统计调查方式的种类
一般分为两类
全面调查和非全面调查
在全面调查里
我们重点谈一谈普查
在非全面调查里面
我们重点讨论抽样调查
当然 全面调查和非全面调查
都包括了统计报表的调查方式
首先 我们看看非全面调查中的普查
普查是专门组织的一次性全面调查
普查所得到的资料较为全面和细致
但需要耗费大量的人 财 物和时间
所以在我国
人口普查周期是10年
农业普查的周期也是10年
经济普查稍微短一些
周期仍然为5年
这是普查的基本情况
那么除了普查之外
我们经常会用到统计调查方式中的
统计报表来进行全面调查
过去 统计报表曾经是我们国家主要的
数据收集方式
按照国家有关法律的规定
自上而下布置
自下而上逐级提供基本的统计数据
在我们做研究的过程中
最可能常见的统计调查方式是抽样调查
抽样调查是我们重点给大家讨论的内容
抽样调查可分为非随机调查
和随机调查
非随机抽样调查又分为
判断抽样
方便抽样
和配额抽样
随机抽样方式可以分成
简单随机抽样
系统抽样
分层抽样和整群抽样
我们一一把概念和大家一起来讨论一下
首先是非随机抽样
非随机抽样中的判断抽样
是按照一定的标准
有意识地在总体中抽取若干
合乎标准的样本进行调查
方便抽样
是抽取样本的标准
主要是方便
这样的抽取的样本代表性不高
经常用于案例研究
第三 配额抽样
根据已经定好的单位数据来抽取样本
可以看到这三种非随机抽样方式
特点都是相同的
他做不到每个样本被抽取的概率
都是相同的
所以 抽样的误差偏大一些
如果想缩小抽样误差
我们可以采用随机抽样的方式
来进行样本的研究
随机抽样可以分成简单随机抽样
系统抽样
分层抽样
和整群抽样
那么我们一一给大家讲解一下定义
随机抽样调查的特点
是可以总结为等可能性
每个总体的单位有同等的
被抽取的可能性
每个样本被抽中的可能性是相等的
在这个基础之上
我们首先看一看简单随机抽样
简单随机抽样
是可以做到每个样本被抽到的概率
都是一致的
它可以分成放回和无放回抽样
它们的特点的适用性都是非常高
效果好
但是成本偏高
在我们日常生活做研究的过程中
简单随机抽样最常见的方式就是抓阄
或者是抽签
虽然成本比较高
但是我们还是希望利用随机抽样的方式
来做研究
我们可以采用系统抽样的方式
系统抽样
又叫做等距抽样
变量值依据变量的大小进行排队
把所有的变量值分成n份
计算一个步长K
步长K就等于N除以n
N是总体数量
n是需要抽取的样本量
那么从1到K中随机抽取一个样本单位
以后每隔K个距离抽取一个样本单位
直到抽到n个单位
这是系统抽样的方式
第三种是分层抽样
分层抽样是把总体分成若干个层
使每一个层
层内的样本之间的差距是小的
层间差距大
确定了每一层层中的单位之后
我们需要去确定每一层中
需要抽取的样本量
需要抽取的样本量有两种分配的方法
一种是比例分配法
一种是最优分配法
比例分配法的公式是
ni等于N除以N再乘以n
ni代表的是从每一层中抽取的样本量
Ni代表每一层中单位的数量
N表示的是总体的数量
n代表的是需要抽取的样本量
也就是在需要抽取的样本量
每一层中设置一个权重
权重充分考虑了每一层中
单位数量的多少
单位数量越多
应该抽取的样本量在本层中就越多
那么这样的一个方法没有考虑到
不同层之间的样本和样本之间的差异
我们可以采用第二种方式
来确定每一层中抽取的样本量
这就是最优分配法
最优分配法的公式是
ni就等于Ni乘以σi再除以σ
Ni乘以σi再乘以n
这个公式中充分考虑了两个要素
一个就是每一层中的单位数量
另外小写的σ
代表的是本层中样本和样本
之间的差异值
我们用标准差来表示
我们的权重的计算既充分考虑了
本层中的单位数量
又考虑了本层中样本和样本之间的差异
我们把这种方法叫做最优分配法
用简单随机抽样的方式
从每一层中抽取足够的样本量
直到抽取了需要的样本量
这就是分层抽样
分层抽样是随机抽样中
最常见的一种方法
这里边我们给大家做了一个模拟
我们为了了解某一个行业中员工的
平均年薪
我们把100万人按照受教育程度分成了
大专及以上 高中或中专 初中 小学
或者以下 不同的四个层
这四个层中不同的单位数量
我们从大专或以上中的层抽取180人
从高中或中专的层里边抽取350人
初中层里边抽取300人
小学或者的以下的层里边抽取170人
一共组成了1000人的样本量
这就是一个典型的分层抽样
除了分层抽样之外
还有一种抽样的方式叫整群抽样
整群抽样跟分层抽样最大的区别在于
我们把总体分成了若干的群
群中各个单位的差异大
但总体内各群的差异是相似的
群间的差异是小的
根据简单随机抽样的方式
从中抽取一群或者是几个群
对被抽中的群内的所有的单位
进行全面调查
这里我们也模拟了一个整群抽样
我们从总体5000人的124个班里
抽取202个人做样本
首先124个班
不同的班级里边有不同的人数
我们就从124个班里边
随机地抽取5个班
5个班分别的人数是
40人 38人 41人 43人
和40人
一共组成了202个人的样本
数据调查的方法有以下几种
采访法
电话访谈法
邮寄问卷法
电子邮件调查法
座谈会法
还有个别的深访
当然现在有很多的研究者
采取了电子问卷的方式
更方便进行市场的调研和数据的调查
这里边我们举了一个例子
北京的零点调查公司
在获得初级数据的时候
通常采用了以下的几种方法
这些方法的数据来源的占比
我们给大家简单地做了一张图来展示
首先入户访问占了零点调查数据
收集方式来源的40%
电话访问占了来源的26%
焦点座谈的方式是
数据来源的15%左右
定点拦截的调查方式占了10%
深度访谈占了5%
店面的监测占了1%
网络调查占了1%
调查的实验占了1%
观察占了1%
很多数据的供应商采用了
多种数据调查的方式来获得初级数据
当我们获得了这些数据的时候
我们还要做最后一步
建模之前的最后一步
需要对我们的数据进行一个审核
因为数据来源分成两类
一类是原始的数据
一类是次级数据
原始数据的审核主要包括两方面
一个是审核数据的完整性
另外审核数据的准确性
在审核数据的准确性的时候
我们可以采用逻辑检查的方式
和计算检查的方式
初级数据的审核
一般我们是审核它的适用性和时效性
这里具体来讨论一下
对于原始数据的一手资料的审核
重要的是审核数据的准确性
准确性的审核有两种方式
一种逻辑检查
一种是计算检查
逻辑检查就是从定性的角度
审核数据是否符合逻辑
内容是否合理
各项或者数字之间有无相互矛盾的地方
主要用于定类的数据和定序的数据审核
计算检查调查表中
各项数据在计算结果和计算方法上
是否有错误
主要用于对定距和定比数据进行审核
关于二手数据的审核
重点审核的方法有两方面
一方面是适用性的审核
需要弄清楚数据的来源
数据的口径
以及有关的资料背景
确定这些数据是否符合
自己分析研究的需要
时效性的审核应尽量
使用最新的统计数据
来为我们的研究服务
确认是否必要做进一步的
数据加工和整理
以上就是我们讨论的数据的审核
我们在接下来的部分将为大家
重点讨论一下问卷调查的设计
和访谈数据的收集方式
作为我们本节课数据采集的重要补充
好 这节课就讲到这里
同学们再见
-第一节 管理学研究概述
-第二节 研究的有效性
-第一章 习题
--第一章 习题
-第三节 数据的采集(一)
-第四节 数据的采集(二)
-第五节 问卷与访谈
-第二章 习题
--第二章 习题
-第六节 变量的测量(一)
-第七节 变量的测量(二)
-第三章 习题
--第三章 习题
-第八节 数据的描述
-第九节 概率与随机变量(一)
-第十节 概率与随机变量(二)
-第十一节 抽样分布
-第十二节 参数估计
-第十三节 假设检验(一)
-第十四节 假设检验(二)
-第四章 习题
--第四章 习题
-第十五节 问卷的结构效度——探索性因子分析(一)
-第十六节 问卷的结构效度——探索性因子分析(二)
-第十七节 聚类分析(一)
-第十八节 聚类分析(二)
-第五章 习题
--第五章 习题
-第十九节 相关和回归分析(一)
-第二十节 相关和回归分析(二)
-第二十一节 相关和回归分析(三)
-第二十二节 相关和回归分析(四)
-第二十三节 相关和回归分析(五)
-第二十四节 违背基本假设的回归(一)
-第二十五节 违背基本假设的回归(二)
-第二十六节 违背基本假设的回归(三)
-第二十七节 多重共线性的诊断和修正(一)
-第二十八节 多重共线性的诊断和修正(二)
-第六章 习题
--第六章 习题
-第二十九节 硕士学位毕业论文指导(一)
-第三十节 硕士学位毕业论文指导(二)
-第七章 习题
--第七章 习题