当前课程知识点:基于R语言的社会统计分析 > 第一章:绪论 > 1.4 数据收集方法 > 视频 1.4
介绍完随机化原则
我们现在来
谈谈具体的数据收集方式
目前在社会科学研究
中我们有三种
数据收集的形式
第一种叫作
抽样调查
第二种叫作实验研究
第三种叫作
观测性研究
我们下面就来
具体的讲解一下
每一种调查方法
都是什么意思
首先第一个我们来说说
什么是抽样调查
很多
研究都是从总体中
抽取样本
并且对样本的研究对象
进行访谈
用这种方法来收集数据的
这种方法就是我们说的
抽样调查
抽样调查有
几种不同的形式
它可能是面对面的访谈
可能是直接打电话
很多人都可能
收到过一些电话调查
可能是电话调查形式
也有可能是
研究者把问卷直接
寄到访谈对象的家中
或者工作单位
有访谈对象直接自己
回答问卷的问题
那这是一种
最不足为奇的方法
对于我们大多数
学习社会科学专业的
学生来说就
发问卷是我们每天都
在思考着怎么样能
发问卷让更多的人
回答我们
这是我们每天经常
思考的问题
那我们前面也
提到了一些
中外
著名数据库
这些数据库呢
都是用抽样调查
的方法收集数据的
抽样调查的时候
会存在着一些
偏差的问题
后面我们会
花一小段时间来
具体系统的讲解一下
我们在做社会调查
社会抽样调查的时候
可能会遇到
一些什么样的潜在问题
下面我们来讲一讲
什么是实验研究
对于社科专业学生来讲
实验研究可能并没有
社会调查那样那么熟悉
可能在
心理学的学生中
你们可能更适应于
实验研究这种方法
这些研究呢
这些数据是从一个
计划非常
周详的实验中
获得的
大多数的实验的目的
是比较调查对象
当暴露在
不同的实验条件
时的反应
这些反应
由一些预先以及设计好的
结果变量进行测量
所谓不同的
实验条件
是我们研究
所假定的
可能会影响结果的
结果变量取值
的这样一些因素
通常就是我们
真正的研究问题
我们
比如说就想知道
某一个因素对
比如说
一个新药上市
我就想知道
人们用药和不用药
能不能改善健康
这就是我们研究问题
所以我们设计一个实验
那这种研究
可想而知
在医学研究中
特别特别常用
我们现在就拿医学研究
新药上市
给大家举一个例子
在医学研究中我们
通常关心
一种即将上市的新药
对某种病是不是
有很好的治疗效果
药监局从来都不会说
你说一个药管用
我就让它上市
每个新药的上市
都需要严格的
临床试验
这个临床试验
的实验条件
就被我们称之为处理
英文叫作treatment
一个
严谨的设计
会把研究对象分组
怎么分
稍微粗一点的分组
起码会有一个实验组
和一个对照组
实验组叫作treatment group
对照组叫作control group
你们从名字就可以猜测
出来
实验组就是给药组
对照组就是
什么都不给的那组
后来
有一些研究者会提出质疑
就是
有的时候治疗效果
需要由
病人自己来报告
说
我觉得吃了这个药以后
我感冒好了还是没好
为的症状有没有缓解
如果他
从来就没有吃药
他可能会有一个心理暗示说
不管用
我的健康没有好转
那为了
防止这种心理暗示
或者其它一些
因素的影响
我们有的时候又会
加入一个组
这一组比较损
叫作安慰剂组
placebo group
安慰剂组
的意思就是说我
假装给你用药
也可能这个药是
淀粉球
可能是一个糖豆
可能是维生素C片
不是真正治你这个病的
所以
现在大多数
的研究会分为
实验组
对照组
和安慰剂组
这三组
在试验研究中
我们研究者显得
特别的强大
力大无穷
权利大过天
怎么说呢
如果说
你设计的是一个
单盲实验
一般情况下研究对象
并不知道
自己是处于哪个组
他不知道自己是真的给了
真的药还是
被喂了大糖豆
然后
再狠一点
在一个双盲实验中
比如说我们做临床实验
临床实验都是通过医生
为病人开药
很可能病人不知道
他们吃的是什么
医生也不知道
他们开的是什么
只有研究者
通过随机数表的方法
知道哪一个
研究对象实际上
真实的情况
是被分到了哪一个组
研究者有时就需要
一个完善的实验计划
来决定到底怎么样
将研究对象分组
像刚才讲了我说的
医学研究中大家
通常都会有一个
已经设计的非常精密的
随机数表
来
决定病人的分组
这是实验研究
虽然我们不是很
熟悉这种方法
但这是一种
非常严谨非常漂亮
的随机化设计的方法
第三种
叫作观察性研究
observational study
在社会学的研究中
像刚才我们讲的那样
我们认为的去
制造一个实验条件显得
太奢侈了
我们一般没有这样严格的
实验条件
两个原因为什么
不能这么做
第一个有伦理问题
比如说
我想研究吸烟
对健康有没有影响
我想研究
酗酒对健康有没有影响
我不可能
权力很大
像上帝一样
我让这组人吸烟
那组人不吸烟
或者我让这组人酗酒
那组人不酗酒
有很多研究伦理问题
我们没有权利这样做
所以这是伦理问题
让我们
不得不选择其它的方法
第二个
我们社会学研究的
研究问题的性质使然
有的时候我们
关注的因素
比如说
在性别研究里
我们关注的因素
是性别
对某一个结果变量的影响
比如说
是不是不同性别的人
收入不同
工资研究里面
永恒的话题
在教育社会学的研究中
我们可能会
研究教育水平
对不同的
结果的影响
那另外
还有贫困研究
贫困研究通常会
研究收入的影响
这些个因素
刚才所说的
性别
教育水平
和收入
都已经既成事实了
我们无力改变
对吧
所以我们只能很
被动的观察它们
对某一个结果变量的影响
这个时候我们
没有办法做一个
严格的实验研究
只能另辟蹊径了
我们只能选择
对研究对象
被动观察的方法
对它们特征进行记录
这个时候我们很被动
那没有办法
大多数的社会调查
实际上都属于
观察性研究的范畴
都是observational study
下面我们
刚才讲了实验研究
然后我们还讲了
观察性研究
我们来说说实验研究
和观察性研究
最根本的区别是什么
我前面讲了很多问你
实际上
最根本的区别
是什么很多同学
会给出不同的猜测
要我说一句话就是
实验研究有所干预
而在观察性研究里面
我们很被动
我们只观测
不干预
有没有manipulation
这个过程
下面我们来讲讲
关于因果关系的探讨
我们
即使拥有
一个
特别特别完美的
抽样过程
我的样本是完全
简单随机抽样
抽来的
特别具有代表性
那通过观察研究
比较
不同组别的结果变量的
区别也是
非常困难的
即使我收的数据很美丽
过程非常的经常
但是
很可能
仍然
达不到我的研究要求
我们总是希望
就是一些因素
看看对结果有没有
什么影响
但是
只要你的数据是
通过观察性研究
收集来的
我们往往就不能
真正的达到目的
有同学很难理解
为什么呢
比如说一个
特别特别经典的例子
我们来聊聊
大概
很多人都在说
吸烟有害健康
但是到现在
不同领域的人
还仍然在研究这个问题
为什么
将近100年过去了
人们还是在不断的研究
吸烟或者是酗酒
对健康的影响
这是因为到目前为止
我们所有收集来的数据
都是通过
非常
被动的
观察性研究收集来的
观察性研究怎么不好了
我们就拿吸烟和酗酒
举一个例子
吸烟的人会有什么样的特征
吸烟的人可能会
生活习惯较差
现在只是假设的
有这些可能
吸烟的人可能
生活习惯比较差
可能
作息
不规律
自律性比较差
成瘾基因特别强大
或者是他们本身
从事着压力非常大
非常艰巨的工作
这些因素可能
也会对健康产生影响
所以在
对这个人群进行
被动的观察
时我们很难区分对于
健康的影响
真正来自于谁
是吸烟
是作息不规律
还是艰巨的工作
所以这是
我们观察性研究
一直面临的一个瓶颈
那
作为一个科学研究
工作者
我们说科学研究的
核心任务之一
就是建立因果关系
我们很多同学在
写论文的时候
经常拿观测性
研究收集来的数据
大标题写
研究XX的影响因素
一说因素
就有因果关系
其实我经常说
大家有的时候可能
把自己的研究结果夸大了
我们大多数时候
可能研究的只是相关性
并不一定是因果关系
因为因果关系的证明其实
比你想象的
难的多
所以这是一个很遗憾的事
就是单纯通过
观察性研究
想要建立
因果关系是不可能的
严格来说
只要数据
是
依靠观察所收集的
那所观察的
数据形态特征就
总可能归功于
我们没有观察到的
一些其它的因素
就是我们总可能
百密一疏
忘了什么因素的影响
忘了测量它
同学就会问了
那怎么证明因果关系
对于因果关系
比较严谨的证明
还是需要
通过实验研究的方法
获得的
但并不是说
我们
通过观察性研究的
结果
就
完全没有用了
我们总是通过
不断的知识积累向
真实一步一步的靠近
以上就是我们
所介绍的抽样调查
实验性研究
和观察性研究
-1.1 什么是统计学?
--视频1.1
-1.2 数据
--视频 1.2
-1.3 随机化原则
--视频 1.3
-1.4 数据收集方法
--视频 1.4
-第一章:绪论--1.5 习题
-2.1 描述统计概述 - 社会学概念的量化问题
--Video
-2.2 变量的分类
--Video
-2.3 描述统计方法 I: 制表法 Tabular Method
--Video
-2.4 描述统计方法 II: 绘图法 Graphical Method
--Video
-2.5 描述统计方法 III: 数值法 Numerical Method
--Video
-第二章:描述统计--2.6 习题
-3.1 探索性数据分析
--视频3.1
-3.2 EDA的制图原则
--Video
-3.3 R语言初体验
--R 语言初体验
-3.4 CRAN 和学习资源
-3.5 R 基础知识
--Video
-3.6 图形和数值
--Video
-4.1 概率的基本概念
--Video
-4.2 离散型与连续型变量的概率分布
--Video
-4.3 正态分布
--Video
-4.4 抽样分布
--Video
-第四章:概率分布--4.5 习题
-5.1 用抽样分布来代表抽样的变异性
--Video
-5.2 样本均值的抽样分布
--Video
-5.3 中心极限定理
--Video
-5.4 点估计和区间估计
--Video
-第五章:统计推断 - 估计--5.5 习题
-6.1 区间估计
--Video
-6.2 总体比例的区间估计
--Video
-6.3 置信水平
--Video
-6.4 总体均值的区间估计
--Video
-第六章:统计推断 - 区间估计--6.5 习题
-7.1 绪论
--Video
-7.2 一个显著性检验的五个部分
--Video
-7.3 均值的显著性检验
--Video
-7.4 比例的显著性检验
--Video
-7.5 检验中错误的类型
--Video
-第七章: 统计推断 - 显著性检验--7.6 习题
-8.1 预备知识
--Video
-8.2 比较两组比例
--Video
-8.3 比较两个独立样本的均值
--Video
-8.4 比较两个相依样本的均值
--Video
-8.5 方差分析(选学)
--Video
-第八章:两组比较和多组比较--8.6 习题
-9.1 变量间的关联分析
--Video
-9.2 列联分析
--Video
-9.3 定序变量间的关联关系
--Video
-第九章:变量间的关联分析--9.4 习题
-10.1 简单线性回归模型概述
--Video
-10.2 模型系数估计
--Video
-10.3 评价系数估计的准确性
--Video
-10.4 评价模型的准确性
--Video
-10.5 R Lab: 用R构建简单线性模型
--Video
-第十章:简单线性回归--10.6 习题
-11.1 多元线性回归概述
--Video
-11.2 多元线性回归
--Video
-11.3 潜在问题及解决方案
--Video
-11.4 用R语言进行多元线性回归
--Video
-第十一章:多元回归--11.5 习题
-12.1 社会科学中的分类问题
--Video
-12.2 Logistic回归概述
--Video
-12.3 Logistic回归系数估计
--Video
-12.4 Logistic回归模型评价
--Video
-12.5 其他多元统计方法
--Video
-12.6 R语言实践
--Video
-12.7 结束语
--Video