当前课程知识点:基于R语言的社会统计分析 > 第八章:两组比较和多组比较 > 8.5 方差分析(选学) > Video
下面我们来聊聊比较两组差异的其它的方法
前面我们比较比例的时候我们说
比较比例其实是希望大样本的
而且我们前面也没说
我们介绍了
比较均值的时候相依样本该如何处理但是我们没有说
在比较比例的时候如果恰巧是相依样本你应该如何处理
那实际情况呢比较复杂啊
比如说我们可能出现
比较相依样本的比例的问题
这个时候我们会用到一个检验叫做麦克尔尼马
麦克尼马尔检验 MCNEMAR TEST
另外呢还有一种情况就是
可能
比较比例的时候我的样本量真的很小
那在这种情况下呢你要用到FISHER 的一个
贡献叫做FISHER'S EXACT TEST
费歇尔精确检验这种方法
那这些个方法呢
我就不一一讲了因为时间的限制
而且确实在实际应用的中没有前面讲的那些方法那么广泛
有兴趣的同学呢可以自学
那下面还有我们刚才说在
比较两组均值的时候还有一种情况啊就是
总体既不是正态分布的
而且样本量又特别小
那这种情况我也很讨厌
于是乎又要考虑是不是可以使用
另外的一些稳健性更好的方法
那和前面类似我又可以考虑类似非参数的方法了
也就是在对两个小样本的均值
进行比较的时候我们可以考虑一种
非参数的方法名字超级长叫做WILCOXON-MANN-WHITEY TEXT
有兴趣的同学也可以自己去了解啊这是
非参数统计中的一种小小的方法啊
非参数统计呢和
之前我们讲了那么多的参数统计
使用了另外一种考虑问题的方法
也是很有意思它会大大用到
它会把数据排序然后
比较每一个观测值在数据中的位置
靠每个观测值在整个数据中秩
来得出科学结论啊
这种方法对总体的分布没有任何要求是
非常的灵活的方法
分类变量和数值型变量之间的关系呢
或者我们用我们传统的定义是
定距和定量变量之间
的关系是我们社会科学研究行为研究中
特别常见的研究问题
比如说
我会研究职业和收入之间的关系
我会研究
不同的户口特征比如说城市人口和农村人口在
生育的意愿上有没有什么区别
我还会研究国家是一个分类变量啊
我想知道国家在各个经济指标上的表现有没有不同
经济指标是数值型变量
那地区和品均寿命之间的关系这里面
地区是定类变量然后
平均寿命是数值变量最后比如说工资中的性别歧视问题
性别是分类变量
然后工资的多少是数值型变量很多很多的例子啊
那
当我的分类变量只有两类的时候我前面已经说了那么多啊
比较两组的比例两组的均值
不管是相依样本还是
还是独立样本的时候
那
如果说很多同学说了我的类别
并不一定只有两类对吧
不是只有两类的时候我们就需要考虑
更复杂的方法
这个时候我们就要用一种方法叫方差分析了
方差分析英文叫做Analysis of Variance
我们通常有同学之间把它简称ANOVA一说 ANOVA就是做方差分析
这种方法呢名字很容易产生混淆
一说方差分析有同学就说他是研究方差的
不要误会
和前面两组比较一样
我们两组比较的时候我们关注的是两组均值对吧
方差分析仍然也关注均值
只不过我分类的那个类别稍微
多了一点用简单的T检验已经
已经不够用了所以呢
方差分析是借助分析方差的手段
来对均值做出比较
这是方差分析要解决的问题啊
这里面呢我们
不过多的展开关于
方差分析的内容我们会介绍
一元方差分析的基本理论
那所谓一元呢就是我只有
一个定类变量或者说只有一个作为原因的定类变量
那因变量是数值变量的这种情况
下面我们来看一下检验统计量的构建
首先观测总数
n就等于每一组的
样本量加和i代表的是
某一组第一组第二组一直到第m组
然后第i类样本的组平均值
这个意思就是说
我们之前看这个表这个表有这么多列
第一个组平均值的意思就是每一列的平均值
我不管其他列
就是这一列里面这一组所有的观测值加和
再除以这一组的样本量
然后下面总平均值
总平均值是我不管有没有组别
然后下面总平均值
总平均值是我不管有没有组别
我看到的整个所有的
观测值加和再除以样本量
总的样本量
刚才那个例子30个人
所以就是30个观测值加和除以
n
然后下面总平方和
总平方和也不用想组别的事儿了
我就是看整个的
样本里面
这三十个人他们的标准差
或者是他们的方差分别是多少
就应该等于yij减去y(bar)的平方
它代表是全体观测值yij
对总平均值y(bar)的离差平方和
SST代表的是total sum ofsquares T代表的是total
然后下面组内平方和
组内平方和我关注的就是
每一组里面的差异
组内差异
然后就yij代表的是
每一组里面的某一个观测值减去这一组
它对应的均值
然后加平方
然后下面组间平方和
组间平方和呢
就等于yi(bar)
减去y(bar)
这个i代表的是第几组
我们回到这个表里面我们看
首先总平方和
我不管这些分组原则
我就是把中间这一坨所有的数
这放到一个池子里面
去看它们的离散程度
所以就是所有的观测值减去
总均值
他们的平方再加和
然后下面
组内平方和
组内平方和是我关注的是
比如说这一列我看到
它们y11和y(bar)的区别
y12和y1(bar)的区别
然后一直到y1n1和y1(bar)的区别
以此类推第二组
的组内平方和就等于y21减去y2(bar)
然后加上y2减去y2(bar)加上
一直到y2n2减去y2(bar)
它们的平方和
然后下面组间平方和
组间平方和实际上我关注的是y1(bar)
y2(bar)ym(bar)
和总均值y(bar)
之间到底相差了多少
所以就应该是y1(bar)减去y(bar)
的平方
加上这个y2(bar)减去
y(bar)的平方
再加上ym(bar)减去
y(bar)的平方
这是组间平方和
那
我们可以证明总平方和sst
就等于组内平方和加上
组间平方和
那下面我问大家了
如果我想证明
不同的职业类型他们的收入确实不同
你希望看到的是
哪一种平方和占据
dominate去占据
总平方和呢
实际上我希望看到
更多的不同来自于
组间对吧
就是组间越不同我越有更强有力的
证据证明不同的职业收入
不同的职业他们确实收入不同
所以下面我们建立的检验统计量F就等于
SSB除以SSE
SSE代表的是
组内啊SSBbetween代表的是
组间实际上我是希望SSB
比上SSE这个比例
越大越好
当然我们
构建检验统计量时候用到F检验还是要
复杂一点实际上SSB代表的是
组间平方和除以的是它对应的自由度
然后SSE除以的是n-m
它对应的自由度我们认为这个
检验统计量应该服从F分布
F分布是一个右偏分布啊就是跟之前我们学过的
正态分布也好T分布类似
只不过它是一个很右偏的就是它右尾非常长的一个分布
然后当F
你不太非得去
了解到F长成什么样啊你想想
我希望看到的只是不是F值越大越好
F值越大说明
组间的不同组间的差异越显著
所以当F大于某一个
分界值Fα的时候我就可以拒绝原假设
认为
组间确实存在差异了
那
注意啊当方差分析拒绝了原假设
接受某一个备择假设的时候它表明的是
有一个以上的类别其均值不等
但它并没有告诉我们是
哪一对或者是哪几对均值不等
然后
为此呢统计学家其实还提出
一系列的解决方案还想做进一步的检验啊比如说这些方案有LSD法
Bonferroni Tukey等等等等
有兴趣的同学也是
留给你们去自学
好数学上这么复杂的同学说我肯定是手算不了了那下面我们就需要用R语言
来给大家演示一下怎么样做一个特别基本的
方差分析
还是回到我们之前的这个课程的
演示文件然后我这里面的数据呢
存在了一个叫做occupation的
csv
csv文件我还是把它读进来啊
occupation
然后我现在想看看我这个occupation这个数据长成什么样
我直接点occupation它就给我显示
出来我这里面一共有三十个观测值 id代表的是
每一个人的编号啊然后income收入
occupation类型
123 1代表管理2代表专业3代表的是非专业啊
经常很多做职业研究的
文章就会
显示把职业很粗的分为这三类
然后下面我attached一下啊
然后注意其实刚才我已经attached了
那个叫做mobile手机的这个
文件现在呢他这里面说的它说的following object masked
也就是说我用occupation这个文件把
之前的那个手机的文件把它
覆盖了
然后下面attached occupation以后下面我要做一个
描述性的
分析大致上我想感觉一下收入和
这个职业有一个什么样的关系我想画一个箱线图
这里面这个箱线图
你会发现和前面箱线图不一样啊我当时箱线图用的是两个逗号
现在我这是income加一个
曲线然后occupation
也就是说我现在想
看的是income和occupation之间的
关系然后数据你要告诉它说我用的是occupation这个数据
然后你看到
这是123他们的收入的箱线图
你会看到很明显中位数
显然是管理类的大于专业类的
你会看到很明显中位数
显然是管理类的大于专业类的
大于非专业类的
而且你还可以看到
这个
这一部分
非专业类它是一个很明显
的左偏分布也就是说
有一些人他们的收入是非常少
然后下面做
方差分析之前我们说它有两个很重要的假设
一条是等方差性假设
一条是正态假设这里面我举一个例子
等方差性可以用一个bartlett test来检验一下
好我们前面说
进行方差分析时候有两条非常重要的检验一条是等方差性检验一条是
正态检验
那我们先看看等方差性检验可以用一条
一个叫做bartlett test的检验
来完成啊
如果说
你不太确定
bartlett是什么的话你可以直接
问号bartlett test
然后你可以看到这里面有一个特别简单的描述它说
performs bartlett's test of the null that the variances in each of the groups (samples) are the same
它直接就告诉你了原假设就是
方差相等
那我们可看到我们得出这个检验
我运行一下啊然后你会看到这个 bartlett's test of homogeneity of variances
它的
P值是0.153
也就是在原假设为真也就是在
各组方差相等的
前提下我们很有可能
会得到这样的样本
所以没有拒绝原假设说明
下面可以继续相对安全
的进行一个方差分析
那方差分析呢其实有不同的函数
我这里面用到的一个很简单的函数叫做aov
这个函数
然后呢用到的方式
用到的这个模型的搭建呢y就是income然后
x解释变量一般都会放在右边叫做occupation
那数据也是occupation这个数据
我跑一下
然后我得出了一个结论
然后我会发现什么p值什么都没有
我怎么知道怎么样
然后我会发现什么p值什么都没有
我怎么知道怎么样
得出什么样的结论
那下面呢
进行后面
包括回归分析的时候你都要注意
光
跑完这个函数不行一般你都会把
这个跑完函数的结果存在一个
进行一个赋值
比如说m1 model1=aov
然后我要对
model1这个
值进行一个总结要用summary这个函数
然后你看
赋值到m1以后再对m1进行一个总结
结果才能得出来这个
方差分析
是我真正想要看到的结果
然后你看到我的p值
等于1.51乘以10的
-8次方说明
是显著的显著什么意思呢
也就是说
拒绝了原假设
原假设是说这个每组
的均值相等所以我通过
一个方差分析的检验拒绝了
方差相等的
通过这样一个检验拒绝了均值相等的
原假设
而且是高度显著的
这就是咱们用R做一个特别简单的方差分析
当然方差分析其实有非常具体的内容
有很多细节
如果有同学真的特别需要做方差分析
或者一元的多元的也好
还是要去
学习更高阶的统计课
我们这个路人级的暂时
就
内容就到这里
-1.1 什么是统计学?
--视频1.1
-1.2 数据
--视频 1.2
-1.3 随机化原则
--视频 1.3
-1.4 数据收集方法
--视频 1.4
-第一章:绪论--1.5 习题
-2.1 描述统计概述 - 社会学概念的量化问题
--Video
-2.2 变量的分类
--Video
-2.3 描述统计方法 I: 制表法 Tabular Method
--Video
-2.4 描述统计方法 II: 绘图法 Graphical Method
--Video
-2.5 描述统计方法 III: 数值法 Numerical Method
--Video
-第二章:描述统计--2.6 习题
-3.1 探索性数据分析
--视频3.1
-3.2 EDA的制图原则
--Video
-3.3 R语言初体验
--R 语言初体验
-3.4 CRAN 和学习资源
-3.5 R 基础知识
--Video
-3.6 图形和数值
--Video
-4.1 概率的基本概念
--Video
-4.2 离散型与连续型变量的概率分布
--Video
-4.3 正态分布
--Video
-4.4 抽样分布
--Video
-第四章:概率分布--4.5 习题
-5.1 用抽样分布来代表抽样的变异性
--Video
-5.2 样本均值的抽样分布
--Video
-5.3 中心极限定理
--Video
-5.4 点估计和区间估计
--Video
-第五章:统计推断 - 估计--5.5 习题
-6.1 区间估计
--Video
-6.2 总体比例的区间估计
--Video
-6.3 置信水平
--Video
-6.4 总体均值的区间估计
--Video
-第六章:统计推断 - 区间估计--6.5 习题
-7.1 绪论
--Video
-7.2 一个显著性检验的五个部分
--Video
-7.3 均值的显著性检验
--Video
-7.4 比例的显著性检验
--Video
-7.5 检验中错误的类型
--Video
-第七章: 统计推断 - 显著性检验--7.6 习题
-8.1 预备知识
--Video
-8.2 比较两组比例
--Video
-8.3 比较两个独立样本的均值
--Video
-8.4 比较两个相依样本的均值
--Video
-8.5 方差分析(选学)
--Video
-第八章:两组比较和多组比较--8.6 习题
-9.1 变量间的关联分析
--Video
-9.2 列联分析
--Video
-9.3 定序变量间的关联关系
--Video
-第九章:变量间的关联分析--9.4 习题
-10.1 简单线性回归模型概述
--Video
-10.2 模型系数估计
--Video
-10.3 评价系数估计的准确性
--Video
-10.4 评价模型的准确性
--Video
-10.5 R Lab: 用R构建简单线性模型
--Video
-第十章:简单线性回归--10.6 习题
-11.1 多元线性回归概述
--Video
-11.2 多元线性回归
--Video
-11.3 潜在问题及解决方案
--Video
-11.4 用R语言进行多元线性回归
--Video
-第十一章:多元回归--11.5 习题
-12.1 社会科学中的分类问题
--Video
-12.2 Logistic回归概述
--Video
-12.3 Logistic回归系数估计
--Video
-12.4 Logistic回归模型评价
--Video
-12.5 其他多元统计方法
--Video
-12.6 R语言实践
--Video
-12.7 结束语
--Video