9079477

当前课程知识点:基于R语言的社会统计分析 >  第八章:两组比较和多组比较 >  8.5 方差分析(选学) >  Video

返回《基于R语言的社会统计分析》慕课在线视频课程列表

Video在线视频

Video

下一节:第八章 两组比较与多组比较 - 课件

返回《基于R语言的社会统计分析》慕课在线视频列表

Video课程教案、知识点、字幕

下面我们来聊聊比较两组差异的其它的方法

前面我们比较比例的时候我们说

比较比例其实是希望大样本的

而且我们前面也没说

我们介绍了

比较均值的时候相依样本该如何处理但是我们没有说

在比较比例的时候如果恰巧是相依样本你应该如何处理

那实际情况呢比较复杂啊

比如说我们可能出现

比较相依样本的比例的问题

这个时候我们会用到一个检验叫做麦克尔尼马

麦克尼马尔检验 MCNEMAR TEST

另外呢还有一种情况就是

可能

比较比例的时候我的样本量真的很小

那在这种情况下呢你要用到FISHER 的一个

贡献叫做FISHER'S EXACT TEST

费歇尔精确检验这种方法

那这些个方法呢

我就不一一讲了因为时间的限制

而且确实在实际应用的中没有前面讲的那些方法那么广泛

有兴趣的同学呢可以自学

那下面还有我们刚才说在

比较两组均值的时候还有一种情况啊就是

总体既不是正态分布的

而且样本量又特别小

那这种情况我也很讨厌

于是乎又要考虑是不是可以使用

另外的一些稳健性更好的方法

那和前面类似我又可以考虑类似非参数的方法了

也就是在对两个小样本的均值

进行比较的时候我们可以考虑一种

非参数的方法名字超级长叫做WILCOXON-MANN-WHITEY TEXT

有兴趣的同学也可以自己去了解啊这是

非参数统计中的一种小小的方法啊

非参数统计呢和

之前我们讲了那么多的参数统计

使用了另外一种考虑问题的方法

也是很有意思它会大大用到

它会把数据排序然后

比较每一个观测值在数据中的位置

靠每个观测值在整个数据中秩

来得出科学结论啊

这种方法对总体的分布没有任何要求是

非常的灵活的方法

分类变量和数值型变量之间的关系呢

或者我们用我们传统的定义是

定距和定量变量之间

的关系是我们社会科学研究行为研究中

特别常见的研究问题

比如说

我会研究职业和收入之间的关系

我会研究

不同的户口特征比如说城市人口和农村人口在

生育的意愿上有没有什么区别

我还会研究国家是一个分类变量啊

我想知道国家在各个经济指标上的表现有没有不同

经济指标是数值型变量

那地区和品均寿命之间的关系这里面

地区是定类变量然后

平均寿命是数值变量最后比如说工资中的性别歧视问题

性别是分类变量

然后工资的多少是数值型变量很多很多的例子啊

当我的分类变量只有两类的时候我前面已经说了那么多啊

比较两组的比例两组的均值

不管是相依样本还是

还是独立样本的时候

如果说很多同学说了我的类别

并不一定只有两类对吧

不是只有两类的时候我们就需要考虑

更复杂的方法

这个时候我们就要用一种方法叫方差分析了

方差分析英文叫做Analysis of Variance

我们通常有同学之间把它简称ANOVA一说 ANOVA就是做方差分析

这种方法呢名字很容易产生混淆

一说方差分析有同学就说他是研究方差的

不要误会

和前面两组比较一样

我们两组比较的时候我们关注的是两组均值对吧

方差分析仍然也关注均值

只不过我分类的那个类别稍微

多了一点用简单的T检验已经

已经不够用了所以呢

方差分析是借助分析方差的手段

来对均值做出比较

这是方差分析要解决的问题啊

这里面呢我们

不过多的展开关于

方差分析的内容我们会介绍

一元方差分析的基本理论

那所谓一元呢就是我只有

一个定类变量或者说只有一个作为原因的定类变量

那因变量是数值变量的这种情况

下面我们来看一下检验统计量的构建

首先观测总数

n就等于每一组的

样本量加和i代表的是

某一组第一组第二组一直到第m组

然后第i类样本的组平均值

这个意思就是说

我们之前看这个表这个表有这么多列

第一个组平均值的意思就是每一列的平均值

我不管其他列

就是这一列里面这一组所有的观测值加和

再除以这一组的样本量

然后下面总平均值

总平均值是我不管有没有组别
然后下面总平均值

总平均值是我不管有没有组别

我看到的整个所有的

观测值加和再除以样本量

总的样本量

刚才那个例子30个人

所以就是30个观测值加和除以

n

然后下面总平方和

总平方和也不用想组别的事儿了

我就是看整个的

样本里面

这三十个人他们的标准差

或者是他们的方差分别是多少

就应该等于yij减去y(bar)的平方

它代表是全体观测值yij

对总平均值y(bar)的离差平方和

SST代表的是total sum ofsquares T代表的是total

然后下面组内平方和

组内平方和我关注的就是

每一组里面的差异

组内差异

然后就yij代表的是

每一组里面的某一个观测值减去这一组

它对应的均值

然后加平方

然后下面组间平方和

组间平方和呢

就等于yi(bar)

减去y(bar)

这个i代表的是第几组

我们回到这个表里面我们看

首先总平方和

我不管这些分组原则

我就是把中间这一坨所有的数

这放到一个池子里面

去看它们的离散程度

所以就是所有的观测值减去

总均值

他们的平方再加和

然后下面

组内平方和

组内平方和是我关注的是

比如说这一列我看到

它们y11和y(bar)的区别

y12和y1(bar)的区别

然后一直到y1n1和y1(bar)的区别

以此类推第二组

的组内平方和就等于y21减去y2(bar)

然后加上y2减去y2(bar)加上

一直到y2n2减去y2(bar)

它们的平方和

然后下面组间平方和

组间平方和实际上我关注的是y1(bar)

y2(bar)ym(bar)

和总均值y(bar)

之间到底相差了多少

所以就应该是y1(bar)减去y(bar)

的平方

加上这个y2(bar)减去

y(bar)的平方

再加上ym(bar)减去

y(bar)的平方

这是组间平方和

我们可以证明总平方和sst

就等于组内平方和加上

组间平方和

那下面我问大家了

如果我想证明

不同的职业类型他们的收入确实不同

你希望看到的是

哪一种平方和占据

dominate去占据

总平方和呢

实际上我希望看到

更多的不同来自于

组间对吧

就是组间越不同我越有更强有力的

证据证明不同的职业收入

不同的职业他们确实收入不同

所以下面我们建立的检验统计量F就等于

SSB除以SSE

SSE代表的是

组内啊SSBbetween代表的是

组间实际上我是希望SSB

比上SSE这个比例

越大越好

当然我们

构建检验统计量时候用到F检验还是要

复杂一点实际上SSB代表的是

组间平方和除以的是它对应的自由度

然后SSE除以的是n-m

它对应的自由度我们认为这个

检验统计量应该服从F分布

F分布是一个右偏分布啊就是跟之前我们学过的

正态分布也好T分布类似

只不过它是一个很右偏的就是它右尾非常长的一个分布

然后当F

你不太非得去

了解到F长成什么样啊你想想

我希望看到的只是不是F值越大越好

F值越大说明

组间的不同组间的差异越显著

所以当F大于某一个

分界值Fα的时候我就可以拒绝原假设

认为

组间确实存在差异了

注意啊当方差分析拒绝了原假设

接受某一个备择假设的时候它表明的是

有一个以上的类别其均值不等

但它并没有告诉我们是

哪一对或者是哪几对均值不等

然后

为此呢统计学家其实还提出

一系列的解决方案还想做进一步的检验啊比如说这些方案有LSD法

Bonferroni Tukey等等等等

有兴趣的同学也是

留给你们去自学

好数学上这么复杂的同学说我肯定是手算不了了那下面我们就需要用R语言

来给大家演示一下怎么样做一个特别基本的

方差分析

还是回到我们之前的这个课程的

演示文件然后我这里面的数据呢

存在了一个叫做occupation的

csv

csv文件我还是把它读进来啊

occupation

然后我现在想看看我这个occupation这个数据长成什么样

我直接点occupation它就给我显示

出来我这里面一共有三十个观测值 id代表的是

每一个人的编号啊然后income收入

occupation类型

123 1代表管理2代表专业3代表的是非专业啊

经常很多做职业研究的

文章就会

显示把职业很粗的分为这三类

然后下面我attached一下啊

然后注意其实刚才我已经attached了

那个叫做mobile手机的这个

文件现在呢他这里面说的它说的following object masked

也就是说我用occupation这个文件把

之前的那个手机的文件把它

覆盖了

然后下面attached occupation以后下面我要做一个

描述性的

分析大致上我想感觉一下收入和

这个职业有一个什么样的关系我想画一个箱线图

这里面这个箱线图

你会发现和前面箱线图不一样啊我当时箱线图用的是两个逗号

现在我这是income加一个

曲线然后occupation

也就是说我现在想

看的是income和occupation之间的

关系然后数据你要告诉它说我用的是occupation这个数据

然后你看到

这是123他们的收入的箱线图

你会看到很明显中位数

显然是管理类的大于专业类的
你会看到很明显中位数

显然是管理类的大于专业类的

大于非专业类的

而且你还可以看到

这个

这一部分

非专业类它是一个很明显

的左偏分布也就是说

有一些人他们的收入是非常少

然后下面做

方差分析之前我们说它有两个很重要的假设

一条是等方差性假设

一条是正态假设这里面我举一个例子

等方差性可以用一个bartlett test来检验一下

好我们前面说

进行方差分析时候有两条非常重要的检验一条是等方差性检验一条是

正态检验

那我们先看看等方差性检验可以用一条

一个叫做bartlett test的检验

来完成啊

如果说

你不太确定

bartlett是什么的话你可以直接

问号bartlett test

然后你可以看到这里面有一个特别简单的描述它说

performs bartlett's test of the null that the variances in each of the groups (samples) are the same

它直接就告诉你了原假设就是

方差相等

那我们可看到我们得出这个检验

我运行一下啊然后你会看到这个 bartlett's test of homogeneity of variances

它的

P值是0.153

也就是在原假设为真也就是在

各组方差相等的

前提下我们很有可能

会得到这样的样本

所以没有拒绝原假设说明

下面可以继续相对安全

的进行一个方差分析

那方差分析呢其实有不同的函数

我这里面用到的一个很简单的函数叫做aov

这个函数

然后呢用到的方式

用到的这个模型的搭建呢y就是income然后

x解释变量一般都会放在右边叫做occupation

那数据也是occupation这个数据

我跑一下

然后我得出了一个结论

然后我会发现什么p值什么都没有

我怎么知道怎么样
然后我会发现什么p值什么都没有

我怎么知道怎么样

得出什么样的结论

那下面呢

进行后面

包括回归分析的时候你都要注意

跑完这个函数不行一般你都会把

这个跑完函数的结果存在一个

进行一个赋值

比如说m1 model1=aov

然后我要对

model1这个

值进行一个总结要用summary这个函数

然后你看

赋值到m1以后再对m1进行一个总结

结果才能得出来这个

方差分析

是我真正想要看到的结果

然后你看到我的p值

等于1.51乘以10的

-8次方说明

是显著的显著什么意思呢

也就是说

拒绝了原假设

原假设是说这个每组

的均值相等所以我通过

一个方差分析的检验拒绝了

方差相等的

通过这样一个检验拒绝了均值相等的

原假设

而且是高度显著的

这就是咱们用R做一个特别简单的方差分析

当然方差分析其实有非常具体的内容

有很多细节

如果有同学真的特别需要做方差分析

或者一元的多元的也好

还是要去

学习更高阶的统计课

我们这个路人级的暂时

内容就到这里

基于R语言的社会统计分析课程列表:

第一章:绪论

-1.1 什么是统计学?

--视频1.1

-1.2 数据

--视频 1.2

-1.3 随机化原则

--视频 1.3

-1.4 数据收集方法

--视频 1.4

-第一章:绪论--1.5 习题

-Week 1

第二章:描述统计

-2.1 描述统计概述 - 社会学概念的量化问题

--Video

-2.2 变量的分类

--Video

-2.3 描述统计方法 I: 制表法 Tabular Method

--Video

-2.4 描述统计方法 II: 绘图法 Graphical Method

--Video

-2.5 描述统计方法 III: 数值法 Numerical Method

--Video

-第二章:描述统计--2.6 习题

-第二章 (第一部分)测量与变量

-第二章 (第二部分)描述统计 - 制表

-第二章 (第三部分)描述统计 - 绘图

-第二章 (第四部分)描述统计 - 数值

第三章:基于R语言的探索性数据分析

-3.1 探索性数据分析

--视频3.1

-3.2 EDA的制图原则

--Video

-3.3 R语言初体验

--R 语言初体验

-3.4 CRAN 和学习资源

--CRAN 和学习资源

-3.5 R 基础知识

--Video

-3.6 图形和数值

--Video

-第三章 基于R语言的探索性数据分析

第四章:概率分布

-4.1 概率的基本概念

--Video

-4.2 离散型与连续型变量的概率分布

--Video

-4.3 正态分布

--Video

-4.4 抽样分布

--Video

-第四章:概率分布--4.5 习题

-第四章 概率分布

第五章:统计推断 - 估计

-5.1 用抽样分布来代表抽样的变异性

--Video

-5.2 样本均值的抽样分布

--Video

-5.3 中心极限定理

--Video

-5.4 点估计和区间估计

--Video

-第五章:统计推断 - 估计--5.5 习题

-第五章 抽样分布

第六章:统计推断 - 区间估计

-6.1 区间估计

--Video

-6.2 总体比例的区间估计

--Video

-6.3 置信水平

--Video

-6.4 总体均值的区间估计

--Video

-第六章:统计推断 - 区间估计--6.5 习题

-州长选举支持率模拟抽样 R Code

-中心极限定理 R Code

-第六章 统计推断 - 区间估计

第七章: 统计推断 - 显著性检验

-7.1 绪论

--Video

-7.2 一个显著性检验的五个部分

--Video

-7.3 均值的显著性检验

--Video

-7.4 比例的显著性检验

--Video

-7.5 检验中错误的类型

--Video

-第七章: 统计推断 - 显著性检验--7.6 习题

-第七章 统计推断 - 显著性检验

第八章:两组比较和多组比较

-8.1 预备知识

--Video

-8.2 比较两组比例

--Video

-8.3 比较两个独立样本的均值

--Video

-8.4 比较两个相依样本的均值

--Video

-8.5 方差分析(选学)

--Video

-第八章:两组比较和多组比较--8.6 习题

-第八章 两组比较与多组比较 - 课件

-第八章 两组比较与多组比较 - 讲义

-第八章 R-syntax

-第八章 举例数据-mobile

-第八章 举例数据-occupation

第九章:变量间的关联分析

-9.1 变量间的关联分析

--Video

-9.2 列联分析

--Video

-9.3 定序变量间的关联关系

--Video

-第九章:变量间的关联分析--9.4 习题

-第九章 R Code

第十章:简单线性回归

-10.1 简单线性回归模型概述

--Video

-10.2 模型系数估计

--Video

-10.3 评价系数估计的准确性

--Video

-10.4 评价模型的准确性

--Video

-10.5 R Lab: 用R构建简单线性模型

--Video

-第十章:简单线性回归--10.6 习题

-第十章 简单线性回归模型 - 讲义

-第十章 R Code

第十一章:多元回归

-11.1 多元线性回归概述

--Video

-11.2 多元线性回归

--Video

-11.3 潜在问题及解决方案

--Video

-11.4 用R语言进行多元线性回归

--Video

-第十一章:多元回归--11.5 习题

-第十一章 R Code

-第十一章 多元线性回归模型-讲义

第十二章: Logistic回归和其他高级统计方法简介

-12.1 社会科学中的分类问题

--Video

-12.2 Logistic回归概述

--Video

-12.3 Logistic回归系数估计

--Video

-12.4 Logistic回归模型评价

--Video

-12.5 其他多元统计方法

--Video

-12.6 R语言实践

--Video

-12.7 结束语

--Video

-第十二章 R code

Video笔记与讨论

也许你还感兴趣的课程:

© 柠檬大学-慕课导航 课程版权归原始院校所有,
本网站仅通过互联网进行慕课课程索引,不提供在线课程学习和视频,请同学们点击报名到课程提供网站进行学习。